UCLA研究人员提出PhyCV:一种受物理启发的计算机视觉Python库

UCLA研究人员提出PhyCV:一种计算机视觉Python库

人工智能在计算机视觉领域取得了显著的进展。其中一个关键发展领域是深度学习,通过在大规模图像数据集上训练神经网络来识别和分类对象、场景和事件。这导致了图像识别和物体检测的显著改进。将计算机视觉与其他技术集成在一起,为人工智能开辟了各种新的潜力和范围。

在最新的创新中,加州大学洛杉矶分校的Jalali-Lab开发了一个名为PhyCV的新的Python库,这是第一个基于物理学的计算机视觉Python库。这个独特的库使用基于物理学定律和方程的算法来分析图像数据。这些算法模拟了光线如何穿过多种物理材料,并基于数学方程而不是一系列手工制作的规则。PhyCV中的算法是基于一种称为光子时间拉伸的快速数据采集方法的原理构建的。

PhyCV中包含的三个算法是:相位拉伸变换(PST)算法、相位拉伸自适应梯度场提取(PAGE)算法和通过虚拟衍射和相干检测进行视觉增强(VEViD)算法。

相位拉伸变换(PST)算法

PhyCV库中的PST算法用于识别图像中的边缘和纹理。该算法模拟了光线如何穿过具有特定衍射特性的设备,并以协同的方式检测后续图像。该算法在对视觉受损的图像进行增强以及其他应用中表现出色,例如提高MRI扫描的分辨率、识别视网膜图像中的血管等。

相位拉伸自适应梯度场提取(PAGE)算法

PAGE算法利用物理学的原理在图像中识别边缘和方向。基本上,PAGE模拟了光线通过具有特定衍射结构的设备的过程,导致图像被转换为一个复杂函数。关于边缘的信息存储在结果的实部和虚部中。研究人员提到,PAGE可以作为不同机器学习问题的预处理方法。

通过虚拟衍射和相干检测进行视觉增强(VEViD)算法

VEViD算法通过将低光和彩色图像视为空间可变的光场,并利用衍射和相干检测等物理过程对其进行改进。它可以在最小的延迟下增加计算机视觉模型在低光环境中的准确性。VEViD的一个特定近似版本,称为VEViD-lite,可以以每秒200帧的速度增强4K视频。研究团队将VEViD算法与流行的神经网络模型进行了比较,显示VEViD在图像质量方面表现出色,而处理速度仅比神经网络模型高出一到两个数量级。

PhyCV可在GitHub上获得,并可以通过pip轻松安装。PhyCV中的算法甚至可以应用于实际物理设备,以实现更高效的计算。PhyCV无疑在计算机视觉领域是一个有趣的重要发展。因此,人工智能和计算机视觉的进步无疑推动了各种先进应用的发展。