

本文最初刊登于Popular Photography。
每位摄影师都深知一个事实:在相机和器材方面,东西会变得很大——而且很快。尤其是在镜头方面。尽管无反相机最初被宣传为比笨重的数码单反相机更小、更轻的选择(在某些方面,它们仍然兑现了这一承诺),但我们很难忽视这些曾经充满希望的轻便系统很快就会堆满玻璃的事实。虽然镜头自始至终都是摄影过程的一部分,但东京理工大学的一群科学家开创性的研究可能会带来新的无镜头成像系统,并最终实现无镜头摄影的未来。
无镜头相机的挑战
无镜头相机的概念并非全新。然而,直到现在,这项技术仍未能产生可用结果,并且渲染图像所需的计算时间对于实际应用来说过于缓慢。
当前的技术需要解决一个凸优化问题,而迭代计算(意味着可以返回多个结果)使其成为一个漫长的过程。但是东京理工大学的提议有可能对这一过程进行巨大改进。
“深度学习可以帮助我们规避基于模型的解码的局限性,因为它可以学习模型并通过非迭代的直接过程来解码图像,”该团队在Phys.org上解释道。“现有的用于无镜头成像的深度学习方法,即使用卷积神经网络(CNN),无法生成高质量的图像。它们效率低下,因为 CNN 是基于相邻“局部”像素之间的关系来处理图像的,而无镜头光学通过一种称为“多路复用”的特性,将场景中的局部信息转换为图像传感器所有像素上的重叠“全局”信息。”

东京理工大学研究人员提出新技术
东京理工大学的团队提出了一种使用数学算法的新图像重建方法。硬件由一个掩膜和一个图像传感器组成,掩膜对入射光(照射到拍摄对象上的光)进行编码,然后将光照射到传感器上形成图案。
肉眼无法从这些图案中分辨出任何可用信息——一切都被渲染成无法理解的斑点,就像把意大利面条扔到墙上留下的痕迹,或者像杰克逊·波洛克在画布上作画一样。然而,光学算法能够解码信息,产生相当准确的结果。
东京理工大学的 Masahiro Yamaguchi 教授说:“没有了镜头的限制,无镜头相机可以做到超小型化,这将带来我们难以想象的新应用。”

工作原理
该团队开创了一项他们称之为 Vision Transformer (ViT) 的技术,该技术可以以他们所描述的“分层”方式学习图像特征,从而避免了传统的 CNN 处理。这意味着可以直接重建,无需迭代计算,并且可以减少近似误差。
CNN 依赖于局部像素信息,而 ViT 可以使用图像中的全局特征。根据实验,该过程是可行的,并且所提出的相机能够以足以实现实时捕捉的处理时间生成高质量图像。
该研究的首席作者、东京理工大学的 Xiuxi Pan 先生表示:“无镜头相机的最终目标是做到微型而强大。我们很高兴能在这一新的方向上引领下一代成像和传感解决方案。”