随着我们向互联网上传越来越多的视频——仅 YouTube 每秒就会新增一小时的视频——专家们正在找到新的方法来挖掘这些视频。例如,由诺基亚研究中心的 Igor Curcio 领导的一个团队开发了一种算法,可以将音乐会观众的手机录像拼接成一个单一的、同步的多角度电影。这个概念相对简单:音频轨道充当同步录像的指南,软件会选择最佳镜头。Curcio 目前还没有真正的商业模式——大多数音乐会禁止摄影——但能够让人们识别和连贯地连接多个视频中的共同元素,仍然是迈向重要事物的一步。
例如,巡逻美墨边境的无人机和城市中的安全摄像头已经记录了比人类观察者可能审查的更多的录像。如果一个机构能够依靠计算机自行跟踪个人、团体和事件,特工们就能更有效地利用情报。
这项新能力将推动对更多原始数据的需求。美国国家情报总监办公室监管的美国情报先进研究项目活动 (IARPA) 机构已启动两个项目,可能有助于分析人员利用来自 YouTube、Vimeo 和其他来源的民用视频。Finder 项目的调查人员正在研究仅凭图像本身来定位视频拍摄地点和时间的方法。这已经够难了。但 IARPA 的 Aladdin 项目的研究人员正在致力于一项更具挑战性的任务:如何搜索“特定感兴趣的事件”。如果他们成功了,分析人员可以输入一个名字、一个简单的文本描述或几个样本视频来搜索他们想要的内容——例如,“五个背着背包的人站在一辆皮卡车旁边”——并获得任何匹配查询的剪辑。
除了类别之外,更大的挑战在于寻找的不仅仅是事件或一组物体,而是一个单一的物体:一个失踪的孩子,一个放错地方的钱包,人群中的一名自杀式炸弹袭击者。SRI International 的视觉与学习系统技术总监 Harpreet Sawhney 表示:“对于某些类别的物体,比如人脸、人——在一定程度上还有车辆——其能力已经很成熟。但要在任意视频中、从无数个角度拍摄的画面中找到它们,这仍然是一个难题。” SRI International 为美国各政府机构进行研究。
IARPA 的系统可能是第一个能够发现潜在炸弹客在婚礼祝酒、生日晚宴或露天烧烤的背景中移动的步骤。但是,当政府将我们发布的在线视频用作情报资源时,它可能会最终摧毁在这个本已过度互联的世界中所剩无几的隐私。这是我们所有人面临的选择。通过将录像保密,我们将它的意义限制在我们自己的眼睛所能看到的东西。但如果将其公开,就会有人发现我们没有意识到自己在拍摄的东西。