

即使是最好的计算机程序员,从数字图像中提取数字和字母仍然是一项艰巨的任务。但是,从已经存储在网上的图片中提取商家名称、涂鸦或地址将非常有用。为了提高其街景服务的准确性,谷歌希望从其街景照片缓存中提取您的门牌号码。
无论您对街景(以及直升机视角和亚马逊视角等等)有什么看法——除了新奇感之外,这些图像中充满了潜在的有用数据。使用房屋或企业侧面的街道号码可以提高导航程序的准确性,并可以通过在互联网或移动设备上提供预览来帮助驾车者或行人找到正确的门。但是,虽然手写识别算法已经相当先进,但软件系统在从图像中提取信息的能力方面仍然有限。模糊、光照和其他失真等因素都可能是一个问题。
为了改进这一点,谷歌和斯坦福大学的研究人员为从街景数据库捕获的一组街道号码设计了一种新的特征学习算法。他们使用了来自不同国家的 60 万张图像,并使用基本的视觉算法提取了门牌号码。然后,团队使用亚马逊的 Mechanical Turk 系统来验证数字的排列。结果是两组图像:一组是门牌号码原始图像,另一组是所有门牌号码都调整到相同分辨率的图像。
起初,传统的、手工设计的视觉学习算法在提取数字方面效果不佳。接下来,谷歌-斯坦福团队尝试了特征学习算法,这些算法使用各种参数集来学习识别模式。新的特征学习方法比常规的视觉学习方法效果好得多:其中一种算法(基于 K-means 的特征学习系统)达到了 90% 的准确率,而人类的准确率为 98%。
研究人员表示,该系统仍需改进,但它可以用于从数十亿张图像中提取数字数据。最终,这可以大大提高街景的准确性。没有基于门牌号码的视图,街景中的地址就是一个默认的全景图,这可能不是您想要的地址。例如,键入“洛克菲勒广场 30 号”,您首先看到的是 30 洛克观察台旁边的一家巧克力店。您必须单击并拖动才能看到 NBC 大楼。
论文作者解释说:“有了基于门牌号码的视角,用户将立即被引导到所需地址,而无需进一步的交互。”
[I Programmer 经由 Slashdot]