揭秘暗网

为了持续地索引世界,谷歌为扫描文档增加了搜索功能

我们可能会通过此页面上的产品获得收入,并参与联盟营销计划。了解更多›

当政府机构、医疗办公室或其他机构扫描文档并将其上传到网站时,这些图像是不可搜索的——它们包含的是文本的图片,而不是文本本身。这就是所谓的“暗网”——它不祥的名字只是指搜索的难度。

十月下旬,谷歌开始着手解决这个问题。利用光学字符识别技术,搜索引擎现在会将图像转换为文本并包含搜索结果。这个过程并不简单:是应该将“O”识别为字母还是数字?文本是英语还是其他语言?但搜索引擎会定期爬行网络,解密庞大的信息库。

四月份,谷歌开始在搜索结果中包含 HTML 表单文本,并且也一直包含 PDF 文本。这是一个持续的努力,以确保互联网上的所有数据都可以被搜索,而不仅仅是最常见的文本。

 

更多优惠、评测和购买指南

 
© .