通常,文章或网页的发布日期会显示在屏幕上。但有时一个网页会试图伪装成永不过时的奇迹,当你需要知道它是否仍然相关时,这就成了一个问题。别担心:有办法揭开这层神秘的面纱。
需要说明的是,找出确切日期并不保证成功——你可能只能估算出信息的时效性。但通常,这就足够了。
最简单的方法:查看 URL
网页的地址技术上就在“屏幕上”,但很容易被忽略。首先检查那里。不幸的是,这些信息并不总是统一或精确的。一些《Popular Science》的旧文章的 URL 包含发布年份和月份(但不包含日期)。我们较新的文章则没有。
简单的方法:检查 XML 网站地图
XML 网站地图本质上是一个给定网站的 URL 列表,其中包含每个 URL 的基本信息。它用于指导搜索引擎爬虫永无止境地收集数据。要查看它,请转到地址栏,并在页面 URL 的末尾添加 /sitemap.xml。
如果幸运的话,它会组织得很好,就像白宫网站的那个一样。对于更新更频繁的网站,例如《Lifehacker》,你可能会看到一个包含最后修改日期的巨大列表。最坏的情况是,它根本不起作用,你会收到 404 错误,就像《PopSci》那样。
中等难度:使用互联网档案馆的 Wayback Machine
互联网档案馆的Wayback Machine 是一个快照存储库,记录了网上数十亿页面的信息。只需将你要调查的 URL 粘贴到该网站的搜索栏中,然后按回车键。这将显示一个时间轴,展示该工具何时捕获了目标网页的图像。点击你想要的年份,然后点击一个高亮显示的日历日期,就可以看到它在那时的样子。
对于这篇关于如何使用手机打印和扫描物品的《PopSci》文章,Wayback Machine 上最早的日期是 2017 年 3 月 14 日——文章上线的那一天。虽然这个日期是准确的,但情况并非总是如此。你正在查看的页面可能在发布一段时间后才被记录,或者根本没有被记录。
较难的方法:利用 Google 的高级搜索功能
有时 Google 搜索结果会附带日期。如果没有,你可以强迫搜索引擎提供。复制你想要了解的页面的地址,转到搜索栏,然后输入inurl:。然后将 URL 粘贴在冒号后面(不带空格)。这将告诉 Google 只显示来自该确切网站的结果。
接下来,转到地址栏(不是搜索栏),并在其中的 URL 末尾添加&as_qdr=y25。这个命令告诉 Google 显示过去 25 年的结果。“as”代表“高级搜索”,“qdr”是“查询日期范围”的缩写,“y25”表示“过去 25 年”。你可以修改后一部分,使用“d”代表天,“w”代表周,“m”代表月,后面跟着你想要的任何数字。
当你在修改后的 URL 上按回车键时,Google 会在你的搜索结果中显示一个日期。但与这里列出的其他选项一样,无法保证其准确性。它可能是发布日期、最后修改日期,或者 Google 索引它的日期。例如,《PopSci》关于如何最好地加热披萨的文章显示日期为 2020 年 2 月 7 日。这是我们首次发布该文章的日期,但它在 2021 年 2 月 5 日进行了更新。
另一种更耗时的方法来确定网页首次出现在 Google 上的时间是使用inurl:命令,在搜索栏下方找到工具,然后点击任意时间下拉菜单。选择自定义范围… 并输入一些日期。通过逐年搜索并不断缩小日期范围,你应该能够找到网页首次上线的时间,但这并不是一个高效的过程。
最难的方法:深入查看源代码
右键单击任何网页,你应该会看到一个查看源代码的选项。在 Google Chrome 中,它显示为查看网页源代码。选择它,你就能看到幕后的情况。在所有这些信息中,你可能会找到页面创建或修改的时间。在 Windows 上使用 Ctrl+F 或在 macOS 上使用 Cmd+F 打开搜索功能,尽力查找。尝试查找诸如“date”、“published”、“publishdate”、“modified”、“datemodified”等关键词,或者类似的词。
《PopSci》清楚地标明了文章的发布和更新时间,但你可以在源代码中搜索“last_updated_date”来找到该日期。不过要小心:页面上可能还有其他项目的日期,例如照片。这些项目的年代可能与其余内容不同。
这种方法之所以成为我们列表中最难的方法,是因为它存在极大的不确定性和潜在的复杂性。如果它有效,你可以很快找到答案。如果无效,那么你将需要筛选大量代码。