通常,文章或网页的发布时间都会直接显示在页面上。但有时,某些网页会试图伪装成永不过时的内容,这在您需要了解其相关性时会造成问题。别担心,有一些方法可以揭开这层神秘面纱。
需要明确的是,无法保证能找到确切的日期——您可能只能估算信息的年龄。通常,这已经足够了。
网页地址严格来说就在您眼前,但却很容易被忽略。首先检查一下。不幸的是,这些地址并不总是前后一致或精确。一些Popular Science的旧文章的URL包含了它们的出版年份和月份(但没有日期)。我们较新的文章则没有。
XML网站地图只是给定网站的URL列表,其中包含有关每个URL的基本信息。它的作用是指导搜索引擎爬虫在其永无止境的收集数据任务中。要查看它,请前往地址栏并在页面URL末尾添加/sitemap.xml。
如果您幸运的话,它会组织得井井有条,就像白宫网站上的那个一样。对于更新更频繁的网站(例如Lifehacker),您可能会得到一个包含大量上次修改日期的列表。最坏的情况是,它根本不起作用,您会得到一个404错误,就像PopSci一样。
互联网档案的Wayback Machine是一个快照存储库,编目了网络上数十亿个页面。只需将您要调查的URL粘贴到网站的搜索栏中,然后按Enter键。这将返回一个时间线,显示该工具何时捕获了相关页面的图像。点击您想要的年份,然后点击突出显示的日历日期之一,即可查看它当时的样子。
对于这篇关于如何使用手机打印和扫描物品的PopSci文章,Wayback Machine上的最早日期是2017年3月14日——文章发布的那一天。虽然这是准确的,但这并不总是如此。您正在查看的页面可能在发布后一段时间才被记录,或者根本没有被记录。
有时,Google搜索结果会显示日期。如果没有,您可以强制搜索引擎执行此操作。复制您想知道的页面的地址,前往搜索栏,然后键入inurl:。然后在冒号后粘贴URL(无空格)。这将告诉Google只显示来自该确切网站的结果。
接下来,转到地址栏(不是搜索栏),并在其中的URL末尾添加&as_qdr=y25。此命令告诉Google显示过去25年的结果。“as”代表“高级搜索”,“qdr”是“查询日期范围”的缩写,“y25”表示“过去25年”。您可以更改最后一位以使用“d”表示天,“w”表示周或“m”表示月,后跟您想要的任何数字。
当您在此修改后的URL上按Enter键时,Google将显示带有搜索结果的日期。但是,与此处列出的其他选项一样,无法保证其准确性。它可能是发布时间、上次修改日期或Google对其进行索引的日期。例如,PopSci关于最佳披萨加热方法的文章显示的是2020年2月7日。那是我们第一次发布它的日期,但它在2021年2月5日进行了更新。
另一种更费时的方法来确定页面的第一次Google出现时间是使用inurl:命令,在搜索栏下找到工具,然后点击任何时间下拉菜单。选择自定义范围…并输入一些日期。通过逐年搜索并不断缩小日期范围,您应该能够找到页面首次上线的时间,但这并不是一个高效的过程。
右键单击任何网页,您应该会看到一个查看源代码的选项。在Google Chrome浏览器中,它显示为查看页面源代码。选择它,您将看到幕后的景象。在所有这些信息中,您可能能够找到页面的创建或修改时间。在Windows上使用Ctrl F或在macOS上使用Cmd F打开搜索功能,并尽力找到它。尝试查找诸如“date”、“published”、“publishdate”、“modified”、“datemodified”或类似的关键词。
PopSci清楚地说明了其文章的发布时间和更新时间,但您可以通过搜索“last_updated_date”在源代码中找到该日期。但是,请注意:页面上其他项目(如照片)可能也包含日期。这些日期可能与其他内容的年龄不同。
这种策略之所以成为我们列表中最难的一种,是因为它存在着极大的不一致性和潜在的复杂性。如果它能很好地工作,您可以快速找到答案。如果不行,那么您将不得不筛选大量的代码。
以上是5个侦察技能,可以揭示任何网页的年龄的详细内容。更多信息请关注PHP中文网其他相关文章!