[ad_1]
谷歌有 建议 robots.txt文件中包含的规则的官方互联网标准。
机器人排除协议(REP)中概述的这些规则在过去25年中一直是非官方的标准。
虽然REP已经被搜索引擎采用,但它仍然不是官方的,这意味着它可供开发人员解读。此外,它从未更新以涵盖今天的用例。
已经25年了,机器人排除协议从未成为官方标准。虽然它被所有主要搜索引擎采用,但它并没有涵盖所有内容:500 HTTP状态代码是否意味着爬虫可以抓取任何内容或什么都没有? ? pic.twitter.com/imqoVQW92V
– Google网站管理员(@googlewmc) 2019年7月1日
正如谷歌所说,这给网站所有者带来了挑战,因为模糊编写的事实上的标准使得很难正确地编写规则。
为了消除这一挑战,Google记录了如何在现代网络上使用REP并将其提交给互联网工程任务组(IETF)进行审核。
Google解释了草案中包含的内容:
“拟议的REP草案反映了20多年来依赖于robots.txt规则的实际经验,这些规则由Googlebot和其他主要爬虫以及大约5亿依赖REP的网站使用。这些细粒度的控件使发布商有权决定他们希望在他们的网站上抓取什么,并可能向感兴趣的用户展示。“
该草案并未改变1994年制定的任何规则,它刚刚针对现代网络进行了更新。
一些更新的规则包括:
- 任何基于URI的传输协议都可以使用robots.txt。它不再局限于HTTP。也可用于FTP或CoAP。
- 开发人员必须至少解析robots.txt的前500 kibibytes。
- 新的最大缓存时间为24小时或缓存指令值(如果可用),这使网站所有者可以随时灵活地更新robots.txt。
- 当robots.txt文件因服务器故障而无法访问时,不会在相当长的时间内抓取已知的不允许页面。
谷歌对提议的草案的反馈完全开放,并表示它致力于做到正确。