[ad_1]
谷歌有 建議 robots.txt文件中包含的規則的官方互聯網標準。
機器人排除協議(REP)中概述的這些規則在過去25年中一直是非官方的標準。
雖然REP已經被搜索引擎採用,但它仍然不是官方的,這意味著它可供開發人員解讀。此外,它從未更新以涵蓋今天的用例。
已經25年了,機器人排除協議從未成為官方標準。雖然它被所有主要搜索引擎採用,但它並沒有涵蓋所有內容:500 HTTP狀態代碼是否意味著爬蟲可以抓取任何內容或什麼都沒有? ? pic.twitter.com/imqoVQW92V
– Google網站管理員(@googlewmc) 2019年7月1日
正如谷歌所說,這給網站所有者帶來了挑戰,因為模糊編寫的事實上的標準使得很難正確地編寫規則。
為了消除這一挑戰,Google記錄了如何在現代網路上使用REP並將其提交給互聯網工程任務組(IETF)進行審核。
Google解釋了草案中包含的內容:
「擬議的REP草案反映了20多年來依賴於robots.txt規則的實際經驗,這些規則由Googlebot和其他主要爬蟲以及大約5億依賴REP的網站使用。這些細粒度的控制項使發布商有權決定他們希望在他們的網站上抓取什麼,並可能向感興趣的用戶展示。「
該草案並未改變1994年制定的任何規則,它剛剛針對現代網路進行了更新。
一些更新的規則包括:
- 任何基於URI的傳輸協議都可以使用robots.txt。它不再局限於HTTP。也可用於FTP或CoAP。
- 開發人員必須至少解析robots.txt的前500 kibibytes。
- 新的最大緩存時間為24小時或緩存指令值(如果可用),這使網站所有者可以隨時靈活地更新robots.txt。
- 當robots.txt文件因伺服器故障而無法訪問時,不會在相當長的時間內抓取已知的不允許頁面。
谷歌對提議的草案的反饋完全開放,並表示它致力於做到正確。