關於X-Robots-Tag需要知道的一切

[ad_1]
關於X-Robots-Tag需要知道的一切

有幾種類型的指令告訴搜索引擎機器人將允許哪些頁面和其他內容搜索引擎機器人 抓取和索引。最常見的是robots.txt文件和元機器人標籤。

的robots.txt 文件告訴搜索引擎抓取您網站的特定部分,無論是網頁,子文件夾等。

這最終有助於通過告知您不希望優先編製索引的Google網站中較不重要的部分來產生更優化的抓取。

但請記住,搜索引擎機器人不需要尊重此文件。

另一個常用的指令是元機器人標籤。這允許在頁面級別進行索引控制。

元機器人標記可包含以下值:

  • 索引:允許搜索引擎將頁面添加到其索引中。
  • Noindex:禁止搜索引擎在其索引中添加頁面,並禁止它出現在該特定搜索引擎的搜索結果中。
  • 關註:指示搜索引擎關注頁面上的鏈接,以便抓取可以找到其他頁面
  • Nofollow:指示搜索引擎不關注頁面上的鏈接。
  • 無:這是noindex的快捷方式,nofollow。
  • 全部:這是索引的快捷方式,請按照。
  • Noimageindex:禁止搜索引擎對頁面上的圖像編製索引(但是,如果要從另一個站點鏈接到圖像,仍然可以使用元機器人標記對圖像進行索引)。
  • Noarchive:告訴搜索引擎不顯示頁面的緩存版本。
  • Nocache:這與noarchive標籤相同,但特定於Bingbot / MSNbot。
  • Nosnippet:指示搜索引擎不顯示文本或視頻片段。
  • Notranslate:指示搜索引擎不在SERP中顯示頁面的翻譯。
  • Unavailable_after:告訴搜索引擎特定的日期和時間,他們不應在索引中顯示結果。
  • Noyaca:指示Yandex爬蟲機器人不在結果中使用頁面描述。

但是,還有另一個標籤允許發出noindex,nofollow指令。

X-Robots-Tag與robots.txt文件和元機器人標籤不同,因為X-Robots-Tag是HTTP標頭的一部分,除了特定元素外,還控制整個頁面的索引。在頁面上。

根據 谷歌

「任何可以在機器人元標籤中使用的指令也可以指定為X-Robots-Tag。」

雖然您可以使用元機器人標記和X-Robots標記在HTTP響應的標頭中設置與robots.txt相關的指令,但在某些情況下您可能希望使用x-robots標記。

例如,如果您想要阻止特定圖像或視頻,則可以使用HTTP響應方法。

從本質上講,X-Robots-Tag的強大之處在於它比元機器人標籤更靈活。

常用表達 也可以使用,在非HTML文件上執行爬網指令,以及在更大的全局級別上應用參數。

為了進一步解釋所有這些指令之間的區別,將它們分類為它們所屬的指令類型是有幫助的。這些是爬蟲指令或索引器指令。

履帶式指令 索引器指令
Robots.txt – 使用用戶代理,允許,禁止和站點地圖指令來指定允許哪些搜索引擎機器人抓取並且不允許抓取的站點。 Meta Robots標籤 – 允許您指定和阻止搜索引擎在搜索結果中顯示網站上的特定頁面。

Nofollow – 允許您指定不應傳遞許可權或PageRank的鏈接

X-Robots-tag – 允許您控制索引指定文件類型的方式

真實世界的例子和X-Robots-Tag的使用

要阻止特定的文件類型,理想的方法是將X-Robots-Tag添加到Apache配置或.htaccess文件中。

可以通過.htaccess文件將X-Robots-Tag添加到Apache伺服器配置中的站點HTTP響應中。

例如,假設我們希望搜索引擎不要索引.pdf文件類型。 Apache伺服器上的此配置如下所示:

x-robots-tag「width =」640「height =」71「sizes =」(max-width:640px)100vw,640px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/uploads /2019/06/pdf-robots.jpg 640w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/pdf-robots-480x53.jpg 480w「data-src =」https:// cdn.searchenginejournal.com/wp-content/uploads/2019/06/pdf-robots.jpg

在Nginx中,看起來如下所示:

x-robots-tag「width =」704「height =」77「sizes =」(max-width:704px)100vw,704px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/uploads /2019/06/robots-pdf-nginx.jpg 704w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/robots-pdf-nginx-480x53.jpg 480w,https:// cdn .searchenginejournal.com / wp-content / uploads / 2019/06 / robots-pdf-nginx-680x74.jpg 680w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06 /robots-pdf-nginx.jpg

在不同的場景中,假設我們想要使用X-Robots-Tag來阻止圖像文件的索引,例如.jpg,.gif,.png等。這樣的示例如下所示:

x-robots-tag「width =」403「height =」77「data-srcset =」「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/robots-images .JPG

了解這些指令的組合及其對彼此的影響至關重要。

假設當爬蟲機器人發現URL時,X-Robots-Tag和Meta Robots標籤都會被找到。

如果從robots.txt阻止該URL,則無法發現某些索引和服務指令,也不會遵循這些指令。

如果要遵循指令,則不能禁止包含這些指令的URL進行爬網。

檢查X-Robots-Tag

可以使用幾種不同的方法來檢查站點上的X-Robots-Tag。

一種方法是通過Screaming Frog。

通過Screaming Frog運行站點後,您可以導航到「Directives」選項卡並查找「X-Robots-Tag」列,然後查看站點的哪些部分正在使用該標記,以及哪些特定指令。

尖叫的青蛙爬行「width =」566「height =」142「sizes =」(最大寬度:566px)100vw,566px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/uploads/2019 /06/screaming-frog-robots.jpg 566w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/screaming-frog-robots-480x120.jpg 480w「data-src =」https: //cdn.searchenginejournal.com/wp-content/uploads/2019/06/screaming-frog-robots.jpg

還有一些不同的插件,例如 Web Developer插件,允許您確定是否正在使用X-Robots-Tag。

通過單擊瀏覽器中的插件,然後導航到「查看響應標頭」,您可以看到正在使用的各種HTTP標頭。

web開發人員插件「width =」727「height =」113「sizes =」(最大寬度:727px)100vw,727px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/uploads/2019 /06/web-developer-plugin.jpg 727w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/web-developer-plugin-480x75.jpg 480w,https://cdn.searchenginejournal .com / wp-content / uploads / 2019/06 / web-developer-plugin-680x106.jpg 680w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/web -developer-plugin.jpg總結一下

有多種方法可以指示搜索引擎機器人不抓取頁面上的某些部分或某些資源。

了解每個以及它們如何相互影響對於避免任何與SEO指令相關的主要陷阱至關重要。

圖片來源

特色圖片及作者截圖,2019年6月

相關文章