評估爬行衛生的10項關鍵檢查

[ad_1]
評估爬行衛生的10項關鍵檢查

優化我們的網站時 爬行,我們的主要目標是確保搜索引擎將時間花在我們最重要的頁面上,以便定期抓取它們並找到任何新內容。

每次Googlebot訪問您的網站時,它都會在一個有限的窗口中抓取並發現您網站上儘可能多的網頁和鏈接。當達到該限制時,它將停止。

重新訪問網頁所需的時間取決於Google如何優先處理網址以進行抓取的各種因素,包括:

  • 網頁排名。
  • 包含XML站點地圖。
  • 在網站架構中的位置。
  • 頁面更改的頻率。
  • 和更多。

最重要的是:您的網站每次抓取只會在有限的時間內引起Googlebot的注意,這可能很少發生。確保明智地花費時間。

在分析您的網站對搜索引擎抓取工具的優化程度時,可能很難知道從哪裡開始,尤其是當您 在一個大型網站上工作 有很多URL可以分析,或者在一家大公司工作,有很多競爭優先順序和優秀的搜索引擎優化修復,以確定優先順序。

這就是為什麼我將這個頂級檢查列表放在一起評估爬行衛生,為您提供分析的起點。

1.有多少頁被索引與網站上有多少可索引頁面?

為什麼這很重要

這會向您顯示您網站上有多少頁面可供Google索引,以及Google實際能夠找到的這些網頁中有多少以及確定的網頁數量足以被編入索引。

DeepCrawl中的可索引性餅圖「width =」573「height =」329「sizes =」(max-width:573px)100vw,573px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/09 / indexability-deepcrawl.png 573w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexability-deepcrawl-480x276.png 480w「data-src =」https:/ /cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexability-deepcrawl.png

條形圖顯示Google Search Console中的索引頁面「width =」760「height =」365「sizes =」(最大寬度:760px)100vw,760px「data-srcset =」https://cdn.searchenginejournal.com/wp -content / uploads / 2019/09 / indexed-pages-google-search-console-768x369.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexed-pages-google- search-console-480x231.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexed-pages-google-search-console-680x327.png 680w,https:// cdn。 searchenginejournal.com/wp-content/uploads/2019/09/indexed-pages-google-search-console.png 911w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/ 09 /索引的頁面,谷歌搜索,控制台768x369.png2.總共有多少頁被抓取?

為什麼這很重要

將Googlebot的抓取活動與您網站上的網頁數量進行比較,可以讓您深入了解Google無法訪問或已確定的頁面數量不足以安排定期抓取。

Google Search Console中的抓取統計信息折線圖「width =」564「height =」287「sizes =」(最大寬度:564px)100vw,564px「data-srcset =」https://cdn.searchenginejournal.com/wp- content / uploads / 2019/09 / crawl-stats-google-search-console.png 564w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/crawl-stats-google-search-console -480x244.png 480w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/crawl-stats-google-search-console.png

在Logz.io中顯示Googlebot抓取的條形圖「width =」738「height =」342「sizes =」(最大寬度:738px)100vw,738px「data-srcset =」https://cdn.searchenginejournal.com/wp -content / uploads / 2019/09 / googlebot-crawling-logzio.jpg 738w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/googlebot-crawling-logzio-480x222.jpg 480w,https ://cdn.searchenginejournal.com/wp-content/uploads/2019/09/googlebot-crawling-logzio-680x315.jpg 680w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads /2019/09/googlebot-crawling-logzio.jpg3.有多少頁不可索引?

為什麼這很重要

花時間抓取不可索引的網頁並不是Google的最佳用途 爬行預算。檢查這些頁面的爬網數量,以及是否可以將其中任何一個頁面用於索引。

條形圖顯示DeepCrawl中的不可索引頁面「width =」580「height =」331「sizes =」(最大寬度:580px)100vw,580px「data-srcset =」https://cdn.searchenginejournal.com/wp -content / uploads / 2019/09 / non-indexable-pages-deepcrawl.png 580w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/non-indexable-pages-deepcrawl-480x274。 png 480w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/non-indexable-pages-deepcrawl.png4.有多少網址被禁止被抓取?

為什麼這很重要

這將顯示您阻止搜索引擎訪問您網站的頁數。確保這些頁面對於索引或發現更多頁面以進行爬網非常重要。

條形圖顯示Google Search Console中robots.txt阻止的網頁「width =」760「height =」440「sizes =」(最大寬度:760px)100vw,760px「data-srcset =」https:// cdn。 searchenginejournal.com/wp-content/uploads/2019/09/blocked-by-robotstxt-google-search-console-768x445.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09 /blocked-by-robotstxt-google-search-console-480x278.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/blocked-by-robotstxt-google-search-console- 680x394.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/blocked-by-robotstxt-google-search-console.png 952w「data-src =」https:// cdn .searchenginejournal.com /可濕性粉劑內容/上傳/ 2019/09 /阻斷逐robotstxt-谷歌搜索控制台-768x445.png5.有多少低價值頁面被索引?

為什麼這很重要

查看Google已在您的網站上編入索引的頁面,可以顯示抓取工具可以訪問的網站區域。

例如,這些頁面可能是您未包含在站點地圖中的頁面,因為它們質量較差,但無論如何都已找到並編入索引。

條形圖顯示已編入索引但未在Google Search Console中的站點地圖中提交的網頁「width =」760「height =」437「sizes =」(最大寬度:760px)100vw,760px「data-srcset =」https:// cdn .searchenginejournal.com / wp-content / uploads / 2019/09 / indexed-not-submitted-deepcrawl-768x442.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexed- not-submitted-deepcrawl-480x277.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexed-not-submitted-deepcrawl-680x392.png 680w,https:// cdn。 searchenginejournal.com/wp-content/uploads/2019/09/indexed-not-submitted-deepcrawl.png 960w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/索引 - 不提交 -  deepcrawl-768x442.png6.有多少4xx錯誤頁面正在被抓取?

為什麼這很重要

確保爬網預算沒有用在錯誤頁面而不是您想要編入索引的頁面上,這一點很重要。

Googlebot會定期嘗試抓取404錯誤頁面以查看該頁面是否再次顯示,因此請確保正確使用410狀態代碼以顯示頁面已消失且無需重新抓取。

在DeepCrawl中顯示損壞頁面的折線圖「width =」572「height =」314「sizes =」(最大寬度:572px)100vw,572px「data-srcset =」https://cdn.searchenginejournal.com/wp- content / uploads / 2019/09 / broken-pages-deepcrawl.png 572w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/broken-pages-deepcrawl-480x263.png 480w「data- SRC =「https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/broken-pages-deepcrawl.png7.有多少內部重定向被抓取?

為什麼這很重要

Googlebot在網站上發出的每個請求都會使用爬網預算,這包括重定向鏈中每個步驟中的任何其他請求。

通過確保只有包含200個狀態代碼的網頁鏈接到您的網站,幫助Google更有效地抓取並節省抓取預算,並減少對非最終目標網址的網頁發出的請求數。

DeepCrawl中的重定向鏈報告「width =」760「height =」409「sizes =」(max-width:760px)100vw,760px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/uploads /2019/09/redirect-chain-deepcrawl-768x413.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/redirect-chain-deepcrawl-480x258.png 480w,https:/ /cdn.searchenginejournal.com/wp-content/uploads/2019/09/redirect-chain-deepcrawl-680x366.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/redirect- chain-deepcrawl.png 800w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/redirect-chain-deepcrawl-768x413.png8.有多少Canonical頁面與Canonicalized頁面?

為什麼這很重要

您網站上規範化頁面的數量可以顯示您網站上的重複數量。雖然規範標籤整合了重複頁面集之間的鏈接公平性,但它們無法幫助抓取預算。

Google將選擇從一組規範化頁面中為一個頁面編製索引,但為了能夠確定哪個是主頁面,它首先必須抓取所有這些頁面。

餅圖顯示DeepCrawl中的規範頁面「width =」580「height =」332「sizes =」(最大寬度:580px)100vw,580px「data-srcset =」https://cdn.searchenginejournal.com/wp-content /uploads/2019/09/canonicals-deepcrawl.png 580w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/canonicals-deepcrawl-480x275.png 480w「data-src =」https: //cdn.searchenginejournal.com/wp-content/uploads/2019/09/canonicals-deepcrawl.png9.有多少分頁或分面頁面正在被抓取?

為什麼這很重要

Google只需抓取包含其他未發現內容或未鏈接網址的網頁。

分頁 通常是重複的URL和爬網程序陷阱的來源,因此請確保不會不必要地抓取這些不包含任何唯一內容或鏈接的頁面。

因為rel = next而rel = prev 不再支持 通過谷歌,確保你的 內部鏈接 經過優化,可減少對頁面發現的分頁依賴。

餅圖顯示DeepCrawl中的分頁細分「width =」579「height =」331「sizes =」(max-width:579px)100vw,579px「data-srcset =」https://cdn.searchenginejournal.com/wp-content /uploads/2019/09/pagination-deepcrawl.png 579w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/pagination-deepcrawl-480x274.png 480w「data-src =」https: //cdn.searchenginejournal.com/wp-content/uploads/2019/09/pagination-deepcrawl.png10.爬網源中的頁面發現是否存在不匹配?

為什麼這很重要

如果您看到用戶通過您的日誌文件數據中未被搜索引擎抓取的分析數據訪問的頁面,則可能是因為這些頁面對於搜索引擎而言不像用戶那樣可被發現。

通過將不同的數據源與爬網數據集成,您可以發現搜索引擎無法輕易找到頁面的空白。

Google的兩個主要網址發現來源是外部鏈接和XML站點地圖,因此如果您無法讓Google抓取您的網頁,請確保它們已包含在您的站點地圖中(如果它們尚未鏈接到任何其他網站)谷歌已經定期了解和抓取。

條形圖顯示DeepCrawl中的爬行源間隙「width =」760「height =」324「sizes =」(最大寬度:760px)100vw,760px「data-srcset =」https://cdn.searchenginejournal.com/wp- content / uploads / 2019/09 / source-gap-deepcrawl-768x327.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/source-gap-deepcrawl-480x205.png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/source-gap-deepcrawl-680x290.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09 /source-gap-deepcrawl.png 821w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/source-gap-deepcrawl-768x327.png總結一下

通過對您管理的網站執行這10項檢查,您應該能夠更好地了解網站的可抓取性和整體技術健康狀況。

一旦確定了抓取垃圾的區域,您就可以指示Google使用robots.txt中的禁用方法來抓取較少的網頁。

然後,您可以開始影響它,通過優化網站的體系結構和內部鏈接來抓取更多重要頁面,使其更加突出和可發現。

圖片來源

所有截圖均由作者拍攝,2019年9月

相關文章