獲得更好的日誌文件見解以進行爬網預算優化的5種方法

[ad_1]

獲得更好的日誌文件見解以進行爬網預算優化的5種方法

抓取預算的優化對於使搜索引擎抓取工具每次訪問時都將注意力集中到您網站上最重要的頁面上至關重要。

改善檢索預算的一些主要好處包括:

  • 降低伺服器/帶寬成本。
  • 提高有價值頁面的爬網率。
  • 發現新頁面的速度提高。
  • 提高索引中已更改頁面的更新速度。

Googlebot的設備齊全,可以在每次訪問時在較小站點上的大部分頁面中進行爬網,因此可以解釋為什麼像John Mueller這樣的Google員工不希望網站所有者浪費時間擔心會被爬網的站點。

但是,抓取預算分析並不僅僅是查看Googlebot是什麼,還是沒有抓取什麼。

更詳細地分析搜索引擎機器人的行為會帶來很多價值,這就是每個SEO都應將其納入日常工作的原因。

在DeepCrawl中抓取預算趨勢圖「 width =」 626「 height =」 358「 Size =」(最大寬度:626px)100vw,626px「 srcset =」 https://cdn.searchenginejournal.com/wp-content/uploads/ 2020/02 / crawl-budget-trends-deepcrawl-5e3a9cc8a00e0.png 626w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/crawl-budget-trends-deepcrawl-5e3a9cc8a00e0-480x275.png 480w「 src =」 https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/crawl-budget-trends-deepcrawl-5e3a9cc8a00e0.png什麼日誌文件可以顯示有關搜索引擎行為的信息

通過研究日誌文件,您可以查看搜索引擎的爬網方式,而不僅僅是它們的爬網方式。

通過用日誌文件數據繪製每個爬網程序的行程,您可以匯總一張有價值的圖片,以顯示搜索引擎認為重要的內容以及它們所遇到的困難。

以下是過濾日誌文件數據以獲取對搜索引擎行為最有影響力的見解的五種關鍵方法:

  • 狀態碼
  • 可轉位性
  • 內部連結
  • 網站分類
  • 有機表現

要自己嘗試以下方法,您需要訪問:

  • 網站的日誌文件(或類似 陽光 通過跟蹤標記監控搜索引擎機器人的活動)。
  • 一種爬網工具,用於集成Google Analytics(分析)和Google Search Console等工具中的數據。
  • 一個好的老式電子表格,可以進行一些過濾和透視。

1.狀態碼

通過按狀態代碼對日誌文件數據進行分組,您可以評估爬網預算如何在站點的不同頁面上分配。

這為您提供了一個概述,概述了搜索引擎的抓取預算在重要的200個頁面上花費了多少,在錯誤頁面和重定向上浪費了多少。

該表格顯示了按狀態代碼劃分的抓取預算,其中「寬度」 =「 751」高度「 231」 =「(最大寬度:751px)100vw,751px」 srcset =「 https://cdn.searchenginejournal.com/wp-content/ uploads / 2020/02 / status-code-table-5e3a9d63e348a.png 751w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/status-code-table-5e3a9d63e348a-480x148.png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/status-code-table-5e3a9d63e348a-680x209.png 680w「 src =」 https://cdn.searchenginejournal.com/wp-content/上傳/2020/02/status-code-table-5e3a9d63e348a.png

餅狀圖顯示按狀態碼劃分的抓取預算」寬度=「 480」高度=「 424」尺寸=「(最大寬度:480px)100vw,480px」 srcset =「 https://cdn.searchenginejournal.com/wp-content /uploads/2020/02/status-code-pie-chart-5e3a9dab6bd68-480x424.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/status-code-pie-chart- 5e3a9dab6bd68-680x601.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/status-code-pie-chart-5e3a9dab6bd68-768x679.png 768w,https://cdn.searchenginejournal。 com / wp-content / uploads / 2020/02 / status-code-pie-chart-5e3a9dab6bd68-1024x905.png 1024w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/status-code -pie-chart-5e3a9dab6bd68.png 1466w「 src =」 https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/status-code-pie-chart-5e3a9dab6bd68-480x424.png

動作

在這些數據的支持下,您可以採取一些步驟來改善整個網站的抓取預算:

  • 分析200個狀態代碼URL,以識別不需要爬網的任何URL。
  • 將帶有200個狀態代碼的非必要網頁的禁止規則添加到您的robots.txt文件中,以使抓取工具無法訪問它們。
  • 刪除指向404頁的內部鏈接,並在必要時重定向它們。
  • 從XML網站地圖中刪除所有非200狀態代碼頁。
  • 修復重定向鏈,以確保搜索引擎搜尋器和用戶所訪問的每個重定向中只有一個步驟。

2.可轉位性

有許多不同的因素會影響頁面是否會被搜索引擎索引,例如meta noindex標籤和規範標籤。

您可以從爬網工具中獲取這種數據,然後將其與日誌文件數據結合起來,以分析正在爬網的頁面與索引頁面之間的任何差異。

重要的是要確保搜索引擎機器人不會浪費時間來爬行甚至無法添加到索引或在索引中更新的頁面。

DeepCrawl中按來源報告的不可索引頁面「 width =」 579「 height =」 330「 size =」(最大寬度:579px)100vw,579px「 srcset =」 https://cdn.searchenginejournal.com/wp-content /uploads/2020/02/non-indexable-pages-by-source-deepcrawl-5e3a9de0b49ca.png 579w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/non-indexable-pages- by-source-deepcrawl-5e3a9de0b49ca-480x274.png 480w「 src =」 https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/non-indexable-pages-by-source-deepcrawl-5e3a9de0b49ca。 png

該表格顯示了按網站細分劃分的漫遊器點擊量「 width =」 760「 height =」 336「 Size =」(最大寬度:760px)100vw,760px「 srcset =」 https://cdn.searchenginejournal.com/wp-content/ uploads / 2020/02 / site-segment-crawl-budget-table-5e3a9e115dd0b-768x340.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/site-segment-crawl-budget -table-5e3a9e115dd0b-480x212.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/site-segment-crawl-budget-table-5e3a9e115dd0b-680x301.png 680w,https:/ /cdn.searchenginejournal.com/wp-content/uploads/2020/02/site-segment-crawl-budget-table-5e3a9e115dd0b.png 791w「 src =」 https://cdn.searchenginejournal.com/wp-content/uploads /2020/02/site-segment-crawl-budget-table-5e3a9e115dd0b-768x340.png

動作

收集完這些數據後,您可以按照以下步驟處理不可索引的頁面並提高抓取效率:

  • 檢查要抓取的不可索引頁面實際上不是應該允許建立索引的重要頁面。
  • 在robots.txt文件中添加禁止路徑,以阻止低質量的不可索引網頁被抓取。
  • 在頁面上添加相關的noindex標籤和規範標籤以向搜索引擎顯示它們的重要性不高。
  • 識別被robots.txt規則阻止的搜索引擎所抓取的不允許訪問的頁面。
  • 確保您的Google Search Console參數設置正確且最新。

3.內部鏈接

內部鏈接在影響搜索引擎應更頻繁地爬行哪些頁面方面具有很大的分量。

頁面具有的內部鏈接越多,就越容易被發現,並且每次Google訪問您的網站時,其被抓取的可能性就越大。

使用內部鏈接數據覆蓋漫遊器點擊數據可以使您了解有多少搜索引擎了解您的網站及其結構,以及它們如何容易地找到您網站的不同區域。

Bot命中按DeepCrawl中帶有內部鏈接的頁面過濾」「 width =」 760「 height =」 345「 Size =」(最大寬度:760px)100vw,760px「 srcset =」 https://cdn.searchenginejournal.com/wp- content / uploads / 2020/02 / pages-with-bot-hits-internal-links-deepcrawl-5e3a9e489a957-768x349.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/pages -with-bot-hits-internal-links-deepcrawl-5e3a9e489a957-480x218.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/pages-with-bot-hits-internal- links-deepcrawl-5e3a9e489a957-680x309.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/pages-with-bot-hits-internal-links-deepcrawl-5e3a9e489a957.png 897w「 src =「 https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/pages-with-bot-hits-internal-links-deepcrawl-5e3a9e489a957-768x349.png

動作

您可以實施以下一些修補程序,以通過內部鏈接提高檢索效率:

  • 識別收到大量機器人點擊的內部鏈接,並評估這些鏈接是否為主URL。
  • 更新內部鏈接到規範的URL。
  • 確保所有內部鏈接都指向200個狀態代碼的最終目標URL,並且沒有重定向。
  • 識別出受到機器人點擊次數較少的重要頁面,並向這些頁面添加更多內部鏈接以提高抓取頻率。

4.網站類別

並非所有網站類別都具有相同的權重和重要性,這對於企業推動轉化或通過搜索引擎向其發送自然流量是至關重要的。

對於電子商務網站,產品頁面將需要由搜索引擎更頻繁地抓取,因為它們經常更改,並且這些更改需要不斷反映在搜索引擎的索引中。

但是,就爬網頻率而言,每年更新一次的常綠博客文章對於網站的優先順序要低得多。

按站點類別對日誌文件數據進行細分可以提供寶貴的見解,以了解每個日誌文件的可爬網性以及搜索引擎對其進行訪問的頻率。

該表格顯示了每個網站細分的漫遊器點擊次數」 width =「 705」 height =「 231」 size =「(最大寬度:705px)100vw,705px」 srcset =「 https://cdn.searchenginejournal.com/wp-content /uploads/2020/02/site-segment-bot-hits-vs-clicks-table-5e3a9e98b6010.png 705w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/site-segment- bot-hits-vs-clicks-table-5e3a9e98b6010-480x157.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/site-segment-bot-hits-vs-clicks-table -5e3a9e98b6010-680x223.png 680w「 src =」 https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/site-segment-bot-hits-vs-clicks-table-5e3a9e98b6010.png

動作

您可以採取一些步驟來提高整個網站類別的抓取效率:

  • 找出獲得大量機器人點擊但未獲得點擊或展示的細分。
  • 確定受到機器人攻擊次數較少的網站細分,並確保可以輕鬆地在網站體系結構中訪問它們以改善抓取。
  • 評估大量抓取預算分散在不同網站版本之間的位置,例如單獨的桌面和移動頁面以及AMP(加速的移動頁面)。
  • 映射每個細分的抓取頻率,以確保Googlebot能夠通過定期抓取分類來跟上經常變化的頁面類別。

5.有機績效

您可以用來覆蓋日誌文件數據的一些最有價值的指標是自然的性能指標,例如SERP(搜索引擎結果頁)中的展示次數以及用戶到您網站的訪問量。

了解搜索引擎如何抓取和導航您的網站很重要,但是我們的最終目標是讓用戶獲得我們的內容。

某個網頁可能受到搜索引擎機器人的歡迎,但是由於該網頁沒有獲得任何展示次數或點擊量,因此這一點會令人沮喪。

將性能指標與日誌文件數據進行映射,可以分析頁面對用戶的可訪問性,而不僅僅是搜索引擎。

DeepCrawl中的日誌摘要問題報告「 width =」 579「 height =」 329「 Size =」(最大寬度:579px)100vw,579px「 srcset =」 https://cdn.searchenginejournal.com/wp-content/uploads/ 2020/02 / log-summary-issues-deepcrawl-5e3a9ec3262ef.png 579w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/log-summary-issues-deepcrawl-5e3a9ec3262ef-480x273.png 480w「 src =」 https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/log-summary-issues-deepcrawl-5e3a9ec3262ef.png

在DeepCrawl中沒有被GSC展示過濾的沒有被機器人點擊的頁面「 width =」 760「 height =」 379「 size =」(最大寬度:760px)100vw,760px「 srcset =」 https://cdn.searchenginejournal.com/wp -content / uploads / 2020/02 / pages-with-impressions-no-bot-hits-5e3a9f13c4520-768x383.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/pages- with-impressions-no-bot-hits-5e3a9f13c4520-480x239.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/pages-with-impressions-no-bot-hits-5e3a9f13c4520 -680x339.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/pages-with-impressions-no-bot-hits-5e3a9f13c4520.png 949w「 src =」 https:// cdn.searchenginejournal.com/wp-content/uploads/2020/02/pages-with-impressions-no-bot-hits-5e3a9f13c4520-768x383.png

動作

您可以採取以下步驟來提高關鍵頁面的可發現性及其在自然搜索中的性能:

  • 識別正在接收流量的頁面和未被搜索引擎抓取的印象。
  • 確保XML站點地圖中包含高性能頁面,並改善與它們的內部鏈接,以鼓勵進行更常規的爬網。
  • 找出經常被抓取但未獲得展示或點擊量的頁面,並將其過濾為主要頁面。
  • 用來查看哪些重要網頁效果不佳的網址。
  • 審核這些效果不佳的頁面,以檢查可能影響其排名性能的問題,例如內容質量和目標定位,以及索引和渲染問題,這些問題可能會阻止搜索引擎訪問其內容。

持續的日誌文件監控至關重要

以這種方式使用日誌文件數據執行爬網預算審核不僅是一項一次性的任務。要真正了解搜索引擎的行為,定期監視這些區域很重要。

抓取行為會不斷波動,具體取決於多種因素的組合,例如Googlebot的抓取優先順序演算法以及您網站上可能影響抓取的技術問題。

在Google Search Console中抓取統計信息圖表「 width =」 563「 height =」 283「 size =」(最大寬度:563px)100vw,563px「 srcset =」 https://cdn.searchenginejournal.com/wp-content/uploads /2020/02/crawl-stats-gsc-5e3ad717d07be.png 563w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/crawl-stats-gsc-5e3ad717d07be-480x241.png 480w「 src =「 https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/crawl-stats-gsc-5e3ad717d07be.png

因此,通過持續監控指標(例如每個網站細分的平均機器人點擊率和狀態代碼)來跟蹤整個網站上抓取預算的使用方式隨時間的變化至關重要。

總結一下

日誌文件分析應在每位SEO專業人員的日常工作中發揮作用,因為日誌文件是您最接近了解Googlebot的一種方式。

SEO工具嘗試模仿搜索引擎爬網程序的行為,但是使用日誌文件,您可以分析真實情況。

通過將索引與可索引性,內部鏈接和頁面性能等重要指標交叉引用到搜索引擎bot命中中,您將能夠發現需要爬網的搜索引擎對網站可訪問性的更有價值的見解。

圖片積分

作者截取的所有屏幕截圖,2020年2月

相關文章