在Google上進行間諜活動:5種方法可以使用日誌文件分析來顯示寶貴的搜索引擎優化和洞察力

[ad_1]

日誌文件分析應該是每個SEO專業工具帶的一部分,但大多數SEO從未進行過。這意味著大多數SEO都錯過了常規抓取工具無法生成的獨特而寶貴的見解。

讓我們揭開日誌文件分析的神秘面紗,這樣就不那麼令人生畏了。如果您對日誌文件的精彩世界以及它們可以為您的網站審核帶來什麼感興趣,那麼本指南絕對適合您。

什麼是日誌文件?

日誌文件是包含有關向網站伺服器發出請求的人員和內容的詳細日誌的文件。每次機器人向您的站點發出請求時,數據(例如時間,日期IP地址,用戶代理等)都存儲在此日誌中。這些有價值的數據允許任何SEO找出Googlebot和其他抓取工具在您的網站上正在做什麼。與常規抓取不同,例如Screaming Frog SEO Spider,這是真實世界的數據 – 而不是估計您的網站被抓取的方式。它是您網站抓取方式的精確概述。

擁有這些準確的數據可以幫助您識別爬行預算浪費的區域,輕鬆查找訪問錯誤,了解您的SEO工作如何影響爬行等等。最好的部分是,在大多數情況下,您可以使用簡單的電子表格軟體來完成此操作。

在本指南中,我們將專註於Excel來執行日誌文件分析,但我還將討論其他工具,例如Screaming Frog不太知名的日誌文件分析器,它可以通過幫助您管理來簡化和加快工作更大的數據集。

注意:擁有除Excel以外的任何軟體不是要求遵循本指南或使用日誌文件。

如何打開日誌文件

將.log重命名為.csv

當您獲得帶有.log擴展名的日誌文件時,它就像重命名文件擴展名.csv並在電子表格軟體中打開文件一樣簡單。如果要編輯這些,請記住將操作系統設置為顯示文件擴展名。

如何打開拆分日誌文件

日誌文件可以包含一個大日誌或多個文件,具體取決於您站點的伺服器配置。某些伺服器將使用伺服器負載平衡來跨伺服器池或伺服器場分配流量,從而導致分割日誌文件。好消息是它很容易組合,你可以使用這三種方法中的一種來組合它們,然後像​​往常一樣打開它們:

  1. 通過Shift +在Windows中使用命令行右鍵單擊包含日誌文件的文件夾,然後選擇「從此處運行Powershell」

然後運行以下命令:

copy * .log mylogfiles.csv

您現在可以打開mylogfile.csv,它將包含您的所有日誌數據。

或者,如果您是Mac用戶,請首先使用cd命令轉到日誌文件的目錄:

cd Documents / MyLogFiles /

然後,使用cat或concatenate命令連接文件:

cat * .log> mylogfiles.csv

2)使用免費工具, 日誌文件合併,合併所有日誌文件,然後將文件擴展名編輯為.csv並正常打開。

3)使用Screaming Frog Log File Analyzer打開日誌文件,就像拖放日誌文件一樣簡單:

分裂字元串

(請注意:如果您使用Screaming Frog的日誌文件分析器,則不需要此步驟)

打開日誌文件後,您需要將每個單元格中的繁瑣文本拆分為多個列,以便日後進行排序。

Excel的文本到列功能在這裡派上用場,就像選擇所有填充單元格(Ctrl / Cmd + A)和Excel>數據>文本到列並選擇「分隔」選項一樣簡單,分隔符是空格字元。

一旦將其分離出來,您可能還希望按時間和日期排序 – 您可以在時間和日期標記列中進行排序,通常使用「:」冒號分隔符分隔數據。

您的文件應類似於下面的文件:

如前所述,如果您的日誌文件看起來不完全相同,請不要擔心 – 不同的日誌文件具有不同的格式。只要您擁有基本數據(時間和日期,URL,用戶代理等),您就可以開始了!

了解日誌文件

現在您的日誌文件已準備好進行分析,我們可以深入了解並開始了解我們的數據。日誌文件可以採用多種不同數據點的格式,但它們通常包括以下內容:

  1. 伺服器IP
  2. 日期和時間
  3. 伺服器請求方法(例如GET / POST)
  4. 請求的URL
  5. HTTP狀態代碼
  6. 用戶代理

如果您對細節的詳細信息感興趣,可以在下面找到有關常見格式的更多詳細信息:

  • WC3
  • Apache和NGINX
  • Amazon Elastic Load Balancing
  • HA代理
  • JSON

如何快速揭示爬行預算浪費

快速回顧一下,抓取預算是指每次訪問您網站時搜索引擎抓取的網頁數。許多因素會影響爬網預算,包括鏈接權益或域許可權,站點速度等。通過日誌文件分析,我們將能夠查看您的網站具有哪種抓取預算以及哪些問題導致抓取預算浪費。

理想情況下,我們希望為抓取工具提供最有效的抓取體驗。不應該在低價值頁面和URL上浪費爬網,並且優先順序頁面(例如產品頁面)不應該具有較慢的索引和爬行率,因為網站具有如此多的自重頁面。遊戲的名稱是抓取預算保護,並且具有良好的抓取預算轉換帶來更好的自然搜索性能。

請參閱用戶代理的已爬網URL

查看網站的網址被抓取的頻率可以快速揭示搜索引擎將時間用於抓取的位置。

如果您對查看單個用戶代理的行為感興趣,可以輕鬆過濾掉excel中的相關列。在這種情況下,使用WC3格式的日誌文件,我正在通過Googlebot過濾cs(用戶代理)列:

然後過濾URI列以顯示Googlebot抓取此示例網站主頁的次數:

這是一種快速查看單個用戶代理的URI主幹是否存在問題的方法。您可以通過查看URI主幹列的過濾選項(在本例中為cs-uri-stem)來更進一步:

從這個基本菜單中,我們可以看到正在抓取哪些URL(包括資源文件)以快速識別任何問題URL(例如,不應被抓取的參數化URL)。

您還可以使用數據透視表進行更廣泛的分析。要獲取特定用戶代理抓取特定URL的次數,請選擇整個表(Ctrl / cmd + A),轉到「插入」>「數據透視表」,然後使用以下選項:

我們所做的只是按用戶代理進行過濾,URL以行為單位,然後計算每個用戶代理髮生的次數。

使用我的示例日誌文件,我得到以下內容:

然後,要按特定用戶代理進行過濾,我單擊包含「(全部)」的單元格上的下拉圖標,然後選擇Googlebot:

了解不同機器人抓取的內容,移動漫遊器如何以不同方式抓取到桌面,以及抓取次數最多的位置可以幫助您立即查看抓取預算浪費的位置以及網站的哪些區域需要改進。

查找低價值添加網址

不應在低增值網址上浪費抓取預算,這通常是由會話ID,無限抓取空間和分面導航引起的。

要執行此操作,請返回到您的日誌文件,並按URL列中包含「?」或問號標記的URL進行過濾(包含URL主幹)。要在Excel中執行此操作,請記住使用「〜?」或代字型大小問號,如下所示:

單個「?」或問號,如自動過濾器窗口中所述,表示任何單個字元,因此添加代字型大小就像一個轉義字元,並確保過濾掉問號符號本身。

這不容易嗎?

查找重複的網址

重複的URL可能是一個爬行預算浪費和一個大的SEO問題,但找到它們可能是一個痛苦。 URL有時可能有輕微變體(例如尾部斜杠與URL的非尾部斜杠版本)。

最終,找到重複網址的最佳方式也是最不有趣的方式 – 您必須按字母順序排序網站網址並手動注視它。

您可以找到同一URL的尾部和非尾部斜杠版本的一種方法是在另一列中使用SUBSTITUTE函數並使用它來刪除所有正斜杠:

= SUBSTITUTE(C2,「/」,「」)

在我的例子中,目標單元格是C2,因為干數據在第三列。

然後,使用條件格式識別重複值並突出顯示它們。

然而,不幸的是,眼球是目前最好的方法。

查看子目錄的爬網頻率

查找哪些子目錄最常被抓取是另一種快速顯示爬網預算浪費的方法。雖然請記住,僅僅因為客戶的博客從未獲得過單一的反向鏈接,並且每年只從業主的祖母那裡獲得三次觀看並不意味著您應該考慮抓取預算浪費 – 內部鏈接結構應始終在整個網站中保持良好狀態從客戶的角度來看,這些內容可能有充分的理由。

要通過子目錄級別查找爬網頻率,您需要主要關注它,但以下公式可以幫助:

= IF(RIGHT(C2,1)= 「/」,SUM(LEN(C2)-LEN(SUBSTITUTE(C2, 「/」, 「」)))/ LEN( 「/」)+ SUM(LEN(C2) -LEN(SUBSTITUTE(C2,「=」,「」)))/ LEN(「=」) – 2,SUM(LEN(C2)-LEN(SUBSTITUTE(C2,「/」,「」)))/ LEN ( 「/」)+ SUM(LEN(C2)-LEN(SUBSTITUTE(C2, 「=」, 「」)))/ LEN( 「=」) – 1)

上面的公式看起來有點像doozy,但它只是檢查是否有一個尾部斜杠,並根據答案,計算尾部斜杠的數量,並從數字中減去2或1。如果使用RIGHT公式從URL列表中刪除所有尾部斜杠,則可以縮短此公式 – 但是誰有時間。您剩下的是子目錄計數(從第一個子目錄開始,從0開始)。

將C2替換為第一個URL干/ URL單元格,然後將公式複製到整個列表中以使其正常工作。

確保使用適當的起始單元格替換所有C2,然後將新子目錄計數列按最小值排序到最大值,以便按邏輯順序獲取文件夾的良好列表,或者輕鬆按子目錄級別過濾。例如,如下面的屏幕截圖所示:

上面的圖像是按級別排序的子目錄。

上面的圖像是按深度排序的子目錄。

如果您沒有處理大量的URL,您可以簡單地按字母順序對URL進行排序,但是您不會獲得子目錄計數過濾,這對於較大的站點來說可以快得多。

按內容類型查看抓取頻率

找出正在抓取的內容,或者是否有任何內容類型正在佔用抓取預算,這是一個很好的檢查,以發現抓取預算浪費。如果您正在嘗試優化圖像搜索,頻繁地抓取不必要或低優先順序的CSS和JS文件,或者如何在圖像上進行爬行,這種策略很容易被發現。

在Excel中,按內容類型查看抓取頻率就像使用「帶有結束」過濾選項按URL或URI詞根過濾一樣簡單。

快速提示:您還可以使用「不結束」過濾器並使用.html擴展名來查看非HTML頁面文件的爬網方式 – 如果爬網預算浪費在不必要的js或css文件上,則總是值得檢查,或者甚至圖像和圖像變化(看著你的Wordpress)。此外,請記住,如果您的站點包含尾隨和非尾隨斜杠網址,請將「or」運算符與過濾一起考慮在內。

間諜機器人:了解網站抓取行為

日誌文件分析使我們能夠通過讓我們了解它們如何確定優先順序來了解機器人的行為。不同機器人在不同情況下的表現如何?有了這些知識,您不僅可以加深對SEO和爬行的理解,還可以讓您在了解網站架構的有效性方面有一個巨大的飛躍。

查看大多數和最少抓取的網址

之前已經通過用戶代理查看已爬網的URL來修改此策略,但速度更快。

在Excel中,選擇表中的單元格,然後單擊「插入」>「數據透視表」,確保選擇包含必要的列(在本例中為URL或URI主幹和用戶代理),然後單擊「確定」。

創建數據透視表後,將行設置為URL或URI主幹,將總計值設置為用戶代理。

從那裡,您可以右鍵單擊user-agent列,並通過爬網計數將URL從最大到最小排序:

現在,您將有一個很棒的表來製作圖表或快速查看並查找任何有問題的區域:

在查看此數據時要問自己的問題是:您或客戶端想要抓取的頁面是什麼?多常?頻繁抓取並不一定意味著更好的結果,但它可以表明Google和其他內容用戶代理的優先順序最高。

每天,每周或每月抓取頻率

檢查抓取活動以確定在一段時間內,Google更新或緊急情況後可見失去的問題可以告知您問題可能出在何處。這就像選擇「日期」列一樣簡單,確保列處於「日期」格式類型,然後使用日期列上的日期過濾選項。如果您要分析一整周,只需選擇具有可用過濾選項的相應日期。

按指令抓取頻率

了解哪些指令(例如,如果您在robots.txt中使用disallow或甚至無索引指令),對於任何SEO審核或廣告系列都必不可少。例如,如果某個網站使用帶有分面導航網址的不允許,您需要確保遵守這些網址。如果不是,請推薦更好的解決方案,例如元機器人標籤等頁面指令。

要按指令查看抓取頻率,您需要將抓取報告與日誌文件分析相結合。

(警告:我們將使用VLOOKUP,但它實際上並不像人們想像的那麼複雜)

要獲取組合數據,請執行以下操作:

  1. 使用您最喜愛的抓取軟體從您的網站獲取抓取內容。我可能有偏見,但我是Screaming Frog SEO Spider的忠實粉絲,所以我打算用它。

    如果您還在使用蜘蛛,請按順序執行步驟,否則,請自行調用以獲得相同的結果。

  2. 從SEO Spider導出內部HTML報告(內部選項卡>「過濾器:HTML」)並打開「internal_all.xlsx」文件。

    從那裡,您可以過濾「可索引性狀態」列並刪除所有空白單元格。要執行此操作,請使用「不包含」過濾器,並將其留空。您還可以通過使過濾器值等於「不包含→」重定向「來添加」和「運算符並過濾掉重定向的URL,如下所示:

    這將通過元機器人和規範化URL向您展示規範化,無索引。

  3. 複製此新表(僅包含Address和Indexability Status列)並將其粘貼到日誌文件分析導出的另一張表中。
  4. 現在為一些VLOOKUP魔術。首先,我們需要確保URI或URL列數據與爬網數據的格式相同。

    日誌文件通常在URL中沒有根域或協議,因此我們需要使用新製作的工作表中的「查找和替換」刪除URL的頭部,或者在日誌文件分析表中創建一個新列將協議和根域附加到URI主幹。我更喜歡這種方法,因為您可以快速複製並粘貼您遇到問題的網址並查看。但是,如果您有一個海量日誌文件,那麼使用「查找和替換」方法可能會減少CPU密集程度。

    要獲取完整的URL,請使用以下公式,但將URL欄位更改為您正在分析的任何站點(並確保協議也正確)。您還需要將D2更改為URL列的第一個單元格

    =」
    拖動「class =」redactor-autoparser-object「> https://www.example.com」&D …
    將公式下移到日誌文件表的末尾,並獲得一個完整的URL列表:

  5. 現在,創建另一列並將其命名為「可索引性狀態」。在第一個單元格中,使用類似於以下內容的VLOOKUP:= VLOOKUP(E2,CrawlSheet!A $ 1:B $ 1128,2,FALSE)。將E2替換為「完整URL」列的第一個單元格,然後將查找錶轉換為新的。爬行表。請記住起訴美元符號,以便查找表不會像您一樣改變。將公式應用於其他角色。然後,選擇正確的列(1將是索引表的第一列,因此數字2是我們之後的那一列)。使用FALSE範圍查找模式進行精確匹配。現在,您有一個很好的整潔URL列表及其與爬網數據匹配的可索引性狀態:

    按深度和內部鏈接抓取頻率

    通過此分析,我們可以了解網站架構在爬網預算和可抓取性方面的表現。主要目的是查看您是否擁有比您請求更多的URL – 如果您這樣做,那麼您就會遇到問題。機器人不應該「放棄」抓取您的整個網站,而不是發現重要內容或在不重要的內容上浪費抓取預算。

    提示:使用爬網可視化工具以及此分析還可以查看網站的整體架構,並查看「off-shoots」或內部鏈接較差的頁面。

    要獲取這些非常重要的數據,請執行以下操作:

    1. 使用首選抓取工具抓取您的網站,並導出具有點擊深度和每個網址的內部鏈接數量的報告。

      就我而言,我正在使用Screaming Frog SEO Spider,正在出口內部報告:

    2. 使用VLOOKUP將您的URL與Crawl Depth列和Inlinks數相匹配,這將為您提供以下內容:
    3. 根據您要查看的數據類型,您可能只想過濾掉此時返回200響應代碼的URL,或者在我們稍後創建的數據透視表中將它們作為可過濾選項。如果您正在檢查電子商務網站,您可能只想關注產品網址,或者如果您正在優化圖像抓取,則可以使用「內容」過濾日誌文件的URI列,按文件類型過濾掉 – 鍵入「爬網導出列」並選擇使用數據透視表進行過濾。與所有這些檢查一樣,您有很多選擇!
    4. 使用數據透視表,您現在可以使用以下選項按爬網深度(在這種情況下由特定機器人過濾)分析爬網速率:

    得到類似以下內容:

    比Search Console更好的數據?識別爬網問題

    搜索控制台可能是每個搜索引擎優化的首選,但它肯定有缺陷。歷史數據更難獲得,並且您可以查看的行數有限制(此時編寫的行數為1000)。但是,通過日誌文件分析,天空是極限。通過以下檢查,我們將發現抓取和響應錯誤,以便為您的站點提供完整的運行狀況檢查。

    發現抓取錯誤

    顯而易見且快速檢查以添加到您的庫中,您只需要過濾日誌文件的狀態列(在我的情況下,使用W3C日誌文件類型的「sc-status」)以獲取4xx和5xx錯誤:

    查找不一致的伺服器響應

    特定的URL可能會隨著時間的推移而變化伺服器響應,這可能是正常行為,例如,當修復損壞的鏈接或發生嚴重的伺服器問題時,例如當您的站點流量過大導致內部更多時伺服器錯誤並且正在影響您網站的可抓取性。

    分析伺服器響應就像通過URL和日期過濾一樣簡單:

    或者,如果要快速查看URL在響應代碼中的變化情況,可以使用數據透視表,其中行設置為URL,列設置為響應代碼,並計算URL生成響應的次數碼。要實現此設置,請使用以下設置創建數據透視表:

    這將產生以下結果:

    如您在上表中所見,您可以清楚地看到「/inconcistent.html」(在紅色框中突出顯示)具有不同的響應代碼。

    按子目錄查看錯誤

    要查找哪些子目錄產生的問題最多,我們只需要進行一些簡單的URL過濾。過濾掉URI列(在我的例子中為「cs-uri-stem」)並使用「contains」過濾選項選擇特定子目錄和該子目錄中的任何頁面(使用通配符*):

    對我來說,我查看了blog子目錄,這產生了以下結果:

    按用戶代理查看錯誤

    找出哪些機器人正在努力可能有很多原因,包括了解移動和桌面機器人網站性能的差異,或者哪些搜索引擎最能抓取您的網站。

    您可能希望查看哪些特定URL導致特定機器人出現問題。最簡單的方法是使用數據透視表,它允許過濾每個URI發生特定響應代碼的次數。要實現此目的,請使用以下設置創建數據透視表:

    從那裡,您可以按照您選擇的機器人和響應代碼類型進行過濾,例如下面的圖片,我正在過濾Googlebot桌面以查找404錯誤:

    或者,您也可以使用數據透視表查看特定機器人通過創建按機器人過濾的數據透視表,按URI出現次數計算並將響應代碼用作行來生成不同響應代碼的次數。要實現此目的,請使用以下設置:

    例如,在數據透視表(下方)中,我正在查看Googlebot收到的每個響應代碼的數量:

    診斷頁面問題

    網站不僅需要設計用於人類,還需要設計用於機器人。頁面不應該緩慢載入或下載量很大,並且通過日誌文件分析,您可以從機器人的角度看每個URL的這兩個指標。

    查找慢速和大頁面

    雖然您可以按「時間」或「載入時間」列從最大到最小排序日誌文件以查找最慢的載入頁面,但最好查看每個URL的平均載入時間,因為可能存在其他因素除了網頁的實際速度之外,還有一個緩慢的請求。

    為此,請創建一個數據透視表,其行設置為URI主幹或URL,並且總和值設置為載入或載入時間所需的時間:

    然後使用下拉箭頭,在這種情況下,它顯示「時間總和」並轉到「值欄位設置」:

    在新窗口中,選擇「平均」並且您已全部設置:

    現在,當您按照從最大到最小的平均時間排序URI時,您應該有類似於以下內容的內容:

    查找大頁面

    您現在可以使用下面顯示的設置添加下載大小列(在我的情況下為「sc-bytes」)。請記住,根據您希望看到的內容,將大小設置為平均值或總和。對我來說,我做了平均值:

    你應該得到類似於以下內容:

    機器人行為:驗證和分析機器人

    理解機器人和爬行行為的最佳和最簡單的方法是使用日誌文件分析,因為您再次獲得真實數據,並且它比其他方法麻煩少得多。

    查找未抓取的網址

    只需使用您選擇的工具抓取您的網站,然後將您的日誌文件與URL進行比較,以找到唯一的路徑。您可以使用Excel的「刪除重複項」功能或條件格式來執行此操作,儘管前者的CPU密集程度要低得多,尤其是對於較大的日誌文件。簡單!

    識別垃圾郵件機器人

    垃圾郵件和欺騙機器人不必要的伺服器壓力可以通過日誌文件和一些基本的命令行操作員輕鬆識別。大多數請求也會有一個與之關聯的IP,因此使用您的IP列(在我的情況下,在W3C格式日誌中標題為「c-ip」),刪除所有重複項以查找每個請求IP的個人。

    從那裡,您應該按照Google文檔中概述的過程驗證IP(注意:對於Windows用戶,請使用nslookup命令):

    https://support.google.com/webmasters/answer/80553?hl=en

    或者,如果您正在驗證一個bing bot,請使用他們的便利工具:

    https://www.bing.com/toolbox/verify-bingbot

    結論:日誌文件分析 – 並不像聽起來那麼可怕

    藉助一些簡單的工具,您可以深入了解Googlebot的行為方式。當您了解網站如何處理抓取時,您可以診斷出比您可以咀嚼更多的問題 – 但日誌文件分析的真正強大之處在於能夠測試您關於Googlebot的理論並擴展上述技術以收集您自己的見解和啟示。

    您將使用日誌文件分析測試哪些理論?您可以從除上面列出的日誌文件之外的日誌文件中收集哪些見解?請在下面的評論中告訴我。

    相關文章