在大型站點審核中使用XPath的3種方法

[ad_1]

在大型站點審核中使用XPath的3種方法

創造性地使用XPath可以幫助提高審核大型網站的效率。在您的SEO工具欄中考慮這另一種工具。

您可以使用XPath解鎖無數種信息,這些信息可以用於任何類別的在線業務。

使用XPath審核大型站點的一些流行方法包括:

在本指南中,我們將詳細介紹如何進行這些審核。

什麼是XPath?

簡而言之,XPath是一種使用路徑表達式來導航XML文檔並標識指定元素的語法。

它用於使用HTML DOM結構查找頁面上任何元素的確切位置。

我們可以使用XPath幫助提取一些信息,例如H1頁面標題,電子商務網站上的產品說明或頁面上實際上可用的任何內容。

雖然這對許多人來說聽起來很複雜,但實際上,這很容易!

如何在尖叫青蛙中使用XPath

在本指南中,我們將使用「尖叫蛙」來抓取網頁。

Screaming Frog提供了自定義提取方法,例如CSS選擇器和XPath。

完全有可能使用其他方式來抓取網頁,例如 蟒蛇。但是,Screaming Frog方法只需要很少的編碼知識。

(注意:我目前與Screaming Frog無關,但我強烈建議他們使用其軟體進行網路抓取。)

步驟1:識別您的數據點

找出要提取的數據點。

例如,假設我們的「搜索引擎期刊」沒有作者頁面,而您想提取每篇文章的作者姓名。

您將要做的是:

  • 右鍵單擊作者姓名。
  • 選擇檢查。
  • 在「開發工具元素」面板中,您將看到您的元素已經突出顯示。
  • 右鍵單擊突出顯示的HTML元素,然後轉到「複製」,然後選擇「複製XPath」。

2複製xpath「 width =」 2858「 height =」 1010「 Size =」(最大寬度:2858px)100vw,2858px「 data-srcset =」 https://cdn.searchenginejournal.com/wp-content/uploads/2019 /10/2-copy-xpath.jpg 2858w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/2-copy-xpath-480x170.jpg 480w,https://cdn.searchenginejournal .com / wp-content / uploads / 2019/10 / 2-copy-xpath-680x240.jpg 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/2-copy-xpath- 768x271.jpg 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/2-copy-xpath-1024x362.jpg 1024w,https://cdn.searchenginejournal.com/wp-content/上傳/2019/10/2-copy-xpath-1600x565.jpg 1600w「 data-src =」 https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/2-copy-xpath.jpg

此時,您計算機的剪貼板將複製所需的XPath。

步驟2:設置自定義提取

在此步驟中,您將需要打開Sfroging Frog並設置要爬網的網站。在這種情況下,我將輸入完整的搜索引擎日記URL。

  • 轉到配置>自定義>提取

3設置xpath提取「 width =」 1268「 height =」 612「 size =」(最大寬度:1268px)100vw,1268px「 data-srcset =」 https://cdn.searchenginejournal.com/wp-content/uploads/ 2019/10 / 3-setup-extraction.jpg 1268w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/3-setup-extraction-480x232.jpg 480w,https:// cdn。 searchenginejournal.com/wp-content/uploads/2019/10/3-setup-extraction-680x328.jpg 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/3-setup-extraction -768x371.jpg 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/3-setup-extraction-1024x494.jpg 1024w「 data-src =」 https://cdn.searchenginejournal。 com / wp-content / uploads / 2019/10 / 3-setup-extraction.jpg

  • 這將打開「自定義提取」配置窗口。這裡有很多選項,但是如果您只是想提取文本,請將您的配置與下面的屏幕截圖匹配。

4配置xpath提取「 width =」 2444「 height =」 1260「 size =」(最大寬度:2444px)100vw,2444px「 data-srcset =」 https://cdn.searchenginejournal.com/wp-content/uploads/ 2019/10 / 4-configure-xpath-extraction.jpg 2444w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/4-configure-xpath-extraction-480x247.jpg 480w,https: //cdn.searchenginejournal.com/wp-content/uploads/2019/10/4-configure-xpath-extraction-680x351.jpg 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10 /4-configure-xpath-extraction-768x396.jpg 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/4-configure-xpath-extraction-1024x528.jpg 1024w,https:/ /cdn.searchenginejournal.com/wp-content/uploads/2019/10/4-configure-xpath-extraction-1600x825.jpg 1600w「 data-src =」 https://cdn.searchenginejournal.com/wp-content/uploads /2019/10/4-configure-xpath-extraction.jpg

第3步:運行抓取和導出

此時,您應該已經準備好運行爬網。您會注意到,自定義提取是右側的倒數第二列。

批量分析爬網時,將爬網導出為Excel格式很有意義。這將使您可以應用各種過濾器,數據透視表,圖表以及任何您想要的東西。

XPaths幫助您擴展審核的3種創新方式

現在,我們知道如何運行XPath爬網,可能性無窮無盡!

我們可以使用所有答案,現在我們只需要找到正確的問題即可。

  • 審核的哪些方面可以自動化?
  • 您的內容孤島中是否有可以提取以進行審計的公共元素?
  • 您頁面上最重要的元素是什麼?

您要解決的確切問題可能會因行業或網站類型而異。以下是一些XPath可以簡化您的SEO生活的獨特情況。

1.將XPath與重定向映射一起使用

最近,我不得不重新設計一個需要新URL結構的網站。以前的頁面都有參數作為URL段,而不是頁面名稱。

這使創建數百頁的重定向映射成為一場噩夢!

因此我對自己想:「如何輕鬆地按比例識別每一頁?」

在分析了各種頁面模板之後,我得出的結論是,頁面的實際標題看起來像H1,但實際上只是大段文字。這意味著我不能只從Screaming Frog獲得標準的H1數據。

但是,XPaths允許我複製每個頁面標題的確切位置並將其提取到我的Web抓取報告中。

在這種情況下,我能夠提取所有舊URL的頁面標題,並通過Excel中的VLOOKUP函數將它們與新URL匹配。自動化的大多數重定向映射對我來說都是有效的。

對於任何自動化工作,您可能必須執行一些抽查以確保準確性。

2.使用XPath審核電子商務站點

審核電子商務網站可能是SEO審核中更具挑戰性的類型之一。還有更多因素需要考慮,例如JavaScript渲染和其他動態元素。

有時,利益相關者將需要臨時進行產品級別的審核。有時,這僅涵蓋產品類別,但有時可能是整個網站。

使用我們在本文前面學習的XPath提取方法,我們可以提取所有類型的數據,包括:

  • 產品名稱
  • 產品描述
  • 價錢
  • 審核數據
  • 圖片網址
  • 產品分類
  • 以及更多

這可以幫助您識別電子商務網站中可能缺少有價值信息的產品。

關於Screaming Frog,最酷的事情是您可以提取多個數據點以進一步擴大審核範圍。

3.使用XPath審核博客

這是使用XPath的更常見方法。 Screaming Frog允許您設置參數以爬網站點的特定子文件夾,例如博客。

但是,使用XPath,我們可以超越簡單的元數據,獲得有價值的見解,以幫助發現內容空白的機會。

分類和標籤

SEO專業人員使用XPath進行博客審核的最常見方法之一是抓取類別和標籤。

這很重要,因為它可以幫助我們將相關的博客歸為一組,這可以幫助我們確定內容的蠶食和差距。

通常,這是任何博客審核的第一步。

關鍵詞

此步驟更加註重Excel和高級。這是如何工作的,是您設置了XPath提取以從每個博客中提取正文副本。

合理的警告,這可能會大大增加您的爬網時間。

每當將此爬網導出到Excel中時,都將在一個單元格中獲得所有正文文本。我強烈建議您禁用文本換行,否則電子表格看起來會很恐怖。

接下來,在提取的正文副本右側的列中,輸入以下公式:

= ISNUMBER(SEARCH(「 keyword」,A1))

在此公式中,A1等於主體副本的單元格。

為了擴大工作量,您可以使「關鍵字」等於包含類別或標籤的單元格。但是,您可以考慮添加多列關鍵字,以更準確,更可靠地了解您的博客性能。

此公式將顯示TRUE / FALSE布爾值。您可以使用它來快速識別 關鍵字機會 和您博客中的同類相食。

作者

我們已經介紹了這個示例,但是值得注意的是,這仍然是從您的文章中提取的重要元素。

當您將博客導出數據與Google Analytics(分析)和Search Console中的效果數據混合在一起時,就可以開始確定哪些作者產生了最佳效果。

為此,請按作者對博客進行排序,然後開始跟蹤平均數據集,包括:

  • 展示次數– Search Console
  • 點擊次數– Search Console
  • 會議–分析
  • 跳出率–分析
  • 轉化–分析
  • 輔助轉化–分析

分享您的Creative XPath技巧

您是否有一些涉及XPath的創造性審核方法?在Twitter上分享此文章或標記我 @seocounseling 讓我知道我錯過了什麼!

圖片積分

作者截取的所有屏幕截圖,2019年10月

相關文章