使用Python進行高級重複內容整合

[ad_1]
使用Python進行高級重複內容整合

這是一個常見且有趣的重複內容問題。

Python的高級重複內容合併「width =」2468「height =」1348「sizes =」(最大寬度:2468px)100vw,2468px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/上傳/ 2019/06 / david-yurman-color.png 2468w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/david-yurman-color-480x262.png 480w,https:// cdn.searchenginejournal.com/wp-content/uploads/2019/06/david-yurman-color-680x371.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/david-yurman -color-768x419.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/david-yurman-color-1024x559.png 1024w,https://cdn.searchenginejournal.com/wp -content / uploads / 2019/06 / david-yurman-color-1600x874.png 1600w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/david-yurman-color巴紐

您有像David Yurman這樣的零售商,產品有不同的顏色變化,並選擇在自己的URL上顯示每種產品顏色。

每個產品/顏色網址通常都具有相同的內容,但會更改主要產品圖片,這與將它們分開的差異不足。

您是否應該將所有產品變體標準化為一個併合並重複內容?

或者您是否應該重寫產品名稱,描述等,以使每個版本保持獨立和獨特?

當您合併具有大部分相同內容的頁面時,通常會獲得更高的性能。 這個例證 谷歌顯示原因。

Python的高級重複內容合併「width =」1500「height =」1224「sizes =」(最大寬度:1500px)100vw,1500px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / url-consolidation.png 1500w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/url-consolidation-480x392.png 480w,https://cdn.searchenginejournal。 com / wp-content / uploads / 2019/06 / url-consolidation-680x555.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/url-consolidation-768x627.png 768w, https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/url-consolidation-1024x836.png 1024w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/ 2019/06 / URL-consolidation.png

您正在間接構建規範頁面的鏈接。

當您的網頁內容大部分相同時,他們會在SERP中競爭相同的條款,其中大多數會在查詢時進行過濾。過濾的每個頁面都會累積浪費的鏈接。

但是,這是一個有趣的案例。如果人們專門搜索某些頁面中僅提供的內容會怎麼樣?

在這種情況下,鞏固這些是不明智的,因為我們會失去相關的排名。

讓我們使用SEMrush為這個家庭帶來一個具體的例子。

David Yurman的產品至少有六種主要顏色:純銀,黑鈦,玫瑰金,黃金,白金和綠色祖母綠。

Google中可能存在特定於顏色的搜索,這些搜索會導致產品頁面。如果是這種情況,我們不希望合併這些頁面,以便他們可以捕獲相關的顏色特定搜索流量。

這是一個例子 SEMrush搜索 這可以幫助我們檢查是否是這種情況。

Python的高級重複內容合併「width =」2408「height =」1238「sizes =」(最大寬度:2408px)100vw,2408px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/上傳/ 2019/06 / semrush-davidyurman.png 2408w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/semrush-davidyurman-480x247.png 480w,https://cdn.searchenginejournal。 com / wp-content / uploads / 2019/06 / semrush-davidyurman-680x350.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/semrush-davidyurman-768x395.png 768w, https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/semrush-davidyurman-1024x526.png 1024w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/semrush -davidyurman-1600x823.png 1600w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/semrush-davidyurman.png

例如,我們對純銀有489種有機關鍵詞排名,玫瑰金有863種,黑鈦只有51種。

我還使用手機作為設備進行了檢查,其中純銀為30,玫瑰金為77,黑鈦僅為11。

大多數網站要麼像David Yurman那樣將顏色網址分開,要麼將顏色合併到URL級別的一個頁面中或使用規範。

至少從SEO性能的角度來看,考慮到搜索次數較少,將黑鈦作為單獨的URL看起來並不是一個特別好的選擇。

但是,如果我們能找到理想的中間地帶呢?

如果我們可以合併某些產品網址而不是其他網址,該怎麼辦

如果我們能夠根據性能數據執行這些決策怎麼辦?

這就是我們將在本文中學習如何做的事情!

以下是我們的行動計劃:

  • 我們將使用OnCrawl的爬蟲來收集所有產品頁面及其SEO元數據(包括規範)。
  • 我們將使用SEMrush收集特定顏色的搜索詞和相應的產品頁面。
  • 我們將定義一個簡單的聚類演算法,根據是否有顏色搜索對產品進行分組(或不分組)。
  • 我們將使用Tableau可視化群集更改並更好地了解更改。
  • 我們將使用RankSense應用程序將我們的實驗性更改上傳到Cloudflare CDN。

1.使用OnCrawl獲取產品頁面組

我使用主站點URL開始網站抓取:https://www.davidyurman.com。

高級重複內容合併與Python「width =」2462「height =」1240「sizes =」(最大寬度:2462px)100vw,2462px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/上傳/ 2019/06 / oncrawl1.png 2462w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/oncrawl1-480x242.png 480w,https://cdn.searchenginejournal.com/wp- content / uploads / 2019/06 / oncrawl1-680x342.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/oncrawl1-768x387.png 768w,https://cdn.searchenginejournal。 com / wp-content / uploads / 2019/06 / oncrawl1-1024x516.png 1024w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/oncrawl1-1600x806.png 1600w「data-src = 「https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/oncrawl1.png

因為我只對審查美國產品感興趣,所以我下載了 美國產品XML站點地圖,將其轉換為CSV文件,並將其作為zip文件上傳。

高級重複內容合併與Python「width =」2462「height =」1240「sizes =」(最大寬度:2462px)100vw,2462px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/上傳/ 2019/06 / oncrawl2.png 2462w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/oncrawl2-480x242.png 480w,https://cdn.searchenginejournal.com/wp- content / uploads / 2019/06 / oncrawl2-680x342.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/oncrawl2-768x387.png 768w,https://cdn.searchenginejournal。 com / wp-content / uploads / 2019/06 / oncrawl2-1024x516.png 1024w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/oncrawl2-1600x806.png 1600w「data-src = 「https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/oncrawl2.png

我將現有的rel = canonical添加為列,並導出了2,465個URL的列表。

Python的高級重複內容合併「width =」2468「height =」1340「sizes =」(最大寬度:2468px)100vw,2468px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / data-exporter.png 2468w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/data-exporter-480x261.png 480w,https://cdn.searchenginejournal。 com / wp-content / uploads / 2019/06 / data-exporter-680x369.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/data-exporter-768x417.png 768w, https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/data-exporter-1024x556.png 1024w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/data -exporter-1600x869.png 1600w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/data-exporter.png2.使用SEMrush將顏色搜索查詢提供給產品頁面

我把最初的顏色列表放在一起:純銀,黑鈦,玫瑰金,黃金,白金,綠寶石。然後從SEMrush導出六個產品列表。

3.按產品標識符對產品URL進行聚類

我們將使用Google Colab和一些Python腳本來進行聚類。

首先,讓我們導入OnCrawl導出文件。

然後,我們也可以 進口 帶有顏色搜索的SEMrush文件。

Python的高級重複內容合併「width =」2346「height =」1006「sizes =」(最大寬度:2346px)100vw,2346px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / import-product-colors.png 2346w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/import-product-colors-480x206.png 480w,https:// cdn.searchenginejournal.com/wp-content/uploads/2019/06/import-product-colors-680x292.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/import-product -colors-768x329.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/import-product-colors-1024x439.png 1024w,https://cdn.searchenginejournal.com/wp -content / uploads / 2019/06 / import-product-colors-1600x686.png 1600w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/import-product-colors巴紐

我嘗試了一些想法從URL中提取產品ID,包括使用OnCrawl的內容提取功能,但最終解決了從URL中提取它的問題。

接下來,我們可以將產品ID列添加到Dataframe中,並將URL分組以執行群集。

高級重複內容合併與Python「width =」1388「height =」1130「sizes =」(最大寬度:1388px)100vw,1388px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / product_id_clusters.png 1388w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/product_id_clusters-480x391.png 480w,https://cdn.searchenginejournal.com/wp- content / uploads / 2019/06 / product_id_clusters-680x554.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/product_id_clusters-768x625.png 768w,https://cdn.searchenginejournal。 com / wp-content / uploads / 2019/06 / product_id_clusters-1024x834.png 1024w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/product_id_clusters.png

在此群集練習中,您可以看到一些沒有規範的產品ID。我們將通過向這些URL添加自引用規範來解決這個問題。

讓我們將數據框導出到CSV文件並導入Tableau以進行進一步分析。在Tableau中,我們可以更好地可視化當前的規範集群。

在Tableau中,完成以下步驟:

  • 使用文本文件數據源連接到CSV文件。
  • 通過將URL和Canonicals拖動到該部分,將其轉換為Measures。
  • 將產品ID拖到行中。
  • 將Canonicals和URL計數拖到列中。
  • 右鍵單擊空URL行,然後選擇要將其排除的選項。
  • 將圖表類型更改為 樹形圖
  • 添加名為「Canonicalized」的計算欄位並粘貼此公式.IF COUNTD((URL)) – COUNTD((Rel Canonical))== 0然後「自我參照」ELSE「Canonicalized」END
  • 將計算欄位拖動到顏色標記。
  • 將URL計數拖到篩選器並指定至少兩個URL。
  • 拖動計數URL並將規範計數到詳細信息標記。

Python的高級重複內容合併「width =」2474「height =」1394「sizes =」(最大寬度:2474px)100vw,2474px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / tableau-setup.png 2474w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/tableau-setup-480x270.png 480w,https://cdn.searchenginejournal。 com / wp-content / uploads / 2019/06 / tableau-setup-680x383.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/tableau-setup-768x433.png 768w, https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/tableau-setup-1024x577.png 1024w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/tableau -setup-1600x902.png 1600w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/tableau-setup.png

這就是設置的樣子。

每個方塊代表產品ID群集。較大的網站有更多的網址。計算欄位「canonicalized」使用顏色來判斷群集是規範化還是自引用。

我們可以看到,在其當前的設置中,David Yurman產品大多是自引用的,很少有簇規範化(藍色方塊)。

Python的高級重複內容合併「width =」635「height =」456「sizes =」(最大寬度:635px)100vw,635px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / product_id_cluster.png 635w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/product_id_cluster-480x345.png 480w「data-src =」https://cdn.searchenginejournal的.com /可濕性粉劑內容/上傳/ 2019/06 / product_id_cluster.png

這是一個仔細看看。

如果大多數產品從特定顏色的產品搜索中獲得搜索流量,這將是一個很好的設置。讓我們看看接下來的情況。

4.將Canonical Clusters轉換為Canonicalized

我們將執行一個中間步驟並強制所有產品組規範化為組中的第一個URL。

這足以說明這個概念,但是對於生產用途,我們希望規範化到組中最流行的URL。它可能是鏈接最多的網頁,也可能是搜索次數或展示次數最多的網頁。

更新集群後,我們可以返回Tableau,重複與之前相同的步驟並查看更新的可視化。

Python的高級重複內容合併「width =」635「height =」456「sizes =」(最大寬度:635px)100vw,635px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / canonicalized-clusters.png 635w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/canonicalized-clusters-480x345.png 480w「data-src =」https:/ /cdn.searchenginejournal.com/wp-content/uploads/2019/06/canonicalized-clusters.png

你可以看到,現在沒有一個集群是自我引用的,因為我們強迫它們不是這樣的。所有這些都規範化為只有一個URL。

5.將一些規範集群轉為自引用

現在,在最後一步中,我們將了解有多少簇應該是自引用的。

由於所有群組現在都規範化為一個網址,我們只需要打破這些群集,其中網址具有顏色詞的搜索流量。我們將改變規範是自我指涉的。

首先,讓我們導入我們導出到數據幀中的所有SEMrush文件,並將URL轉換為一組以便於檢查。

下一步是僅為匹配的組更新規範。

完成此過程後,我們可以返回Tableau並查看最終的集群。

Python的高級重複內容合併「width =」635「height =」456「sizes =」(最大寬度:635px)100vw,635px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / adjusted-self-referrential-cluster.png 635w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/adjusted-self-referrential-cluster-480x345.png 480w「數據-SRC =「https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/adjusted-self-referrential-cluster.png

令人驚訝的是,我們只需要更新一個集群,這意味著David Yurman在桌面上留下了大量資金,其當前的設置依賴於自我引用的規範。

6.使用RankSense實現Cloudflare的實驗變化

在傳統的CMS上執行像這樣的選擇性和實驗性更改可能不切實際,需要認真的開發工作,或者如果沒有證據可以解決這個問題。

幸運的是,這些是使用我們的應用程序在Cloudflare中輕鬆部署並且無需編寫後端代碼的更改類型。 (披露:我為RankSense工作。)

我們會將建議的規範群集複製到Google表格中。這是一個例子:

Python的高級重複內容合併「width =」2468「height =」1342「sizes =」(最大寬度:2468px)100vw,2468px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / davidyurman-seo-rules.png 2468w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/davidyurman-seo-rules-480x261.png 480w,https:// cdn.searchenginejournal.com/wp-content/uploads/2019/06/davidyurman-seo-rules-680x370.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/davidyurman-seo -rules-768x418.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/davidyurman-seo-rules-1024x557.png 1024w,https://cdn.searchenginejournal.com/wp -content / uploads / 2019/06 / davidyurman-seo-rules-1600x870.png 1600w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/davidyurman-seo-rules巴紐

假設David Yurman使用了Cloudflare並擁有了我們的 實施應用 安裝後,我們可以簡單地上傳工作表,添加一些標籤來跟蹤性能並提交它以獲得對暫存預覽或生產的更改。

Python的高級重複內容合併「width =」2464「height =」1340「sizes =」(最大寬度:2464px)100vw,2464px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / davidyurman-ranksense-rules.png 2464w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/davidyurman-ranksense-rules-480x261.png 480w,https:// cdn.searchenginejournal.com/wp-content/uploads/2019/06/davidyurman-ranksense-rules-680x370.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/davidyurman-ranksense -rules-768x418.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/davidyurman-ranksense-rules-1024x557.png 1024w,https://cdn.searchenginejournal.com/wp -content / uploads / 2019/06 / davidyurman-ranksense-rules-1600x870.png 1600w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/davidyurman-ranksense-rules巴紐

最後,我們可以使用我們的15分鐘審核Chrome擴展程序手動審核規範正常運行,但可以肯定的是,我們應該運行另一次OnCrawl抓取以確保所有更改都已到位。

我發現了重複的元描述,我確信他們有更多的SEO問題需要解決。

Python的高級重複內容合併「width =」2470「height =」1338「sizes =」(最大寬度:2470px)100vw,2470px「data-srcset =」https://cdn.searchenginejournal.com/wp-content/上傳/ 2019/06 / david-yurman-canonical.png 2470w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/david-yurman-canonical-480x260.png 480w,https:// cdn.searchenginejournal.com/wp-content/uploads/2019/06/david-yurman-canonical-680x368.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/david-yurman -canon-768x416.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/david-yurman-canonical-1024x555.png 1024w,https://cdn.searchenginejournal.com/wp -content / uploads / 2019/06 / david-yurman-canonical-1600x867.png 1600w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/06/david-yurman-canonical巴紐

如果這個想法證明對他們有效,他們可以自信地委託開發工作在他們的網站上實現這個。

資源以了解更多信息

看到Python SEO社區在過去幾個月里增長如此之快,真是令人興奮。甚至谷歌的約翰穆勒也開始注意到了。

社區中的一些人一直在做一些不可思議的工作。

例如,JR Oakes分享了他已經工作了兩年的內容生成項目的結果!

阿萊西奧 建了一個 很酷的劇本 這會生成「人們也問過」問題的互動式可視化。

總的來說,儘管我的工作得到了如下所述的好評,但我對整個社區正在建設的越來越多的工作感到非常興奮。

我們每天都在變得更強大,更可信!

圖片來源

所有截圖均由作者拍攝,2019年7月

相關文章