重複內容:原因和解決方法

像谷歌這樣的搜索引擎有一個問題——它被稱為「重複內容」。重複內容意味著相似的內容出現在網路上的多個位置 (URL),因此搜索引擎不知道在搜索結果中顯示哪個 URL。這會損害網頁的排名,而且當人們開始鏈接到相同內容的不同版本時,問題只會變得更糟。本文將幫助您了解重複內容的各種原因,並找到解決方案。

什麼是重複內容?

重複內容是在網路上的多個 URL 上可用的內容。由於多個 URL 顯示相同的內容,搜索引擎不知道哪個 URL 在搜索結果中排名靠前。因此,他們可能會將兩個 URL 的排名都降低並優先考慮其他網頁。

在本文中,我們將主要關注重複內容的技術原因及其解決方案。如果您想對重複內容有更廣泛的了解,並了解它與複製或抓取的內容甚至關鍵字蠶食的關係,我們建議您閱讀這篇文章:什麼是重複內容

讓我們用一個例子來說明這一點

重複的內容可以比作在十字路口,路標指向同一目的地的兩個不同方向:你應該走哪條路?更糟糕的是,最終目的地也有所不同,但只是略有不同。作為讀者,您可能不介意是否仍然得到想要的答案,但是搜索引擎必須選擇要在搜索結果中顯示的頁面,因為它當然不想將相同的內容顯示兩次。

假設您關於「關鍵字 x」的文章出現在 http://www.example.com/keyword-x/ 並且相同的內容也出現在 http://www.example.com/article-category/keyword-x/ . 這種情況並非虛構:它發生在許多現代內容管理系統 (CMS) 中。然後假設您的文章已被幾位博主選中,其中一些鏈接到第一個 URL,而其他鏈接到第二個。這是搜索引擎的問題顯示其真實性質的時候:這是您的問題。重複的內容是您的問題,因為這些鏈接都宣傳不同的 URL。如果它們都鏈接到同一個 URL,則您在「關鍵字 x」上排名的機會會更高。

如果您不知道您的網站是否存在重複內容問題,這些重複內容發現工具將幫助您找出答案!

為什麼要防止您網站上的重複內容?

重複的內容會損害您的排名。至少,搜索引擎不會知道向用戶推薦哪個頁面。結果,那些搜索引擎認為重複的所有頁面都有排名較低的風險。這是最好的情況。如果您的重複內容問題真的很嚴重,例如,如果您的內容非常單薄,並且內容逐字逐句地複製,您甚至可能會因試圖欺騙用戶而面臨 Google 的手動操作。因此,如果您希望您的內容獲得排名,那麼確保每個頁面都提供大量獨特的內容非常重要

不過,這不僅僅是搜索引擎的問題。如果您的用戶正在搜索特定頁面,如果他們無法找到他們正在尋找的正確內容,這對他們來說真的很令人沮喪。因此,與 SEO 的許多方面一樣,重要的是要處理用戶體驗和搜索的重複內容問題。

重複內容的原因

重複內容的原因有很多。它們中的大多數是技術性的:人們決定將相同的內容放在兩個不同的地方而不明確哪個是原始內容的情況並不常見。當然,除非您克隆了一篇文章並意外發布了它。但除此之外,我們大多數人都覺得不自然。

但是有很多技術原因,這主要是因為開發人員不像瀏覽器甚至用戶那樣思考,更不用說搜索引擎蜘蛛了——他們像程序員一樣思考。以我們之前提到的那篇文章為例,它出現在 http://www.example.com/keyword-x/ 和 http://www.example.com/article-category/keyword-x/ 上。如果你問開發商,他們會說它只存在一次。

誤解 URL 的概念

不,那個開發人員並沒有發瘋,他們只是在說不同的語言。CMS 可能會為網站提供支持,並且在該資料庫中只有一篇文章,但該網站的軟體只允許通過多個 URL 檢索資料庫中的同一篇文章。那是因為,在開發者眼中,該文章的唯一標識符是該文章在資料庫中的 ID,而不是 URL。但對於搜索引擎來說,URL 是一段內容的唯一標識符。如果您向開發人員解釋這一點,他們就會開始遇到問題。閱讀本文後,您甚至可以立即為他們提供解決方案。

會話 ID

例如,您通常希望跟蹤訪問者並允許他們將想要購買的商品存放在購物車中。為了做到這一點,你必須給他們一個「會話」。會話是訪問者在您的網站上所做操作的簡要歷史記錄,可以包含諸如購物車中的商品之類的內容。為了在訪問者從一個頁面單擊到另一個頁面時保持該會話,該會話的唯一標識符(稱為會話 ID)需要存儲在某處。最常見的解決方案是使用 cookie 來實現。但是,搜索引擎通常不會存儲 cookie。

那時,某些系統會回退到在 URL 中使用會話 ID。這意味著網站上的每個內部鏈接都會將該會話 ID 添加到其 URL 中,並且由於該會話 ID 對該會話來說是唯一的,因此它會創建一個新 URL,因此會產生重複的內容。

用於跟蹤和排序的 URL 參數

重複內容的另一個原因是使用不會更改頁面內容的 URL 參數,例如在跟蹤鏈接中。你看,對於搜索引擎來說,http://www.example.com/keyword-x/ 和 http://www.example.com/keyword-x/?source=rss 不是同一個 URL。後者可能允許您跟蹤人們的來源,但它也可能使您更難獲得良好的排名——這是非常不需要的副作用!

當然,這不僅僅用於跟蹤參數。它適用於您可以添加到不更改重要內容的 URL 的每個參數,無論該參數是用於「更改一組產品的排序」還是「顯示另一個側邊欄」:所有這些都會導致重複內容。

抓取工具和內容聯合

重複內容的大多數原因要麼是您的「錯」,要麼是您的網站的「錯」。但是,有時其他網站會在徵得或未徵得您同意的情況下使用您的內容。它們並不總是鏈接到您的原始文章,因此搜索引擎不會「獲取」它並且必須處理同一文章的另一個版本。您的網站越受歡迎,您獲得的爬蟲就越多,從而使這個問題變得越來越大。

參數順序

另一個常見的原因是 CMS 不使用漂亮乾淨的 URL,而是使用像 /?id=1&cat=2 這樣的 URL,其中 ID 指的是文章,而 cat 指的是類別。URL /?cat=2&id=1 將在大多數網站系統中呈現相同的結果,但對於搜索引擎而言則完全不同。

在我心愛的 WordPress 以及其他一些系統中,有一個選項可以對您的評論進行分頁。這導致內容在文章 URL 中重複,文章 URL + /comment-page-1/、/comment-page-2/ 等。

適合列印的頁面

如果您的內容管理系統創建了適合列印的頁面,並且您從文章頁面鏈接到這些頁面,Google 通常會找到它們,除非您專門阻止它們。現在,問問自己:您希望 Google 展示哪個版本?有你的廣告和周邊內容的那個,還是只顯示你的文章的那個?

萬維網對比 非萬維網

這是書中最古老的內容之一,但有時搜索引擎仍然會出錯:當您網站的兩個版本都可以訪問時,WWW 與非 WWW 重複內容。另一種不太常見但我也見過的情況是 HTTP 與HTTPS重複內容,其中通過兩者提供相同的內容。

概念性解決方案:「規範」 URL
諷刺旁註

Canonical 是一個源自羅馬天主教傳統的術語,其中創建了一份聖書清單,並被認為是真實的。它們被稱為新約的經典福音書。具有諷刺意味的是,羅馬天主教會花了大約 300 年的時間和無數次的鬥爭才提出了這個規範的名單,他們最終選擇了同一個故事的四個版本……

正如我們已經看到的,多個 URL 指向相同內容的事實是一個問題,但它是可以解決的。在出版物工作的人通常能夠很容易地告訴您某篇文章的「正確」網址應該是什麼,但有時當您詢問同一家公司的三個人時,您會得到三個不同的答案……

這是一個需要解決的問題,因為最終只能有一個(URL)。一段內容的「正確」 URL被搜索引擎稱為 規範 URL

識別重複內容問題

您可能不知道您的網站或內容是否存在重複內容問題。使用 Google 是發現重複內容的最簡單方法之一。

有幾個 搜索運算符 在此類情況下非常有用。如果您想在您的網站上找到包含關鍵字 X 文章的所有網址,您可以在 Google 中輸入以下搜索片語:

site:example.com intitle:”關鍵字 X”

然後,Google 將向您顯示 example.com 上包含該關鍵字的所有頁面。您使查詢的 intitle 部分越具體,就越容易清除重複的內容。您可以使用相同的方法來識別網路上的重複內容。假設您文章的完整標題是「關鍵字 X – 為什麼它很棒」,您會搜索:

intitle:「關鍵字 X – 為什麼它很棒」

Google 會為您提供與該標題匹配的所有網站。有時甚至值得從您的文章中搜索一兩個完整的句子,因為某些抓取工具可能會更改標題。在某些情況下,當您進行這樣的搜索時,Google 可能會在結果的最後一頁顯示這樣的通知:

重複內容原因和解決方案重複內容:原因和解決方案

這表明谷歌已經在對結果進行「去重」。它仍然不好,所以值得點擊鏈接並查看所有其他結果,看看您是否可以修復其中的一些。

閱讀更多:DIY:重複內容檢查 »

重複內容的實用解決方案

一旦您決定哪個 URL 是您的內容的規範 URL,您就必須開始規範化過程(是的,我知道,嘗試快速大聲說三遍)。這意味著我們必須告訴搜索引擎有關頁面的規範版本,並讓他們儘快找到它。有四種解決問題的方法,按優先順序排列:

  1. 不創建重複內容
  2. 將重複內容重定向到規範 URL
  3. 向重複頁面添加規範鏈接元素
  4. 添加從重複頁面到規範頁面的 HTML 鏈接

避免重複內容

上述一些導致重複內容的原因有非常簡單的修復方法:

  • 您的 URL 中是否有會話 ID?
    這些通常可以在您的系統設置中禁用。
  • 您有重複的印表機友好頁面嗎?
    這些完全沒有必要:您應該只使用 列印樣式表
  • 您是否在 WordPress 中使用評論分頁?
    您應該在 99% 的網站上禁用此功能(在設置»討論下)。
  • 您的參數順序不同嗎?
    告訴您的程序員構建一個腳本以始終以相同的順序放置參數(這通常稱為 URL 工廠)。
  • 是否存在跟蹤鏈接問題?
    在大多數情況下,您可以使用基於哈希標籤的營銷活動跟蹤,而不是基於參數的營銷活動跟蹤。
  • 你有 WWW 與非 WWW 的問題嗎?
    選擇一個並通過將一個重定向到另一個來堅持下去 您還可以在 Google 網站管理員工具中設置首選項,但您必須聲明域名的兩個版本。

如果您的問題不是那麼容易解決,那麼可能仍然值得付出努力。目標應該是完全防止出現重複的內容,因為這是迄今為止問題的最佳解決方案。

301 重定向重複內容

在某些情況下,不可能完全阻止您使用的系統為內容創建錯誤的 URL,但有時可以重定向它們。如果這對您來說不合邏輯(我可以理解),請在與開發人員交談時牢記這一點。如果您確實擺脫了某些重複內容問題,請確保將所有舊的重複內容 URL 重定向到正確的規範 URL。

有時您不想或無法刪除文章的重複版本,即使您知道這是錯誤的 URL。為了解決這個特殊問題,搜索引擎引入了規範鏈接元素。它位於您網站的 <head> 部分,如下所示:

<link rel=”canonical” href=”http://example.com/wordpress/seo-plugin/” />

在規範鏈接的 href 部分,您可以為文章放置正確的規範 URL當支持規範的搜索引擎找到此鏈接元素時,它會執行軟 301 重定向,將該頁面收集的大部分鏈接值轉移到您的規範頁面。

不過,此過程比 301 重定向要慢一些,因此,如Google 的 John Mueller 所述,如果您可以只執行 301 重定向,那將更可取 

繼續閱讀:rel=canonical • 它是什麼以及如何(不)使用它 »

鏈接回原始內容

如果您無法執行上述任何操作,可能是因為您無法控制您的內容所在網站的 <head> 部分,在文章頂部或底部添加返回原始文章的鏈接始終是一個不錯的選擇主意。您可能希望通過在 RSS 源中添加返迴文章的鏈接來執行此操作。一些抓取工具會過濾掉該鏈接,但其他人可能會將其保留。如果 Google 遇到多個指向您原始文章的鏈接,它會很快確定那是實際的規範版本。

如果人們從您的網站複製內容怎麼辦?[/readmore]

結論:重複的內容是可以修復的,應該修復

重複的內容無處不在。我還沒有遇到過一個超過 1,000 個頁面的網站,它至少沒有一個微小的重複內容問題。這是您需要不斷關注的事情,但它是可以修復的,並且獎勵可能很豐富。只需從您的網站中刪除重複的內容,您的優質內容就可以在排名中飆升!

評估您的技術 SEO 適應性

修復重複內容是您的技術 SEO 的重要組成部分。想知道您網站的整體技術 SEO 有多適合?我們創建了一個技術 SEO 健身測驗,可幫助您弄清楚您需要做什麼!

相關文章