重复内容:原因和解决方法

像谷歌这样的搜索引擎有一个问题——它被称为“重复内容”。重复内容意味着相似的内容出现在网络上的多个位置 (URL),因此搜索引擎不知道在搜索结果中显示哪个 URL。这会损害网页的排名,而且当人们开始链接到相同内容的不同版本时,问题只会变得更糟。本文将帮助您了解重复内容的各种原因,并找到解决方案。

什么是重复内容?

重复内容是在网络上的多个 URL 上可用的内容。由于多个 URL 显示相同的内容,搜索引擎不知道哪个 URL 在搜索结果中排名靠前。因此,他们可能会将两个 URL 的排名都降低并优先考虑其他网页。

在本文中,我们将主要关注重复内容的技术原因及其解决方案。如果您想对重复内容有更广泛的了解,并了解它与复制或抓取的内容甚至关键字蚕食的关系,我们建议您阅读这篇文章:什么是重复内容

让我们用一个例子来说明这一点

重复的内容可以比作在十字路口,路标指向同一目的地的两个不同方向:你应该走哪条路?更糟糕的是,最终目的地也有所不同,但只是略有不同。作为读者,您可能不介意是否仍然得到想要的答案,但是搜索引擎必须选择要在搜索结果中显示的页面,因为它当然不想将相同的内容显示两次。

假设您关于“关键字 x”的文章出现在 http://www.example.com/keyword-x/ 并且相同的内容也出现在 http://www.example.com/article-category/keyword-x/ . 这种情况并非虚构:它发生在许多现代内容管理系统 (CMS) 中。然后假设您的文章已被几位博主选中,其中一些链接到第一个 URL,而其他链接到第二个。这是搜索引擎的问题显示其真实性质的时候:这是您的问题。重复的内容是您的问题,因为这些链接都宣传不同的 URL。如果它们都链接到同一个 URL,则您在“关键字 x”上排名的机会会更高。

如果您不知道您的网站是否存在重复内容问题,这些重复内容发现工具将帮助您找出答案!

为什么要防止您网站上的重复内容?

重复的内容会损害您的排名。至少,搜索引擎不会知道向用户推荐哪个页面。结果,那些搜索引擎认为重复的所有页面都有排名较低的风险。这是最好的情况。如果您的重复内容问题真的很严重,例如,如果您的内容非常单薄,并且内容逐字逐句地复制,您甚至可能会因试图欺骗用户而面临 Google 的手动操作。因此,如果您希望您的内容获得排名,那么确保每个页面都提供大量独特的内容非常重要

不过,这不仅仅是搜索引擎的问题。如果您的用户正在搜索特定页面,如果他们无法找到他们正在寻找的正确内容,这对他们来说真的很令人沮丧。因此,与 SEO 的许多方面一样,重要的是要处理用户体验和搜索的重复内容问题。

重复内容的原因

重复内容的原因有很多。它们中的大多数是技术性的:人们决定将相同的内容放在两个不同的地方而不明确哪个是原始内容的情况并不常见。当然,除非您克隆了一篇文章并意外发布了它。但除此之外,我们大多数人都觉得不自然。

但是有很多技术原因,这主要是因为开发人员不像浏览器甚至用户那样思考,更不用说搜索引擎蜘蛛了——他们像程序员一样思考。以我们之前提到的那篇文章为例,它出现在 http://www.example.com/keyword-x/ 和 http://www.example.com/article-category/keyword-x/ 上。如果你问开发商,他们会说它只存在一次。

误解 URL 的概念

不,那个开发人员并没有发疯,他们只是在说不同的语言。CMS 可能会为网站提供支持,并且在该数据库中只有一篇文章,但该网站的软件只允许通过多个 URL 检索数据库中的同一篇文章。那是因为,在开发者眼中,该文章的唯一标识符是该文章在数据库中的 ID,而不是 URL。但对于搜索引擎来说,URL 是一段内容的唯一标识符。如果您向开发人员解释这一点,他们就会开始遇到问题。阅读本文后,您甚至可以立即为他们提供解决方案。

会话 ID

例如,您通常希望跟踪访问者并允许他们将想要购买的商品存放在购物车中。为了做到这一点,你必须给他们一个“会话”。会话是访问者在您的网站上所做操作的简要历史记录,可以包含诸如购物车中的商品之类的内容。为了在访问者从一个页面单击到另一个页面时保持该会话,该会话的唯一标识符(称为会话 ID)需要存储在某处。最常见的解决方案是使用 cookie 来实现。但是,搜索引擎通常不会存储 cookie。

那时,某些系统会回退到在 URL 中使用会话 ID。这意味着网站上的每个内部链接都会将该会话 ID 添加到其 URL 中,并且由于该会话 ID 对该会话来说是唯一的,因此它会创建一个新 URL,因此会产生重复的内容。

用于跟踪和排序的 URL 参数

重复内容的另一个原因是使用不会更改页面内容的 URL 参数,例如在跟踪链接中。你看,对于搜索引擎来说,http://www.example.com/keyword-x/ 和 http://www.example.com/keyword-x/?source=rss 不是同一个 URL。后者可能允许您跟踪人们的来源,但它也可能使您更难获得良好的排名——这是非常不需要的副作用!

当然,这不仅仅用于跟踪参数。它适用于您可以添加到不更改重要内容的 URL 的每个参数,无论该参数是用于“更改一组产品的排序”还是“显示另一个侧边栏”:所有这些都会导致重复内容。

抓取工具和内容联合

重复内容的大多数原因要么是您的“错”,要么是您的网站的“错”。但是,有时其他网站会在征得或未征得您同意的情况下使用您的内容。它们并不总是链接到您的原始文章,因此搜索引擎不会“获取”它并且必须处理同一文章的另一个版本。您的网站越受欢迎,您获得的爬虫就越多,从而使这个问题变得越来越大。

参数顺序

另一个常见的原因是 CMS 不使用漂亮干净的 URL,而是使用像 /?id=1&cat=2 这样的 URL,其中 ID 指的是文章,而 cat 指的是类别。URL /?cat=2&id=1 将在大多数网站系统中呈现相同的结果,但对于搜索引擎而言则完全不同。

在我心爱的 WordPress 以及其他一些系统中,有一个选项可以对您的评论进行分页。这导致内容在文章 URL 中重复,文章 URL + /comment-page-1/、/comment-page-2/ 等。

适合打印的页面

如果您的内容管理系统创建了适合打印的页面,并且您从文章页面链接到这些页面,Google 通常会找到它们,除非您专门阻止它们。现在,问问自己:您希望 Google 展示哪个版本?有你的广告和周边内容的那个,还是只显示你的文章的那个?

万维网对比 非万维网

这是书中最古老的内容之一,但有时搜索引擎仍然会出错:当您网站的两个版本都可以访问时,WWW 与非 WWW 重复内容。另一种不太常见但我也见过的情况是 HTTP 与HTTPS重复内容,其中通过两者提供相同的内容。

概念性解决方案:“规范” URL
讽刺旁注

Canonical 是一个源自罗马天主教传统的术语,其中创建了一份圣书清单,并被认为是真实的。它们被称为新约的经典福音书。具有讽刺意味的是,罗马天主教会花了大约 300 年的时间和无数次的斗争才提出了这个规范的名单,他们最终选择了同一个故事的四个版本……

正如我们已经看到的,多个 URL 指向相同内容的事实是一个问题,但它是可以解决的。在出版物工作的人通常能够很容易地告诉您某篇文章的“正确”网址应该是什么,但有时当您询问同一家公司的三个人时,您会得到三个不同的答案……

这是一个需要解决的问题,因为最终只能有一个(URL)。一段内容的“正确” URL被搜索引擎称为 规范 URL

识别重复内容问题

您可能不知道您的网站或内容是否存在重复内容问题。使用 Google 是发现重复内容的最简单方法之一。

有几个 搜索运算符 在此类情况下非常有用。如果您想在您的网站上找到包含关键字 X 文章的所有网址,您可以在 Google 中输入以下搜索词组:

site:example.com intitle:”关键字 X”

然后,Google 将向您显示 example.com 上包含该关键字的所有页面。您使查询的 intitle 部分越具体,就越容易清除重复的内容。您可以使用相同的方法来识别网络上的重复内容。假设您文章的完整标题是“关键字 X – 为什么它很棒”,您会搜索:

intitle:“关键字 X – 为什么它很棒”

Google 会为您提供与该标题匹配的所有网站。有时甚至值得从您的文章中搜索一两个完整的句子,因为某些抓取工具可能会更改标题。在某些情况下,当您进行这样的搜索时,Google 可能会在结果的最后一页显示这样的通知:

重复内容原因和解决方案重复内容:原因和解决方案

这表明谷歌已经在对结果进行“去重”。它仍然不好,所以值得点击链接并查看所有其他结果,看看您是否可以修复其中的一些。

阅读更多:DIY:重复内容检查 »

重复内容的实用解决方案

一旦您决定哪个 URL 是您的内容的规范 URL,您就必须开始规范化过程(是的,我知道,尝试快速大声说三遍)。这意味着我们必须告诉搜索引擎有关页面的规范版本,并让他们尽快找到它。有四种解决问题的方法,按优先顺序排列:

  1. 不创建重复内容
  2. 将重复内容重定向到规范 URL
  3. 向重复页面添加规范链接元素
  4. 添加从重复页面到规范页面的 HTML 链接

避免重复内容

上述一些导致重复内容的原因有非常简单的修复方法:

  • 您的 URL 中是否有会话 ID?
    这些通常可以在您的系统设置中禁用。
  • 您有重复的打印机友好页面吗?
    这些完全没有必要:您应该只使用 打印样式表
  • 您是否在 WordPress 中使用评论分页?
    您应该在 99% 的网站上禁用此功能(在设置»讨论下)。
  • 您的参数顺序不同吗?
    告诉您的程序员构建一个脚本以始终以相同的顺序放置参数(这通常称为 URL 工厂)。
  • 是否存在跟踪链接问题?
    在大多数情况下,您可以使用基于哈希标签的营销活动跟踪,而不是基于参数的营销活动跟踪。
  • 你有 WWW 与非 WWW 的问题吗?
    选择一个并通过将一个重定向到另一个来坚持下去 您还可以在 Google 网站管理员工具中设置首选项,但您必须声明域名的两个版本。

如果您的问题不是那么容易解决,那么可能仍然值得付出努力。目标应该是完全防止出现重复的内容,因为这是迄今为止问题的最佳解决方案。

301 重定向重复内容

在某些情况下,不可能完全阻止您使用的系统为内容创建错误的 URL,但有时可以重定向它们。如果这对您来说不合逻辑(我可以理解),请在与开发人员交谈时牢记这一点。如果您确实摆脱了某些重复内容问题,请确保将所有旧的重复内容 URL 重定向到正确的规范 URL。

有时您不想或无法删除文章的重复版本,即使您知道这是错误的 URL。为了解决这个特殊问题,搜索引擎引入了规范链接元素。它位于您网站的 <head> 部分,如下所示:

<link rel=”canonical” href=”http://example.com/wordpress/seo-plugin/” />

在规范链接的 href 部分,您可以为文章放置正确的规范 URL当支持规范的搜索引擎找到此链接元素时,它会执行软 301 重定向,将该页面收集的大部分链接值转移到您的规范页面。

不过,此过程比 301 重定向要慢一些,因此,如Google 的 John Mueller 所述,如果您可以只执行 301 重定向,那将更可取 

继续阅读:rel=canonical • 它是什么以及如何(不)使用它 »

链接回原始内容

如果您无法执行上述任何操作,可能是因为您无法控制您的内容所在网站的 <head> 部分,在文章顶部或底部添加返回原始文章的链接始终是一个不错的选择主意。您可能希望通过在 RSS 源中添加返回文章的链接来执行此操作。一些抓取工具会过滤掉该链接,但其他人可能会将其保留。如果 Google 遇到多个指向您原始文章的链接,它会很快确定那是实际的规范版本。

如果人们从您的网站复制内容怎么办?[/readmore]

结论:重复的内容是可以修复的,应该修复

重复的内容无处不在。我还没有遇到过一个超过 1,000 个页面的网站,它至少没有一个微小的重复内容问题。这是您需要不断关注的事情,但它是可以修复的,并且奖励可能很丰富。只需从您的网站中删除重复的内容,您的优质内容就可以在排名中飙升!

评估您的技术 SEO 适应性

修复重复内容是您的技术 SEO 的重要组成部分。想知道您网站的整体技术 SEO 有多适合?我们创建了一个技术 SEO 健身测验,可帮助您弄清楚您需要做什么!

相关文章