使用Python进行高级重复内容整合

[ad_1]
使用Python进行高级重复内容整合

这是一个常见且有趣的重复内容问题。

您有像David Yurman这样的零售商，产品有不同的颜色变化，并选择在自己的URL上显示每种产品颜色。

每个产品/颜色网址通常都具有相同的内容，但会更改主要产品图片，这与将它们分开的差异不足。

您是否应该将所有产品变体标准化为一个并合并重复内容？

或者您是否应该重写产品名称，描述等，以使每个版本保持独立和独特？

当您合并具有大部分相同内容的页面时，通常会获得更高的性能。这个例证谷歌显示原因。

您正在间接构建规范页面的链接。

当您的网页内容大部分相同时，他们会在SERP中竞争相同的条款，其中大多数会在查询时进行过滤。过滤的每个页面都会累积浪费的链接。

但是，这是一个有趣的案例。如果人们专门搜索某些页面中仅提供的内容会怎么样？

在这种情况下，巩固这些是不明智的，因为我们会失去相关的排名。

让我们使用SEMrush为这个家庭带来一个具体的例子。

David Yurman的产品至少有六种主要颜色：纯银，黑钛，玫瑰金，黄金，白金和绿色祖母绿。

Google中可能存在特定于颜色的搜索，这些搜索会导致产品页面。如果是这种情况，我们不希望合并这些页面，以便他们可以捕获相关的颜色特定搜索流量。

这是一个例子 SEMrush搜索这可以帮助我们检查是否是这种情况。

例如，我们对纯银有489种有机关键词排名，玫瑰金有863种，黑钛只有51种。

我还使用手机作为设备进行了检查，其中纯银为30，玫瑰金为77，黑钛仅为11。

大多数网站要么像David Yurman那样将颜色网址分开，要么将颜色合并到URL级别的一个页面中或使用规范。

至少从SEO性能的角度来看，考虑到搜索次数较少，将黑钛作为单独的URL看起来并不是一个特别好的选择。

但是，如果我们能找到理想的中间地带呢？

如果我们可以合并某些产品网址而不是其他网址，该怎么办

如果我们能够根据性能数据执行这些决策怎么办？

这就是我们将在本文中学习如何做的事情！

以下是我们的行动计划：

我们将使用OnCrawl的爬虫来收集所有产品页面及其SEO元数据（包括规范）。
我们将使用SEMrush收集特定颜色的搜索词和相应的产品页面。
我们将定义一个简单的聚类算法，根据是否有颜色搜索对产品进行分组（或不分组）。
我们将使用Tableau可视化群集更改并更好地了解更改。
我们将使用RankSense应用程序将我们的实验性更改上传到Cloudflare CDN。

1.使用OnCrawl获取产品页面组

我使用主站点URL开始网站抓取：https：//www.davidyurman.com。

因为我只对审查美国产品感兴趣，所以我下载了美国产品XML站点地图，将其转换为CSV文件，并将其作为zip文件上传。

我将现有的rel = canonical添加为列，并导出了2,465个URL的列表。

2.使用SEMrush将颜色搜索查询提供给产品页面

我把最初的颜色列表放在一起：纯银，黑钛，玫瑰金，黄金，白金，绿宝石。然后从SEMrush导出六个产品列表。

3.按产品标识符对产品URL进行聚类

我们将使用Google Colab和一些Python脚本来进行聚类。

首先，让我们导入OnCrawl导出文件。

然后，我们也可以进口带有颜色搜索的SEMrush文件。

我尝试了一些想法从URL中提取产品ID，包括使用OnCrawl的内容提取功能，但最终解决了从URL中提取它的问题。

接下来，我们可以将产品ID列添加到Dataframe中，并将URL分组以执行群集。

在此群集练习中，您可以看到一些没有规范的产品ID。我们将通过向这些URL添加自引用规范来解决这个问题。

让我们将数据框导出到CSV文件并导入Tableau以进行进一步分析。在Tableau中，我们可以更好地可视化当前的规范集群。

在Tableau中，完成以下步骤：

使用文本文件数据源连接到CSV文件。
通过将URL和Canonicals拖动到该部分，将其转换为Measures。
将产品ID拖到行中。
将Canonicals和URL计数拖到列中。
右键单击空URL行，然后选择要将其排除的选项。
将图表类型更改为树形图。
添加名为“Canonicalized”的计算字段并粘贴此公式.IF COUNTD（（URL）） – COUNTD（（Rel Canonical））== 0然后“自我参照”ELSE“Canonicalized”END
将计算字段拖动到颜色标记。
将URL计数拖到筛选器并指定至少两个URL。
拖动计数URL并将规范计数到详细信息标记。

这就是设置的样子。

每个方块代表产品ID群集。较大的网站有更多的网址。计算字段“canonicalized”使用颜色来判断群集是规范化还是自引用。

我们可以看到，在其当前的设置中，David Yurman产品大多是自引用的，很少有簇规范化（蓝色方块）。

Python的高级重复内容合并“width =”635“height =”456“sizes =”（最大宽度：635px）100vw，635px“data-srcset =”https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / product_id_cluster.png 635w，https：//cdn.searchenginejournal.com/wp-content/uploads/2019/06/product_id_cluster-480x345.png 480w“data-src =”https：//cdn.searchenginejournal的.com /可湿性粉剂内容/上传/ 2019/06 / product_id_cluster.png

这是一个仔细看看。

如果大多数产品从特定颜色的产品搜索中获得搜索流量，这将是一个很好的设置。让我们看看接下来的情况。

4.将Canonical Clusters转换为Canonicalized

我们将执行一个中间步骤并强制所有产品组规范化为组中的第一个URL。

这足以说明这个概念，但是对于生产用途，我们希望规范化到组中最流行的URL。它可能是链接最多的网页，也可能是搜索次数或展示次数最多的网页。

更新集群后，我们可以返回Tableau，重复与之前相同的步骤并查看更新的可视化。

Python的高级重复内容合并“width =”635“height =”456“sizes =”（最大宽度：635px）100vw，635px“data-srcset =”https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/06 / canonicalized-clusters.png 635w，https：//cdn.searchenginejournal.com/wp-content/uploads/2019/06/canonicalized-clusters-480x345.png 480w“data-src =”https：/ /cdn.searchenginejournal.com/wp-content/uploads/2019/06/canonicalized-clusters.png

你可以看到，现在没有一个集群是自我引用的，因为我们强迫它们不是这样的。所有这些都规范化为只有一个URL。

5.将一些规范集群转为自引用

现在，在最后一步中，我们将了解有多少簇应该是自引用的。

由于所有群组现在都规范化为一个网址，我们只需要打破这些群集，其中网址具有颜色词的搜索流量。我们将改变规范是自我指涉的。

首先，让我们导入我们导出到数据帧中的所有SEMrush文件，并将URL转换为一组以便于检查。

下一步是仅为匹配的组更新规范。

完成此过程后，我们可以返回Tableau并查看最终的集群。

令人惊讶的是，我们只需要更新一个集群，这意味着David Yurman在桌面上留下了大量资金，其当前的设置依赖于自我引用的规范。

6.使用RankSense实现Cloudflare的实验变化

在传统的CMS上执行像这样的选择性和实验性更改可能不切实际，需要认真的开发工作，或者如果没有证据可以解决这个问题。

幸运的是，这些是使用我们的应用程序在Cloudflare中轻松部署并且无需编写后端代码的更改类型。（披露：我为RankSense工作。）

我们会将建议的规范群集复制到Google表格中。这是一个例子：

假设David Yurman使用了Cloudflare并拥有了我们的实施应用安装后，我们可以简单地上传工作表，添加一些标签来跟踪性能并提交它以获得对暂存预览或生产的更改。

最后，我们可以使用我们的15分钟审核Chrome扩展程序手动审核规范正常运行，但可以肯定的是，我们应该运行另一次OnCrawl抓取以确保所有更改都已到位。

我发现了重复的元描述，我确信他们有更多的SEO问题需要解决。

如果这个想法证明对他们有效，他们可以自信地委托开发工作在他们的网站上实现这个。

资源以了解更多信息

看到Python SEO社区在过去几个月里增长如此之快，真是令人兴奋。甚至谷歌的约翰穆勒也开始注意到了。

未来：约翰正在看到更多聪明的SEO。

– 再次搜索引擎优化和编码
– 更少的魔法咒语，更多的知识
– 倾听并向同学学习，然后尝试一下
– 一些最好的人在MN搜索峰会上发言

@johnmu 在 #mnsummit

– Mark Traphagen（@marktraphagen） 2019年6月21日

社区中的一些人一直在做一些不可思议的工作。

例如，JR Oakes分享了他已经工作了两年的内容生成项目的结果！

我刚刚分享的一些结果 @hamletbatista 在谷歌培训一个LM模型的结果为“技术搜索引擎优化”。他就是那个人 #SEO 真的让我更加努力，我非常重视他的友谊。＃很高兴 pic.twitter.com/4Jv4IswirM

– JR％20Oakes?（@jroakes） 2019年6月21日

阿莱西奥建了一个很酷的剧本这会生成“人们也问过”问题的交互式可视化。

总的来说，尽管我的工作得到了如下所述的好评，但我对整个社区正在建设的越来越多的工作感到非常兴奋。

我们每天都在变得更强大，更可信！

爱，爱，爱 #ML 内容@hamletbatista与…分享 #seo 社区通过@sejournal?另一个伟大的入门?使用深度学习的自动意图分类 https://t.co/w0c2i8UVM9

– MichelleRobbins（@MichelleRobbins） 2019年6月20日

可能是到目前为止2019年最聪明的SEO帖子 – >使用深度学习的自动意图分类 https://t.co/bRgMqekdZX 通过 @hamletbatista， @sejournal

– chriscountey（@chriscountey） 2019年6月21日

图片来源

所有截图均由作者拍摄，2019年7月

使用Python进行高级重复内容整合

WordPress Kinsta 自动更新功能

WordPress Sucuri 漏洞报告

WordPress OttoKit 插件高危漏洞

WordPress AI 建站工具如何使用？

2025年WordPress的安全强化：AI驱动的解决方案

AI革命化WordPress：从内容到安全

使用Python进行高级重复内容整合

相关文章