在大型站点审核中使用XPath的3种方法

[ad_1]

创造性地使用XPath可以帮助提高审核大型网站的效率。在您的SEO工具栏中考虑这另一种工具。

您可以使用XPath解锁无数种信息，这些信息可以用于任何类别的在线业务。

使用XPath审核大型站点的一些流行方法包括：

在本指南中，我们将详细介绍如何进行这些审核。

什么是XPath？

简而言之，XPath是一种使用路径表达式来导航XML文档并标识指定元素的语法。

它用于使用HTML DOM结构查找页面上任何元素的确切位置。

我们可以使用XPath帮助提取一些信息，例如H1页面标题，电子商务网站上的产品说明或页面上实际上可用的任何内容。

虽然这对许多人来说听起来很复杂，但实际上，这很容易！

如何在尖叫青蛙中使用XPath

在本指南中，我们将使用“尖叫蛙”来抓取网页。

Screaming Frog提供了自定义提取方法，例如CSS选择器和XPath。

完全有可能使用其他方式来抓取网页，例如蟒蛇。但是，Screaming Frog方法只需要很少的编码知识。

（注意：我目前与Screaming Frog无关，但我强烈建议他们使用其软件进行网络抓取。）

步骤1：识别您的数据点

找出要提取的数据点。

例如，假设我们的“搜索引擎期刊”没有作者页面，而您想提取每篇文章的作者姓名。

您将要做的是：

右键单击作者姓名。
选择检查。
在“开发工具元素”面板中，您将看到您的元素已经突出显示。
右键单击突出显示的HTML元素，然后转到“复制”，然后选择“复制XPath”。

此时，您计算机的剪贴板将复制所需的XPath。

步骤2：设置自定义提取

在此步骤中，您将需要打开Sfroging Frog并设置要爬网的网站。在这种情况下，我将输入完整的搜索引擎日记URL。

转到配置>自定义>提取

这将打开“自定义提取”配置窗口。这里有很多选项，但是如果您只是想提取文本，请将您的配置与下面的屏幕截图匹配。

第3步：运行抓取和导出

此时，您应该已经准备好运行爬网。您会注意到，自定义提取是右侧的倒数第二列。

批量分析爬网时，将爬网导出为Excel格式很有意义。这将使您可以应用各种过滤器，数据透视表，图表以及任何您想要的东西。

XPaths帮助您扩展审核的3种创新方式

现在，我们知道如何运行XPath爬网，可能性无穷无尽！

我们可以使用所有答案，现在我们只需要找到正确的问题即可。

审核的哪些方面可以自动化？
您的内容孤岛中是否有可以提取以进行审计的公共元素？
您页面上最重要的元素是什么？

您要解决的确切问题可能会因行业或网站类型而异。以下是一些XPath可以简化您的SEO生活的独特情况。

1.将XPath与重定向映射一起使用

最近，我不得不重新设计一个需要新URL结构的网站。以前的页面都有参数作为URL段，而不是页面名称。

这使创建数百页的重定向映射成为一场噩梦！

因此我对自己想：“如何轻松地按比例识别每一页？”

在分析了各种页面模板之后，我得出的结论是，页面的实际标题看起来像H1，但实际上只是大段文字。这意味着我不能只从Screaming Frog获得标准的H1数据。

但是，XPaths允许我复制每个页面标题的确切位置并将其提取到我的Web抓取报告中。

在这种情况下，我能够提取所有旧URL的页面标题，并通过Excel中的VLOOKUP函数将它们与新URL匹配。自动化的大多数重定向映射对我来说都是有效的。

对于任何自动化工作，您可能必须执行一些抽查以确保准确性。

2.使用XPath审核电子商务站点

审核电子商务网站可能是SEO审核中更具挑战性的类型之一。还有更多因素需要考虑，例如JavaScript渲染和其他动态元素。

有时，利益相关者将需要临时进行产品级别的审核。有时，这仅涵盖产品类别，但有时可能是整个网站。

使用我们在本文前面学习的XPath提取方法，我们可以提取所有类型的数据，包括：

产品名称
产品描述
价钱
审核数据
图片网址
产品分类
以及更多

这可以帮助您识别电子商务网站中可能缺少有价值信息的产品。

关于Screaming Frog，最酷的事情是您可以提取多个数据点以进一步扩大审核范围。

3.使用XPath审核博客

这是使用XPath的更常见方法。 Screaming Frog允许您设置参数以爬网站点的特定子文件夹，例如博客。

但是，使用XPath，我们可以超越简单的元数据，获得有价值的见解，以帮助发现内容空白的机会。

分类和标签

SEO专业人员使用XPath进行博客审核的最常见方法之一是抓取类别和标签。

这很重要，因为它可以帮助我们将相关的博客归为一组，这可以帮助我们确定内容的蚕食和差距。

通常，这是任何博客审核的第一步。

关键词

此步骤更加注重Excel和高级。这是如何工作的，是您设置了XPath提取以从每个博客中提取正文副本。

合理的警告，这可能会大大增加您的爬网时间。

每当将此爬网导出到Excel中时，都将在一个单元格中获得所有正文文本。我强烈建议您禁用文本换行，否则电子表格看起来会很恐怖。

接下来，在提取的正文副本右侧的列中，输入以下公式：

= ISNUMBER（SEARCH（“ keyword”，A1））

在此公式中，A1等于主体副本的单元格。

为了扩大工作量，您可以使“关键字”等于包含类别或标签的单元格。但是，您可以考虑添加多列关键字，以更准确，更可靠地了解您的博客性能。

此公式将显示TRUE / FALSE布尔值。您可以使用它来快速识别关键字机会和您博客中的同类相食。

作者

我们已经介绍了这个示例，但是值得注意的是，这仍然是从您的文章中提取的重要元素。

当您将博客导出数据与Google Analytics（分析）和Search Console中的效果数据混合在一起时，就可以开始确定哪些作者产生了最佳效果。

为此，请按作者对博客进行排序，然后开始跟踪平均数据集，包括：

展示次数– Search Console
点击次数– Search Console
会议–分析
跳出率–分析
转化–分析
辅助转化–分析

分享您的Creative XPath技巧

您是否有一些涉及XPath的创造性审核方法？在Twitter上分享此文章或标记我 @seocounseling 让我知道我错过了什么！

图片积分

作者截取的所有屏幕截图，2019年10月

在大型站点审核中使用XPath的3种方法

步骤1：识别您的数据点

步骤2：设置自定义提取

第3步：运行抓取和导出

1.将XPath与重定向映射一起使用

2.使用XPath审核电子商务站点

3.使用XPath审核博客

WordPress Kinsta 自动更新功能

WordPress Sucuri 漏洞报告

WordPress OttoKit 插件高危漏洞

WordPress AI 建站工具如何使用？

2025年WordPress的安全强化：AI驱动的解决方案

AI革命化WordPress：从内容到安全

在大型站点审核中使用XPath的3种方法

步骤1：识别您的数据点

步骤2：设置自定义提取

第3步：运行抓取和导出

1.将XPath与重定向映射一起使用

2.使用XPath审核电子商务站点

3.使用XPath审核博客

相关文章