在大型站点审核中使用XPath的3种方法

在大型站点审核中使用XPath的3种方法

创造性地使用XPath可以帮助提高审核大型网站的效率。在您的SEO工具栏中考虑这另一种工具。

您可以使用XPath解锁无数种信息,这些信息可以用于任何类别的在线业务。

使用XPath审核大型站点的一些流行方法包括:

在本指南中,我们将详细介绍如何进行这些审核。

什么是XPath?

简而言之,XPath是一种使用路径表达式来导航XML文档并标识指定元素的语法。

它用于使用HTML DOM结构查找页面上任何元素的确切位置。

我们可以使用XPath帮助提取一些信息,例如H1页面标题,电子商务网站上的产品说明或页面上实际上可用的任何内容。

虽然这对许多人来说听起来很复杂,但实际上,这很容易!

如何在尖叫青蛙中使用XPath

在本指南中,我们将使用“尖叫蛙”来抓取网页。

Screaming Frog提供了自定义提取方法,例如CSS选择器和XPath。

完全有可能使用其他方式来抓取网页,例如 蟒蛇。但是,Screaming Frog方法只需要很少的编码知识。

(注意:我目前与Screaming Frog无关,但我强烈建议他们使用其软件进行网络抓取。)

步骤1:识别您的数据点

找出要提取的数据点。

例如,假设我们的“搜索引擎期刊”没有作者页面,而您想提取每篇文章的作者姓名。

您将要做的是:

  • 右键单击作者姓名。
  • 选择检查。
  • 在“开发工具元素”面板中,您将看到您的元素已经突出显示。
  • 右键单击突出显示的HTML元素,然后转到“复制”,然后选择“复制XPath”。

2复制xpath“ width =” 2858“ height =” 1010“ Size =”(最大宽度:2858px)100vw,2858px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/2019 /10/2-copy-xpath.jpg 2858w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/2-copy-xpath-480x170.jpg 480w,https://cdn.searchenginejournal .com / wp-content / uploads / 2019/10 / 2-copy-xpath-680x240.jpg 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/2-copy-xpath- 768x271.jpg 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/2-copy-xpath-1024x362.jpg 1024w,https://cdn.searchenginejournal.com/wp-content/上传/2019/10/2-copy-xpath-1600x565.jpg 1600w“ data-src =” https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/2-copy-xpath.jpg

此时,您计算机的剪贴板将复制所需的XPath。

步骤2:设置自定义提取

在此步骤中,您将需要打开Sfroging Frog并设置要爬网的网站。在这种情况下,我将输入完整的搜索引擎日记URL。

  • 转到配置>自定义>提取

3设置xpath提取“ width =” 1268“ height =” 612“ size =”(最大宽度:1268px)100vw,1268px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/ 2019/10 / 3-setup-extraction.jpg 1268w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/3-setup-extraction-480x232.jpg 480w,https:// cdn。 searchenginejournal.com/wp-content/uploads/2019/10/3-setup-extraction-680x328.jpg 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/3-setup-extraction -768x371.jpg 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/3-setup-extraction-1024x494.jpg 1024w“ data-src =” https://cdn.searchenginejournal。 com / wp-content / uploads / 2019/10 / 3-setup-extraction.jpg

  • 这将打开“自定义提取”配置窗口。这里有很多选项,但是如果您只是想提取文本,请将您的配置与下面的屏幕截图匹配。

4配置xpath提取“ width =” 2444“ height =” 1260“ size =”(最大宽度:2444px)100vw,2444px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/ 2019/10 / 4-configure-xpath-extraction.jpg 2444w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/4-configure-xpath-extraction-480x247.jpg 480w,https: //cdn.searchenginejournal.com/wp-content/uploads/2019/10/4-configure-xpath-extraction-680x351.jpg 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10 /4-configure-xpath-extraction-768x396.jpg 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/4-configure-xpath-extraction-1024x528.jpg 1024w,https:/ /cdn.searchenginejournal.com/wp-content/uploads/2019/10/4-configure-xpath-extraction-1600x825.jpg 1600w“ data-src =” https://cdn.searchenginejournal.com/wp-content/uploads /2019/10/4-configure-xpath-extraction.jpg

第3步:运行抓取和导出

此时,您应该已经准备好运行爬网。您会注意到,自定义提取是右侧的倒数第二列。

批量分析爬网时,将爬网导出为Excel格式很有意义。这将使您可以应用各种过滤器,数据透视表,图表以及任何您想要的东西。

XPaths帮助您扩展审核的3种创新方式

现在,我们知道如何运行XPath爬网,可能性无穷无尽!

我们可以使用所有答案,现在我们只需要找到正确的问题即可。

  • 审核的哪些方面可以自动化?
  • 您的内容孤岛中是否有可以提取以进行审计的公共元素?
  • 您页面上最重要的元素是什么?

您要解决的确切问题可能会因行业或网站类型而异。以下是一些XPath可以简化您的SEO生活的独特情况。

1.将XPath与重定向映射一起使用

最近,我不得不重新设计一个需要新URL结构的网站。以前的页面都有参数作为URL段,而不是页面名称。

这使创建数百页的重定向映射成为一场噩梦!

因此我对自己想:“如何轻松地按比例识别每一页?”

在分析了各种页面模板之后,我得出的结论是,页面的实际标题看起来像H1,但实际上只是大段文字。这意味着我不能只从Screaming Frog获得标准的H1数据。

但是,XPaths允许我复制每个页面标题的确切位置并将其提取到我的Web抓取报告中。

在这种情况下,我能够提取所有旧URL的页面标题,并通过Excel中的VLOOKUP函数将它们与新URL匹配。自动化的大多数重定向映射对我来说都是有效的。

对于任何自动化工作,您可能必须执行一些抽查以确保准确性。

2.使用XPath审核电子商务站点

审核电子商务网站可能是SEO审核中更具挑战性的类型之一。还有更多因素需要考虑,例如JavaScript渲染和其他动态元素。

有时,利益相关者将需要临时进行产品级别的审核。有时,这仅涵盖产品类别,但有时可能是整个网站。

使用我们在本文前面学习的XPath提取方法,我们可以提取所有类型的数据,包括:

  • 产品名称
  • 产品描述
  • 价钱
  • 审核数据
  • 图片网址
  • 产品分类
  • 以及更多

这可以帮助您识别电子商务网站中可能缺少有价值信息的产品。

关于Screaming Frog,最酷的事情是您可以提取多个数据点以进一步扩大审核范围。

3.使用XPath审核博客

这是使用XPath的更常见方法。 Screaming Frog允许您设置参数以爬网站点的特定子文件夹,例如博客。

但是,使用XPath,我们可以超越简单的元数据,获得有价值的见解,以帮助发现内容空白的机会。

分类和标签

SEO专业人员使用XPath进行博客审核的最常见方法之一是抓取类别和标签。

这很重要,因为它可以帮助我们将相关的博客归为一组,这可以帮助我们确定内容的蚕食和差距。

通常,这是任何博客审核的第一步。

关键词

此步骤更加注重Excel和高级。这是如何工作的,是您设置了XPath提取以从每个博客中提取正文副本。

合理的警告,这可能会大大增加您的爬网时间。

每当将此爬网导出到Excel中时,都将在一个单元格中获得所有正文文本。我强烈建议您禁用文本换行,否则电子表格看起来会很恐怖。

接下来,在提取的正文副本右侧的列中,输入以下公式:

= ISNUMBER(SEARCH(“ keyword”,A1))

在此公式中,A1等于主体副本的单元格。

为了扩大工作量,您可以使“关键字”等于包含类别或标签的单元格。但是,您可以考虑添加多列关键字,以更准确,更可靠地了解您的博客性能。

此公式将显示TRUE / FALSE布尔值。您可以使用它来快速识别 关键字机会 和您博客中的同类相食。

作者

我们已经介绍了这个示例,但是值得注意的是,这仍然是从您的文章中提取的重要元素。

当您将博客导出数据与Google Analytics(分析)和Search Console中的效果数据混合在一起时,就可以开始确定哪些作者产生了最佳效果。

为此,请按作者对博客进行排序,然后开始跟踪平均数据集,包括:

  • 展示次数– Search Console
  • 点击次数– Search Console
  • 会议–分析
  • 跳出率–分析
  • 转化–分析
  • 辅助转化–分析

分享您的Creative XPath技巧

您是否有一些涉及XPath的创造性审核方法?在Twitter上分享此文章或标记我 @seocounseling 让我知道我错过了什么!

图片积分

作者截取的所有屏幕截图,2019年10月

原创文章,作者:WPJIAN,如若转载,请注明出处:https://wpjian.com/wordpress-seo/2019101415221.html