[ad_1]
创造性地使用XPath可以帮助提高审核大型网站的效率。在您的SEO工具栏中考虑这另一种工具。
您可以使用XPath解锁无数种信息,这些信息可以用于任何类别的在线业务。
使用XPath审核大型站点的一些流行方法包括:
在本指南中,我们将详细介绍如何进行这些审核。
什么是XPath?
简而言之,XPath是一种使用路径表达式来导航XML文档并标识指定元素的语法。
它用于使用HTML DOM结构查找页面上任何元素的确切位置。
我们可以使用XPath帮助提取一些信息,例如H1页面标题,电子商务网站上的产品说明或页面上实际上可用的任何内容。
虽然这对许多人来说听起来很复杂,但实际上,这很容易!
如何在尖叫青蛙中使用XPath
在本指南中,我们将使用“尖叫蛙”来抓取网页。
Screaming Frog提供了自定义提取方法,例如CSS选择器和XPath。
完全有可能使用其他方式来抓取网页,例如 蟒蛇。但是,Screaming Frog方法只需要很少的编码知识。
(注意:我目前与Screaming Frog无关,但我强烈建议他们使用其软件进行网络抓取。)
步骤1:识别您的数据点
找出要提取的数据点。
例如,假设我们的“搜索引擎期刊”没有作者页面,而您想提取每篇文章的作者姓名。
您将要做的是:
- 右键单击作者姓名。
- 选择检查。
- 在“开发工具元素”面板中,您将看到您的元素已经突出显示。
- 右键单击突出显示的HTML元素,然后转到“复制”,然后选择“复制XPath”。
此时,您计算机的剪贴板将复制所需的XPath。
步骤2:设置自定义提取
在此步骤中,您将需要打开Sfroging Frog并设置要爬网的网站。在这种情况下,我将输入完整的搜索引擎日记URL。
- 转到配置>自定义>提取
- 这将打开“自定义提取”配置窗口。这里有很多选项,但是如果您只是想提取文本,请将您的配置与下面的屏幕截图匹配。
第3步:运行抓取和导出
此时,您应该已经准备好运行爬网。您会注意到,自定义提取是右侧的倒数第二列。
批量分析爬网时,将爬网导出为Excel格式很有意义。这将使您可以应用各种过滤器,数据透视表,图表以及任何您想要的东西。
XPaths帮助您扩展审核的3种创新方式
现在,我们知道如何运行XPath爬网,可能性无穷无尽!
我们可以使用所有答案,现在我们只需要找到正确的问题即可。
- 审核的哪些方面可以自动化?
- 您的内容孤岛中是否有可以提取以进行审计的公共元素?
- 您页面上最重要的元素是什么?
您要解决的确切问题可能会因行业或网站类型而异。以下是一些XPath可以简化您的SEO生活的独特情况。
1.将XPath与重定向映射一起使用
最近,我不得不重新设计一个需要新URL结构的网站。以前的页面都有参数作为URL段,而不是页面名称。
这使创建数百页的重定向映射成为一场噩梦!
因此我对自己想:“如何轻松地按比例识别每一页?”
在分析了各种页面模板之后,我得出的结论是,页面的实际标题看起来像H1,但实际上只是大段文字。这意味着我不能只从Screaming Frog获得标准的H1数据。
但是,XPaths允许我复制每个页面标题的确切位置并将其提取到我的Web抓取报告中。
在这种情况下,我能够提取所有旧URL的页面标题,并通过Excel中的VLOOKUP函数将它们与新URL匹配。自动化的大多数重定向映射对我来说都是有效的。
2.使用XPath审核电子商务站点
审核电子商务网站可能是SEO审核中更具挑战性的类型之一。还有更多因素需要考虑,例如JavaScript渲染和其他动态元素。
有时,利益相关者将需要临时进行产品级别的审核。有时,这仅涵盖产品类别,但有时可能是整个网站。
使用我们在本文前面学习的XPath提取方法,我们可以提取所有类型的数据,包括:
- 产品名称
- 产品描述
- 价钱
- 审核数据
- 图片网址
- 产品分类
- 以及更多
这可以帮助您识别电子商务网站中可能缺少有价值信息的产品。
关于Screaming Frog,最酷的事情是您可以提取多个数据点以进一步扩大审核范围。
3.使用XPath审核博客
这是使用XPath的更常见方法。 Screaming Frog允许您设置参数以爬网站点的特定子文件夹,例如博客。
但是,使用XPath,我们可以超越简单的元数据,获得有价值的见解,以帮助发现内容空白的机会。
分类和标签
SEO专业人员使用XPath进行博客审核的最常见方法之一是抓取类别和标签。
这很重要,因为它可以帮助我们将相关的博客归为一组,这可以帮助我们确定内容的蚕食和差距。
通常,这是任何博客审核的第一步。
关键词
此步骤更加注重Excel和高级。这是如何工作的,是您设置了XPath提取以从每个博客中提取正文副本。
合理的警告,这可能会大大增加您的爬网时间。
每当将此爬网导出到Excel中时,都将在一个单元格中获得所有正文文本。我强烈建议您禁用文本换行,否则电子表格看起来会很恐怖。
接下来,在提取的正文副本右侧的列中,输入以下公式:
= ISNUMBER(SEARCH(“ keyword”,A1))
在此公式中,A1等于主体副本的单元格。
为了扩大工作量,您可以使“关键字”等于包含类别或标签的单元格。但是,您可以考虑添加多列关键字,以更准确,更可靠地了解您的博客性能。
此公式将显示TRUE / FALSE布尔值。您可以使用它来快速识别 关键字机会 和您博客中的同类相食。
作者
我们已经介绍了这个示例,但是值得注意的是,这仍然是从您的文章中提取的重要元素。
当您将博客导出数据与Google Analytics(分析)和Search Console中的效果数据混合在一起时,就可以开始确定哪些作者产生了最佳效果。
为此,请按作者对博客进行排序,然后开始跟踪平均数据集,包括:
- 展示次数– Search Console
- 点击次数– Search Console
- 会议–分析
- 跳出率–分析
- 转化–分析
- 辅助转化–分析
分享您的Creative XPath技巧
您是否有一些涉及XPath的创造性审核方法?在Twitter上分享此文章或标记我 @seocounseling 让我知道我错过了什么!
图片积分
作者截取的所有屏幕截图,2019年10月