[ad_1]
SEO中最未充分利用的资源是 搜索引擎结果页面 (养老金计划)。
我不仅仅意味着查看我们的网站对特定关键字或关键字集的排名,我的意思是SERP的实际内容。
对于您在Google中搜索的每个关键字,您在其中展开SERP以显示100个结果,您平均会发现大约3,000个单词。
这是很多内容,它有可能对搜索引擎优化如此有价值的原因是它的很多内容已经通过算法重写或从谷歌的页面中挑选出来,以最好地解决它认为搜索者的需求是。
最近的一项研究表明,Google正在重写或修改SERP中显示的元描述 92% 的时间。
问问自己:谷歌为什么要这样做?
当显示分配给页面的自定义元描述更容易时,它必须占用大量资源。
在我看来,答案是谷歌只关心搜索者 – 而不是负责为页面编写新元描述的穷人。
谷歌关心今天创造最佳搜索体验,所以人们明天再回来搜索。
其中一种方法是选择要在SERP功能中显示的页面部分,或选择与其认为最匹配上下文的SERP显示的元数据或 查询意图 一个人在使用搜索引擎时拥有。
考虑到这一点,大规模分析SERP语言的能力有可能成为SEO的一个非常有价值的策略,而不仅仅是提高排名表现。
这种方法可以帮助您更好地了解潜在客户的需求和愿望,它可以帮助您理解可能与他们产生共鸣的词汇以及他们想要参与的相关主题。
在本文中,您将学习一些可用于大规模实现此操作的技术。
请注意,这些技术依赖于 蟒蛇 – 但我希望表明这没什么好害怕的。事实上,这是尝试和学习它的绝佳机会。
不要害怕Python
我不是开发人员,除了一些基本的HTML和CSS之外没有编码背景。我最近选择了Python,为此,我有 罗宾勋爵 从蒸馏到谢谢。
我不能建议您查看他在Python上的幻灯片以及他使用Jupyter笔记本非常有用且易于访问的指南 – 所有这些都包含在这个方便的Dropbox中。
对我来说,Python似乎总是难以理解 – 我不知道我试图使用的脚本在哪里,什么工作,什么不是,我应该期待什么输出。
如果你处于那种情况,请阅读Lord's Guide。它将帮助您意识到它不需要那样,并且在Jupyter Notebook中使用Python实际上比您想象的更直接。
它还将使本文中引用的每种技术都很容易实现,并为您提供一个平台来进行自己的研究,并建立自己的一些强大的Python自动化。
获取您的SERP数据
作为一名员工,我很幸运能够访问Conductor,我们可以运行SERP报告,该报告使用外部API为一组关键字提取SERP显示的元数据。
这是一种直接的方式,以我们可以使用的漂亮的干净格式获取我们需要的数据。
它看起来像这样:
另一种大规模获取此信息的方法是使用Screaming Frog或DeepCrawl等工具在SERP上使用自定义提取。
我有 写关于如何做到这一点但是要注意:这可能只是违反谷歌服务条款的一点点微不足道的事情,所以这是你自己的危险(但请记住,代理是解决这一危险的完美解毒剂)。
或者,如果你是一个讽刺的粉丝,并认为谷歌表示你不能抓住它的内容来为你的用户提供更好的服务,那么请一定要高兴地部署这项技术。
如果你对这种方法不满意,也有很多 蜜蜂 这是非常划算,易于使用,并提供运行此类分析所需的SERP数据。
以干净的格式获取SERP数据的最终方法稍微耗费时间,并且您将需要使用 Scraper Chrome扩展程序 并为每个关键字手动执行。
如果你真的想扩大这个范围,并希望使用一个相当大的语料库(这个术语我会用很多东西 – 这只是一种很好的说法来表达很多单词)来完成你的分析选项可能不会起作用。
但是,如果您对这个概念感兴趣并希望运行一些较小的测试以确保输出有价值并且适用于您自己的广告系列,我会说它非常好。
希望在这个阶段,您已经准备好并愿意使用Jupyter Notebook进行Python的尝试,并且您可以使用一些格式良好的SERP数据。
让我们来看看有趣的东西吧。
SERP数据和语言分析
正如我上面提到的,我不是开发人员,编码专家或计算机科学家。
我是一个对文字,语言和语言分析感兴趣的人(那里的愤世嫉俗者可能会称我是一名失败的记者,试图在SEO和数字营销中谋生)。
这就是为什么我对真正的数据科学家如何使用Python,NLP和NLU进行此类研究感到着迷。
简而言之,我在这里所做的就是利用久经考验的方法进行语言分析,并找到一种以与SEO相关的方式应用它们的方法。
对于本文的大部分内容,我将讨论SERP,但正如我将在最后解释的那样,这只是触及可能的表面(这就是令人兴奋的原因!)。
清理分析文本
在这一点上,我应该指出,这种分析的一个非常重要的先决条件是“干净的文本”。这种“预处理”对于确保获得高质量的结果至关重要。
虽然那里有很多很棒的资源 准备文本进行分析,为了简洁起见,您可以假设我的文本已通过以下大部分或全部过程:
- 小写:我在下面提到的方法是区分大小写的,所以制作我们使用小写的所有副本都可以避免重复(如果你不这样做,'瑜伽'和'瑜伽'将被视为两个不同的单词)
- 删除标点符号:标点符号不会为此类分析添加任何额外信息,因此我们需要将其从语料库中删除
- 删除停用词:“停止词”是语料库中通常出现的词,不会为我们的分析增加任何价值。在下面的示例中,我将使用优秀的预定义库 NLTK 要么 spaCy 用于删除停用词的包。
- 拼写纠正:如果您担心拼写数据的拼写错误,可以使用像Python这样的Python库 TextBlob 提供拼写纠正
- 标记化:此过程将我们的语料库转换为一系列单词。例如,这个:
(('这是一个句子'))
会变成:
(('this','是','a','句子'))
- 词干:这是指从单词中删除诸如'-ing','-ly'等后缀,并且完全是可选的
- 词形还原:类似于“词干”,而不仅仅是删除单词的后缀,词形还原会将单词转换为词根(例如“播放”变为“播放”)。词形还原通常优于词干化。
这可能听起来有点复杂,但不要让它阻止你进行这种类型的研究。
我将链接到本文中的资源,这些资源完全分解了如何将这些过程应用到语料库中。
NGram分析与共生
我们可以应用于SERP内容的第一个也是最简单的方法是对nGram共现的分析。这意味着我们计算单词或单词组合在我们的语料库中出现的次数。
为什么这有用?
分析我们用于共同发生的单词序列的SERP可以提供Google认为与我们正在分析的关键字集最相关的单词或短语的快照。
例如,要创建我将通过这篇文章使用的语料库,我已经在瑜伽中提取了100个关键词的前100个结果
这仅用于说明目的;如果我正在进行更多质量控制的练习,这个语料库的结构可能会略有不同。
我现在要使用的是Python计数器函数,它将在我的语料库中寻找最常出现的两个和三个单词短语的组合。
输出如下所示:
您已经可以开始看到一些有趣的趋势出现在搜索者可能感兴趣的主题周围。我还可以收集一些这些短语的MSV,我可以将其定位为其他广告系列关键字。
在这一点上,您可能会认为所有这些共同出现的短语都包含瑜伽这个词,因为这是我的数据集的主要焦点。
这将是一个精明的观察 – 它被称为'语料库特定的禁用词',并且因为我正在使用Python,所以创建过滤器或可以删除这些单词的函数很简单。
然后我的输出成为:
这两个示例可以帮助提供竞争对手在其着陆页上涵盖的主题的快照。
例如,如果您希望针对效果最佳的竞争对手展示目标网页中的内容差距,则可以使用此类表来说明这些重复出现的主题。
合并它们将使您的目标网页更加全面,并将创造更好的用户体验。
我在创建计数器时找到的最好的教程就像我上面使用的那样,可以在示例中找到 罗宾勋爵放在一起的Jupyter笔记本 (与上述相关的那个)。通过示例,它将带您完成您需要做的事情,以创建一个类似于上面所示的表格。
这是非常基本的,并不总是能给你可行的结果。
那么我们可以运行哪些其他类型的有用分析?
词性(PoS)标记和分析
PoS标记是 定义 如:
“在语料库语言学中,词性标注(POS标记或POST),也称为语法标记,是将文本(语料库)中的单词标记为对应于特定词性的过程,基于其两者定义,以及它的背景 – 即与短语,句子或段落中的相邻和相关词语的关系。“
这意味着我们可以在SERP语料库中为每个单词分配一个PoS标签,不仅基于单词的定义,还基于它在SERP显示的元描述或页面标题中出现的上下文。
这很有用,因为它意味着我们可以深入研究特定的PoS类别(动词,名词,形容词等),这可以提供有关如何构建SERP语言的宝贵见解。
附注 – 在此示例中,我使用NLTK包进行PoS标记。遗憾的是,NLTK中的PoS标记在许多语言中都不可用。
如果您有兴趣为英语以外的语言使用此技术,我建议您查看 TreeTagger,提供多种不同语言的此功能。
使用我们的SERP内容(记住它已经使用前面提到的一些方法进行'预处理')进行PoS标记,我们可以在Jupyter笔记本中看到这样的输出:
您可以看到每个单词现在都分配了一个PoS标记。点击这里查看 每个PoS标签的词汇表 你会看到代表。
孤立地说,这不是特别有用,所以让我们创建一些可视化(不要担心,如果我似乎在这里跳过,我将链接到本节末尾的指南,该指南准确地说明了如何做这个)并深入研究结果:
大!
我可以快速轻松地识别我的SERP中的语言趋势,并且我可以开始将这一点纳入我为这些术语优化着陆页时所采用的方法。
这意味着我不仅要通过在页面上包含一定次数来优化查询术语(超出旧学校关键词密度思维模式)。
相反,我将根据它通过SERP中使用的语言提供的线索来定位谷歌似乎偏爱的背景和意图。
在这种情况下,这些线索是结果页面中最常出现的名词,动词和形容词。
我们知道,基于谷歌的专利 基于短语的索引,它有可能使用“相关短语”作为排名页面的因素。
这些可能包括在表现最佳的着陆页上共同出现的语义相关短语,并有助于将这些页面的含义结晶到搜索引擎。
这种类型的研究可能会让我们对这些相关短语的含义有所了解,因此将它们分解为登陆页面有可能具有价值。
现在,为了使所有这些SERP内容真正可行,您的分析需要更具针对性。
好吧,为此分析开发自己的脚本的好处是,应用过滤器和细分数据非常容易。
例如,通过几次击键,我可以生成一个输出,用于比较趋势与第2页:
第1页:
第2页:
如果我在第1页上看到的结果与第2页之间存在任何明显的差异(例如“开始”是第1页上最常见的动词与第2页上的“训练”),那么我将进一步深入研究。
这些可能是我在页面优化期间更加重视的单词类型,以便为搜索引擎提供有关我的目标网页上下文以及它如何与查询意图匹配的更清晰信号。
我现在可以开始构建一张图片,了解Google选择在SERP中显示哪种语言,以便在我的目标垂直行列中获得最高排名结果。
我也可以使用它作为词汇类型的提示,这些词汇会与寻找我的产品或服务的搜索者产生共鸣,并相应地将这些术语中的一些合并到我的目标网页中。
我还可以根据购买过程中的结构,意图或阶段对关键字进行分类,并运行相同的分析来比较趋势,使我的行为更加具体到我想要实现的结果。
例如,使用“初学者”一词修改的瑜伽关键词与使用“高级”一词修饰的瑜伽关键词之间的趋势。
这将为我提供更多关于Google认为对于寻找这些类型的术语的搜索者重要的内容的线索,以及我如何能够更好地优化这些术语。
如果您想对SERP数据进行此类分析,请遵循Kaggle基于此的简单演练 将PoS标记应用于电影标题。它将引导您完成我完成的过程,以创建上面屏幕截图中使用的视觉效果。
基于SERP数据的主题建模
主题建模是另一种非常有用的技术,可用于我们的SERP分析。它所指的是提取隐藏在文本语料库中的主题的过程;在我们的例子中,SERP,用于我们的目标关键字集。
虽然主题建模有许多不同的技术,但数据科学家认为最受欢迎的技术是LDA(Latent Dirichlet Allocation),因此我选择使用它。
关于主题建模的LDA如何工作的一个很好的解释来自于 Analytics Vidhya博客:
“LDA假定文件是由多个主题组合而成。然后,这些主题基于其概率分布生成单词。给定一个文档数据集,LDA回溯并试图找出哪些主题将首先创建这些文档。“
虽然我们的关键词都是关于'瑜伽'的,但我们使用的LDA机制假设在该语料库中会有一组其他主题。
我们还可以使用Jupyter Notebook界面创建这些主题的交互式视觉效果以及它们构建的“关键字”。
我们的SERP语料库中的主题建模对SEO,内容营销人员或数字营销人员来说非常有价值的原因在于,主题是基于Google认为与我们的目标垂直中的搜索者最相关的内容构建的(请记住,Google在算法上重写) SERP)。
通过我们的SERP内容语料库,让我们来看看我们的瑜伽关键字的输出(使用 PyLDAvis包):
你可以找到一个完整的定义 如何计算此可视化。
总而言之,在我自己痛苦的不科学的方式中,圆圈代表了语料库中发现的不同主题(基于 聪明的机器学习伏都教)。圆圈越远,这些主题彼此越清晰。
可视化右侧的术语列表是创建这些主题的单词。这些词是我用来理解主题的,以及具有实际价值的可视化部分。
在下面的视频中,我将向您展示如何与此视觉互动:
一目了然,我们将能够看到Google认为搜索者最感兴趣的子主题。这可以成为内容构思的另一个重要数据点,主题构建的术语列表可用于主题页面优化。
此处的数据还可以用于优化站点和内部链接的内容推荐。
例如,如果我们围绕“主题群集4”创建内容,并且我们有一篇关于最佳初学者瑜伽姿势的文章,我们知道阅读该文章的人可能也会对改善瑜伽姿势的指南感兴趣。
这是因为“主题群集4”由以下单词组成:
- 提出
- 初学者
- 基本
- 嘉尚
- 简单
- 指南
- 姿势
- 开始
- 学习
- 实践
- 行使
我还可以以Excel格式导出我的主题的关联术语列表,因此很容易与其他可能发现有用的洞察力的团队共享(例如,您的内容团队):
最终,主题是我们正在分析的语料库的特征。尽管围绕主题建模的实际应用存在一些争议,但是如果能够更好地理解我们所针对的SERP的特征,将有助于我们更好地优化它们。这很有价值。
最后一点,LDA没有标明它创建的主题 – 这取决于我们 – 所以这项研究对我们的搜索引擎优化或内容活动的适用程度取决于我们的主题是多么独特和清晰。
上面的屏幕截图是一个好主题集群地图的样子,但你想要避免的是看起来像下一个截图。重叠的圆圈告诉我们主题不够明显:
您可以通过确保语料库的质量良好(即删除停用词,词形还原等),并通过研究如何训练您的LDA模型来根据您的语料库识别“最干净”的主题群集来避免这种情况。
有兴趣将主题建模应用到您的研究中吗?这里有一个 伟大的教程带您了解整个过程。
你还可以用这个分析做什么?
虽然已经有一些工具使用这些技术来改进 页面上的SEO表现,支持内容团队并提供用户见解,我是开发自己的脚本/工具的倡导者。
为什么?因为您可以更好地控制输入和输出(即,您不仅可以将关键字弹出到搜索栏中并将结果显示为面值)。
使用这样的脚本,您可以更灵活地使用您使用的语料库以及通过将过滤器应用于PoS分析或改进主题建模方法而产生的结果。
更重要的原因是它允许您创建具有多个有用应用程序的东西。
例如,我可以根据我正在研究的主题或垂直方式的子Reddit注释创建一个新的语料库。
在这样的数据集上进行PoS分析或主题建模对于理解潜在客户的语言或可能与他们产生共鸣的内容具有真正的洞察力。
这种分析最明显的替代用例是从排名靠前的页面上的内容创建语料库,而不是SERP本身。
同样,Screaming Frog和DeepCrawl之类的东西使从登陆页面提取副本变得相对简单。
此内容可以合并并用作您的语料库,以收集有关共同使用条款的见解以及效果最佳的着陆页的页内内容结构。
如果您开始为自己开发一些这些技术,我建议您研究如何应用一层 情绪分析。这将允许您查找具有正面情绪的单词与具有负面情绪的单词的趋势 – 这可能是一个有用的过滤器。
我希望本文能为您分析SERP的语言提供一些启发。
您可以获得一些很好的见解:
- 哪些类型的内容可能会与目标受众产生共鸣。
- 如何更好地构建页面优化,以解决不仅仅是查询术语,还包括上下文和意图。
图片来源
特色图片:Unsplash
所有截图均由作者拍摄,2019年6月