[ad_1]
像SEO中的许多其他概念一样,TF-IDF是一个备受争议的话题。
首先,您了解到它是将您的内容在Google上排名的灵丹妙药。
然后,您立即听到TF-IDF如此 老套 那是不值得的
真相通常位于中间。
这篇文章将探讨为什么您不希望TF-IDF替代全面的优化策略,以及将其用于SEO的真正好处。
TF-IDF:那是什么野兽?
对于人类的大脑来说,不需要任何数学运算就能知道我的文章是关于什么的。关于TF-IDF,对吧?
但是,当一台机器评估相关性(最重要的是,将其与几篇文章进行比较)时,我们需要一个数字表示形式才能看到:
- A条是关于TF-IDF(相对于链接构建而言)。
- A条比B条更多地是关于TF-IDF。
我们能否简单地计算一下关键字TF-IDF在每个文档中出现的次数?
不可以,因此我们显然会忽略文件的大小。
我们可以将关键字的数量与总字数进行比较吗?
这就是我们所说的 关键字密度 –过去广泛使用的内容优化指标。
但是依靠关键字密度使我认为“要”(不是“ TF-IDF”)一词是本文中最突出的一个。
对于某些单词通常在语音中出现频率更高的事实,是否可以调整我的计算?
这就是TF-IDF发挥作用的地方,让我们看一下本文中“ TF-IDF”的使用频率与Web其他文档中其平均使用频率的比较。
因此,我们可以减少对所有常用词的关注,并针对特定内容区分非常具体的主题。
我的计算公式如下:
或者,简单地说(免责声明:为了传达基本思想,我故意在这里过分简化),我们正在采取以下措施:
-
字词频率=(字词计数)/(文档中的总字数)
-
反向文档频率=日志(文档数)/(包含关键字的文档)
与反向文档频率相乘时,常用词的术语频率会降低,而唯一的主题识别术语则会更高。
回到我们的示例,动词“ to be”用在每篇英语文章中。但是很少有文章提到“ TF-IDF”,“关键字”,“内容”以及我在本文中介绍的其他重要子主题。
因此,针对这些术语的TF-IDF越来越高,……瞧!机器知道我的文章是关于什么的。
通常,当我们需要一台机器来识别大量文档的主题时,可以使用TF-IDF。例如,它已广泛应用于数字图书馆的推荐系统中。
Google是否使用TF-IDF作为排名信号?
最简洁的答案是不。”
TF-IDF在许多Google专利中都被称为搜索引擎可以用于 停用词删除,这是为了摆脱搜索查询中和页面内容中的所有功能词:
但是使用这种确切的机制来识别和比较相关性的可能性很小。
仅仅因为作为词法搜索机制的示例,TF-IDF无法超越关键字。
与Google最可能使用的语义搜索模型相反,该模型将关键字视为字符串,无法识别它们之间的语义关系。
换句话说,TF-IDF本身并不是确定您网页位置的排名信号。
您不需要为内容中的每个关键字匹配预期的TF-IDF值。而且,最好不要试图说服您。
语义搜索和共现
因此,Google已移至 语义搜索,尝试将搜索查询的含义匹配到局部相关的内容,而不是将查询关键字匹配到页面上的相同关键字。
实际上,这意味着Google不再计算关键字本身,而是开始使用周围的上下文理解它们的含义来统计同现。
例如,假设您遇到了以下句子,却不知道鳟鱼是什么:
- 鳟鱼富含omega-3脂肪酸。
- 鳟鱼肉嫩,味道温和,有点坚果味。
- 选择鳟鱼时,我们要注意清晰的橘红色。
而且您还会遇到以下情况。我认为大多数读者都知道鲑鱼是什么:
- 鲑鱼是西方美食中一种受欢迎的鱼类,与白葡萄酒搭配非常好。
- 嫩鲑鱼肉可以添加到意大利面中。
- 鲑鱼皮是超级营养密集的食品,所以在做饭时要保留它。
鳟鱼与omega-3,果肉和面食之类的词同时出现的事实可能表明,鳟鱼是一种可食用的鱼类,在某种程度上类似于鲑鱼。
基于对上下文的这种简单理解,Google能够构建复杂的单词向量系统,进一步用于理解用户查询和内容相关性。
尽管我不是说您,而且我应该尝试对整个矢量系统进行逆向工程,但是通过使您的内容充满更多的同时出现来提供更多的相关信号似乎是合乎逻辑的(而且, 一些 实例探究 显示,确实会影响Google的排名)。
TF-IDF如何帮助您的SEO?
查找共同出现的术语正是TF-IDF发挥作用的地方。
当然,我们无法像Google一样访问每个网页。但是为什么我们需要那些呢?
要获得一个同时出现的想法的完整列表,只需看一堆页面(例如20到30页)就足够了。
美妙之处在于,使用TF-IDF并不是火箭科学。您所要做的全部仅需三个简单步骤。
1.撰写您的内容
我并不是在敦促您将TF-IDF用于您的内容。
最后,即使页面排名很高并带来所需的访问量,不自然的写作也不会转换。
因此,首先,您要坐下来写下内容计划中的内容。
2.插入TF-IDF工具
我见过的大多数工具的工作原理都差不多。
您输入一个URL和要对其进行优化的关键字。然后,该工具会检查在该关键字上在Google上排名较高的网页,解析其内容,为找到的所有字词计算TF-IDF,并将您的内容统计信息与竞争对手的统计数据进行比较。
使用Seobility等基本工具,您将获得一个单关键字列表。
如果您使用的是SEO PowerSuite的WebSite Auditor,Ryte或Text Tools,那么您还将获得一个关键短语列表(如果您喜欢科学的话,也可以使用N-gram),这无疑会提供更多信息。 (公开:我为SEO PowerSuite工作。)
3.通过TF-IDF并发建议来丰富您的内容
有些短语将只是您内容中已有的同义词。
如果合适,请尝试使用它们。
有些短语会指出您尚未想到的新主题。
筛选想法,并思考在内容中使用它们的方式(不必沉迷于它们)。
TF-IDF用于关键字研究
一点小费。
从竞争对手的内容中选择使用最广泛的术语,也可能会激发新想法进入您的 关键字研究 和 内容策划,尤其是当您需要开箱即用的思维和灵感时。
结论
很多时候,您会看到TF-IDF用作点击诱饵-这些文章承诺该公式是“ Google算法逆向工程”或“破坏TF-IDF的神话”。
但是,我鼓励您将事物视为真实事物,并利用TF-IDF优化提供的机会。无需将整个SEO活动都押在上面。
图片积分
特色图片:作者创作,2019年10月
作者截取的所有屏幕截图,2019年10月