使用空白纸测试来优化自然语言处理

[ad_1]

如果您递给某人一张空白纸,并且只写了该页面的标题,那么他们会明白标题的含义吗?他们对实际文件可能有一个清晰的想法吗?如果是这样,那么恭喜您!您刚刚通过了页面标题的空白纸测试,因为您的标题具有描述性。

空白纸测试(BSoPT) 这是伊恩·卢里(Ian Lurie)多年来谈论过的一个主意, 最近在他的新网站上。这是一项测试,以查看您所写的内容是否对从未接触过您的品牌或内容的人有意义。用伊恩的话说:“写在白纸上的这段文字对陌生人有意义吗?”空白纸测试是关于没有上下文的清晰度。

但是,如果我们是在一台机器上而不是一个人上执行BSoPT,该怎么办?我们的思想实验是否仍然适用?我认同。机器无法读取,即使是Google和Bing等复杂的机器也无法读取。他们只能猜测我们内容的含义,这使测试特别相关。

我有BSoPT的替代版本,但对于机器来说:如果一台机器可以看到的是文档中出现的单词列表以及出现的频率,它是否可以合理地猜测文档的含义?

空白纸测试词频

如果您递给某人一张空白纸,并且唯一写在这张字词和频率表上的东西,他们能猜出文章的意思吗?

关于磨刀的文章是一个很好的猜测。我从该词频表中摘录的文章是磨刀的入门指南。

如果表格中出现“步骤”和“如何”一词怎么办?读书的人会更自信这篇文章是关于磨刀还是更少?他们能否说出这篇文章是关于削尖厨房刀还是小刀?

如果我们不能根据文章使用的单词对文章的含义有一个很好的了解,那么它将使BSoPT的单词频率失败。

我们仍然可以将字频用于BERT吗?

搜索引擎采用的早期自然语言处理(NLP)方法使用词频和词共现的统计分析来确定页面的含义。他们忽略了内容中单词的顺序和词性,基本上将我们的页面视为单词袋。

我们用于优化这种NLP的工具将我们内容的词频与竞争对手进行了比较,并告诉我们词使用的差距在哪里。假设,如果将这些词添加到内容中,我们的排名将会更高,或者至少可以帮助搜索引擎更好地理解我们的内容。

这些工具仍然存在:Market Muse,SEMRush,seobility,Ryte等具有某些词频或TD-IDF差距分析功能。我一直在使用名为Online Text Comparator的免费词频工具,该工具效果很好。现在,搜索引擎已经使用BERT等NLP方法进行了改进,它们仍然有用吗?我想是的,但它并不像增加单词=更好排名那样简单。

BERT复杂得多 而不是言行一致的方法。 BERT会查看单词顺序,词性以及内容中出现的所有实体。它功能强大,可以接受培训,以完成许多事情,包括问题解答和命名实体识别-比基本词频要先进得多。

但是,BERT仍需要查看页面上存在的单词才能起作用,单词频率是该单词的基本摘要。现在,单词的位置和词性更加重要。我们不能只在页面上的差距分析中撒上我们发现的单词。

使用词频工具增强内容

为了使我们的内容对机器毫无歧义,我们需要使它对用户毫无歧义。减少我们的写作中的歧义是关于选择与我们正在撰写的主题相关的单词。如果我们的写作中使用了大量的一般动词,代词和非主题形容词,那么我们的内容不仅平淡无奇,而且很难理解。

考虑以下非特定语言的极端示例:

“找到合适的厨师刀的诀窍是要在功能,品质和价格之间找到平衡。它应该由足够坚固的金属制成,以保持其边缘相当长的时间。您应该拥有舒适的手柄,不会让您感到疲劳。您也不需要花费很多。家庭厨师不需要花350美元的日本刀。”

该副本不是很好。它看起来几乎是机器生成的。我无法想象这样写的全文会通过BSoPT的词频。

移除了一些停用词后,单词频率表如下所示:

现在,假设我们在几个页面上使用了词频工具,这些词在“如何挑选厨师的刀”方面排名很高,并且发现这些词类的使用频率很高:

实体:刀片,钢,疲劳,大马士革钢,三德,顺(品牌)
动词:抓地力,切碎
形容词:完美,坚硬,高碳

将这些词合并到我们的副本中会产生明显更好的文本:

“找到完美厨师刀的诀窍是在功能,品质和价格之间取得适当的平衡。刀片应由足够坚硬的钢制成,以在重复使用后保持锋利的边缘。您应该具有符合人体工程学的手柄,可以舒适地握住手柄,以防止疲劳加剧切碎。您也不需要花费很多。家庭厨师不需要顺德提供的$ 350的高碳大马士革钢santoku。”

升级后的文本将更易于机器分类,并更好地为用户阅读。使用与您的主题相关的字词也很不错。

展望NLP的未来

是否通过针对BERT或其他NLP算法优化的空白纸测试来改善我们的内容?不,我不这么认为。我认为我们可以添加一些特殊的词来利用BERT神奇地排名更高。我认为这是确保用户和机器都能清楚理解我们的内容的一种方法。

我预计我们已经接近将NLP优化的想法视为荒谬的地步。也许在十年之内,由于技术的进步,为用户写作和为机器写作将是一回事。但是即使那样,我们仍然必须确保我们的内容有意义。而且空白纸测试仍然是一个很好的起点。

相关文章