Bing Q&A /精选摘要算法的工作原理

[ad_1]

Bing Q&A /精选摘要算法的工作原理

在今天的帖子中,我们从必应(Bing)的Ali Alvi问题与解答/精选摘要小组负责人那里获得了低调的评价。

Alvi的正式头衔是“必应AI产品首席负责人计划经理”

重复阅读两次,您将很好地了解这次采访所包含的内容不仅仅只是“如何”获得特色片段。

在此期间 播客采访,我一直想了解Bing如何生成问答(Google演讲中的精选代码段)…

这意味着我在问他们如何从网络上数千亿个页面中提取出对任何问题的最佳答案。

收到。

还有更多。

Bing上的问答结果-什么是品牌SERP?“ width =” 810“ height =” 382“ size =”(最大宽度:810像素)100vw,810像素“ data-srcset =” https://cdn.searchenginejournal.com /wp-content/uploads/2020/04/what-is-a-brand-serp-qa-5e9d8c359c6a0.png 810w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/what- is-a-brand-serp-qa-5e9d8c359c6a0-480x226.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/what-is-a-brand-serp-qa-5e9d8c359c6a0 -680x321.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/what-is-a-brand-serp-qa-5e9d8c359c6a0-768x362.png 768w“ data-src =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/what-is-a-brand-serp-qa-5e9d8c359c6a0.png问答/精选片段

首先(和面试的理由)–我想与团队成员进行信息丰富的聊天,该团队正在研究算法以产生最佳答案。 (答案引擎优化是我的事。)

说明(未显示的代码段)

出乎意料的是,我也对生成传统蓝色链接下使用的描述的算法有了深入的了解。

事实证明两者是紧密相连的。

Alvi(下)说得很漂亮–在问答环节,Google使用了“功能片段”一词。

因此,位于顶部,顶部和中间的那些结果只是具有特色的蓝色链接摘要。

显而易见,一旦您完全理解了蓝色链接下方的文本不是“美化的元描述”,而是适用于搜索查询的页面摘要,这一想法就显而易见了。

为什么元描述不会影响排名

元描述对排名没有影响。

为什么?

因为几年前他们将其移至其他算法。

当他们告诉我们时,可能不再考虑它们了。真是的

SEO专家过度优化了元描述。

其他所有人都无法提供。

无论哪种方式,网站所有者都做得不好。 ?

Bing和Google不能依靠我们准确地总结自己的页面。

现在,您知道Bing在不喜欢您的元描述时如何创建“蓝色链接描述”。

问题与解答/精选摘录脱离了他们创建的即时生成描述的系统

简而言之,我们在结果顶部看到的答案就是从我们的内容中提取一段Bing或Google并对其进行精选。

Alvi指出他们不仅仅是在“摘录并添加摘录”。他们做的比有时候更多。

他们可以(有时确实)构建文本语料库的摘要并进行显示。

必应Q& A /特色代码段算法的工作原理” width =“ 762” height =“ 254” size =“(最大宽度:762px)100vw,762px” data-srcset =“ https://cdn.searchenginejournal .com / wp-content / uploads / 2020/04 / fragmented-description-5e9dcd710bf35.png 762w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/fragmented-description-5e9dcd710bf35-480x160。 png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/fragmented-description-5e9dcd710bf35-680x227.png 680w“ data-src =” https://cdn.searchenginejournal.com/wp -content / uploads / 2020/04 / fragmented-description-5e9dcd710bf35.png从文档中提取隐含的问题

创建文档摘要是该过程的一部分,通过该过程他们可以将文档中包含的答案与问题进行匹配。

Bing的用户问一个问题(以搜索查询的形式),然后“问与答”查看最上面的蓝色链接结果(使用Turing)并创建摘要。

该摘要为问题提供了文档的隐式答案。

找出最接近用户问题的隐式问题,宾果游戏则拥有“最佳”答案/问答和特色片段。

根据Alvi的说法,他们正在使用雄心勃勃的AI,甚至在学术界也没有使用过。他们正在教机器如何阅读和理解。

图灵是问答环节的关键,但不仅如此……

图灵驱动代码片段,从而推动问答环节以及每个Microsoft产品

“在Bing内,我们有一群应用研究人员,他们致力于雄心勃勃的自然语言处理算法……” Alvi说。

摘录团队“是所有Microsoft的这些算法的中心。”

据我了解,这意味着驱动这些(看似无害的)描述的团队提供了一种算法来理解文本的语料库,并提取或创建文本块进行显示-不仅提供给需要它的任何候选集,而且还提供给任何平台或诸如Word或Excel之类的软件。

从SEO的角度来看,这意味着使用机器学习(以Bing的Turing形式)创建文本的做法,该文本向用户显示,包括标题,描述,摘要,问题的答案……好吧,谁知道?

从更广泛的角度来看,似乎这种用于描述SERP的方式将为了解它在Microsoft生态系统中其他地方的发展提供一个窗口。

阿尔维(Alvi)说了这一点之后,就很明显,这类技术必须进行大量的集中化处理(这样我们才能利用我们的想象力并想出其他可能的例子)。

有趣的是,涵盖(或将涵盖)所有Microsoft产品的内容正在从十个蓝色链接的描述中提供给他们。

返回搜索算法的工作方式

搜寻中的达尔文主义是一回事– 100%

查尔斯·达尔文(Charles Darwin)看着SERP“ width =” 681“ height =” 415“ size =”(最大宽度:681px)100vw,681px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content/ uploads / 2020/04 / illustration-darwin-transparent-5e9daf2378f98.png 1777w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/illustration-darwin-transparent-5e9daf2378f98-480x292.png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/illustration-darwin-transparent-5e9daf2378f98-680x414.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2020 /04/illustration-darwin-transparent-5e9daf2378f98-768x468.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/illustration-darwin-transparent-5e9daf2378f98-1024x624.png 1024w,https ://cdn.searchenginejournal.com/wp-content/uploads/2020/04/illustration-darwin-transparent-5e9daf2378f98-1600x974.png 1600w“ data-src =” https://cdn.searchenginejournal.com/wp-content /uploads/2020/04/illustration-darwin-transparent-5e9daf2378f98.png

这次采访是我听完Google的Gary Illyes的Google排名工作原理后写的一篇文章的有趣文章。

我曾问过Illyes,针对该摘要,是否有单独的算法,他说“不”。

蓝色链接有一个核心算法,所有候选集都以模块化方式使用该算法,并以模块化方式对因子(或更准确地说,特征)应用不同的权重。

阿尔维指出:“这个想法就是这样。”

在里面 第一集,弗雷德里克·杜布特(FrédéricDubut)证实了这一点,而第五页内森·查默斯(Whole Page Team Lead)也证实了这一点,所以我们现在处于非常安全的立场:搜寻达尔文主义是“一件事”。

基金会永远是十个蓝色环节

Alvi提出了一个很重要的观点:搜索引擎不断发展(噢,达尔文主义再次出现)。

从历史上看,在最初的15年左右的时间里,搜索引擎只是10个蓝色链接。

然后,当出现诸如Q&A之类的新功能时,它们必须安装在原始系统的顶部,而不会破坏内核。

简单。

辉煌。

逻辑上。

问答:“排名最高的蓝色链接的最佳答案”

Q&A算法只是简单地浏览蓝色链接的顶部结果,以查看它是否可以从其中一个文档中提取内容,该文档可以当场准确回答该问题。

因此,必须将排名排在前20位左右(确切的数字尚不清楚,并且几乎可以肯定会因情况而异)。

有一个有趣的例外(请参阅下文)。

也许我们会忘记使用Bing和Google的人信任他们。

作为用户,我们倾向于在顶部相信答案。这对于了解两家公司的运作方式至关重要。

对于他们两个而言,他们的用户实际上都是他们的客户。像任何企业一样,Google和Bing必须为他们的客户提供服务。

这些客户希望并期望对问题的简单回答,或对问题的快速解决方案。

问与答/特色片段是他们可以为客户提供的最简单,最快的解决方案。

Alvi的工作之一就是确保Bing提供的结果符合客户的期望,微软的企业形象和Bing的商业模式。

所有企业都面临着微妙的平衡:

  • 满足用户需求。
  • 保持企业形象。
  • 挣钱。

对于“问答”(或与此有关的任何搜索结果),这意味着为用户提供“最佳,最方便的答案”,而不会被认为是错误,有偏见,误导性,冒犯性或其他任何形式。

怪癖:要获得一个问答场所,您不必在蓝色链接中排名

Alvi指出,大多数时候,Q&A只是建立在蓝色链接之上。

但是他们会记住显示的结果,有时还会显示蓝色链接中未显示的结果。

因此,您必须排在首位才能获得Q&A,但是由于Q&A具有记忆力,因此您无需保持该蓝色链接排名就可以在将来的Q&A现场考虑。

问答的排名因素是什么?

专长,权威和信任。简单。

Bing使用术语“相关性”而不是专业知识。

它们的意思是准确性,与专业知识的概念相距一百万英里。

因此,问答非常基于E-A-T。

Google和Bing之所以查看我们的专业知识,权威和信任,是因为他们希望展示“最佳”结果-使他们对用户表现出专业,权威和可信赖的结果。

现在,这没有道理吗?

Bing Q&A /特色摘录算法的工作原理“ width =” 481“ height =” 552“ size =”(最大宽度:481px)100vw,481px“ data-srcset =” https://cdn.searchenginejournal .com / wp-content / uploads / 2020/04 / fs-blue-links-5e9db325df888.png 689w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/fs-blue-links- 5e9db325df888-480x551.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/fs-blue-links-5e9db325df888-680x781.png 680w“ data-src =” https:// cdn .searchenginejournal.com / wp-content / uploads / 2020/04 / fs-blue-links-5e9db325df888.png这是找到“最佳”答案的过程

算法从相关性开始。

答案正确吗?

如果是这样,它就有机会。

任何文件的正确性均取决于其是否符合公认的意见和文件的质量。

两者均取决于算法对实体及其关系的理解(因此,基于实体的搜索也是一回事)。

一旦一个实体被确定为答案的关键,神经网络就会确定该实体是否存在于该答案中。

如果是这样,那么相对于其他相关实体的上下文又是什么,以及该迷你知识图与“接受的事实”的对应程度如何。

然后,从相关的文档(或准确/正确的/专家-选择您的版本)中,他们将查看权限和信任信号。

端到端神经网络评估文档,作者和发布者的显式和隐式权限和信任。

端到端神经网络

Alvi坚持认为Q&A几乎是端到端的神经网络/机器学习。

与Dubut一样,他将算法视为简单的测量模型。

它衡量成功和失败并相应地进行调整。

衡量成功与失败:用户反馈

使用端到端神经网络,人类拥有的控制权就是他们输入的数据以及他们用来判断绩效的指标。

他们不断地将所谓的“校正数据”提供给计算机。

目的是向机器指示:

  • 正确的地方(Dubut谈论加强学习)。
  • 遇到错误时(这会推动机器进行调整)。

这些数据大部分基于以下形式的用户反馈:

  • 法官(相当于Google的质量评定员– Dubut谈论他们 这里)。
  • 调查。
  • 来自SERP的反馈。

Alvi建议,这是判断机器的关键,也是决定团队本身的关键。

相关团队成员需要内部回应。

该算法背后的团队的主要职责是创建一种可靠的算法,该算法生成的结果可以建立对搜索引擎的信任。

对我来说,这回馈了一个想法,即在Bing或Google上进行搜索的用户是他们的客户。

像任何其他业务一样,他们的业务模型也依赖于满足这些客户。

与任何其他业务一样,他们对利用客户反馈来改进产品的兴趣也很大。

排名因素已出,指标已入

由于机器学习在排名过程中占主导地位,因此关键问题不是“因素是什么”,而是“指标是什么”。

排名的实际计算已成为端到端的神经网络。

人类的任务是设置度量标准,进行质量控制并提供干净的,带有标签的数据,以鼓励机器自行纠正。

机器用来满足该测量要求的因素是我们(他们)不知道的。

Bing生产的模型具有数亿个参数。

任何人都不可能真正进入并了解正在发生的事情。测量它的唯一方法是为其输入并测量输出。

我们可以给机器提供一些我们认为相关的因素。

但是,一旦我们让他们放宽数据,他们就会发现我们没有想到的因素。

这些隐含/间接因素对于Bing或Google的人们是未知的,因此问他们是什么毫无意义。

他们最初认为重要的一些因素并不重要。

他们认为没什么大不了的。

还有一些他们没有想到的需要。

所以要问的问题是“什么是指标”,因为这是产品团队控制的地方。这些是机器成功的衡量标准。

重要的是,计算机将锁定到度量标准所说的内容上。

如果度量标准不正确,则机器将瞄准错误的目标,纠正性数据(指令)将产生误导作用,最终机器将弄错一切。

如果衡量标准正确,则整个过程将有助于改善结果,形成良性循环,并为Bing的客户改善结果。

Bing产品是成功的。

过滤结果/护栏

由于团队是根据他们的算法产生的结果的质量来判断的,而质量是根据这些结果能否改善Bing客户对Bing产品的信任度来判断的,因此他们有一个过滤算法来防止“不良”结果损害Bing牌。

该过滤器本身是基于机器学习的算法。

一种过滤器,可用来识别和压制无益,冒犯或损害Bing声誉的任何事物。例如:

  • 仇恨言论。
  • 成人内容。
  • 假新闻。
  • 令人反感的语言。

过滤器不会更改所选的候选者,而只是抑制对整页算法的出价。

阿尔维有趣地指出,他们只是行使特权而不回答给定的问题。

注释是关键

阿尔维说:“ Fabrice和他的团队做了一些我们实际上绝对依赖的惊人工作。”

他继续说,如果没有Canel的注释,他们就无法建立算法来产生问答。

这个系列表明这是适用于所有丰富元素的通用主题。

专门针对问答,这些注释使算法可以轻松地识别相关的块,并允许它们进入并拉出适当的段落,无论它出现在文档中的何处(Cindy Krum的“碎片”)。

什么是Fraggles搜索结果“ width =” 730“ height =” 372“ size =”(最大宽度:730px)100vw,730px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content/uploads /2020/04/what-are-fraggles-5e9d8edfb6870.png 730w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/04/what-are-fraggles-5e9d8edfb6870-480x245.png 480w,https ://cdn.searchenginejournal.com/wp-content/uploads/2020/04/what-are-fraggles-5e9d8edfb6870-680x347.png 680w“ data-src =” https://cdn.searchenginejournal.com/wp-content /uploads/2020/04/what-are-fraggles-5e9d8edfb6870.png

它们也是在重新编写蓝色链接的元描述时摘录算法用来提取文档中最适当部分的句柄。

那已经很酷了。但是,似乎Canel的注释比简单地识别障碍物要走得更远。

它们甚至可以建议文档中不同块之间的可能关系,从而极大地促进了将文档中多个部分的文本汇集在一起​​并缝合在一起的任务。

因此,Bingbot除了执行其他所有操作外,还具有强大的语义标记作用。

这再次使我们了解了我们构造页面并为Bingbot(和Googlebot)提供尽可能多的线索是多么基础,以便它可以在我们的HTML中添加尽可能丰富的注释层,因为该注释在很大程度上有助于算法提取并充分利用我们(精彩)的内容。

问与答引领潮流

Q&A在结果的顶部和顶部居中,它是所有其他Microsoft产品使用的中心,对于Bing和Google谈论的基于任务的旅程,它是搜索未来的中心。

问与答/特色片段是真正突破界限的片段,对我们所有人(Bing,Google,他们的用户以及我们作为搜索营销商)而言,都是我们关注的重点–这激发了我这么说……

概述SEO策略

当我回听对话以撰写本系列文章时,这一切让我感到十分震惊。

对我而言,现在非常清楚,对结果(包括蓝色链接或丰富元素)进行爬网,存储和排名的整个过程是相互依赖的。

而且,鉴于 卡内尔杜布特,Alvi,Merchant和Chalmers在本系列文章中分享,我们的主要重点可以有用地总结为:

  • 结构化我们的内容,以使其易于爬网,提取和注释。
  • 确保我们的内容对作为我们受众的部分用户有价值。
  • 在内容,作者和发布者级别构建E-A-T。

无论我们要求Bing(或Google)向用户展示的内容是蓝色的链接还是丰富的元素,这都是事实。

图片积分

特色和后期图片:VéroniqueBarnard,Kalicube.pro

相关文章