Yandex的人工智能和机器学习算法

[ad_1]

Yandex的人工智能和机器学习算法

本月初,Google推出了最新的AI算法BERT,据说这是自Google以来最大的更新 排名脑 并影响所有搜索查询的10%。

伯特 代表来自变压器的双向编码器表示。变形器是指处理与句子中所有其他单词相关的单词的模型,例如并置关键字和同义词。

BERT已在《搜索引擎期刊》上详细介绍了 罗杰·蒙蒂马特·南方(Matt Southern)

但是,Google的人工智能和机器学习算法并不是全球搜索引擎唯一使用的算法。

机器学习是一个笼统的术语,包含可从数据集中学习的广泛算法,以提供:

  • 建议。
  • 决定。
  • 预测。

它不仅被搜索引擎广泛用于许多任务,而且:

  • 流媒体平台上的音乐和电影推荐。
  • 跨州的能源使用预测。

搜索引擎使用它来处理来自整个Internet的数据,以及某些离线来源的数据,例如 Yandex,以便为用户提供更好的搜索结果和体验。

自从Yandex在Matrixnet推出后首次在搜索中引入机器学习以来,已经过去了十年。

此后,搜索引擎一直在通过包括Palekh和Korolyov在内的进一步更新来改善其AI和ML功能。

Matrixnet,2009年

Matrixnet的工作方式是采用数千个变量和“排名因子”,并根据以下各项为它们分配不同的权重:

  • 用户位置。
  • 搜索查询。
  • 已建立的用户意图

这样做是为了向用户返回更相关和准确的结果。

Matrixnet的显着影响是,对于具有多种常见解释的较短查询,非商业内容开始在搜索结果页面中的位置比其他商业内容(和商业网站)更突出。

这是因为新的核心算法开始考虑到整个域的生态系统,而不是单个页面及其直接链接。

在Yandex推出Matrixnet的同一时期,搜索引擎还采取了一些措施,以根据位置为用户提供更好的结果。 (符拉迪沃斯托克(Vladivostok)的某人在113个小时的车程内无法获得莫斯科的本地结果!)

他们通过Arzamas算法做到了这一点,该算法在当年被Snezhinsk取代,然后在2010年通过Obinsk。

后者使Yandex可以更好地了解网站所基于的地区,即使网站站长没有在Yandex网站站长工具中进行区域声明也是如此。

这特别影响到带有位置门禁页面和本地引用垃圾邮件的网站。

帕莱赫,2016

在2016年(RankBrain的一年后),Yandex推出了 Palekh算法。 Palekh利用深度神经网络更好地理解了搜索查询的含义。

该算法使用神经网络来查看查询和文档之间的联系,即使它们不包含常用词也是如此。

对于复杂的查询,例如通过不正确的情节描述查找电影,该技术最有用。

科罗廖夫,2017

Yandex在Palekh算法的基础上,于2017年8月发布了Korolyov更新。

Yandex Search负责人Andrey Styskin表示:

“ Korolyov能够将查询的含义与页面的含义相匹配,这与Palekh仅用于标题的方式相反。通过同时处理20万页的能力,它还改善了Palekh正在分析的150页。”

与RankBrain的工作方式类似,Korolyov接收到的每个增量数据点都变得更加高效和准确,然后所有结果反馈到核心算法Matrixnet中。

在发布Korolyov的同时,Yandex也宣布Matrixnet已开始:

  • 考虑到他们的众包平台Toloka(想象一下亚马逊的Mechanical Turks版本)中的数据。
  • 处理大量匿名用户数据,以进一步改善和改变机器学习算法所面临的数据集。

Korolyov还在搜索中引入了语义(上下文)向量的概念,从而允许它在用户提交查询时执行“含义分析”。这样一来,搜索就可以考虑将用户引导至某些页面的所有查询的感知含义。

这意味着:

  • 在索引阶段,每个页面都转换为语义/上下文向量。
  • 可以更快速,更有效地理解新查询,并获得更准确的结果,从而不会带来负面的搜索体验。

CatBoost,2017年

Yandex在2018年向Matrixnet机器学习算法CatBoost推出了后继产品。

与Matrixnet相比,CatBoost(开源)能够:

  • 更准确的预测。
  • 更大的结果多样化。
  • 非数值的支持变量,例如云的类型,猫的品种和植物的种类。

CatBoost利用称为梯度提升的机器学习技术,通常可以解决回归和分类问题,这些问题在视觉上表现为决策树。

迄今为止,Cloudflare和CERN等组织还在Yandex的搜索引擎之外使用了CatBoost。

它用于需要对决策树进行梯度增强以降低过拟合风险的情况,用于执行诸如以机器人为动力的凭证填充等工作。

针对Yandex的AI算法进行优化

Yandex的机器学习算法只是搜索引擎多年来为解决链接垃圾邮件和低质量内容而进行的更新的一小部分,与Google相同。

与Google的RankBrain(以及现在的BERT)流程一样,没有一种真正的方法可以直接针对机器学习算法进行优化,因为它们将整个网络都考虑在内。

与以往一样,重要的是您要产生能够为用户增加价值,符合搜索意图并以自然语言而非人类机器编写的内容。

相关文章