Yandex的人工智慧和機器學習演算法

[ad_1]

Yandex的人工智慧和機器學習演算法

本月初,Google推出了最新的AI演算法BERT,據說這是自Google以來最大的更新 排名腦 並影響所有搜索查詢的10%。

伯特 代表來自變壓器的雙向編碼器表示。變形器是指處理與句子中所有其他單詞相關的單詞的模型,例如並置關鍵字和同義詞。

BERT已在《搜索引擎期刊》上詳細介紹了 羅傑·蒙蒂馬特·南方(Matt Southern)

但是,Google的人工智慧和機器學習演算法並不是全球搜索引擎唯一使用的演算法。

機器學習是一個籠統的術語,包含可從數據集中學習的廣泛演算法,以提供:

  • 建議。
  • 決定。
  • 預測。

它不僅被搜索引擎廣泛用於許多任務,而且:

  • 流媒體平台上的音樂和電影推薦。
  • 跨州的能源使用預測。

搜索引擎使用它來處理來自整個Internet的數據,以及某些離線來源的數據,例如 Yandex,以便為用戶提供更好的搜索結果和體驗。

自從Yandex在Matrixnet推出後首次在搜索中引入機器學習以來,已經過去了十年。

此後,搜索引擎一直在通過包括Palekh和Korolyov在內的進一步更新來改善其AI和ML功能。

Matrixnet,2009年

Matrixnet的工作方式是採用數千個變數和「排名因子」,並根據以下各項為它們分配不同的權重:

  • 用戶位置。
  • 搜索查詢。
  • 已建立的用戶意圖

這樣做是為了向用戶返回更相關和準確的結果。

Matrixnet的顯著影響是,對於具有多種常見解釋的較短查詢,非商業內容開始在搜索結果頁面中的位置比其他商業內容(和商業網站)更突出。

這是因為新的核心演算法開始考慮到整個域的生態系統,而不是單個頁面及其直接鏈接。

在Yandex推出Matrixnet的同一時期,搜索引擎還採取了一些措施,以根據位置為用戶提供更好的結果。 (符拉迪沃斯托克(Vladivostok)的某人在113個小時的車程內無法獲得莫斯科的本地結果!)

他們通過Arzamas演算法做到了這一點,該演算法在當年被Snezhinsk取代,然後在2010年通過Obinsk。

後者使Yandex可以更好地了解網站所基於的地區,即使網站站長沒有在Yandex網站站長工具中進行區域聲明也是如此。

這特別影響到帶有位置門禁頁面和本地引用垃圾郵件的網站。

帕萊赫,2016

在2016年(RankBrain的一年後),Yandex推出了 Palekh演算法。 Palekh利用深度神經網路更好地理解了搜索查詢的含義。

該演算法使用神經網路來查看查詢和文檔之間的聯繫,即使它們不包含常用詞也是如此。

對於複雜的查詢,例如通過不正確的情節描述查找電影,該技術最有用。

科羅廖夫,2017

Yandex在Palekh演算法的基礎上,於2017年8月發布了Korolyov更新。

Yandex Search負責人Andrey Styskin表示:

「 Korolyov能夠將查詢的含義與頁面的含義相匹配,這與Palekh僅用於標題的方式相反。通過同時處理20萬頁的能力,它還改善了Palekh正在分析的150頁。」

與RankBrain的工作方式類似,Korolyov接收到的每個增量數據點都變得更加高效和準確,然後所有結果反饋到核心演算法Matrixnet中。

在發布Korolyov的同時,Yandex也宣布Matrixnet已開始:

  • 考慮到他們的眾包平台Toloka(想像一下亞馬遜的Mechanical Turks版本)中的數據。
  • 處理大量匿名用戶數據,以進一步改善和改變機器學習演算法所面臨的數據集。

Korolyov還在搜索中引入了語義(上下文)向量的概念,從而允許它在用戶提交查詢時執行「含義分析」。這樣一來,搜索就可以考慮將用戶引導至某些頁面的所有查詢的感知含義。

這意味著:

  • 在索引階段,每個頁面都轉換為語義/上下文向量。
  • 可以更快速,更有效地理解新查詢,並獲得更準確的結果,從而不會帶來負面的搜索體驗。

CatBoost,2017年

Yandex在2018年向Matrixnet機器學習演算法CatBoost推出了後繼產品。

與Matrixnet相比,CatBoost(開源)能夠:

  • 更準確的預測。
  • 更大的結果多樣化。
  • 非數值的支持變數,例如雲的類型,貓的品種和植物的種類。

CatBoost利用稱為梯度提升的機器學習技術,通常可以解決回歸和分類問題,這些問題在視覺上表現為決策樹。

迄今為止,Cloudflare和CERN等組織還在Yandex的搜索引擎之外使用了CatBoost。

它用於需要對決策樹進行梯度增強以降低過擬合風險的情況,用於執行諸如以機器人為動力的憑證填充等工作。

針對Yandex的AI演算法進行優化

Yandex的機器學習演算法只是搜索引擎多年來為解決鏈接垃圾郵件和低質量內容而進行的更新的一小部分,與Google相同。

與Google的RankBrain(以及現在的BERT)流程一樣,沒有一種真正的方法可以直接針對機器學習演算法進行優化,因為它們將整個網路都考慮在內。

與以往一樣,重要的是您要產生能夠為用戶增加價值,符合搜索意圖並以自然語言而非人類機器編寫的內容。

相關文章