[ad_1]
在今天的帖子中,我們從必應(Bing)的Ali Alvi問題與解答/精選摘要小組負責人那裡獲得了低調的評價。
Alvi的正式頭銜是「必應AI產品首席負責人計劃經理」
重複閱讀兩次,您將很好地了解這次採訪所包含的內容不僅僅只是「如何」獲得特色片段。
在此期間 播客採訪,我一直想了解Bing如何生成問答(Google演講中的精選代碼段)…
這意味著我在問他們如何從網路上數千億個頁面中提取出對任何問題的最佳答案。
收到。
還有更多。
問答/精選片段
首先(和面試的理由)–我想與團隊成員進行信息豐富的聊天,該團隊正在研究演算法以產生最佳答案。 (答案引擎優化是我的事。)
說明(未顯示的代碼段)
出乎意料的是,我也對生成傳統藍色鏈接下使用的描述的演算法有了深入的了解。
事實證明兩者是緊密相連的。
Alvi(下)說得很漂亮–在問答環節,Google使用了「功能片段」一詞。
因此,位於頂部,頂部和中間的那些結果只是具有特色的藍色鏈接摘要。
顯而易見,一旦您完全理解了藍色鏈接下方的文本不是「美化的元描述」,而是適用於搜索查詢的頁面摘要,這一想法就顯而易見了。
為什麼元描述不會影響排名
元描述對排名沒有影響。
為什麼?
因為幾年前他們將其移至其他演算法。
當他們告訴我們時,可能不再考慮它們了。真是的
SEO專家過度優化了元描述。
其他所有人都無法提供。
無論哪種方式,網站所有者都做得不好。 ?
Bing和Google不能依靠我們準確地總結自己的頁面。
現在,您知道Bing在不喜歡您的元描述時如何創建「藍色鏈接描述」。
問題與解答/精選摘錄脫離了他們創建的即時生成描述的系統
簡而言之,我們在結果頂部看到的答案就是從我們的內容中提取一段Bing或Google並對其進行精選。
Alvi指出他們不僅僅是在「摘錄並添加摘錄」。他們做的比有時候更多。
他們可以(有時確實)構建文本語料庫的摘要並進行顯示。
從文檔中提取隱含的問題
創建文檔摘要是該過程的一部分,通過該過程他們可以將文檔中包含的答案與問題進行匹配。
Bing的用戶問一個問題(以搜索查詢的形式),然後「問與答」查看最上面的藍色鏈接結果(使用Turing)並創建摘要。
該摘要為問題提供了文檔的隱式答案。
找出最接近用戶問題的隱式問題,賓果遊戲則擁有「最佳」答案/問答和特色片段。
根據Alvi的說法,他們正在使用雄心勃勃的AI,甚至在學術界也沒有使用過。他們正在教機器如何閱讀和理解。
圖靈是問答環節的關鍵,但不僅如此……
圖靈驅動代碼片段,從而推動問答環節以及每個Microsoft產品
「在Bing內,我們有一群應用研究人員,他們致力於雄心勃勃的自然語言處理演算法……」 Alvi說。
摘錄團隊「是所有Microsoft的這些演算法的中心。」
據我了解,這意味著驅動這些(看似無害的)描述的團隊提供了一種演算法來理解文本的語料庫,並提取或創建文本塊進行顯示-不僅提供給需要它的任何候選集,而且還提供給任何平台或諸如Word或Excel之類的軟體。
從SEO的角度來看,這意味著使用機器學習(以Bing的Turing形式)創建文本的做法,該文本向用戶顯示,包括標題,描述,摘要,問題的答案……好吧,誰知道?
從更廣泛的角度來看,似乎這種用於描述SERP的方式將為了解它在Microsoft生態系統中其他地方的發展提供一個窗口。
阿爾維(Alvi)說了這一點之後,就很明顯,這類技術必須進行大量的集中化處理(這樣我們才能利用我們的想像力並想出其他可能的例子)。
有趣的是,涵蓋(或將涵蓋)所有Microsoft產品的內容正在從十個藍色鏈接的描述中提供給他們。
返回搜索演算法的工作方式
搜尋中的達爾文主義是一回事– 100%
這次採訪是我聽完Google的Gary Illyes的Google排名工作原理後寫的一篇文章的有趣文章。
我曾問過Illyes,針對該摘要,是否有單獨的演算法,他說「不」。
藍色鏈接有一個核心演算法,所有候選集都以模塊化方式使用該演算法,並以模塊化方式對因子(或更準確地說,特徵)應用不同的權重。
阿爾維指出:「這個想法就是這樣。」
在裡面 第一集,弗雷德里克·杜布特(FrédéricDubut)證實了這一點,而第五頁內森·查默斯(Whole Page Team Lead)也證實了這一點,所以我們現在處於非常安全的立場:搜尋達爾文主義是「一件事」。
基金會永遠是十個藍色環節
Alvi提出了一個很重要的觀點:搜索引擎不斷發展(噢,達爾文主義再次出現)。
從歷史上看,在最初的15年左右的時間裡,搜索引擎只是10個藍色鏈接。
然後,當出現諸如Q&A之類的新功能時,它們必須安裝在原始系統的頂部,而不會破壞內核。
簡單。
輝煌。
邏輯上。
問答:「排名最高的藍色鏈接的最佳答案」
Q&A演算法只是簡單地瀏覽藍色鏈接的頂部結果,以查看它是否可以從其中一個文檔中提取內容,該文檔可以當場準確回答該問題。
因此,必須將排名排在前20位左右(確切的數字尚不清楚,並且幾乎可以肯定會因情況而異)。
有一個有趣的例外(請參閱下文)。
也許我們會忘記使用Bing和Google的人信任他們。
作為用戶,我們傾向於在頂部相信答案。這對於了解兩家公司的運作方式至關重要。
對於他們兩個而言,他們的用戶實際上都是他們的客戶。像任何企業一樣,Google和Bing必須為他們的客戶提供服務。
這些客戶希望並期望對問題的簡單回答,或對問題的快速解決方案。
問與答/特色片段是他們可以為客戶提供的最簡單,最快的解決方案。
Alvi的工作之一就是確保Bing提供的結果符合客戶的期望,微軟的企業形象和Bing的商業模式。
所有企業都面臨著微妙的平衡:
- 滿足用戶需求。
- 保持企業形象。
- 掙錢。
對於「問答」(或與此有關的任何搜索結果),這意味著為用戶提供「最佳,最方便的答案」,而不會被認為是錯誤,有偏見,誤導性,冒犯性或其他任何形式。
怪癖:要獲得一個問答場所,您不必在藍色鏈接中排名
Alvi指出,大多數時候,Q&A只是建立在藍色鏈接之上。
但是他們會記住顯示的結果,有時還會顯示藍色鏈接中未顯示的結果。
因此,您必須排在首位才能獲得Q&A,但是由於Q&A具有記憶力,因此您無需保持該藍色鏈接排名就可以在將來的Q&A現場考慮。
問答的排名因素是什麼?
專長,權威和信任。簡單。
Bing使用術語「相關性」而不是專業知識。
它們的意思是準確性,與專業知識的概念相距一百萬英里。
因此,問答非常基於E-A-T。
Google和Bing之所以查看我們的專業知識,權威和信任,是因為他們希望展示「最佳」結果-使他們對用戶表現出專業,權威和可信賴的結果。
現在,這沒有道理嗎?
這是找到「最佳」答案的過程
演算法從相關性開始。
答案正確嗎?
如果是這樣,它就有機會。
任何文件的正確性均取決於其是否符合公認的意見和文件的質量。
兩者均取決於演算法對實體及其關係的理解(因此,基於實體的搜索也是一回事)。
一旦一個實體被確定為答案的關鍵,神經網路就會確定該實體是否存在於該答案中。
如果是這樣,那麼相對於其他相關實體的上下文又是什麼,以及該迷你知識圖與「接受的事實」的對應程度如何。
然後,從相關的文檔(或準確/正確的/專家-選擇您的版本)中,他們將查看許可權和信任信號。
端到端神經網路評估文檔,作者和發布者的顯式和隱式許可權和信任。
端到端神經網路
Alvi堅持認為Q&A幾乎是端到端的神經網路/機器學習。
與Dubut一樣,他將演算法視為簡單的測量模型。
它衡量成功和失敗並相應地進行調整。
衡量成功與失敗:用戶反饋
使用端到端神經網路,人類擁有的控制權就是他們輸入的數據以及他們用來判斷績效的指標。
他們不斷地將所謂的「校正數據」提供給計算機。
目的是向機器指示:
- 正確的地方(Dubut談論加強學習)。
- 遇到錯誤時(這會推動機器進行調整)。
這些數據大部分基於以下形式的用戶反饋:
- 法官(相當於Google的質量評定員– Dubut談論他們 這裡)。
- 調查。
- 來自SERP的反饋。
Alvi建議,這是判斷機器的關鍵,也是決定團隊本身的關鍵。
相關團隊成員需要內部回應。
該演算法背後的團隊的主要職責是創建一種可靠的演算法,該演算法生成的結果可以建立對搜索引擎的信任。
對我來說,這回饋了一個想法,即在Bing或Google上進行搜索的用戶是他們的客戶。
像任何其他業務一樣,他們的業務模型也依賴於滿足這些客戶。
與任何其他業務一樣,他們對利用客戶反饋來改進產品的興趣也很大。
排名因素已出,指標已入
由於機器學習在排名過程中佔主導地位,因此關鍵問題不是「因素是什麼」,而是「指標是什麼」。
排名的實際計算已成為端到端的神經網路。
人類的任務是設置度量標準,進行質量控制並提供乾淨的,帶有標籤的數據,以鼓勵機器自行糾正。
機器用來滿足該測量要求的因素是我們(他們)不知道的。
Bing生產的模型具有數億個參數。
任何人都不可能真正進入並了解正在發生的事情。測量它的唯一方法是為其輸入並測量輸出。
我們可以給機器提供一些我們認為相關的因素。
但是,一旦我們讓他們放寬數據,他們就會發現我們沒有想到的因素。
這些隱含/間接因素對於Bing或Google的人們是未知的,因此問他們是什麼毫無意義。
他們最初認為重要的一些因素並不重要。
他們認為沒什麼大不了的。
還有一些他們沒有想到的需要。
所以要問的問題是「什麼是指標」,因為這是產品團隊控制的地方。這些是機器成功的衡量標準。
重要的是,計算機將鎖定到度量標準所說的內容上。
如果度量標準不正確,則機器將瞄準錯誤的目標,糾正性數據(指令)將產生誤導作用,最終機器將弄錯一切。
如果衡量標準正確,則整個過程將有助於改善結果,形成良性循環,並為Bing的客戶改善結果。
Bing產品是成功的。
過濾結果/護欄
由於團隊是根據他們的演算法產生的結果的質量來判斷的,而質量是根據這些結果能否改善Bing客戶對Bing產品的信任度來判斷的,因此他們有一個過濾演算法來防止「不良」結果損害Bing牌。
該過濾器本身是基於機器學習的演算法。
一種過濾器,可用來識別和壓制無益,冒犯或損害Bing聲譽的任何事物。例如:
- 仇恨言論。
- 成人內容。
- 假新聞。
- 令人反感的語言。
過濾器不會更改所選的候選者,而只是抑制對整頁演算法的出價。
阿爾維有趣地指出,他們只是行使特權而不回答給定的問題。
注釋是關鍵
阿爾維說:「 Fabrice和他的團隊做了一些我們實際上絕對依賴的驚人工作。」
他繼續說,如果沒有Canel的注釋,他們就無法建立演算法來產生問答。
這個系列表明這是適用於所有豐富元素的通用主題。
專門針對問答,這些注釋使演算法可以輕鬆地識別相關的塊,並允許它們進入並拉出適當的段落,無論它出現在文檔中的何處(Cindy Krum的「碎片」)。
它們也是在重新編寫藍色鏈接的元描述時摘錄演算法用來提取文檔中最適當部分的句柄。
那已經很酷了。但是,似乎Canel的注釋比簡單地識別障礙物要走得更遠。
它們甚至可以建議文檔中不同塊之間的可能關係,從而極大地促進了將文檔中多個部分的文本彙集在一起並縫合在一起的任務。
因此,Bingbot除了執行其他所有操作外,還具有強大的語義標記作用。
這再次使我們了解了我們構造頁面並為Bingbot(和Googlebot)提供儘可能多的線索是多麼基礎,以便它可以在我們的HTML中添加儘可能豐富的注釋層,因為該注釋在很大程度上有助於演算法提取並充分利用我們(精彩)的內容。
問與答引領潮流
Q&A在結果的頂部和頂部居中,它是所有其他Microsoft產品使用的中心,對於Bing和Google談論的基於任務的旅程,它是搜索未來的中心。
問與答/特色片段是真正突破界限的片段,對我們所有人(Bing,Google,他們的用戶以及我們作為搜索營銷商)而言,都是我們關注的重點–這激發了我這麼說……
概述SEO策略
當我回聽對話以撰寫本系列文章時,這一切讓我感到十分震驚。
對我而言,現在非常清楚,對結果(包括藍色鏈接或豐富元素)進行爬網,存儲和排名的整個過程是相互依賴的。
而且,鑒於 卡內爾, 杜布特,Alvi,Merchant和Chalmers在本系列文章中分享,我們的主要重點可以有用地總結為:
- 結構化我們的內容,以使其易於爬網,提取和注釋。
- 確保我們的內容對作為我們受眾的部分用戶有價值。
- 在內容,作者和發布者級別構建E-A-T。
無論我們要求Bing(或Google)向用戶展示的內容是藍色的鏈接還是豐富的元素,這都是事實。
圖片積分
特色和後期圖片:VéroniqueBarnard,Kalicube.pro