Bingbot的工作原理:發現,搜尋,提取和建立索引

[ad_1]

Bingbot的工作原理:發現,搜尋,提取和建立索引

這是我對「 Bingbot老闆」 Fabrice Canel(官方:Bing的首席項目經理)進行採訪的回顧。

Canel負責發現Web上的所有內容,選擇最佳內容,對其進行處理並存儲-事實證明,這是巨大的責任(請閱讀)。

可以安全地假設Googlebot的運行方式大致相同

Bingbot和Googlebot在最小的細節方面的功能並不完全相同。但足夠接近:

  • 過程完全相同:發現,爬網,提取,索引。
  • 他們索引的內容完全相同。
  • 他們面臨的問題是完全一樣的。
  • 他們使用的技術是相同的。

因此,具體如何實現每個步驟的細節將有所不同。

但是Canel確認他們正在合作開發Chromium,並標準化了抓取和渲染。

所有這些使Canel分享了Bingbot如何發現,爬網,提取和建立索引非常有見地和非常有用的任何東西。

發現,爬行,提取和建立索引是任何搜索引擎的基礎

我知道明顯的說法。

但是對我而言,最突出的是此過程在多大程度上絕對支持隨後的一切。

不僅大量的內容甚至在被排名演算法考慮之前就被排除在外,而且組織不善的內容在索引方式和演算法處理方面都具有很大的障礙。

內容按邏輯,簡單的塊組織得很好,在整個過程中都具有巨大的優勢-直到選擇,定位以及它在SERP中的顯示方式。

結構清晰,內容豐富的內容以一種機械方式升至頂部,這種機械方式易於掌握並且深受鼓舞。

發現與爬行

每天,Bingbot都會找到他們從未見過的700億個URL。

而且,他們每天都必須跟蹤找到的所有鏈接,並且還要爬網並獲取每個結果頁面,因為直到獲取頁面之前,他們都不知道內容是否有用。

預過濾內容

這是Canel分享的第一個有趣的觀點。

過濾從此處開始。

認為在Bing結果中滿足用戶搜索查詢的絕對沒有潛力的頁面不會保留。

因此,看起來像垃圾郵件,重複或稀疏的頁面甚至無法進入索引。

但是Bingbot不僅拒絕垃圾郵件頁面,還試圖通過預測哪些鏈接可能會將其帶到無用的內容來超越遊戲。

為了預測任何給定的鏈接是否會導致可能有價值的內容,它會查看以下信號:

  • 網址結構。
  • URL的長度。
  • 變數數。
  • 入站鏈接質量。
  • 等等。

導致無用內容的鏈接稱為「無效」鏈接。

隨著機器學習的改進,將遵循這些無效鏈接,更少的無用頁面將通過此早期篩選器滑動,索引也會得到改善。

這些演算法將不得不減少「雜亂無章」,這意味著它們可以更輕鬆地識別出最佳內容並將其呈現在Bing的客戶面前。

重要的是,必應重點關註:

  • 減少草皮的爬行,渲染和索引編製(省錢)。
  • 減少碳排放(Canel對此非常重視)。
  • 改善排名演算法的性能。
  • 產生更好的結果。

鏈接剩餘鍵到發現

頁面沒有價值的最大信號是沒有入站鏈接。

每個頁面至少需要一個入站鏈接-顯然,該鏈接不必來自第三方-它可以是內部鏈接。

但是,一旦發現,由於Bingbot具有「內存」,就不需要它們了

Bingbot會將每個URL保留在內存中,並間歇性地返回並重新爬網,即使已刪除所有鏈接。

這解釋了為什麼Bingbot(和Googlebot)會回來並檢查沒有入站鏈接的已刪除頁面,甚至是在刪除該頁面及其所有引用之後的幾個月。

我的網站上遇到了這種情況-5個月前刪除的舊頁面再次困擾了我(還有Bing和Google!)。

為什麼?

因為Bing認為任何URL都可能突然恢復活力並變得有價值,例如:

  • 處於活動狀態的寄存域。
  • 改變所有權並激發生命的領域。
  • 網站上由所有者糾正的鏈接斷開。

URL生命周期是必應的「物」

有一個限制:Canel稱之為「生命周期」。

一旦該生命周期完成,該URL將不再從內存中爬網-可以通過發現入站鏈接,RSS feed中的引用,站點地圖或通過其API提交來恢復該URL。

Canel堅信提供RSS源和站點地圖是至關重要的工具,可以幫助我們幫助Bingbot和Googlebot不僅發現新的和已恢復的內容,而且還可以有效地抓取「已知」內容。

更好的是,使用索引API,因為這不僅可以幫助他們發現內容,而且可以減少浪費的/多餘的爬網,從而減少碳排放,效率更高。

他在 這一集 播客。

提取中

我是HTML5的粉絲。

事實證明,儘管從理論上講它很有用,因為它可以識別頁面播放中特定角色的角色,但HTML5很少能很好地實現。

因此,儘管它應該提供幫助機器人從頁面中提取信息的結構和語義,但通常不會。

Google的John Mueller提出,嚴格來說,嚴格的HTML5不一定對機器人很有用。

Canel堅信任何標準化的結構都是有幫助的。

正確使用標題標籤來識別主題,子主題和子子主題是您最少要做的事情。

使用表和列表也很簡單但功能強大。

段,邊,頁眉,頁腳和其他語義HTML5標籤確實可以幫助Bingbot(幾乎可以肯定是Googlebot),並且如果可以的話,非常值得實現。

HTML表格上的快速辭彙。

它們是一種非常強大的數據結構方式-只需停止使用它們進行設計即可。

Web上超過80%的表用於設計,但是表用於呈現數據,而不是用於設計……這對於機器來說非常令人困惑。 (Canel使用分散注意力這個詞,我喜歡這個詞,因為它使Bot更具人性化。)

請Bingbot幫忙,並使用表格來顯示數據,例如太陽系中的行星。

使用DIV和CSS在頁面布局中放置內容。

但是任何結構的系統化都值得考慮。

如果您構建定製的CMS,請使用HTML5幫助機器人「消化」。

否則,任何現成的CMS都可以使殭屍程序更容易提取。

使用標準的CMS系統,他們一次又一次看到相同的總體結構,而重複正是機器學習可以最好地把握的。

因此,值得考慮使用流行的CMS(例如Joomla,Typo3或WordPress)來構建您的網站。

從幫助機器人從您的頁面提取內容的角度來看,WordPress顯然是最佳選擇,因為超過30%的網站都是使用WordPress構建的。

漫遊器在訪問的三個站點中看到的站點具有相同的基本結構。

這很好地引導到……

機器人與機器學習

重要的是要記住,機器學習驅動發現,檢索,提取,索引過程中的每個步驟。因此,機器學習是關鍵。

對網頁(Canel的術語)的深刻理解以及智能的,不斷發展的提取系統對於Bing,Google和網站所有者來說都是至關重要的。

為了最好地提取內容並為其編製索引,機器人需要底層HTML代碼中的模式。

因此,對我們所有人來說,最大的好處就是要努力確保自己的鏈接,站點結構,頁面結構和HTML都保持一致……並且,如果可能的話,還要與同樣適用於我們站點之外的標準保持一致。

但是……所有站點都一樣

建立一個與網路上其他多個站點具有相同結構的站點似乎意味著它們將相互融合。事實並非如此。

設計獨立於HTML結構。這正是HTML5的意義–將設計與語義分離。這個 文章 涵蓋了這一點。

結構將不會完全相同(非常小的站點只接受了六頁頁面)。

即使是事實,那為何如此重要?

您創建的內容是唯一的(希望如此)。因此,即使談論相同的話題,也沒有兩個品牌會說相同的話。

因此,如果您使用WordPress,並選擇一個流行的主題,您將在機器人的所有方框中打勾……但是您的設計,結構和內容對於您的觀眾仍然是唯一的。

您在兩條戰線上都贏了。

簡而言之,除非您是一家擁有大量預算的大型公司,否則在通用CMS上堅持使用流行的模板通常是一個不錯的選擇,因為由於它們是通用的,因此所有搜索引擎都會自然地理解它們。

您的內容是唯一的,您可以使用簡單的CSS完全更改唯一的視覺呈現。

請記住,要遵守CSS標準,不要與CMS核心或底層HTML混淆,以免混淆Bingbot和Googlebot。

Google和Bing協作

兩個機器人都使用Chromium。重要的是要記住,Chromium是一種開源瀏覽器,不僅支持Chrome,而且支持Opera … 其他一些瀏覽器

在這種情況下,重要的是Bingbot不僅 切換到Chromium版本的Edge 在2019年末,但也跟隨Googlebot走向常青樹。

Canel說,不僅如此,Bing和Google現在正在密切合作開發Chromium。很難想像。而且容易忘記。

Canel表示,進行合作符合兩家公司的利益-他們正試圖以相同的目標抓取完全相同的內容。

有了規模(和成本),他們就對標準化產生了濃厚的興趣(這個詞一直在流行!)。

他們不能期望網站所有者針對不同的機器人進行不同的開發。而在所有這些年之後,現在看來已成為現實。

兩個主要的搜尋器,都使用相同的瀏覽器,並且都使用Evergreen。開發網站是否變得容易得多?

Bingbot對Edge的採用將使SEO社區的生活更加輕鬆,因為我們只需測試一次渲染即可。

如果頁面在Edge中呈現良好,它將在Chrome中呈現良好,它將對Googlebot呈現良好,對Bingbot也呈現良好。這對我們所有人來說都是個好消息。

有關信息,自2020年1月15日起,Microsoft瀏覽器Edge的公共發行版基於Chromium。

因此,不僅我們的瀏覽器現在大部分都基於相同的基本代碼構建,而且兩個主要的搜索引擎機器人也都構建了。

提取豐富元素

搜索中豐富元素/達爾文主義的發展是本系列的起點。

我真正想了解的一件事是,從索引的角度來看,它是如何工作的。

Bing和Google如何大規模維護提供所有這些SERP功能的索引系統?

兩種漫遊器都非常擅長識別頁面的部分/塊/塊,並弄清楚它們扮演的角色(頁眉,頁腳,旁邊,菜單,用戶注釋等)。

他們可以從頁面中間準確可靠地提取特定的精確信息,即使在HTML的組織不當的情況下(但這也不是偷懶的借口)。

再一次,機器學習至關重要。

這是他們這樣做的關鍵。這就是我們最近幾年看到的豐富元素驚人增長的基礎。

退後一步,看看今天的SERP與10年前相比的解剖結構可能很有用。

豐富的元素已在現代SERPs中佔據了重要位置-很難記住我們只有10個藍色鏈接的SERP的日子。無特徵的SERP。

索引/存儲

Bingbot存儲信息的方式對於所有排名團隊都至關重要。

每個演算法都依賴Bingbot索引的質量來提供可用於結果的信息。

關鍵是注釋。

Canel的團隊會注釋其存儲的數據。

  • 它們為HTML添加了豐富的描述層。
  • 它們標記零件:標題,段落,媒體,表格,旁邊,頁腳等。

還有一個(非常簡單的)技巧,使他們可以從頁面中間以適當的(通常是豐富的)格式提取內容並將其放置在SERP中。

標準是有效標籤的關鍵

方便的提示:根據Canel先前的說法,如果您的HTML遵循已知的系統(例如WordPress中嚴格正確的HTML5或Gutenberg塊),那麼標籤將對不同的豐富元素更加準確,更加精細並且「可用」。

並且,由於您的內容更易於理解,並且更容易從索引中訪問和提取,因此,您的內容就具有了從一開始就具有決定性的優勢。

豐富的注釋

Canel使用「豐富」一詞,並談論「添加很多功能」,這強烈暗示著該標籤/注釋是廣泛的。

Bingbot對排名演算法如何感知內容產生巨大影響。

他們的注釋使世界上不同的SERP功能演算法對您的內容的感知,選擇和顯示方式有所不同。

如果您的內容在被Bingbot編入索引時標註不當,則在出現在SERP中時會遇到非常嚴重的障礙–無論是藍色鏈接,精選摘要,新聞,圖像,視頻……

因此,在塊級別構建內容至關重要。

使用標準化的邏輯系統並在整個站點中進行維護,是Bingbot將頁面存儲在資料庫中時使Bingbot在可用塊中注釋內容的唯一方法。

這就是大量內容在SERP中生存還是消亡的基石-從被視為潛在候選人的角度,以及如何以及何時顯示。

藍色鏈接或富元素的每個結果都依賴於同一資料庫

無論內容格式或SERP功能如何,對結果進行排名和顯示的整個系統取決於Canel團隊對互聯網,互聯網處理和互聯網存儲的理解。

特色片段/問答,視頻和圖像,新聞輪播等沒有多種發現,選擇,處理或索引系統。

一切都結合在一起,每個團隊都從一個單一的來源中提取需要的東西。

候選集選擇,分析候選列表並將其呈現給整個頁面團隊的能力取決於Bingbot在頁面上添加的注釋。

搜尋中的達爾文主義變得更有趣

是的,排名演算法是達爾文主義的,如Gary Illyes 描述,但某些頁面的內容從一開始就具有很大的優勢。

添加句柄使您的內容獲得不公平的優勢

我的理解是,Canel談論的「注釋的豐富層」是Cindy Krum在她使用的句柄 脆弱理論

如果我們在自己的HTML中添加易於識別的句柄,則注釋將變得:更準確,更精細,並且對不同候選集的演算法更有幫助。

內容上的HTML「句柄」將使它在SERP的達爾文主義世界中處於領先地位。

圖片積分

特色圖片:Kalicube.pro

相關文章