前Googler稱PageRank於2006年取代

[ad_1]
前Googler稱PageRank於2006年取代

一位前谷歌軟體工程師在黑客新聞討論中發表評論,討論了谷歌如何運作。他一路上提到谷歌不再使用原始的PageRank演算法。

谷歌不使用原始PageRank?

黑客新聞的討論分為一個關於創建一個競爭搜索引擎和一個前Google員工討論谷歌的PageRank的討論。

這就是前Google員工對PageRank不再使用的說法:

「這裡的評論是PageRank是谷歌的秘密調料也不是真的 – 谷歌自2006年以來就沒有使用PageRank。關於搜索和點擊數據的重要性更接近……」

然後他跟進:

「他們在2006年用一種演算法取代了它,該演算法可以提供近似相似的結果,但計算起來要快得多。替換演算法是在工具欄中報告的數字,以及Google聲稱的PageRank(它甚至具有相似的名稱,因此Google的聲明在技術上不正確)。

兩種演算法都是O(N log N),但是替換在log N因子上具有小得多的常數,因為它不需要迭代直到演算法收斂。隨著網路從大約1-10萬頁增長到150B +,這一點非常重要。「

PageRank和New PageRank

哈姆雷特巴蒂斯塔在推特上發布了黑客新聞討論中的啟示。

搜索專利專家Bill Slawski通過推特回復:

「Google的新版PageRank在2006年被授予專利。巧合?」

Bill Slawski推文的屏幕截圖「width =」800「height =」306「sizes =」(max-width:800px)100vw,800px「data-srcset =」https://cdn.searchenginejournal.com/wp-content /uploads/2019/07/bill-slawski-pagerank.png 800w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/07/bill-slawski-pagerank-480x184.png 480w,https:/ /cdn.searchenginejournal.com/wp-content/uploads/2019/07/bill-slawski-pagerank-680x260.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/07/bill- slawski-pagerank-768x294.png 768w「data-src =」https://cdn.searchenginejournal.com/wp-content/uploads/2019/07/bill-slawski-pagerank.png

比爾斯拉夫斯基 在2015年11月寫了關於這個新PageRank的文章

在2015年的文章中,比爾寫道:

「根據這項新專利,谷歌增加了一組多樣化的可信頁面作為種子網站。在計算頁面排名時。谷歌會計算從種子頁面到被排名頁面的距離。「

這是比爾關於新的PageRank的注意事項 從2018年4月起的後續職位

「轉讓給斯坦福大學的原始PageRank專利已經過期。 Google擁有使用PageRank的獨家許可。谷歌提交了一份PageRank更新,其背後有不同的演算法。 「

比爾隨後引用該專利:

「由加利福尼亞州山景城谷歌公司開發的流行搜索引擎使用PageRank.RTM。作為有效指導網頁抓取,索引選擇和網頁排名過程的頁面質量指標。「

新的PageRank是鏈路距離排名演算法嗎?

Bill Slawski引用的Google專利主要關注從受信任的種子集開始的排名鏈接。它不是信任演算法。該專利的名稱是 在Web鏈接圖中使用距離生成頁面排名

標題顯示這是一個 鏈路距離排序演算法,它使用受信任種子集的距離來計算PageRank的形式。它不是信任演算法。

原始PageRank演算法不再使用?

如果這個軟體工程師是可信的,那麼 原始PageRank演算法 已不再使用。 Bill Slawski建議,它可能已經被更有效的類似名稱的演算法所取代。

這真的是前Google員工嗎?

我相信這是一位前Google員工。根據他的說法 黑客新聞簡介,他的名字叫喬納森唐。

ex-googler黑客新聞簡介的屏幕截圖「width =」619「height =」372「sizes =」(最大寬度:619px)100vw,619px「data-srcset =」https://cdn.searchenginejournal.com/wp- content / uploads / 2019/07 / nostrademons-google-enginee.png 619w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/07/nostrademons-google-enginee-480x288.png 480w「data- SRC =「https://cdn.searchenginejournal.com/wp-content/uploads/2019/07/nostrademons-google-enginee.png

該名稱對應於a LinkedIn個人資料的同名 具有以下背景信息:

「高級軟體工程師
公司名稱:谷歌
僱用日期:2009年1月至2014年5月

我在Search中加入了UI軟體工程師,然後逐漸轉向後端工作,最終使用完整的Search堆棧。還幫助Google+和GFiber推出。「

Google工程師公布了有關Google的更多信息

工程師認為,有些人可能會發現谷歌搜索結果不能令人滿意,因為它的調整是為了滿足群眾而不是個人。 我稱之為Fruit Loops效果谷歌,如超市穀物過道,將向用戶展示他們期望看到的東西,在某些情況下是水果循環。

以下是他解釋為什麼Google SERP可能對某些人不滿意的原因:

「之所以這樣,是因為谷歌為主流觀眾建設,因為主流(按照定義)比任何利基都要大得多。通過這樣做,他們可以提高總體幸福感(雖然不是你特定的幸福)。「

商業搜索補貼非商業搜索

谷歌還討論了商業搜索帶來的收入百分比,儘管他允許他的數字可能過時。

「谷歌基本上80%的收入來自搜索商業產品或服務(保險,律師,治療師,SaaS,鮮花等)。其餘部分分為AdSense,雲端,Android,Google Play,GFiber,YouTube,DoubleClick,等等(現在可能會高一點)。「

Google的文檔檢索如何工作

然後他討論了如何為每個查詢檢索文檔:

「請記住,搜索(幾乎)每個查詢上的每個索引文檔 – 如果您為4B文檔投入200毫秒的請求延遲,您的請求將需要大約25年才能完成。

…它使用索引並僅觸摸出現在其中一個相關發布列表中的文檔。然而,在詞幹,拼寫糾正,同義詞和其他一些我無法討論的擴展之後,可能需要查看很多查詢術語,涵蓋索引的重要部分。

這些中的每一個都需要得分(好吧,排序 – 你可以使用各種技巧來避免對某些文檔進行評分,這也是我無法自由討論的),並且只有在他們擁有之後才合併得分通常是有益的。已為所有查詢字詞計算,因為您可以獲得有關上下文的更多信息。「

原始PageRank可能不再使用嗎?

如果有人想到它,那麼原始的PageRank演算法可能沒有被使用是有意義的。它可能已經發展或修改。前Google員工聲稱它已被完全取代。該聲明符合最近谷歌專利更新中可見的證據,其中聲稱有一種新形式的PageRank。

閱讀黑客新聞討論:

https://news.ycombinator.com/item?id=20440079

閱讀Twitter討論
https://twitter.com/hamletbatista/status/1150885678680428545

相關文章