前Googler称PageRank于2006年取代

[ad_1]
前Googler称PageRank于2006年取代

一位前谷歌软件工程师在黑客新闻讨论中发表评论,讨论了谷歌如何运作。他一路上提到谷歌不再使用原始的PageRank算法。

谷歌不使用原始PageRank?

黑客新闻的讨论分为一个关于创建一个竞争搜索引擎和一个前Google员工讨论谷歌的PageRank的讨论。

这就是前Google员工对PageRank不再使用的说法:

“这里的评论是PageRank是谷歌的秘密调料也不是真的 – 谷歌自2006年以来就没有使用PageRank。关于搜索和点击数据的重要性更接近……”

然后他跟进:

“他们在2006年用一种算法取代了它,该算法可以提供近似相似的结果,但计算起来要快得多。替换算法是在工具栏中报告的数字,以及Google声称的PageRank(它甚至具有相似的名称,因此Google的声明在技术上不正确)。

两种算法都是O(N log N),但是替换在log N因子上具有小得多的常数,因为它不需要迭代直到算法收敛。随着网络从大约1-10万页增长到150B +,这一点非常重要。“

PageRank和New PageRank

哈姆雷特巴蒂斯塔在推特上发布了黑客新闻讨论中的启示。

搜索专利专家Bill Slawski通过推特回复:

“Google的新版PageRank在2006年被授予专利。巧合?”

Bill Slawski推文的屏幕截图“width =”800“height =”306“sizes =”(max-width:800px)100vw,800px“data-srcset =”https://cdn.searchenginejournal.com/wp-content /uploads/2019/07/bill-slawski-pagerank.png 800w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/07/bill-slawski-pagerank-480x184.png 480w,https:/ /cdn.searchenginejournal.com/wp-content/uploads/2019/07/bill-slawski-pagerank-680x260.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/07/bill- slawski-pagerank-768x294.png 768w“data-src =”https://cdn.searchenginejournal.com/wp-content/uploads/2019/07/bill-slawski-pagerank.png

比尔斯拉夫斯基 在2015年11月写了关于这个新PageRank的文章

在2015年的文章中,比尔写道:

“根据这项新专利,谷歌增加了一组多样化的可信页面作为种子网站。在计算页面排名时。谷歌会计算从种子页面到被排名页面的距离。“

这是比尔关于新的PageRank的注意事项 从2018年4月起的后续职位

“转让给斯坦福大学的原始PageRank专利已经过期。 Google拥有使用PageRank的独家许可。谷歌提交了一份PageRank更新,其背后有不同的算法。 “

比尔随后引用该专利:

“由加利福尼亚州山景城谷歌公司开发的流行搜索引擎使用PageRank.RTM。作为有效指导网页抓取,索引选择和网页排名过程的页面质量指标。“

新的PageRank是链路距离排名算法吗?

Bill Slawski引用的Google专利主要关注从受信任的种子集开始的排名链接。它不是信任算法。该专利的名称是 在Web链接图中使用距离生成页面排名

标题显示这是一个 链路距离排序算法,它使用受信任种子集的距离来计算PageRank的形式。它不是信任算法。

原始PageRank算法不再使用?

如果这个软件工程师是可信的,那么 原始PageRank算法 已不再使用。 Bill Slawski建议,它可能已经被更有效的类似名称的算法所取代。

这真的是前Google员工吗?

我相信这是一位前Google员工。根据他的说法 黑客新闻简介,他的名字叫乔纳森唐。

ex-googler黑客新闻简介的屏幕截图“width =”619“height =”372“sizes =”(最大宽度:619px)100vw,619px“data-srcset =”https://cdn.searchenginejournal.com/wp- content / uploads / 2019/07 / nostrademons-google-enginee.png 619w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/07/nostrademons-google-enginee-480x288.png 480w“data- SRC =“https://cdn.searchenginejournal.com/wp-content/uploads/2019/07/nostrademons-google-enginee.png

该名称对应于a LinkedIn个人资料的同名 具有以下背景信息:

“高级软件工程师
公司名称:谷歌
雇用日期:2009年1月至2014年5月

我在Search中加入了UI软件工程师,然后逐渐转向后端工作,最终使用完整的Search堆栈。还帮助Google+和GFiber推出。“

Google工程师公布了有关Google的更多信息

工程师认为,有些人可能会发现谷歌搜索结果不能令人满意,因为它的调整是为了满足群众而不是个人。 我称之为Fruit Loops效果谷歌,如超市谷物过道,将向用户展示他们期望看到的东西,在某些情况下是水果循环。

以下是他解释为什么Google SERP可能对某些人不满意的原因:

“之所以这样,是因为谷歌为主流观众建设,因为主流(按照定义)比任何利基都要大得多。通过这样做,他们可以提高总体幸福感(虽然不是你特定的幸福)。“

商业搜索补贴非商业搜索

谷歌还讨论了商业搜索带来的收入百分比,尽管他允许他的数字可能过时。

“谷歌基本上80%的收入来自搜索商业产品或服务(保险,律师,治疗师,SaaS,鲜花等)。其余部分分为AdSense,云端,Android,Google Play,GFiber,YouTube,DoubleClick,等等(现在可能会高一点)。“

Google的文档检索如何工作

然后他讨论了如何为每个查询检索文档:

“请记住,搜索(几乎)每个查询上的每个索引文档 – 如果您为4B文档投入200毫秒的请求延迟,您的请求将需要大约25年才能完成。

…它使用索引并仅触摸出现在其中一个相关发布列表中的文档。然而,在词干,拼写纠正,同义词和其他一些我无法讨论的扩展之后,可能需要查看很多查询术语,涵盖索引的重要部分。

这些中的每一个都需要得分(好吧,排序 – 你可以使用各种技巧来避免对某些文档进行评分,这也是我无法自由讨论的),并且只有在他们拥有之后才合并得分通常是有益的。已为所有查询字词计算,因为您可以获得有关上下文的更多信息。“

原始PageRank可能不再使用吗?

如果有人想到它,那么原始的PageRank算法可能没有被使用是有意义的。它可能已经发展或修改。前Google员工声称它已被完全取代。该声明符合最近谷歌专利更新中可见的证据,其中声称有一种新形式的PageRank。

阅读黑客新闻讨论:

https://news.ycombinator.com/item?id=20440079

阅读Twitter讨论
https://twitter.com/hamletbatista/status/1150885678680428545

相关文章