[ad_1]
一位前谷歌软件工程师在黑客新闻讨论中发表评论,讨论了谷歌如何运作。他一路上提到谷歌不再使用原始的PageRank算法。
谷歌不使用原始PageRank?
黑客新闻的讨论分为一个关于创建一个竞争搜索引擎和一个前Google员工讨论谷歌的PageRank的讨论。
这就是前Google员工对PageRank不再使用的说法:
“这里的评论是PageRank是谷歌的秘密调料也不是真的 – 谷歌自2006年以来就没有使用PageRank。关于搜索和点击数据的重要性更接近……”
然后他跟进:
“他们在2006年用一种算法取代了它,该算法可以提供近似相似的结果,但计算起来要快得多。替换算法是在工具栏中报告的数字,以及Google声称的PageRank(它甚至具有相似的名称,因此Google的声明在技术上不正确)。
两种算法都是O(N log N),但是替换在log N因子上具有小得多的常数,因为它不需要迭代直到算法收敛。随着网络从大约1-10万页增长到150B +,这一点非常重要。“
PageRank和New PageRank
哈姆雷特巴蒂斯塔在推特上发布了黑客新闻讨论中的启示。
搜索专利专家Bill Slawski通过推特回复:
“Google的新版PageRank在2006年被授予专利。巧合?”
比尔斯拉夫斯基 在2015年11月写了关于这个新PageRank的文章。
在2015年的文章中,比尔写道:
“根据这项新专利,谷歌增加了一组多样化的可信页面作为种子网站。在计算页面排名时。谷歌会计算从种子页面到被排名页面的距离。“
这是比尔关于新的PageRank的注意事项 从2018年4月起的后续职位:
“转让给斯坦福大学的原始PageRank专利已经过期。 Google拥有使用PageRank的独家许可。谷歌提交了一份PageRank更新,其背后有不同的算法。 “
比尔随后引用该专利:
“由加利福尼亚州山景城谷歌公司开发的流行搜索引擎使用PageRank.RTM。作为有效指导网页抓取,索引选择和网页排名过程的页面质量指标。“
新的PageRank是链路距离排名算法吗?
Bill Slawski引用的Google专利主要关注从受信任的种子集开始的排名链接。它不是信任算法。该专利的名称是 在Web链接图中使用距离生成页面排名。
标题显示这是一个 链路距离排序算法,它使用受信任种子集的距离来计算PageRank的形式。它不是信任算法。
原始PageRank算法不再使用?
如果这个软件工程师是可信的,那么 原始PageRank算法 已不再使用。 Bill Slawski建议,它可能已经被更有效的类似名称的算法所取代。
这真的是前Google员工吗?
我相信这是一位前Google员工。根据他的说法 黑客新闻简介,他的名字叫乔纳森唐。
该名称对应于a LinkedIn个人资料的同名 具有以下背景信息:
“高级软件工程师
公司名称:谷歌
雇用日期:2009年1月至2014年5月我在Search中加入了UI软件工程师,然后逐渐转向后端工作,最终使用完整的Search堆栈。还帮助Google+和GFiber推出。“
Google工程师公布了有关Google的更多信息
工程师认为,有些人可能会发现谷歌搜索结果不能令人满意,因为它的调整是为了满足群众而不是个人。 我称之为Fruit Loops效果谷歌,如超市谷物过道,将向用户展示他们期望看到的东西,在某些情况下是水果循环。
以下是他解释为什么Google SERP可能对某些人不满意的原因:
“之所以这样,是因为谷歌为主流观众建设,因为主流(按照定义)比任何利基都要大得多。通过这样做,他们可以提高总体幸福感(虽然不是你特定的幸福)。“
商业搜索补贴非商业搜索
谷歌还讨论了商业搜索带来的收入百分比,尽管他允许他的数字可能过时。
“谷歌基本上80%的收入来自搜索商业产品或服务(保险,律师,治疗师,SaaS,鲜花等)。其余部分分为AdSense,云端,Android,Google Play,GFiber,YouTube,DoubleClick,等等(现在可能会高一点)。“
Google的文档检索如何工作
然后他讨论了如何为每个查询检索文档:
“请记住,搜索(几乎)每个查询上的每个索引文档 – 如果您为4B文档投入200毫秒的请求延迟,您的请求将需要大约25年才能完成。
…它使用索引并仅触摸出现在其中一个相关发布列表中的文档。然而,在词干,拼写纠正,同义词和其他一些我无法讨论的扩展之后,可能需要查看很多查询术语,涵盖索引的重要部分。
这些中的每一个都需要得分(好吧,排序 – 你可以使用各种技巧来避免对某些文档进行评分,这也是我无法自由讨论的),并且只有在他们拥有之后才合并得分通常是有益的。已为所有查询字词计算,因为您可以获得有关上下文的更多信息。“
原始PageRank可能不再使用吗?
如果有人想到它,那么原始的PageRank算法可能没有被使用是有意义的。它可能已经发展或修改。前Google员工声称它已被完全取代。该声明符合最近谷歌专利更新中可见的证据,其中声称有一种新形式的PageRank。
阅读黑客新闻讨论:
https://news.ycombinator.com/item?id=20440079
阅读Twitter讨论
https://twitter.com/hamletbatista/status/1150885678680428545