Bingbot的工作原理:发现,搜寻,提取和建立索引

[ad_1]

Bingbot的工作原理:发现,搜寻,提取和建立索引

这是我对“ Bingbot老板” Fabrice Canel(官方:Bing的首席项目经理)进行采访的回顾。

Canel负责发现Web上的所有内容,选择最佳内容,对其进行处理并存储-事实证明,这是巨大的责任(请阅读)。

可以安全地假设Googlebot的运行方式大致相同

Bingbot和Googlebot在最小的细节方面的功能并不完全相同。但足够接近:

  • 过程完全相同:发现,爬网,提取,索引。
  • 他们索引的内容完全相同。
  • 他们面临的问题是完全一样的。
  • 他们使用的技术是相同的。

因此,具体如何实现每个步骤的细节将有所不同。

但是Canel确认他们正在合作开发Chromium,并标准化了抓取和渲染。

所有这些使Canel分享了Bingbot如何发现,爬网,提取和建立索引非常有见地和非常有用的任何东西。

发现,爬行,提取和建立索引是任何搜索引擎的基础

我知道明显的说法。

但是对我而言,最突出的是此过程在多大程度上绝对支持随后的一切。

不仅大量的内容甚至在被排名算法考虑之前就被排除在外,而且组织不善的内容在索引方式和算法处理方面都具有很大的障碍。

内容按逻辑,简单的块组织得很好,在整个过程中都具有巨大的优势-直到选择,定位以及它在SERP中的显示方式。

结构清晰,内容丰富的内容以一种机械方式升至顶部,这种机械方式易于掌握并且深受鼓舞。

发现与爬行

每天,Bingbot都会找到他们从未见过的700亿个URL。

而且,他们每天都必须跟踪找到的所有链接,并且还要爬网并获取每个结果页面,因为直到获取页面之前,他们都不知道内容是否有用。

预过滤内容

这是Canel分享的第一个有趣的观点。

过滤从此处开始。

认为在Bing结果中满足用户搜索查询的绝对没有潜力的页面不会保留。

因此,看起来像垃圾邮件,重复或稀疏的页面甚至无法进入索引。

但是Bingbot不仅拒绝垃圾邮件页面,还试图通过预测哪些链接可能会将其带到无用的内容来超越游戏。

为了预测任何给定的链接是否会导致可能有价值的内容,它会查看以下信号:

  • 网址结构。
  • URL的长度。
  • 变量数。
  • 入站链接质量。
  • 等等。

导致无用内容的链接称为“无效”链接。

随着机器学习的改进,将遵循这些无效链接,更少的无用页面将通过此早期筛选器滑动,索引也会得到改善。

这些算法将不得不减少“杂乱无章”,这意味着它们可以更轻松地识别出最佳内容并将其呈现在Bing的客户面前。

重要的是,必应重点关注:

  • 减少草皮的爬行,渲染和索引编制(省钱)。
  • 减少碳排放(Canel对此非常重视)。
  • 改善排名算法的性能。
  • 产生更好的结果。

链接剩余键到发现

页面没有价值的最大信号是没有入站链接。

每个页面至少需要一个入站链接-显然,该链接不必来自第三方-它可以是内部链接。

但是,一旦发现,由于Bingbot具有“内存”,就不需要它们了

Bingbot会将每个URL保留在内存中,并间歇性地返回并重新爬网,即使已删除所有链接。

这解释了为什么Bingbot(和Googlebot)会回来并检查没有入站链接的已删除页面,甚至是在删除该页面及其所有引用之后的几个月。

我的网站上遇到了这种情况-5个月前删除的旧页面再次困扰了我(还有Bing和Google!)。

为什么?

因为Bing认为任何URL都可能突然恢复活力并变得有价值,例如:

  • 处于活动状态的寄存域。
  • 改变所有权并激发生命的领域。
  • 网站上由所有者纠正的链接断开。

URL生命周期是必应的“物”

有一个限制:Canel称之为“生命周期”。

一旦该生命周期完成,该URL将不再从内存中爬网-可以通过发现入站链接,RSS feed中的引用,站点地图或通过其API提交来恢复该URL。

Canel坚信提供RSS源和站点地图是至关重要的工具,可以帮助我们帮助Bingbot和Googlebot不仅发现新的和已恢复的内容,而且还可以有效地抓取“已知”内容。

更好的是,使用索引API,因为这不仅可以帮助他们发现内容,而且可以减少浪费的/多余的爬网,从而减少碳排放,效率更高。

他在 这一集 播客。

提取中

我是HTML5的粉丝。

事实证明,尽管从理论上讲它很有用,因为它可以识别页面播放中特定角色的角色,但HTML5很少能很好地实现。

因此,尽管它应该提供帮助机器人从页面中提取信息的结构和语义,但通常不会。

Google的John Mueller提出,严格来说,严格的HTML5不一定对机器人很有用。

Canel坚信任何标准化的结构都是有帮助的。

正确使用标题标签来识别主题,子主题和子子主题是您最少要做的事情。

使用表和列表也很简单但功能强大。

段,边,页眉,页脚和其他语义HTML5标签确实可以帮助Bingbot(几乎可以肯定是Googlebot),并且如果可以的话,非常值得实现。

HTML表格上的快速词汇。

它们是一种非常强大的数据结构方式-只需停止使用它们进行设计即可。

Web上超过80%的表用于设计,但是表用于呈现数据,而不是用于设计……这对于机器来说非常令人困惑。 (Canel使用分散注意力这个词,我喜欢这个词,因为它使Bot更具人性化。)

请Bingbot帮忙,并使用表格来显示数据,例如太阳系中的行星。

使用DIV和CSS在页面布局中放置内容。

但是任何结构的系统化都值得考虑。

如果您构建定制的CMS,请使用HTML5帮助机器人“消化”。

否则,任何现成的CMS都可以使僵尸程序更容易提取。

使用标准的CMS系统,他们一次又一次看到相同的总体结构,而重复正是机器学习可以最好地把握的。

因此,值得考虑使用流行的CMS(例如Joomla,Typo3或WordPress)来构建您的网站。

从帮助机器人从您的页面提取内容的角度来看,WordPress显然是最佳选择,因为超过30%的网站都是使用WordPress构建的。

漫游器在访问的三个站点中看到的站点具有相同的基本结构。

这很好地引导到……

机器人与机器学习

重要的是要记住,机器学习驱动发现,检索,提取,索引过程中的每个步骤。因此,机器学习是关键。

对网页(Canel的术语)的深刻理解以及智能的,不断发展的提取系统对于Bing,Google和网站所有者来说都是至关重要的。

为了最好地提取内容并为其编制索引,机器人需要底层HTML代码中的模式。

因此,对我们所有人来说,最大的好处就是要努力确保自己的链接,站点结构,页面结构和HTML都保持一致……并且,如果可能的话,还要与同样适用于我们站点之外的标准保持一致。

但是……所有站点都一样

建立一个与网络上其他多个站点具有相同结构的站点似乎意味着它们将相互融合。事实并非如此。

设计独立于HTML结构。这正是HTML5的意义–将设计与语义分离。这个 文章 涵盖了这一点。

结构将不会完全相同(非常小的站点只接受了六页页面)。

即使是事实,那为何如此重要?

您创建的内容是唯一的(希望如此)。因此,即使谈论相同的话题,也没有两个品牌会说相同的话。

因此,如果您使用WordPress,并选择一个流行的主题,您将在机器人的所有方框中打勾……但是您的设计,结构和内容对于您的观众仍然是唯一的。

您在两条战线上都赢了。

简而言之,除非您是一家拥有大量预算的大型公司,否则在通用CMS上坚持使用流行的模板通常是一个不错的选择,因为由于它们是通用的,因此所有搜索引擎都会自然地理解它们。

您的内容是唯一的,您可以使用简单的CSS完全更改唯一的视觉呈现。

请记住,要遵守CSS标准,不要与CMS核心或底层HTML混淆,以免混淆Bingbot和Googlebot。

Google和Bing协作

两个机器人都使用Chromium。重要的是要记住,Chromium是一种开源浏览器,不仅支持Chrome,而且支持Opera … 其他一些浏览器

在这种情况下,重要的是Bingbot不仅 切换到Chromium版本的Edge 在2019年末,但也跟随Googlebot走向常青树。

Canel说,不仅如此,Bing和Google现在正在密切合作开发Chromium。很难想象。而且容易忘记。

Canel表示,进行合作符合两家公司的利益-他们正试图以相同的目标抓取完全相同的内容。

有了规模(和成本),他们就对标准化产生了浓厚的兴趣(这个词一直在流行!)。

他们不能期望网站所有者针对不同的机器人进行不同的开发。而在所有这些年之后,现在看来已成为现实。

两个主要的搜寻器,都使用相同的浏览器,并且都使用Evergreen。开发网站是否变得容易得多?

Bingbot对Edge的采用将使SEO社区的生活更加轻松,因为我们只需测试一次渲染即可。

如果页面在Edge中呈现良好,它将在Chrome中呈现良好,它将对Googlebot呈现良好,对Bingbot也呈现良好。这对我们所有人来说都是个好消息。

有关信息,自2020年1月15日起,Microsoft浏览器Edge的公共发行版基于Chromium。

因此,不仅我们的浏览器现在大部分都基于相同的基本代码构建,而且两个主要的搜索引擎机器人也都构建了。

提取丰富元素

搜索中丰富元素/达尔文主义的发展是本系列的起点。

我真正想了解的一件事是,从索引的角度来看,它是如何工作的。

Bing和Google如何大规模维护提供所有这些SERP功能的索引系统?

两种漫游器都非常擅长识别页面的部分/块/块,并弄清楚它们扮演的角色(页眉,页脚,旁边,菜单,用户注释等)。

他们可以从页面中间准确可靠地提取特定的精确信息,即使在HTML的组织不当的情况下(但这也不是偷懒的借口)。

再一次,机器学习至关重要。

这是他们这样做的关键。这就是我们最近几年看到的丰富元素惊人增长的基础。

退后一步,看看今天的SERP与10年前相比的解剖结构可能很有用。

丰富的元素已在现代SERPs中占据了重要位置-很难记住我们只有10个蓝色链接的SERP的日子。无特征的SERP。

索引/存储

Bingbot存储信息的方式对于所有排名团队都至关重要。

每个算法都依赖Bingbot索引的质量来提供可用于结果的信息。

关键是注释。

Canel的团队会注释其存储的数据。

  • 它们为HTML添加了丰富的描述层。
  • 它们标记零件:标题,段落,媒体,表格,旁边,页脚等。

还有一个(非常简单的)技巧,使他们可以从页面中间以适当的(通常是丰富的)格式提取内容并将其放置在SERP中。

标准是有效标签的关键

方便的提示:根据Canel先前的说法,如果您的HTML遵循已知的系统(例如WordPress中严格正确的HTML5或Gutenberg块),那么标签将对不同的丰富元素更加准确,更加精细并且“可用”。

并且,由于您的内容更易于理解,并且更容易从索引中访问和提取,因此,您的内容就具有了从一开始就具有决定性的优势。

丰富的注释

Canel使用“丰富”一词,并谈论“添加很多功能”,这强烈暗示着该标签/注释是广泛的。

Bingbot对排名算法如何感知内容产生巨大影响。

他们的注释使世界上不同的SERP功能算法对您的内容的感知,选择和显示方式有所不同。

如果您的内容在被Bingbot编入索引时标注不当,则在出现在SERP中时会遇到非常严重的障碍–无论是蓝色链接,精选摘要,新闻,图像,视频……

因此,在块级别构建内容至关重要。

使用标准化的逻辑系统并在整个站点中进行维护,是Bingbot将页面存储在数据库中时使Bingbot在可用块中注释内容的唯一方法。

这就是大量内容在SERP中生存还是消亡的基石-从被视为潜在候选人的角度,以及如何以及何时显示。

蓝色链接或富元素的每个结果都依赖于同一数据库

无论内容格式或SERP功能如何,对结果进行排名和显示的整个系统取决于Canel团队对互联网,互联网处理和互联网存储的理解。

特色片段/问答,视频和图像,新闻轮播等没有多种发现,选择,处理或索引系统。

一切都结合在一起,每个团队都从一个单一的来源中提取需要的东西。

候选集选择,分析候选列表并将其呈现给整个页面团队的能力取决于Bingbot在页面上添加的注释。

搜寻中的达尔文主义变得更有趣

是的,排名算法是达尔文主义的,如Gary Illyes 描述,但某些页面的内容从一开始就具有很大的优势。

添加句柄使您的内容获得不公平的优势

我的理解是,Canel谈论的“注释的丰富层”是Cindy Krum在她使用的句柄 脆弱理论

如果我们在自己的HTML中添加易于识别的句柄,则注释将变得:更准确,更精细,并且对不同候选集的算法更有帮助。

内容上的HTML“句柄”将使它在SERP的达尔文主义世界中处于领先地位。

图片积分

特色图片:Kalicube.pro

相关文章