如何让Google用覆盖率报告将您的网站编入索引

如何让Google用覆盖率报告将您的网站编入索引

如果您没有使用Google Search Console索引覆盖率报告,就不能称自己为技术SEO。

这是了解以下内容的宝贵工具:

  • 哪些网址已被Google抓取并编入索引,哪些没有。
  • 而且,更重要的是,为什么搜索引擎对URL做出了这样的选择。

该报告似乎比较容易遵循其交通信号灯配色方案。

GSC索引覆盖率报告图表“ width =” 822“ height =” 388“ Size =”(最大宽度:822px)100vw,822px“ srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/2020 /02/index-coverage-report-chart-5e371f254d421.png 822w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/index-coverage-report-chart-5e371f254d421-480x227.png 480w ,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/index-coverage-report-chart-5e371f254d421-680x321.png 680w,https://cdn.searchenginejournal.com/wp-content/ uploads / 2020/02 / index-coverage-report-chart-5e371f254d421-768x363.png 768w“ src =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/index-coverage-report- chart-5e371f254d421.png

  • 红色(错误):停止!页面未编制索引。

  • 黄色(有效并带有警告):如果您有空余时间,请停下,否则,踩油门继续前进!页面可以被索引。

  • 绿色(有效):一切都很好。页面已建立索引。

问题是,有一个很大的灰色区域(已排除)。

而且当您仔细阅读细节时,道路规则似乎是用外语编写的。谷歌

因此,今天,我们将把“索引覆盖率报告”中的状态类型转换为SEO操作项目,您应该采取这些措施来改善索引编制和提高自然绩效。

这里是特定违规行为吗?随意使用快速链接:

SEO影响:优先解决这些违法行为。

需要进一步考虑:根据您的SEO策略,这些操作可能会或可能不需要采取措施。

自然状态:无需采取任何措施。

索引覆盖率报告中的SEO影响问题

不要只专注于纠正错误。通常,较大的SEO胜利实际上被掩埋在排除的灰色区域中。

以下是对SEO真正重要的“索引覆盖率”报告问题,并按优先级顺序列出,因此您知道首先要解决的问题。

发现-当前未索引

原因:该URL通常是通过链接或XML网站地图被Google知道的,并且位于抓取队列中,但是Googlebot尚未能够对其进行抓取。这表明抓取预算问题。

解决方法:如果只有几个页面,请通过在Google Search Console中提交网址来手动触发抓取。

如果数量很多,请花时间对网站架构(包括URL结构,网站分类法和内部链接)进行长期修复,以从源头上解决爬网预算问题。

已检索-目前未编入索引

原因:Googlebot抓取了URL,发现不值得包含在索引中的内容。这最常见的原因是质量问题,例如内容稀疏,内容过时,门页或用户生成的垃圾邮件。如果内容值得,但没有被编入索引,则很可能会因渲染而被绊倒。

修复方法:查看页面内容。

如果您了解为什么Googlebot认为网页内容的价值不足以建立索引,请问自己第二个问题。该页面需要存在于我的网站上吗?

如果答案为否,则URL为301或410。如果是,请添加一个noindex标记,直到可以解决内容问题为止。或者,如果它是基于参数的URL,则可以防止使用 最佳实践参数处理

如果内容看起来质量可以接受,请检查没有JavaScript的呈现方式。 Google能够对JavaScript生成的内容建立索引,但是它比HTML更为复杂,因为每当涉及JavaScript时都会产生两次索引。

第一波基于来自服务器的初始HTML为页面编制索引。这是您右键单击并查看页面源代码时看到的内容。

第二个索引基于DOM,该DOM同时包含HTML和客户端提供的JavaScript。右键单击并检查时,将看到此内容。

挑战在于将第二次索引编制工作推迟到Google具有可用的呈现资源之前。这意味着索引依赖JavaScript的内容要比仅HTML内容花费更长的时间。从抓取到几天到几周的任何时间。

为了避免索引编制的延迟,请使用服务器端呈现,以便所有必需内容都出现在初始HTML中。这应该包括您的英雄SEO元素,例如页面标题,标题,规范,结构化数据,当然还包括您的主要内容和链接。

没有用户选择的规范就重复

原因:Google将该页面视为重复的内容,但没有用明确的规范标记。 Google决定此页面不应该规范,因此已将其从索引中排除。

修复方法:使用rel = canonical链接,为网站上的每个可抓取网址明确标记正确的规范。通过检查Google Search Console中的URL,您可以了解Google选择了哪个页面作为规范。

未选择重复的,提交的URL作为规范

原因:与上述相同,除了在这种情况下,您明确要求将此URL编入索引,例如,通过在XML网站地图中提交该URL。

修复方法:使用rel = canonical链接,为网站上的每个可抓取网址明确标记正确的规范,并确保XML站点地图中仅包含规范页面。

重复的Google选择了与用户不同的规范

原因:页面上有rel = canonical链接,但是Google不赞成这一建议,并选择了其他URL进行索引作为规范。

修复方法:检查网址以查看Google选择的规范网址。如果您同意Google的意见,请更改rel = canonical链接。否则,请研究您的网站架构,以减少重复内容的数量,并向您希望成为规范的页面发送更强的排名信号。

找不到提交的URL(404)

原因:您提交的URL(可能是通过XML网站地图)不存在。

如何解决:创建URL或将其从XML网站地图中删除。您可以按照以下说明系统地避免此错误 动态XML网站地图的最佳做法

重定向错误

原因:Googlebot重定向出现问题。这最常见是由重定向链导致的,这些重定向链的URL长度超过五个或更多,重定向循环,空URL或URL长度过长。

如何修复它:使用调试工具(例如Lighthouse)或状态代码工具(例如httpstatus.io)来了解破坏重定向的原因以及如何解决重定向。

确保301重定向始终始终直接指向最终目的地,即使这意味着要编辑旧的重定向。

服务器错误(5xx)

原因:服务器在无法加载页面时返回500 HTTP响应代码(又称内部服务器错误)。这可能是由服务器问题引起的,但通常是由短暂的服务器断开连接(阻止Googlebot抓取页面)引起的。

解决方法:如果这是“一次入月”,请不要紧张。一段时间后,错误将自行消失。如果页面很重要,则可以通过在URL检查中请求建立索引来将Googlebot调回URL。如果错误再次发生,请与系统工程师/技术负责人/托管公司联系以改善服务器基础结构。

抓取异常

原因:某些原因阻止了URL的爬网,但是即使Google也不知道其确切含义。

修复方法:使用“ URL检查”工具获取页面以查看是否返回了4xx或5xx级别的响应代码。如果没有任何线索,请将URL发送给您的开发团队。

索引,尽管被Robots.Txt阻止

原因:将robots.txt视为在解锁门上的“禁止进入”标志的数字等效形式。尽管Googlebot确实遵守这些说明,但它遵循的是法律条文,而不是精神。

因此,您可能有robots.txt中明确禁止的页面显示在搜索结果中。因为如果被阻止的页面具有其他强有力的排名信号,例如链接,则Google可能会认为它与索引有关。

尽管尚未抓取页面。但是由于该URL的内容对于Google来说是未知的,因此搜索结果看起来像这样。

SERP已建立索引,但robots.txt被阻止了” width =“ 509” height =“ 58” size =“(最大宽度:509px)100vw,509px” srcset =“ https://cdn.searchenginejournal.com/wp-content/uploads /2020/02/indexed-though-blocked-robots-txt-5e371f5883f6a.png 509w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/indexed-though-blocked-robots-txt- 5e371f5883f6a-480x55.png 480w“ src =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/02/indexed-though-blocked-robots-txt-5e371f5883f6a.png

解决方法:要明确阻止网页出现在SERP中,请不要使用robots.txt。您需要使用noindex标记或禁止使用auth匿名访问页面。

知道带有noindex标记的URL也会被较不频繁地爬网,并且如果存在时间很长,它最终也会导致Google也跟踪页面的链接,这意味着它们不会将这些链接添加到爬网队列和排名信号中不会传递到链接页面。

需要进一步思考

许多Google Search Console索引覆盖率报告问题是由指令冲突引起的。

不是一个人是对的,另一个是错误的。您只需要明确目标,并确保所有站点信号都支持该目标。

已编制索引,未在站点地图中提交

原因:该URL可能是通过链接由Google发现的,并已建立索引。但这不是在XML网站地图中提交的。

措施:如果这些URL与SEO相关,则将它们添加到XML网站地图中。这将确保快速索引新内容或更新现有内容。

否则,请考虑是否要为URL编制索引。 URL并非仅根据自身优点进行排名。 Google索引的每个页面都会影响质量算法评估域名信誉的方式。

将网页编入索引,但未在站点地图中提交网页,这通常表明该网站正在遭受 指数膨胀 –过多的低价值页面已纳入索引。

这通常是由自动生成的页面引起的,例如过滤器组合,归档页面,标签页面,用户配置文件,分页或恶意参数。索引膨胀会损害域对所有URL进行排名的能力。

被Robots.Txt阻止

原因:Googlebot无法抓取该网址,因为该网址已被robots.txt阻止。但这并不意味着该页面不会被Google编入索引。当您开始在“索引覆盖率报告”中看到“已被robots.txt阻止但已被编入索引”警告时。

怎么办:要确保网页未被Google编入索引,请删除robots.txt块并使用noindex指令。

提交的网址已被Robots.Txt阻止

原因:您的robots.txt文件也阻止了您可能通过XML网站地图提交的URL。

怎么办:如果不希望对XML站点地图中的URL进行爬网和编制索引,或者从robots.txt文件中进行阻止规则(如果这样做)。如果您使用的主机服务不允许您修改此文件,请更改网络主机。

提交的网址标记为“ Noindex”

原因:您可能通过XML网站地图提交的URL通过漫游器元标记或在HTTP标头X-Robots标记中被标记为noindex。

怎么办:如果不希望对XML站点地图中的URL进行爬网和建立索引,则可以将其删除;或者,如果您希望这样做,则可以删除noindex指令。

提交的URL返回未经授权的请求(401)

原因:Google无权检索您提交的URL,例如受密码保护的页面。

怎么办:如果没有理由保护内容不被索引,请删除授权要求。否则,从XML网站地图中删除URL。

提交的网址存在抓取问题

原因:某些原因导致抓取问题,但即使Google也无法为其命名。

怎么办:尝试使用“ URL检查”工具调试页面。检查页面加载时间,阻塞的资源以及是否有不必要的JavaScript代码。

如果仍然无法获得有用的结果,请采用老式的方式在移动设备上加载URL,然后查看网页和代码中发生的情况。

提交的URL似乎是软404

原因:Google认为您可能通过XML站点地图提交的URL是软404,即服务器响应200成功代码,但页面:

  • 不存在。
  • 几乎没有内容(又称瘦内容),例如空的类别页面。
  • 重定向到不相关的目标URL,例如主页。

怎么办:如果该页面确实不存在并且被有意删除,请返回410以加快索引编制速度。确保向用户显示自定义的“未找到”页面。除非另一个URL上有类似的内容,否则在这种情况下,请执行301重定向以传递排名信号。

如果该页面似乎包含很多内容,请检查Google是否可以呈现所有这些内容。如果确实存在内容薄弱的问题,或者页面没有理由存在,则为410或301,如果没有,则将其从XML网站地图中删除,以免引起Google的注意,添加noindex标记,然后在更长的页面上工作长期解决方案以增加有价值的内容。

如果存在到非相关页面的重定向,则将其更改为相关页面,或者如果不可能,则将其更改为410。

软404

原因:与上面相同,但是您没有明确要求将页面编入索引。

怎么做:类似于以上内容,请向Google显示更多内容(适当时显示301或410)。

指数覆盖率报告中的自然状态

目标是不要为您站点的每个URL都建立索引,也就是有效,尽管该数目应随着站点的增长而稳步上升。

目标是获取与SEO相关页面的规范版本的索引。

将许多页面标记为“索引覆盖率”报告中排除的页面不仅对SEO十分自然而且有益。

这说明您很清楚,Google会根据所有编入索引的网页来判断您的域名信誉,并已采取适当的措施来排除您网站上必须存在的网页,但这些网页不需要纳入Google对您的内容的考虑之列。

提交并建立索引

原因:您通过XML站点地图,API或在Google Search Console中手动提交了页面,并且Google已对其进行索引。

无需修复:除非您不希望这些网址包含在索引中。

具有正确规范标签的备用页面

原因:Google成功处理了rel = canonical标签。

无需修复:该页面已正确指示其规范。没有其他事情可做。

被“ Noindex”标记排除

原因:Google对该网页进行了爬网,并使用了noindex标记。

无需修复:除非您确实希望这些URL位于索引中,否则请删除noindex指令。

带有重定向的页面

原因:您的301或302重定向已被Google成功抓取。目标URL已添加到爬网队列,并且原始URL已从索引中删除。

Google抓取目标网址并确认目标网址具有相似的内容后,将会传递没有稀释度的排名信号。

无需修复:随着重定向的处理,此排除项会随着时间的推移自然下降。

找不到(404)

原因:Google通过XML网站地图以外的方法(例如,另一个网站的链接)发现了该URL。对其进行爬网时,页面返回了404状态代码。因此,随着时间的推移,Googlebot抓取网址的频率会降低。

无需修复:如果由于故意将其删除而导致该页面确实不存在,则返回404没什么问题。对于收集404代码,Google不会受到任何惩罚。那是个神话。

但这并不是说它们始终是最佳做法。如果URL有任何排名信号,这些将丢失到404 void。因此,如果您有另一个内容相似的页面,请考虑更改为301重定向。

被页面删除工具阻止

原因:URL删除请求是在Google Search Console中提交的。

无需修复:删除请求自然会在90天后过期。在此期间之后,Google可能会重新编制页面索引。

总结一下

总体而言,预防胜于治疗。经过深思熟虑的网站架构和机器人处理程序通常会生成清晰明了的Google Search Console索引覆盖率报告。

但是,由于我们大多数人继承别人的作品,而不是从头开始,它是一种宝贵的工具,可以帮助您将注意力集中在最需要的地方。

请务必每月检查一次报告,以监视Google在抓取您的网站并将其编入索引方面的进度,以及 记录SEO变更的影响

图片积分

特色图片:作者创作,2020年2月
作者截图,2020年2月

原创文章,作者:WPJIAN,如若转载,请注明出处:https://wpjian.com/wordpress-seo/2020020630260.html