评估爬行卫生的10项关键检查

[ad_1]
评估爬行卫生的10项关键检查

优化我们的网站时 爬行,我们的主要目标是确保搜索引擎将时间花在我们最重要的页面上,以便定期抓取它们并找到任何新内容。

每次Googlebot访问您的网站时,它都会在一个有限的窗口中抓取并发现您网站上尽可能多的网页和链接。当达到该限制时,它将停止。

重新访问网页所需的时间取决于Google如何优先处理网址以进行抓取的各种因素,包括:

  • 网页排名。
  • 包含XML站点地图。
  • 在网站架构中的位置。
  • 页面更改的频率。
  • 和更多。

最重要的是:您的网站每次抓取只会在有限的时间内引起Googlebot的注意,这可能很少发生。确保明智地花费时间。

在分析您的网站对搜索引擎抓取工具的优化程度时,可能很难知道从哪里开始,尤其是当您 在一个大型网站上工作 有很多URL可以分析,或者在一家大公司工作,有很多竞争优先级和优秀的搜索引擎优化修复,以确定优先顺序。

这就是为什么我将这个顶级检查列表放在一起评估爬行卫生,为您提供分析的起点。

1.有多少页被索引与网站上有多少可索引页面?

为什么这很重要

这会向您显示您网站上有多少页面可供Google索引,以及Google实际能够找到的这些网页中有多少以及确定的网页数量足以被编入索引。

DeepCrawl中的可索引性饼图“width =”573“height =”329“sizes =”(max-width:573px)100vw,573px“data-srcset =”https://cdn.searchenginejournal.com/wp-content/ uploads / 2019/09 / indexability-deepcrawl.png 573w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexability-deepcrawl-480x276.png 480w“data-src =”https:/ /cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexability-deepcrawl.png

条形图显示Google Search Console中的索引页面“width =”760“height =”365“sizes =”(最大宽度:760px)100vw,760px“data-srcset =”https://cdn.searchenginejournal.com/wp -content / uploads / 2019/09 / indexed-pages-google-search-console-768x369.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexed-pages-google- search-console-480x231.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexed-pages-google-search-console-680x327.png 680w,https:// cdn。 searchenginejournal.com/wp-content/uploads/2019/09/indexed-pages-google-search-console.png 911w“data-src =”https://cdn.searchenginejournal.com/wp-content/uploads/2019/ 09 /索引的页面,谷歌搜索,控制台768x369.png2.总共有多少页被抓取?

为什么这很重要

将Googlebot的抓取活动与您网站上的网页数量进行比较,可以让您深入了解Google无法访问或已确定的页面数量不足以安排定期抓取。

Google Search Console中的抓取统计信息折线图“width =”564“height =”287“sizes =”(最大宽度:564px)100vw,564px“data-srcset =”https://cdn.searchenginejournal.com/wp- content / uploads / 2019/09 / crawl-stats-google-search-console.png 564w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/crawl-stats-google-search-console -480x244.png 480w“data-src =”https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/crawl-stats-google-search-console.png

在Logz.io中显示Googlebot抓取的条形图“width =”738“height =”342“sizes =”(最大宽度:738px)100vw,738px“data-srcset =”https://cdn.searchenginejournal.com/wp -content / uploads / 2019/09 / googlebot-crawling-logzio.jpg 738w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/googlebot-crawling-logzio-480x222.jpg 480w,https ://cdn.searchenginejournal.com/wp-content/uploads/2019/09/googlebot-crawling-logzio-680x315.jpg 680w“data-src =”https://cdn.searchenginejournal.com/wp-content/uploads /2019/09/googlebot-crawling-logzio.jpg3.有多少页不可索引?

为什么这很重要

花时间抓取不可索引的网页并不是Google的最佳用途 爬行预算。检查这些页面的爬网数量,以及是否可以将其中任何一个页面用于索引。

条形图显示DeepCrawl中的不可索引页面“width =”580“height =”331“sizes =”(最大宽度:580px)100vw,580px“data-srcset =”https://cdn.searchenginejournal.com/wp -content / uploads / 2019/09 / non-indexable-pages-deepcrawl.png 580w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/non-indexable-pages-deepcrawl-480x274。 png 480w“data-src =”https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/non-indexable-pages-deepcrawl.png4.有多少网址被禁止被抓取?

为什么这很重要

这将显示您阻止搜索引擎访问您网站的页数。确保这些页面对于索引或发现更多页面以进行爬网非常重要。

条形图显示Google Search Console中robots.txt阻止的网页“width =”760“height =”440“sizes =”(最大宽度:760px)100vw,760px“data-srcset =”https:// cdn。 searchenginejournal.com/wp-content/uploads/2019/09/blocked-by-robotstxt-google-search-console-768x445.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09 /blocked-by-robotstxt-google-search-console-480x278.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/blocked-by-robotstxt-google-search-console- 680x394.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/blocked-by-robotstxt-google-search-console.png 952w“data-src =”https:// cdn .searchenginejournal.com /可湿性粉剂内容/上传/ 2019/09 /阻断逐robotstxt-谷歌搜索控制台-768x445.png5.有多少低价值页面被索引?

为什么这很重要

查看Google已在您的网站上编入索引的页面,可以显示抓取工具可以访问的网站区域。

例如,这些页面可能是您未包含在站点地图中的页面,因为它们质量较差,但无论如何都已找到并编入索引。

条形图显示已编入索引但未在Google Search Console中的站点地图中提交的网页“width =”760“height =”437“sizes =”(最大宽度:760px)100vw,760px“data-srcset =”https:// cdn .searchenginejournal.com / wp-content / uploads / 2019/09 / indexed-not-submitted-deepcrawl-768x442.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexed- not-submitted-deepcrawl-480x277.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/indexed-not-submitted-deepcrawl-680x392.png 680w,https:// cdn。 searchenginejournal.com/wp-content/uploads/2019/09/indexed-not-submitted-deepcrawl.png 960w“data-src =”https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/索引 - 不提交 -  deepcrawl-768x442.png6.有多少4xx错误页面正在被抓取?

为什么这很重要

确保爬网预算没有用在错误页面而不是您想要编入索引的页面上,这一点很重要。

Googlebot会定期尝试抓取404错误页面以查看该页面是否再次显示,因此请确保正确使用410状态代码以显示页面已消失且无需重新抓取。

在DeepCrawl中显示损坏页面的折线图“width =”572“height =”314“sizes =”(最大宽度:572px)100vw,572px“data-srcset =”https://cdn.searchenginejournal.com/wp- content / uploads / 2019/09 / broken-pages-deepcrawl.png 572w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/broken-pages-deepcrawl-480x263.png 480w“data- SRC =“https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/broken-pages-deepcrawl.png7.有多少内部重定向被抓取?

为什么这很重要

Googlebot在网站上发出的每个请求都会使用爬网预算,这包括重定向链中每个步骤中的任何其他请求。

通过确保只有包含200个状态代码的网页链接到您的网站,帮助Google更有效地抓取并节省抓取预算,并减少对非最终目标网址的网页发出的请求数。

DeepCrawl中的重定向链报告“width =”760“height =”409“sizes =”(max-width:760px)100vw,760px“data-srcset =”https://cdn.searchenginejournal.com/wp-content/uploads /2019/09/redirect-chain-deepcrawl-768x413.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/redirect-chain-deepcrawl-480x258.png 480w,https:/ /cdn.searchenginejournal.com/wp-content/uploads/2019/09/redirect-chain-deepcrawl-680x366.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/redirect- chain-deepcrawl.png 800w“data-src =”https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/redirect-chain-deepcrawl-768x413.png8.有多少Canonical页面与Canonicalized页面?

为什么这很重要

您网站上规范化页面的数量可以显示您网站上的重复数量。虽然规范标签整合了重复页面集之间的链接公平性,但它们无法帮助抓取预算。

Google将选择从一组规范化页面中为一个页面编制索引,但为了能够确定哪个是主页面,它首先必须抓取所有这些页面。

饼图显示DeepCrawl中的规范页面“width =”580“height =”332“sizes =”(最大宽度:580px)100vw,580px“data-srcset =”https://cdn.searchenginejournal.com/wp-content /uploads/2019/09/canonicals-deepcrawl.png 580w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/canonicals-deepcrawl-480x275.png 480w“data-src =”https: //cdn.searchenginejournal.com/wp-content/uploads/2019/09/canonicals-deepcrawl.png9.有多少分页或分面页面正在被抓取?

为什么这很重要

Google只需抓取包含其他未发现内容或未链接网址的网页。

分页 通常是重复的URL和爬网程序陷阱的来源,因此请确保不会不必要地抓取这些不包含任何唯一内容或链接的页面。

因为rel = next而rel = prev 不再支持 通过谷歌,确保你的 内部链接 经过优化,可减少对页面发现的分页依赖。

饼图显示DeepCrawl中的分页细分“width =”579“height =”331“sizes =”(max-width:579px)100vw,579px“data-srcset =”https://cdn.searchenginejournal.com/wp-content /uploads/2019/09/pagination-deepcrawl.png 579w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/pagination-deepcrawl-480x274.png 480w“data-src =”https: //cdn.searchenginejournal.com/wp-content/uploads/2019/09/pagination-deepcrawl.png10.爬网源中的页面发现是否存在不匹配?

为什么这很重要

如果您看到用户通过您的日志文件数据中未被搜索引擎抓取的分析数据访问的页面,则可能是因为这些页面对于搜索引擎而言不像用户那样可被发现。

通过将不同的数据源与爬网数据集成,您可以发现搜索引擎无法轻易找到页面的空白。

Google的两个主要网址发现来源是外部链接和XML站点地图,因此如果您无法让Google抓取您的网页,请确保它们已包含在您的站点地图中(如果它们尚未链接到任何其他网站)谷歌已经定期了解和抓取。

条形图显示DeepCrawl中的爬行源间隙“width =”760“height =”324“sizes =”(最大宽度:760px)100vw,760px“data-srcset =”https://cdn.searchenginejournal.com/wp- content / uploads / 2019/09 / source-gap-deepcrawl-768x327.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/source-gap-deepcrawl-480x205.png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/source-gap-deepcrawl-680x290.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/09 /source-gap-deepcrawl.png 821w“data-src =”https://cdn.searchenginejournal.com/wp-content/uploads/2019/09/source-gap-deepcrawl-768x327.png总结一下

通过对您管理的网站执行这10项检查,您应该能够更好地了解网站的可抓取性和整体技术健康状况。

一旦确定了抓取垃圾的区域,您就可以指示Google使用robots.txt中的禁用方法来抓取较少的网页。

然后,您可以开始影响它,通过优化网站的体系结构和内部链接来抓取更多重要页面,使其更加突出和可发现。

图片来源

所有截图均由作者拍摄,2019年9月

相关文章