解决索引膨胀问题:从Google上对网页进行索引删除的9种方法

[ad_1]

解决索引膨胀问题:从Google上对网页进行索引删除的9种方法

Google擅长工作。有时,这太好了–索引页面本来就找不到。

  • 您的站点地图中没有包含不希望的网址。
  • 孤立网址 未链接到您的网站。
  • 您甚至可能不知道的异常URL。

大多数SEO专业人员担心将页面纳入Google索引。但是,您还需要考虑将低价值页面排除在索引之外。

让我们深入探讨为什么减少索引页面实际上可以导致更多的自然会话。以及不同的索引方法如何影响SEO。

什么是指数膨胀?

索引膨胀是指网站上有太多由搜索引擎索引的低价值页面。这些页面通常是自动生成的,很少或没有独特的内容。

这些URL的存在对整个技术SEO流程具有级联影响。

导致索引膨胀的常见URL类型包括:

  • 从多面导航中过滤组合。
  • 归档页面混乱。
  • 不受限制的标签页。
  • 分页 页面。
  • 不羁 参数 页面。
  • 过期内容 页面。
  • 未优化 现场搜索 结果页。
  • 自动生成的用户资料很少的内容。
  • 跟踪网址。
  • 将HTTP错误地处理为https。
  • www与非www不一致。
  • 不应建立索引的子目录。

由于Googlebot在低价值路径中的贫民窟,索引膨胀会降低抓取效率。这会减慢新内容的索引编制速度,并重新抓取具有SEO值的更新内容。

通常,索引膨胀包含重复的内容或导致关键字蚕食。来自一个站点的多个页面竞争相同的搜索意图,由于排名信号分散在许多URL中,搜索引擎会感到困惑哪个页面最相关。这损害了网站排名最高的能力。

而且,如果低质量的网页确实能够排名,则搜索者可能会对目标网页和pogostick感到失望。向Google发送不良的用户体验信号并损害您的品牌。

所有这些结合在一起,降低了搜索引擎眼中的域名质量评估。

这是一个问题,因为URL不仅根据其自身的优点进行排名,而且还基于其所属的站点进行排名。

索引的每个页面都会影响Google的质量算法如何评估网站的声誉。

Google网站管理员中心 状态 那:

“网站某些部分上的低质量内容可能会影响整个网站的排名,从而删除质量低下的页面……最终可能会帮助您提高高质量内容的排名。”

约翰·穆勒 详尽的 在2015年

“我们的质量算法确实会从整体上看待网站,因此,他们也会看待被索引的所有内容。而且,如果我们发现大部分编入索引的内容实际上是质量较低的内容,那么我们可能会说‘嗯,也许这个网站的总体质量是较低的。而且,如果您可以告诉我们不要对这种质量较低的内容建立索引,也不应予以考虑,那么我们可以真正专注于让我们建立索引的高质量内容。”

再来 2017年三月。再来 2017年八月。再来 2017年十月

这就是为什么SEO的目标是不让尽可能多的页面进入索引。而是在搜索者和目标网页之间进行有价值的匹配。

为了实现此目标,您应该只允许对要搜索者登陆的页面进行索引,并对所有对搜索引擎或用户没有唯一价值的页面进行索引。

如何诊断索引膨胀

Google Search Console(GSC)覆盖率报告是识别导致索引膨胀的页面类型的最快,最可靠的方法之一。

假设你的 XML网站地图符合SEO最佳做法,因此仅包含与SEO相关的网址,只需查看已编入索引但未在站点地图中提交的示例网址。

Google Search Console覆盖率报告显示索引膨胀“ width =” 885“ height =” 670“ Size =”(最大宽度:885px)100vw,885px“ data-srcset =” https://cdn.searchenginejournal.com/wp- content / uploads / 2019/10 / google-search-consolde-coverage-report-valid-5db844a9cd532.png 885w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/google-search-consolde -coverage-report-valid-5db844a9cd532-480x363.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/google-search-consolde-coverage-report-valid-5db844a9cd532-680x515。 png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/google-search-consolde-coverage-report-valid-5db844a9cd532-768x581.png 768w“ data-src =” https:/ /cdn.searchenginejournal.com/wp-content/uploads/2019/10/google-search-consolde-coverage-report-valid-5db844a9cd532.png

如果未对XML站点地图进行优化,请运行无限制的搜寻工具,并将搜寻器选择的可索引URL数量与有效页面数量进行比较。

如果有效页面比爬网URL明显多,则可能存在索引膨胀问题。

不要使用网站:搜索高级运算符来计算被索引页面的数量,这是非常不可靠的。

一旦确定了低价值的网页将被取消索引,就值得对照Google Analytics(分析)数据交叉引用这些网址,以评估对自然会话的可能影响。

通常,由于它们的性质,不会有负面影响,但是最好在进行任何大规模的索引删除之前先确定一下。

如何从Google对页面进行索引

您可以通过多种机制将不需要的页面弹出搜索引擎索引。每个都有自己的优点和缺点。

但是,大多数取消索引方法都是根据页面类型的规则来修复索引膨胀。

这比依赖于逐页方法的其他内容改进策略(例如内容重新发布)更容易实现。

1. 410已消失或2. 404页面未找到

404和401如何解码页面索引“ width =” 1600“ height =” 727“ size =”(最大宽度:1600px)100vw,1600px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content /uploads/2019/10/404-410-http-response-5db844d7327eb.png 1600w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/404-410-http-response-5db844d7327eb- 480x218.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/404-410-http-response-5db844d7327eb-680x309.png 680w,https://cdn.searchenginejournal.com/ wp-content / uploads / 2019/10 / 404-410-http-response-5db844d7327eb-768x349.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/404-410-http -response-5db844d7327eb-1024x465.png 1024w“ data-src =” https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/404-410-http-response-5db844d7327eb.png

通过页面返回410 HTTP状态代码(又称“去”),服务器可以快速为页面取消索引。

这会向Google发出信号,表明该页面已被有意删除,使其比404代码(也就是“未找到页面”)更清晰,这将导致索引缓慢变慢。

对于任何担心积累4xx“错误”的人,让我放心。 Google对4xx代码不收取任何罚款。但是,如果URL中有任何排名信号,则这些都将丢失。

指数膨胀预防得分:1/5

指数膨胀损伤控制得分:4/5

3. 301重定向

301如何重定向取消索引的URL“ width =” 1600“ height =” 727“ size =”(最大宽度:1600px)100vw,1600px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content/uploads /2019/10/301-http-response-5db844fb0ea99.png 1600w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/301-http-response-5db844fb0ea99-480x218.png 480w,https ://cdn.searchenginejournal.com/wp-content/uploads/2019/10/301-http-response-5db844fb0ea99-680x309.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/ 10 / 301-http-response-5db844fb0ea99-768x349.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/301-http-response-5db844fb0ea99-1024x465.png 1024w“ data- src =“ https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/301-http-response-5db844fb0ea99.png

如果索引膨胀是由许多针对同一主题的页面引起的,则可以将它们合并到具有301重定向的单个页面中,并合并其排名信号。

为了使Google取消对重定向页面的索引,它必须对原始URL进行爬网,请参阅301状态代码,将目标URL添加到爬网队列中,然后处理内容以确认其性质相同。如果是这样,将不加稀释地传递排名信号。

如果目标URL在爬网队列中的优先级较低,这可能是一个缓慢的过程。如果您有重定向链,那么这将是一个极其缓慢的过程。

此外,如果您重定向到不相关的页面(例如首页),则Google会将其视为软404,并且不会传递排名信号。在这种情况下,一枚410消失了将获得相同的结果,但索引删除速度更快。

指数膨胀预防得分:1/5

指数膨胀损伤控制得分:3/5

4. Rel =规范链接

如何rel = canonical deindex pages“ width =” 1600“ height =” 727“ size =”(最大宽度:1600px)100vw,1600px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content/上传/2019/10/rel-canonical-5db845144ffeb.png 1600w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/rel-canonical-5db845144ffeb-480x218.png 480w,https:// cdn.searchenginejournal.com/wp-content/uploads/2019/10/rel-canonical-5db845144ffeb-680x309.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/rel-canonical -5db845144ffeb-768x349.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/rel-canonical-5db845144ffeb-1024x465.png 1024w“ data-src =” https:// cdn。 searchenginejournal.com/wp-content/uploads/2019/10/rel-canonical-5db845144ffeb.png

对于重复的内容URL,一个rel = canonical链接会向Google建议要索引哪个重复的URL。

如果标记被接受,则将对替代页面(重复值较低的页面)进行爬网,但频率要低得多,并且将从索引中排除,将其排名信号传递给规范页面(要索引的首选页面)。

但是要被接受,内容必须高度相似,并且两个网址都需要由Google抓取和处理,这可能有些慢。

指数预防膨胀评分:4/5

指数膨胀损伤控制得分:2/5

5. URL参数工具

URL参数工具和索引删除“ width =” 1600“ height =” 727“ size =”(最大宽度:1600px)100vw,1600px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content/uploads /2019/10/url-parameter-tool-5db8454ea55b1.png 1600w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/url-parameter-tool-5db8454ea55b1-480x218.png 480w,https ://cdn.searchenginejournal.com/wp-content/uploads/2019/10/url-parameter-tool-5db8454ea55b1-680x309.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/ 10 / url-parameter-tool-5db8454ea55b1-768x349.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/url-parameter-tool-5db8454ea55b1-1024x465.png 1024w“ data- src =“ https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/url-parameter-tool-5db8454ea55b1.png

在Google Search Console中,您可以指定Googlebot应该如何处理参数。

URL参数工具的三个明显缺点是:

  • 仅当URL基于参数时才有效。
  • 除Google之外,它没有解决其他任何搜索引擎的问题。
  • 它仅用于控制爬网。

即使它不能直接控制索引编制,如果您在参数上指定“ No Crawl”,John Mueller 发表了评论 最终将这些URL从索引中删除。

但这是有代价的,如果Googlebot无法抓取,则无法处理信号,这会影响排名,或者提取内部链接以添加到抓取队列中,这可能会减慢网站索引的速度。

指数预防膨胀评分:3/5

指数膨胀损伤控制得分:1/5

6. Robots.txt

robots.txt的工作方式“ wi​​dth =“ 1600” height =“ 727” size =“(最大宽度:1600px)100vw,1600px” data-srcset =“ https://cdn.searchenginejournal.com/wp-content/uploads /2019/10/robots-txt-5db84569ef621.png 1600w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/robots-txt-5db84569ef621-480x218.png 480w,https:// cdn .searchenginejournal.com / wp-content / uploads / 2019/10 / robots-txt-5db84569ef621-680x309.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/robots-txt- 5db84569ef621-768x349.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/robots-txt-5db84569ef621-1024x465.png 1024w“ data-src =” https://cdn.searchenginejournal .com / wp-content / uploads / 2019/10 / robots-txt-5db84569ef621.png

robots.txt文件中的Disallow指令可告知搜索引擎不允许其检索哪些页面。

与网址参数工具类似,它不能直接控制索引编制。如果页面是从网络上的其他位置链接的, Google可能认为相关 包括在索引中。

此外,robots.txt内的屏蔽功能尚无法明确表明搜索引擎应如何处理当前已编入索引的网址。

因此,随着时间的流逝,由于Google倾向于不包含无法抓取的页面,因此页面可能会从索引中删除,这将是一个缓慢的过程。

指数膨胀预防得分:2/5

指数膨胀损伤控制得分:1/5

7. Noindex标签

没有索引标签控制索引膨胀“ width =” 1600“ height =” 727“ size =”(最大宽度:1600px)100vw,1600px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content/上传/2019/10/noindex-directive-5db8458fdad5a.png 1600w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/noindex-directive-5db8458fdad5a-480x218.png 480w,https:// cdn.searchenginejournal.com/wp-content/uploads/2019/10/noindex-directive-5db8458fdad5a-680x309.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/noindex-directive -5db8458fdad5a-768x349.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/noindex-directive-5db8458fdad5a-1024x465.png 1024w“ data-src =” https:// cdn。 searchenginejournal.com/wp-content/uploads/2019/10/noindex-directive-5db8458fdad5a.png

要明确阻止页面被索引,您需要使用“ noindex”机器人元标记或X-Robots-Tag。请勿在robots.txt中使用noindex指令,因为搜索引擎不支持该指令。

知道noindex指令具有级联影响:

  • 防止添加或一旦处理就确保从搜索引擎中删除索引。
  • 导致非索引URL的检索频率降低。
  • 停止归因于URL的所有排名信号。
  • 如果存在时间很长,也会导致页面链接的“混乱”,这意味着Google不会将这些链接添加到抓取队列中,并且排名信号也不会传递到链接的页面。

指数预防膨胀评分:4/5

指数膨胀损伤控制得分:4/5

8.密码保护

登录表单如何阻止搜寻器“ width =” 1600“ height =” 727“ size =”(最大宽度:1600px)100vw,1600px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content/uploads /2019/10/password-protection-5db845adc3950.png 1600w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/password-protection-5db845adc3950-480x218.png 480w,https:// cdn .searchenginejournal.com / wp-content / uploads / 2019/10 / password-protection-5db845adc3950-680x309.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/password-protection- 5db845adc3950-768x349.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/password-protection-5db845adc3950-1024x465.png 1024w“ data-src =” https://cdn.searchenginejournal .com / wp-content / uploads / 2019/10 / password-protection-5db845adc3950.png

用密码保护服务器上的文件将使搜索引擎停滞不前。不能对URL进行爬网,建立索引或传递任何排名信号。

但这显然也会阻止用户,因此仅限于为您选择要在登录后移动的内容取消索引。

任何取消索引的操作都需要搜索引擎尝试爬网URL路径,看到它不再受欢迎,然后删除内容。

这可能会花费一些时间,因为它在该部分中爬行的URL越多,它将越了解爬行预算中没有返回任何值,并且在爬行队列中越低,它将优先考虑相似的URL。

指数膨胀预防得分:2/5

指数膨胀损伤控制得分:1/5

9.删除URL工具

在Google Search Console中删除网址工具“ width =” 850“ height =” 313“ Size =”(最大宽度:850px)100vw,850px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content /uploads/2019/10/remove-urls-tool-5db845cd21869.png 850w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/remove-urls-tool-5db845cd21869-480x177.png 480w ,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/remove-urls-tool-5db845cd21869-680x250.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/ 2019/10 / remove-urls-tool-5db845cd21869-768x283.png 768w“ data-src =” https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/remove-urls-tool-5db845cd21869。 png

如果您迫切需要从Google删除网页的索引, 删除网址工具 是一个快速的选择。请求通常在提交当天进行处理。

这里的限制是这是一个临时块。成功的删除请求将持续90天左右,然后内容才能重新出现在SERP中。

因此,这里唯一有价值的用例是当您紧急需要阻止页面但无法获取资源时。如果要使页面不在索引中,则需要在停电期结束之前采取其他措施。

指数膨胀预防得分:1/5

指数膨胀损伤控制得分:3/5

TL; DR

如何从Google取消页面索引“ width =” 964“ height =” 511“ size =”(最大宽度:964px)100vw,964px“ data-srcset =” https://cdn.searchenginejournal.com/wp-content /uploads/2019/10/deindex-url-seo-5db845e6ba741.png 964w,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/deindex-url-seo-5db845e6ba741-480x254.png 480w ,https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/deindex-url-seo-5db845e6ba741-680x360.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/ 2019/10 / deindex-url-seo-5db845e6ba741-768x407.png 768w“ data-src =” https://cdn.searchenginejournal.com/wp-content/uploads/2019/10/deindex-url-seo-5db845e6ba741。 png

总体而言,预防胜于治疗。

战略性设计 网站架构 和一个 以用户为中心的内容策略 在SEO中取得长期成功是必不可少的。

明智地使用规范链接和明智地使用meta robots noindex标记可以防止索引膨胀,从而支持这一点。

Google的记忆力特别长。抓取页面后,Google可能会忘记它们。这可能会使索引删除变得缓慢而乏味。

一旦制定了适当的降索引策略,请耐心等待。结果可能很慢,但变得不明显,但值得。

SEO书呆子的语法注释

它是搜索引擎的索引编制或索引编制,而不是索引编制或索引编制。除非你是法国人。

图片积分

特色和后期图片:作者创作,2019年10月
作者截取的所有屏幕截图,2019年10月

相关文章