新站为什么总是收录过少

古柏广告设计
助力企业品牌成长
围观:526次

我将wordpress 由博客主题换成CMS主题后,发现文章收录数量明显增加,并由此得出一个结论:百度不爱搜录具有博客特征的网页。由于当时考虑不周到,发表之后,受广州网站设计到个别网友批评指正。事实上,博客特征的网页容易产生重复内容,高度重复才是引起百度不收录wordpress的真正原因。经过深思熟虑,以及对蜘蛛访问日志的观察和分析,我对百度收录wordpress博客异常的原因得出新的结论。
  1.安装SEO插件后,百度不收录页面。
  很多采用wordpress建站的朋友都接触过All in One SEO这个插件。这个插件可以让新手一键搞定wordpress的站内优化。事实证明,这款插件对google优化非常的完美,但百度却总容易出现不收录的情况。我曾经一度怀疑百度会认为All in One SEO 插件存在优化过度的问题,从而导致网站降权,不收录。实际上,All in One SEO 的网页并没有被百度降权,导致百度不收录的罪魁祸首是它的noindex设置。
  noindex标签的作用是向搜索引擎申明该网页禁止被搜录和索引,谷歌蜘蛛爬行到这样标签的页面,会自动丢弃掉该页并继续爬行其他页面,从而减小文章重复度,利于站内目标文章页权重的集中。百度蜘蛛遇到noindex标签的页面后,同样会丢弃掉该页。与谷歌不同的是,百度蜘蛛一般不再爬行该页面包含的文章链接,直接返回上一级目录。由于包含在该页中的文章无法被百度蜘蛛爬行到,所以页目录之下的文章将不会被索引。
  解决办法:
  取消All in One SEO 中 noindex设置。
  2.wordpress模板导致的原因。
  wordpress之所以流行,与其强大的插件扩展能力和数量丰富的主题模板密不可分。我曾经说过,使用wordpress建站的人,百分之99%都直接采用现成的主题来建站。同样的模板必然导致网络中出现大量高度重复网站结构和内容。百度不喜欢重复的内容,这些重复内容当然也包含网站模板的HTML代码。
  SEOer通常会选择一些使用人数较少的模板来做SEO博客,同时还会对代码部分做一些更改,如ID部分名称,title 描述,CSS名称等等。这些操作的目的,是使得网页模板代码尽量避免与其他网站重复,从而更有利于文章的搜录。当博客正文内容字数越少时,模板重复对收录的影响就会变得越大。
  解决办法:
  1).增加文章字数。
  2).选择非热门wordpress主题。
  3).对现有主题进行修改。
  3.wordpress摘要设置不当造成站内文章重复。
  百度也好,谷歌也罢,没有哪一家搜索引擎喜欢重复的文章。当一篇文章出现在同一网站内多个不同的页面中,搜索引擎将花费更多的处理时间来判断哪一篇文章才是正文。当搜索引擎从程序上难以无法判断主次时,会降权收录文章第一次被索引的页面,或者直接K掉这些重复的页面。于是很多wordpress站长在百度里site自己的网址,然后惊讶的发现:出现在结果前面的,竟然全都是日历页,归档页或分类目录,而文章正文内容却被百度隐藏而作为补充内容而存在,甚至压根就不被索引。
  导致这样的原因是因为你在录入文章数据的时候,既没有采用more标签对文章进行截断,也没有手动添加摘要。wordpress默认情况下,会将more标签之前的内容作为摘要输出到首页,标签目录,分类目录,归档目录,日历目录下。如果没有用more标签进行截断,也没有手动输入摘要,那么文章正文会同时出现在首页,几个目录页,以及文章页中。由于首页比目录页权重高,目录页比文章页权重高,百度以为文章页权重最低,便优先舍弃掉了。google的真正从技术上实现了文章的筛选机制,能保文章页被正常的收录,而百度这方面的技术尚需进一步完善。
  解决办法:
  1).每个文章前一两段后添加more标签。
  2).手动添加文章摘要,不能与more标签之前相同。
  3).精简标签数量。
  4.URL设置不合理,不利于收录。
  在很多SEO教程里,都提出过目录不宜过深。受到这一思想影响,许多站长就将目录页,文章页都控制在二级目录以内,以为这样可以让网页更好的被收录。殊不知,这样的URL方式其实并不利于SEO。搜索引擎蜘蛛爬行算法不光包含URL深度,同时还包括URL的重复度。当蜘蛛需要爬行一个网站时,首先需要根据网站的权重算出索引的深度和重复数,当网站权重越高时,蜘蛛爬行的深度就越深,允许的重复数就越大。蜘蛛在索引某一网站的时候,当深度操过一定层次后就会终止爬行其子目录。在爬行某个层次链接的过程中,URL重复数度超过一定数量,就会结束对该层目录的爬行。
  如果你的站内除了根目录就是2级页面,文章数量少时还好,如果文章数量一多,便会加大搜索引擎引擎服务器的负荷,从而引起蜘蛛反感。
  解决办法:
  一般而言,搜索引擎对于新站爬行层次都在三层左右。最佳的目录设置方案应当是目录/时段/正文。虽然这样的分类方式在建站初期收录处在劣势,但对网站(尤其是对靠长尾关键词取胜的站点)的长期发展百利而无一害。我个人认为,这种目录结构是对搜索引擎最友好的,最容易被收录的结构。

广州最专业的网站建设公司,为你提供最好的营销方案,帮助你获得更多的订单。

全国统一服务电话:4000-882-993

版权声明:以上文章信息来源于网络,等仅代表原作者本人的观点。除了已经标注原创的文章外,其它文章版权和文责属于原作者。文章中出现的商标、专利和其他版权所有的信息,其版权属于其合法持有人。对可以提供充分证据的侵权信息, 我们将在确认后的1小时内删除。


本网站之声明以及其修改权、更新权和最终解释权均属广州古柏广告策划有限公司所有。

(注:古柏广告-版权所有-转载请注明出处。)

关键词: 返回上层
品牌全案策划、设计、执行一站式服务,
助力企业品牌成长!

扫一扫关注古柏

GOOBAI AD.

Brand Whole Case Design


4000-882-993

www.goobai.com

微信加好友咨询


广州古柏广告策划有限公司

地址:广州市天河区东圃长盛商务大厦B213-215

Copyright©2004-2020 GOOBAI Inc.All rights reserved

粤公网安备: 44010602001481号

备案号:粤ICP备09222445号

GOOBAIAD

服务热线:020-3160-9080

业务总监:136-3149-2728(Mr.罗)

Q Q/微信:212210324

与古柏对话

关注古柏