必须要弄清楚:是什么原因导致的页面收录慢或者是不收录?
不收录有两种情况:
1.没爬行,不收录
2.爬行了,不收录
如何分辨自己的网站遇到的是哪一种情况呢?
通过分析网站服务器WEB日志,查看站内各页面URL是否被百度蜘蛛抓取过、并且返回的状态码和下载字节是否正常,即可分辨是哪种情况。
1.情况一:没爬行,不收录
因为,造成这个情况的原因,大多是网站整体结构不符合蜘蛛“宽度遍历,限制深度”的爬行原则。
所以,
1)请检查网站承载重要信息页面的URL层级是否过深(大于3级);
2)页面链接数量是否太多(大于100);
3)网站主页与频道-目录-详情页结构是否具有可爬行性;
4)不同频道、目录及页面之间的内链资源分配是否合理;
5)外链网站收录、流量是否长期呈增长趋势(或是压根就没有外链);
6)页面下载时间是否过长;
……
2.情况二:爬行了,不收录
因为,造成这个情况的原因,大多是站内的页面质量问题,这个东西有点抽象,可长期观察“已爬行的页面数量/爬行且收录的页面数量”的比值估算个大概的数据。
所以,
1)请检查网站页面是否存在内容重复的问题;
2)网页代码质量如何(屏蔽css检查网页内容);
3)页面是否使用动态技术;
4)URL是否静态处理;
……
其他的一些常见原因:服务器速度慢、robots文件设置不正确、服务器屏蔽蜘蛛……
其它的一些常见解决方法:
1.保持规率的更新(定时、定量);
2.更新后通过百度站长工具后台提交(提交页面入口:http://zhanzhang.baidu.com/sitesubmit);
3.建立sitemap;
4.多为产生的内容提供入口;
5.增加页面质量;
6.增加推荐页面;
7.增加网站地图;
8.用百度分享功能将站内的页面分享到微博、Q空间等平台去。
另:新文章收录还和搜索引擎对网站的信任度有关,如果百度很信任你的网站的话,就可以达到秒收,如果信任度很低,也可能很久都不收录。网站取得搜索引擎信任度方法(网站发展的长期策略):
1、有规律的更新有效内容;
2、高质量内容、优秀原创内容、对用户有帮助作用的内容;
3、网站无作弊、违规行为(黑帽SEO,如买链、卖链、链接工厂、桥页);
4、其他网页引用及链接推荐(做好站内内容的关联度);
5、较低的流量跳失率(访客在网站停留时间长、浏览页面数量多);