从IIS日志出发:发现并解决收录的几个思路
网站的收录一直是个大问题,那么如何解决网站存在的收录问题,首先就需要从根源找到原因所在,那就是IIS日志。IIS日志是搜索引擎爬行网站的一个记录,通过它能清晰的看到蜘蛛爬行网页的总时间,单页时间,爬行深度,是否有多次重复抓取等,看到之后我们就需要对症下药,从而从根本上解决网站收录存在的问题。好了,下边从以下几个方面做分析。
其一、过度抓取的URL问题
首先看下是否有过度抓取问题,这个很简单,把IIS日志用dw打开,然后复制一个URL查找全部就可以了,或者使用一些高级的IIS日志分析工具也能直接看得到。如果存在很多URL被蜘蛛访问了多次,那么很有可能是因为是首页或者距离首页点击次数较近的页面,一般的调整就是需要减少这些URL链接个数。过度抓取的URL会浪费蜘蛛爬行的整个时间。
其二、是否存在重复内容
通过第一步之后,还能发现一个问题就是重复内容,如果有些URL被蜘蛛抓取了很多次,那么有可能这是同一内容的不同URL,比如静态的与动态的,比如一些B2C的排序页面,这些功能性的页面提供的内容都没有过多差别,但是URL可能不同。要使用robots屏蔽掉。
其三、蜘蛛没爬行过的URL
这要借助于脚本实现,把你网站全部URL找出来,然后把蜘蛛爬行过的URL找出来,然后做对比,找出那些从来没有被蜘蛛爬行过的URL,然后分析原因,是这些URL没有链接、目录过深还是URL参数过多的原因?确定原因之后改正,日后继续观察收录情况。
其四、整体内链结构如何
看你网站的整体内链结构,自己点击测试,看首页到内页需要几次点击,如果你多次点击才能到达一些内页,那么爬虫从首页到内页也就需要更多的时间。这样自然就越浪费时间,所以调整内链结构,把更多的内容通过内链让蜘蛛更好的爬取到。
其五、访问速度如何
访问速度是受多个方面的影响,要从服务器到后台再到前端仔细查看,是否还有优化的余地。在保证页面效果的前提下,减少html代码的整体体积。将js和css单独引入,html单独存在,如果考虑的仔细,URL的静态化就是必须的,因为过长的动态url也会影响到传输速度等。
以上五点是根据自己的一些经验与大家进行的总结,如果大家还有更多的方法发现并提高网站的收录,欢迎分享多交流。本文来自:痔疮偏方,网址:http://www.cqtaihai.com,转载请保留链接,谢谢!