前几天谈到用了大名鼎鼎的CDN:cloudflare,并且要部分网友测试打开一个已经设置好的网站,都反映速度很快。但我想到是不是蜘蛛的抓取耗时更加客观。于是观察蜘蛛的抓取耗时,下面是截图:
9月2号,平均抓取耗时还只有200多毫秒,但9月3号就突然变成了12000多毫秒,相当于12秒,平均抓取一个页面要12秒,还怎么收录,怎么给网站排名呢?
是不是因为CF的节点在海外,导致网络不稳定?继续观察一段时间看看。
第二天看百度蜘蛛抓取耗时,通过百度站长平台可以看到蜘蛛这天抓取了191次,抓取平均耗时达到了10000多毫秒(10秒多),这个速度也是醉了。
通过百度蜘蛛抓取诊断可以看到,抓取耗时并不长,我测试了三次,一次是0.5秒,一次是0.7秒,一次是0.8秒。这样看来蜘蛛抓取耗时并不长啊,为什么会出现平均耗时那么长呢?
个人猜测,应该是网络不稳定的原因,有时候抓取耗时会特别长,这样就会导致平均抓取耗时很长。
这是9月6号的抓取平均耗时,这天一共抓取了139次,按照截图上的最大值为300000毫秒,用300000除以139等于2158毫秒,也就是说这一次抓取的耗时均摊到每次抓取里面,就有2158毫秒了。平均耗时总共才2873毫秒,也就是其它抓取平均也只有700毫秒左右时间了。
后台看到抓取超时次数为1次,前两天的抓取超时次数都是4次,总抓取次数都是100多次。
这是9月7号的抓取平均耗时,一共抓取了113次,最长一次耗时300000毫秒,平均3375毫秒。300000毫秒除以113等于2654毫秒。即这次抓取耗时均摊到每次抓取里面就有2.654秒了。如果有两次这样的,那么平均抓取耗时将达到5秒以上。因此可以看出,大部分的抓取耗时并没有那么长,但是由于百度蜘蛛抓取cloudflare的美国节点网络不稳定,会导致偶尔出现延时特别长的情况,平均抓取耗时的数据就非常不好看了。
从百度站长工具的抓取诊断里,可以看到HIT状态的都是0.4秒多,MISS状态的0.7秒多(也有0.9秒多的记录),都没有达到抓取耗时1秒的记录。上述测试页面,基本无图。
可见,用cloudflare还是没有大问题的。只是偶尔会有网络不稳定的情况,导致延时特别长。
从上图可以看出第五天的百度蜘蛛抓取平均耗时要低的多了,才832毫秒,一共抓取了123次。
另外,昨天晚上已经分别解析,也就是让搜索引擎蜘蛛抓取源站,其它用户从CF的节点上访问。目前测试百度蜘蛛的抓取还是抓的节点,解析还没有变更过来。