做网站管理运营的站长朋友应该对搜索引擎蜘蛛有了解,官方说法是“搜索引擎索引排行器”,至于哪个说法都无关紧要了,关键是要在网站日志中认清不同的蜘蛛。做过优化和竞价的SEO人员相信对baidu的常见蜘蛛应该有所认识:百度蜘蛛通常有以下几种格式
网页搜索 Baiduspider
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
不一样的后缀抓取的网站内容是不一样的,我们用日志分析工具查看的时候可能有些百度蜘蛛抓取是站长工具伪装的,可以通过查看IP辨别真假。当然除了百度蜘蛛外,还有其他几种搜索引擎的蜘蛛:谷歌蜘蛛名字:Googlebot
雅虎蜘蛛名字:YahooSpider
有道蜘蛛名字:YoudaoBot
腾讯蜘蛛名字:Sosospider
搜狐蜘蛛名字:Sogou web spider
当然,别忘记最近360搜索新蜘蛛:360spider
除了这几种蜘蛛外,我们要避免一些其他的假蜘蛛所欺骗。作为一个优秀的seo人员,网站日志分析师必须要掌握和熟悉的,下面给大家简单介绍一些网站日志分析常用到的一些返回码及含义:这是一段完整的蜘蛛爬去过程下面给大家逐句分析所代表的含义:2012-10-11 08:10:22 GET /gotu.asp – 208.121.198.36 HTTP/1.1 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) – 200 0 3671这段网站日志都可以告诉我们哪些有用的信息。
2012-10-11 08:10:22——这里讲的是发生该处理请求的具体时间。这里的时间是2011年10月19日07点10分22秒。
GET ——这是服务器的处理动作,一共只有两种:GET和POST。在网站日志中绝大部分都是GET,只有在进行CGI处理的时候才会出现POST,否则绝大多数时间服务器的响应都是GET,也就是用户从服务器上获取了页面或者别的文件。注意了,GET后面还有一个“/”,这里代表的是用户访问的页面,只有一个斜杠自然代表访问的是网站首页。208.121.198.36——这是访客的IP地址,相信大家都能较快接受。明白了用户的IP,你甚至可以通过查询来得知用户是来自哪个国家、哪个省份、哪个城市的。查询得知,这个IP来自国内北京地区。不同的网站其用户群会有比较明显的区别,比如我的博客肯定大多数访问者是来自沈阳的,而有的网站其用户没有什么明显的地域区别。用户IP配合下面的关键词等信息可以让你更加有效的分析网站的用户体验做得够不够好。
HTTP/1.1——这个代表用户访问该页面的时候,是通过HTTP1.1协议进行传输的,也就是超文本传输1.1版本协议。这个我们不必理会,因为网站日志中除了你可能用FTP之外,普通用户基本都是通过HTTP协议来进行访问的(个别提供FTP下载的网站除外)。
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)——这一行则详细的说明了用户的一些状况。
200 0 13671——代表的是用户访问页面的时候返回的状态码。通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重定向,如果你的网站日志中有过多的302代码,那么你需要注意了,是不是把301做错了做成了302?赶紧修改,搜索引擎不喜欢302重定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。而后面的13671 则是访问你网站页面体积大小的。关注网站日志变化是了解搜索引擎访问网站的状态情况,比如东莞理想家教网曾在建站之初遇到服务器硬盘损害的情况,为了使域名保持良好的体验度,临时把域名做302到手头上另一个家教培训网站。这算是一次实战经验吧。
本文由东莞理想家教网http://www.dgqjj.com/tutor/发布于3lian,不代表3lian官方意见。
- 评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
-
