6hz7vif 发表于 2024-10-31 12:37:50

怎么样查看蜘蛛日志,利用蜘蛛分析网站


    <div style="color: black; text-align: left; margin-bottom: 10px;">
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">解析网站降权<span style="color: black;">原由</span>-<span style="color: black;">怎样</span>分析网站日志</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">一个合格的站长<span style="color: black;">或</span>seoer必须要能看懂网站的服务器日志文件,这个日志记录了网站被搜索引擎爬取的痕迹,给站长<span style="color: black;">供给</span>了蜘蛛<span style="color: black;">是不是</span>来访的有力佐证,站长<span style="color: black;">伴侣</span><span style="color: black;">能够</span><span style="color: black;">经过</span>网站日志来分析搜索引擎蜘蛛的抓取<span style="color: black;">状况</span>,分析网站的<span style="color: black;">是不是</span>存在收录<span style="color: black;">反常</span>问题。并且<span style="color: black;">咱们</span><span style="color: black;">能够</span><span style="color: black;">按照</span>这个日志文件判断蜘蛛来访频率以及抓取规律,这将非常有利于<span style="color: black;">咱们</span>做优化。<span style="color: black;">另一</span>,学习分析网站日志文件<span style="color: black;">亦</span>是站长必须具备的能力,<span style="color: black;">亦</span>是你从一个初级seo进阶到seo<span style="color: black;">能手</span>的必由之路。<span style="color: black;">然则</span>前提是要主机服务商开通日志统计功能,<span style="color: black;">通常</span>虚拟主机<span style="color: black;">供给</span>商都不会开通,你<span style="color: black;">能够</span>申请开通,<span style="color: black;">或</span>自己到服务器管理后台开通这个日志统计功能,<span style="color: black;">不外</span>日志<span style="color: black;">亦</span>会占用空间的,我们在看完日志文件后,<span style="color: black;">能够</span>隔段时间清理下日志文件。<span style="color: black;">那样</span><span style="color: black;">怎样</span>分析服务器日志文件呢?听阿涛给你娓娓道来。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://p3-sign.toutiaoimg.com/f750002fbecf3b3cf5e~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1729537724&amp;x-signature=7PcKK57JSAuSfrEuHKVyKXfDlkM%3D" style="width: 50%; margin-bottom: 20px;"></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">倘若</span>你的博客或网站是搭建在付费主机上,<span style="color: black;">倘若</span>你是博客或网站的站长,<span style="color: black;">倘若</span>你连原始<span style="color: black;">拜访</span>日志是什么都不<span style="color: black;">晓得</span>,<span style="color: black;">或</span>对其<span style="color: black;">基本</span>不屑一顾,我只能说你是一个不<span style="color: black;">叫作</span>职的网站站长,一旦网站出问题,必定是束手无策!</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">相信<span style="color: black;">大众</span>都在自己的网站上安装了网站统计的代码,如Google analytics、量子统计、百度统计、cnzz、51.la等,这些工具<span style="color: black;">能够</span>统计网站的流量,<span style="color: black;">亦</span><span style="color: black;">便是</span>网站**客<span style="color: black;">能够</span>看到的所有页面的<span style="color: black;">拜访</span>量,<span style="color: black;">然则</span>这些统计工具都<span style="color: black;">不可</span>统计你主机上资源的原始<span style="color: black;">拜访</span>信息,例如某个<span style="color: black;">照片</span>被谁下载了,<span style="color: black;">亦</span><span style="color: black;">不可</span>统计到<span style="color: black;">哪些</span><span style="color: black;">无</span>添加统计代码的<span style="color: black;">地区</span>,<span style="color: black;">例如</span>后台操作页面。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">绝大<span style="color: black;">都数</span>收费主机都<span style="color: black;">供给</span>原始<span style="color: black;">拜访</span>日志,网站服务器会把每一个访客来访时的<span style="color: black;">有些</span>信息自动记录下来,<span style="color: black;">保留</span>在原始<span style="color: black;">拜访</span>日志文件中,<span style="color: black;">倘若</span>你的主机不<span style="color: black;">供给</span>日志功能,<span style="color: black;">意见</span>你到期后还是换主机吧。日志中记录了网站上所有资源的<span style="color: black;">拜访</span>信息,<span style="color: black;">包含</span><span style="color: black;">照片</span>、CSS、JS、FLASH、HTML、MP3等所有网页打开过程载入的资源,<span style="color: black;">同期</span>记录了这些资源都被谁<span style="color: black;">拜访</span>了、用什么来<span style="color: black;">拜访</span>以及<span style="color: black;">拜访</span>的结果是什么等等,<span style="color: black;">能够</span>说原始<span style="color: black;">拜访</span>日志记录了主机的所有资源<span style="color: black;">运用</span><span style="color: black;">状况</span>。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">分析网站日志有什么<span style="color: black;">功效</span>?</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1、<span style="color: black;">咱们</span><span style="color: black;">能够</span>比较准确的定位搜索引擎蜘蛛来爬行<span style="color: black;">咱们</span>网站的次数,<span style="color: black;">能够</span>屏蔽伪蜘蛛(此类蜘蛛多以采集为主,会<span style="color: black;">增多</span><span style="color: black;">咱们</span>服务器的开销)点此识别Baiduspider真伪。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2、<span style="color: black;">经过</span>分析网站日志,<span style="color: black;">咱们</span><span style="color: black;">能够</span>准确定位搜索引擎蜘蛛爬行的页面以<span style="color: black;">即时</span>间长短,<span style="color: black;">咱们</span><span style="color: black;">能够</span>依次有针对性的对<span style="color: black;">咱们</span>的网站进行微调。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">3、http返回状态码,搜索引擎蜘蛛以及用户每<span style="color: black;">拜访</span><span style="color: black;">咱们</span>的网站一次,服务器端都会产生类似301,404,200的状态吗,<span style="color: black;">咱们</span><span style="color: black;">能够</span>参照此类信息,对<span style="color: black;">咱们</span><span style="color: black;">显现</span>问题的网站进行简单的诊断,<span style="color: black;">即时</span>处理问题。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">网站日志文件存放在什么<span style="color: black;">地区</span>?</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">通常</span>的虚拟主机都<span style="color: black;">供给</span>日志文件,<span style="color: black;">然则</span><span style="color: black;">区别</span>的虚拟主机系统会<span style="color: black;">供给</span><span style="color: black;">区别</span>的LOG文件存储文件名,笔者<span style="color: black;">运用</span>的是万网的虚拟主机,日志文件存储在wwwlogs文件夹下。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">网站日志文件里面的记录怎么看?</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">原始<span style="color: black;">拜访</span>日志每一行<span style="color: black;">便是</span>类似以下的记录:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">116.231.220.179 - - "GET /blog/article/10.html HTTP/1.1" 200 8671 "http://www.weiaipin.cn" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:36.0)"</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">下面<span style="color: black;">咱们</span><span style="color: black;">来讲</span>说这一行记录的意思:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">116.231.220.179这是访客(<span style="color: black;">亦</span>可能是<span style="color: black;">设备</span>人)的IP</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这是访客<span style="color: black;">拜访</span>该资源的时间(Date),+0800是该时间所对应的时区,即与格林威治时间相差+8个小时</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">"GET /blog/article/10.html HTTP/1.1"请求信息,<span style="color: black;">包含</span>请求方式、所请求的资源以及所<span style="color: black;">运用</span>的协议,该语句的意思<span style="color: black;">便是</span>以GET方式,<span style="color: black;">根据</span>HTTP/1.1协议获取网页/blog/article/10.html,10html为网站上的某个页面。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">200 8671,200为该请求返回的状态码(Http Code),<span style="color: black;">区别</span>的状态码<span style="color: black;">表率</span><span style="color: black;">区别</span>的意思,<span style="color: black;">详细</span>请阅读 HTTP 状态代码;8671为此次请求所耗费的流量(Size in Bytes),单位为byte</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">"htt p://www. weiaipin .cn/"为访客<span style="color: black;">源自</span>(Referer)。这一段是告诉<span style="color: black;">咱们</span>访客是从哪里来到这一个网页。有可能是你的网站其他页,有可能是来自搜索引擎的搜索页等。<span style="color: black;">经过</span>这条<span style="color: black;">源自</span>信息,你<span style="color: black;">能够</span>揪出盗链者的网页。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:36.0)"为访客所<span style="color: black;">运用</span>的浏览器类型(Agent),<span style="color: black;">这儿</span>记录了用户<span style="color: black;">运用</span>的操作系统、浏览器型号等信息。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">怎样</span>分析网站日志中的内容?</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1、<span style="color: black;">重视</span><span style="color: black;">哪些</span>被频繁<span style="color: black;">拜访</span>的资源</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">倘若</span>在日志中,你<span style="color: black;">发掘</span>某个资源(网页、<span style="color: black;">照片</span>和mp3等)被人频繁<span style="color: black;">拜访</span>,那你应该<span style="color: black;">重视</span>该资源被用于何处了!<span style="color: black;">倘若</span>这些请求的<span style="color: black;">源自</span>(Referer)不是你的网站<span style="color: black;">或</span>为空,且状态码(Http Code)为200,说明你的这些资源很可能被人盗链了,<span style="color: black;">经过</span> Referer 你<span style="color: black;">能够</span>查出盗链者的网址,这可能<span style="color: black;">便是</span>你的网站流量暴增的<span style="color: black;">原由</span>,你应该做好防盗链了。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2、<span style="color: black;">重视</span><span style="color: black;">哪些</span>你网站上不存在资源的请求</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">倘若</span>某些请求信息不是本站的资源,Http Code不是403<span style="color: black;">便是</span>404,但从名<span style="color: black;">叫作</span>分析,可能是<span style="color: black;">保留</span>数据库信息的文件,<span style="color: black;">倘若</span>这些信息让别人拿走,<span style="color: black;">那样</span>攻击你的网站就<span style="color: black;">容易</span>多了。发起这些请求的目的无非<span style="color: black;">便是</span>扫描你的网站漏洞,<span style="color: black;">经过</span>漫无目的地扫描下载这些已知的漏洞文件,很可能会<span style="color: black;">发掘</span>你的网站某个漏洞哦!<span style="color: black;">经过</span>观察,<span style="color: black;">能够</span><span style="color: black;">发掘</span>,这些请求所<span style="color: black;">运用</span>的Agent差不多都是Mozilla/4.0、Mozilla/5.0<span style="color: black;">或</span>libwww-perl/等等非常规的浏览器类型,以上我<span style="color: black;">供给</span>的日志格式化工具<span style="color: black;">已然</span>集<span style="color: black;">成为了</span>对这些请求的警报功能。<span style="color: black;">咱们</span><span style="color: black;">能够</span><span style="color: black;">经过</span>禁止这些Agent的<span style="color: black;">拜访</span>,来达到防止被扫描的目的,<span style="color: black;">详细</span><span style="color: black;">办法</span>下面再介绍。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">3、观察搜索引擎蜘蛛的来访<span style="color: black;">状况</span></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">经过</span>观察日志中的信息,你<span style="color: black;">能够</span>看出你的网站被蜘蛛<span style="color: black;">拜访</span>的频率,<span style="color: black;">从而</span><span style="color: black;">能够</span>看出你的网站<span style="color: black;">是不是</span>被搜索引擎<span style="color: black;">喜爱</span>,这些都是SEO所关心的问题吧。日志格式化工具<span style="color: black;">已然</span>集<span style="color: black;">成为了</span>对搜索引擎蜘蛛的提示功能。<span style="color: black;">平常</span>搜索引擎的蜘蛛所使用的Agent列表如下:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Google蜘蛛 :Mozilla/5.0 (compatible; Googlebot/2.1; +</p>http://www.google.com/bot.html)

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Baidu蜘蛛 :Baiduspider+(+</p>http://www.baidu.com/search/spider.htm)
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Yahoo!蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; </p>http://help.yahoo.com/help/us/ysearch/slurp)

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Yahoo!中国蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp China;</p>http://misc.yahoo.com.cn/help.html)

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">微软Bing蜘蛛 :msnbot/2.0b (+</p>http://search.msn.com/msnbot.htm)

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Google Adsense蜘蛛 :Mediapartners-Google</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">有道蜘蛛 :Mozilla/5.0 (compatible; YoudaoBot/1.0;</p>http://www.youdao.com/help/webmaster/spider/)

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Soso搜搜博客蜘蛛 :Sosoblogspider+(+</p>http://help.soso.com/soso-blog-spider.htm)

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Sogou搜狗蜘蛛 :Sogou web spider/4.0(+</p>http://www.sogou.com/docs/help/webmasters.htm#07)

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Twiceler爬虫程序 :Mozilla/5.0 (Twiceler-0.9 </p>http://www.cuil.com/twiceler/robot.html)
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Google<span style="color: black;">照片</span>搜索蜘蛛 :Googlebot-Image/1.0</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">俄罗斯Yandex搜索引擎蜘蛛 :Yandex/1.01.001 (compatible; Win16; I)</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Alexa蜘蛛 :ia_archiver (+</p>http://www.alexa.com/site/help/webmasters)
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Feedsky蜘蛛 :Mozilla 5.0 (compatible; Feedsky crawler /1.0)</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">韩国Yeti蜘蛛:Yeti/1.0 (NHN Corp.; </p>http://help.naver.com/robots/)

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">4、观察访客<span style="color: black;">行径</span></strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">经过</span>查看格式化后的日志,可以查看跟踪某个IP在某个时间段的一系列<span style="color: black;">拜访</span><span style="color: black;">行径</span>,单个IP的<span style="color: black;">拜访</span>记录越多,说明你的网站PV高,用户粘性好;<span style="color: black;">倘若</span>单个IP的<span style="color: black;">拜访</span>记录希希,你应该<span style="color: black;">思虑</span><span style="color: black;">怎样</span>将你的网站内容做得更加吸引人了。<span style="color: black;">经过</span>分析访客的<span style="color: black;">行径</span>,<span style="color: black;">能够</span>为你的网站建设<span style="color: black;">供给</span>有力的参考,<span style="color: black;">那些</span>内容好,<span style="color: black;">那些</span>内容<span style="color: black;">欠好</span>,确定网站的发展方向;<span style="color: black;">经过</span>分析访客的<span style="color: black;">行径</span>,看看<span style="color: black;">她们</span>都干了些什么事,<span style="color: black;">能够</span>揣测访客的用意,<span style="color: black;">即时</span>揪出恶意用户。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">网站日志分析工作对老站长<span style="color: black;">来讲</span>是非常容易的,从日志代码的查看到日志分析出的问题<span style="color: black;">处理</span>是了如指掌。其实网站日志分析不难,只是新手不<span style="color: black;">认识</span>其中的意思,才会觉得有问题。慢慢看多了网站日志你<span style="color: black;">亦</span>就懂了其中的意思。<span style="color: black;">这儿</span>我以幸运赛车网站的日志为例,交新手<span style="color: black;">怎样</span>快速入门这项工作。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其实代码没<span style="color: black;">大众</span>想象的<span style="color: black;">那样</span>难,接触代码,网站日志代码都看得懂,崇拜之情无以言表。在看了一段时间网站日志后,才<span style="color: black;">发掘</span>原来不是<span style="color: black;">她们</span>牛,是我还是菜鸟。自己摸索的话,对网站日志分析入门时间会比较久,在<span style="color: black;">这儿</span>分享些经验,相信<span style="color: black;">针对</span>新手<span style="color: black;">能够</span>快速入门的。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">1、蜘蛛名<span style="color: black;">叫作</span>介绍</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在网站日志中,蜘蛛名<span style="color: black;">叫作</span><span style="color: black;">通常</span>有一下几类:百度-&gt;baiduspider、Google -&gt;Googlebot、Msn -&gt;msnbot、yahoo -&gt;Slurp、yodao -&gt;YoudaoBot、sogou -&gt;Sogou+get+spider 。在日志中,只要搜索以上蜘蛛名<span style="color: black;">叫作</span>,就<span style="color: black;">能够</span>看到该蜘蛛类型的爬取痕迹。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">2、蜘蛛爬取返回类型</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在蜘蛛爬取后会返回代码,<span style="color: black;">经过</span>查看贷款状态<span style="color: black;">能够</span>看到爬取结果,<span style="color: black;">重点</span>HTTP状态码有一下几类:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(1)200代码,<span style="color: black;">暗示</span>蜘蛛爬取正常。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(2)304代码,<span style="color: black;">暗示</span>自从上次抓取后,该内容<span style="color: black;">无</span>更新。<span style="color: black;">通常</span><span style="color: black;">状况</span>下,网站的<span style="color: black;">照片</span>经常会返回该值。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(3)404代码,<span style="color: black;">拜访</span>的这个链接是错误链接。这个错误链接,一方面来自<span style="color: black;">本来</span>存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(4)302代码,<span style="color: black;">暗示</span>临时重定向。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(5)301代码,<span style="color: black;">暗示</span>永久重定向。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(6)500代码,<span style="color: black;">暗示</span>程序有错。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">3、日志代码<span style="color: black;">诠释</span></strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">#Software: Microsoft Internet Information Services 6.0</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">#Version: 1.0</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">#Date: 2015-7-6 16:00:39</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">#Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Cookie) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">date<span style="color: black;">暗示</span>记录<span style="color: black;">拜访</span>日期;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">time<span style="color: black;">拜访</span>时间;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">s-sitename<span style="color: black;">暗示</span>你的虚拟主机的代<span style="color: black;">叫作</span>。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">s-ip<span style="color: black;">拜访</span>者IP;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">cs-method<span style="color: black;">暗示</span><span style="color: black;">拜访</span><span style="color: black;">办法</span>,<span style="color: black;">平常</span>的有两种,一是GET,<span style="color: black;">便是</span>平常<span style="color: black;">咱们</span>打开一个 URL<span style="color: black;">拜访</span>的动作,二是POST,提交表单时的动作;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">cs-uri-stem<span style="color: black;">便是</span><span style="color: black;">拜访</span>哪一个文件;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">cs-uri-query<span style="color: black;">指的是</span><span style="color: black;">拜访</span><span style="color: black;">位置</span>的附带参数,如asp文件?后面的字符串id=12等等,如果<span style="color: black;">无</span>参数则用-<span style="color: black;">暗示</span>;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">s-port <span style="color: black;">拜访</span>的端口;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">cs-username <span style="color: black;">拜访</span>者名<span style="color: black;">叫作</span>;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">c-ip <span style="color: black;">源自</span>ip;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">cs(User-Agent)<span style="color: black;">拜访</span><span style="color: black;">源自</span>;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">sc-status状态,200<span style="color: black;">暗示</span>成功,403<span style="color: black;">暗示</span><span style="color: black;">无</span>权限,404<span style="color: black;">暗示</span>打不到该页面,500<span style="color: black;">暗示</span>程序有错;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">sc-substatus 服务端传送到客户端的字节<span style="color: black;">体积</span>;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">cs–win32-statu客户端传送到服务端的字节<span style="color: black;">体积</span>;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">详细</span>案例分析:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2015-7-8 18:47:12 W3SVC2137573334 D-901195C886694 119.147.151.150 GET /a.aspx id=2230&amp;TypeId=91 80 - 123.125.71.28 HTTP/1.1 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) - - www.7ien.cn 200 0 0 59004 243 2250</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这段日志<span style="color: black;">暗示</span>,Baiduspider:<span style="color: black;">暗示</span>蜘蛛爬取类型为百度蜘蛛,GET /a.aspx id=2230&amp;TypeId=91<span style="color: black;">暗示</span>蜘蛛爬取文件名为a.aspx id=2230&amp;TypeId=91。返回结果为200。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">常用网站日志分析软件有<span style="color: black;">那些</span>?</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">笔者试用过<span style="color: black;">非常多</span>网站日志分析工具,常用的并且功能又比较全面的大概有三款:光年SEO日志分析系统、逆火网站日志分析器、Web Log Explorer。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">搜索引擎抓取网站信息必会在服务器上留下信息,这个信息就在网站日志文件里。<span style="color: black;">咱们</span><span style="color: black;">经过</span>日志<span style="color: black;">能够</span><span style="color: black;">认识</span>搜索引擎的<span style="color: black;">拜访</span><span style="color: black;">状况</span>,<span style="color: black;">通常</span><span style="color: black;">经过</span>主机服务商开通日志功能,再<span style="color: black;">经过</span>FTP<span style="color: black;">拜访</span>网站的根目录,在根目录下<span style="color: black;">能够</span>看到一个log<span style="color: black;">或</span>weblog文件夹,<span style="color: black;">这儿</span>面<span style="color: black;">便是</span>日志文件,<span style="color: black;">咱们</span>把这个日志文件下载下来,用记事本(或浏览器)打开就<span style="color: black;">能够</span>看到网站日志的内容。<span style="color: black;">那样</span>到底这个日志里面<span style="color: black;">隐匿</span>了什么玄机呢?其实日志文件就像飞机上的黑匣子。<span style="color: black;">咱们</span><span style="color: black;">能够</span><span style="color: black;">经过</span>这个日志<span style="color: black;">认识</span><span style="color: black;">非常多</span>信息,<span style="color: black;">那样</span>到底这个日志给<span style="color: black;">咱们</span>传递了什么内容呢?</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">倘若</span>想要<span style="color: black;">晓得</span>网站日志文件<span style="color: black;">包括</span>了什么内容,<span style="color: black;">首要</span>必须<span style="color: black;">晓得</span>各搜索引擎的蜘蛛名<span style="color: black;">叫作</span>,<span style="color: black;">例如</span>百度的蜘蛛程序名<span style="color: black;">叫作</span>是baiduspider,Google的<span style="color: black;">设备</span>人程序名<span style="color: black;">叫作</span>是Google-Googlebot等等,<span style="color: black;">咱们</span>在日志的内容里搜索<span style="color: black;">以上</span>的的蜘蛛名就<span style="color: black;">能够</span><span style="color: black;">晓得</span>哪个搜索引擎<span style="color: black;">已然</span>爬取过网站了,<span style="color: black;">这儿</span>就留下了<span style="color: black;">她们</span>的蛛丝马迹。再者,必须能看懂<span style="color: black;">平常</span>的http状态码,最<span style="color: black;">平常</span>的HTTP状态码有200(页面抓取成功)、304(上次抓取的和这次抓取的没变化),404(未找到页面,错误链接)500(服务器未响应,<span style="color: black;">通常</span>由服务器<span style="color: black;">守护</span>和出故障,网站打不开时<span style="color: black;">显现</span>的),这些状态码是<span style="color: black;">咱们</span>站长<span style="color: black;">伴侣</span>必须能看懂的,服务器状态码的值是<span style="color: black;">咱们</span>和蜘蛛交流的信号。<span style="color: black;">晓得</span>了这些基本信息以后<span style="color: black;">咱们</span>就<span style="color: black;">能够</span><span style="color: black;">按照</span>网站日志进行分析了,<span style="color: black;">通常</span><span style="color: black;">来讲</span><span style="color: black;">咱们</span>只看百度和谷歌蜘蛛的爬行和抓取<span style="color: black;">状况</span>,当然有特殊需要的<span style="color: black;">亦</span><span style="color: black;">能够</span>对其他几个蜘蛛的爬行<span style="color: black;">状况</span>进行分析。网站日志中<span style="color: black;">显现</span><span style="color: black;">海量</span>的谷歌蜘蛛和百度蜘蛛,说明搜索引擎蜘蛛时常来<span style="color: black;">光临</span>你的网站。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">说到分析日志文件,<span style="color: black;">咱们</span>就不得不说分析日志文件的<span style="color: black;">机会</span>了,<span style="color: black;">那样</span>在什么<span style="color: black;">状况</span>下<span style="color: black;">咱们</span>要去分析日志文件呢?<span style="color: black;">首要</span>,新网站刚<span style="color: black;">创立</span>的时候,这个时候<span style="color: black;">亦</span>是站长<span style="color: black;">伴侣</span>最急切的时候,<span style="color: black;">咱们</span><span style="color: black;">通常</span>都会焦急的等待搜索引擎收录网站内容,经常会做的事情<span style="color: black;">便是</span>去百度<span style="color: black;">或</span>Google用命令site:下网站域名<span style="color: black;">瞧瞧</span><span style="color: black;">是不是</span>被收录,这个时候,其实<span style="color: black;">咱们</span><span style="color: black;">不必</span>频繁的<span style="color: black;">查找</span>网站<span style="color: black;">是不是</span>被收录,<span style="color: black;">想要</span><span style="color: black;">晓得</span>搜索引擎<span style="color: black;">是不是</span>关顾<span style="color: black;">咱们</span>的网站。<span style="color: black;">咱们</span>就<span style="color: black;">能够</span>借助网站日志文件来查看,怎么看?看网站日志<span style="color: black;">是不是</span>有搜索引擎的蜘蛛来网站抓取过,看返回的状态码是200还是其他,<span style="color: black;">倘若</span>返回200说明抓取成功,<span style="color: black;">倘若</span>返回404说明页面错误,<span style="color: black;">或</span>页面不存在,就需要做301永久重定向<span style="color: black;">或</span>302暂时重定向。<span style="color: black;">通常</span>抓取成功后被搜索引擎放出来的时间<span style="color: black;">亦</span>会晚点,<span style="color: black;">通常</span>谷歌<span style="color: black;">设备</span>人放出来的比较快,最快可秒杀,<span style="color: black;">然则</span>百度反应就慢了,最快<span style="color: black;">亦</span>要<span style="color: black;">1星期</span><span style="color: black;">上下</span>,<span style="color: black;">不外</span>11月份百度算法<span style="color: black;">调节</span>后,放出来的速度还是<span style="color: black;">火速</span>的。其次,当网站收录<span style="color: black;">反常</span>时<span style="color: black;">咱们</span>要把正常收录的日志和<span style="color: black;">反常</span>的日志进行对比分析,找出问题所在,<span style="color: black;">这般</span><span style="color: black;">能够</span><span style="color: black;">处理</span>网站收录问题,<span style="color: black;">亦</span>是对完整优化大有裨益的。第三,网站被搜索引擎K掉后,<span style="color: black;">咱们</span>必须要观察网站日志文件来亡羊补牢,<span style="color: black;">通常</span>这种<span style="color: black;">状况</span>下,日志文件里<span style="color: black;">仅有</span>很少的几个蜘蛛爬行了首页和robots,<span style="color: black;">咱们</span>要找出被K的<span style="color: black;">原由</span>并改正,再提交给搜索引擎,接下来就<span style="color: black;">能够</span><span style="color: black;">经过</span>观察日志来看蜘蛛<span style="color: black;">是不是</span>正常来临,慢慢过一段时间,<span style="color: black;">倘若</span>蜘蛛数量<span style="color: black;">增多</span><span style="color: black;">或</span>经常来临并且返回200状态吗,<span style="color: black;">那样</span>恭喜你,你的网站又活了,<span style="color: black;">倘若</span>半年都没反应,<span style="color: black;">那样</span><span style="color: black;">意见</span>放弃该域名重新再战了。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">非常多</span>站长<span style="color: black;">伴侣</span>不懂得<span style="color: black;">怎样</span>利用网站日志文件,遇到网站收录问题就去提问别人,而<span style="color: black;">欠好</span>好自检,这是<span style="color: black;">做为</span>站长<span style="color: black;">或</span>seoer的悲哀。<span style="color: black;">况且</span>网上的<span style="color: black;">非常多</span>软文都<span style="color: black;">说到</span>要做好日志文件的分析,<span style="color: black;">然则</span>那只是软文<span style="color: black;">罢了</span>,说不定写<span style="color: black;">文案</span>的作者都<span style="color: black;">无</span>去看日志文件。说到底,还是<span style="color: black;">期盼</span>站长<span style="color: black;">伴侣</span><span style="color: black;">必定</span>不要忽略了网站日志文件,<span style="color: black;">恰当</span>的利用好网站日志文件是一个站长或seoer<span style="color: black;">必须</span>的技能。再者说,看懂网站日志文件并不需要你有多么高深的编码知识,其实只要看得懂html代码和几个返回的状态码就<span style="color: black;">能够</span>了,<span style="color: black;">必定</span><span style="color: black;">不可</span>懒,<span style="color: black;">或</span>抱着侥幸心理去对待你的网站,这种心理会<span style="color: black;">引起</span>你输得很惨。<span style="color: black;">倘若</span>你是一个小站长,<span style="color: black;">或</span>你是一个seoer,<span style="color: black;">倘若</span>你以前<span style="color: black;">无</span><span style="color: black;">认识</span>到网站日志文件的重要性,<span style="color: black;">那样</span>从看到我写的这篇<span style="color: black;">文案</span><span style="color: black;">起始</span>要好好对待你的网站日志了。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">集创建一组<span style="color: black;">相关</span>规则。当<span style="color: black;">咱们</span>把最小置信度设为85%,<span style="color: black;">经过</span><span style="color: black;">相关</span>规则的形成以及对应置信度的计算,<span style="color: black;">咱们</span><span style="color: black;">能够</span>从中得到以下有用的信息:1.置信度大于最小置信度时:<span style="color: black;">咱们</span><span style="color: black;">能够</span><span style="color: black;">这般</span>认为,用户群体在浏览<span style="color: black;">关联</span>网页时,所呈列的链接之间是有很大<span style="color: black;">相关</span>的,<span style="color: black;">她们</span>是用户群的<span style="color: black;">一起</span><span style="color: black;">兴趣</span>,<span style="color: black;">经过</span>网页布局的<span style="color: black;">调节</span>,从某种<span style="color: black;">道理</span>上,<span style="color: black;">能够</span>带来更高的点击率及潜在客户;2.置信度<span style="color: black;">少于</span>最小置信度时:<span style="color: black;">咱们</span><span style="color: black;">能够</span><span style="color: black;">这般</span>认为,用户群体对所呈列链接之间没太多的<span style="color: black;">相关</span>,<span style="color: black;">也</span>或<span style="color: black;">相关</span>规则中的链接在争夺用户。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">网站中网站日志挖掘内容</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(1)网站的概要统计。网站的概要统计<span style="color: black;">包含</span>分析覆盖的时间、总的页面数、<span style="color: black;">拜访</span>数、会话数、惟一<span style="color: black;">拜访</span>者、以及平均<span style="color: black;">拜访</span>、最高<span style="color: black;">拜访</span>、上周<span style="color: black;">拜访</span>、昨日<span style="color: black;">拜访</span>等结果集。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(2)内容<span style="color: black;">拜访</span>分析。内容<span style="color: black;">拜访</span>分析<span style="color: black;">包含</span>最多及最少被<span style="color: black;">拜访</span>的页面、最多<span style="color: black;">拜访</span>路径、最多<span style="color: black;">拜访</span>的<span style="color: black;">资讯</span>、最高<span style="color: black;">拜访</span>的时间等。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(3)客户信息分析。客户信息分析<span style="color: black;">包含</span><span style="color: black;">拜访</span>者的<span style="color: black;">源自</span>省份统计、<span style="color: black;">拜访</span>者<span style="color: black;">运用</span>的浏览器及操作系统分析、<span style="color: black;">拜访</span>来自的页面<span style="color: black;">或</span>网站、来自的IP<span style="color: black;">位置</span>以及<span style="color: black;">拜访</span>者<span style="color: black;">运用</span>的搜索引擎。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(4)<span style="color: black;">拜访</span>者活动周期<span style="color: black;">行径</span>分析。<span style="color: black;">拜访</span>者活动周期<span style="color: black;">行径</span>分析<span style="color: black;">包含</span><span style="color: black;">1星期</span>7天的<span style="color: black;">拜访</span><span style="color: black;">行径</span>、一天24小时的<span style="color: black;">拜访</span><span style="color: black;">行径</span>、每周的最多的<span style="color: black;">拜访</span>日、<span style="color: black;">每日</span>的最多<span style="color: black;">拜访</span>时段等。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(5)<span style="color: black;">重点</span><span style="color: black;">拜访</span>错误分析。<span style="color: black;">重点</span><span style="color: black;">拜访</span>错误分析<span style="color: black;">包含</span>服务端错误、页面找不到错误等。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(6)网站栏目分析。网站栏目分析<span style="color: black;">包含</span>定制的频道和栏目设定,统计出各个栏目的<span style="color: black;">拜访</span><span style="color: black;">状况</span>,并进行分析。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(7)商务网站扩展分析。商务网站扩展分析是专门针对专题或多<span style="color: black;">媒介</span>文件或下载等内容的<span style="color: black;">拜访</span>分析。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(8)有4个方向<span style="color: black;">能够</span><span style="color: black;">选取</span>:①对用户点击<span style="color: black;">行径</span>的<span style="color: black;">跟踪</span>,click stream<span style="color: black;">科研</span>;②对网页之间的<span style="color: black;">相关</span>规则的<span style="color: black;">科研</span>;③对网站中各个频道的浏览模式的<span style="color: black;">科研</span>;④<span style="color: black;">按照</span>用户浏览<span style="color: black;">行径</span>,对用户进行聚类,细分<span style="color: black;">科研</span>;(<span style="color: black;">倘若</span>你能够结合现有的互联网<span style="color: black;">制品</span>和应用提出<span style="color: black;">有些</span>自己的<span style="color: black;">意见</span>和意见,那就更有价值了。)</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(9)<span style="color: black;">发掘</span>用户<span style="color: black;">拜访</span>模式。<span style="color: black;">经过</span>分析和探究网站日志记录中的规律,<span style="color: black;">能够</span>识别电子商务的潜在客户,<span style="color: black;">加强</span>对<span style="color: black;">最后</span>用户的服务质量,并改进网站服务器系统的性能。(10)反竞争情报活动。反竞争情报是企业竞争情报活动的重要<span style="color: black;">构成</span>部分。</p>
    </div>




页: [1]
查看完整版本: 怎么样查看蜘蛛日志,利用蜘蛛分析网站