天涯论坛

 找回密码
 立即注册
搜索
查看: 117|回复: 6

网站日志数据分析教程

[复制链接]

3028

主题

210

回帖

9777万

积分

论坛元老

Rank: 8Rank: 8

积分
97779018
发表于 2024-7-4 01:40:23 | 显示全部楼层 |阅读模式

网站日志的数据分析重点运用关联工具进行,工具类型非常多

网页版能够用拉格好(www.loghao.com),桌面版能够用爱站光年,能够运用shell分析日志。。。

分析日志的功效非常多能够概括几点:

1.认识蜘蛛对页面的抓取状况恰当分配网站内链,优化抓取路径;

2.统计栏目页面的流量数据状况,对其做相应的策略调节(例如数据下降,能够分析原由,对另一一个栏目页面做AB测试进行观察等等);

3.提取出404页面,提交给百度进行处理;

4.倘若是网站被黑,能够分析日志查看网站操作记录,以及找出假的百度蜘蛛IP等;

将日志文件下载至本地,我这儿是宝塔,通常在www根目录能够找到日志文件。

运用网页版功能有限,只能看出来蜘蛛的抓取数量和返回代码状况,如图:

关于蜘蛛数量那里应该都看得懂,顺便解释下上面表示的低权重IP和权重IP(大神略过,据述科普)。

据述,百度创始败兴,对蜘蛛是有归类的,有的蜘蛛专门抓取照片,有的专门抓取视频,有的专门抓取内容。。。。

这些ip统叫作为低权重ip(我晓得哪里听来的),专门抓取新站是低质量的页面,新站这里时期应该这个类型123.125.71.*的ip,来的频率会灰常多。

123.125.71.95

123.125.71.97

123.125.71.117

123.125.71.71

123.125.71.106

倘若是一个老网站,这个频率的ip忽然增多,那就要重视了,很有可能在被K或是降权的边缘。。。。

这个ip上面表示隔日快照,意思便是被他抓取过的页面,不出意外次日都会被收录,快照会有更新。

220.181.108.95

这些ip叫作所说的“高权重ip”,即220.181.108.*,被她们抓取过的页面,收录速度和更新速度都会火速

220.181.108.75

220.181.108.92

220.181.108.91

220.181.108.86

220.181.108.89

220.181.108.94

220.181.108.97

220.181.108.80

220.181.108.77

220.181.108.83

好的,ip段普及完了。。。。

在来瞧瞧左侧,能够看到一大串代码段。

其实咱们截取一个完整的字段是这般的:

123.125.71.12 - - [07/May/2019:11:21:56 +0800] GET /gzjysc/83.html HTTP/1.1 200 8274 - Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

一个个来看,都是什么意思。。。。

123.125.71.12:拜访的ip;

07/May/2019:11:21:56 +0800:拜访的时间段;

GET /gzjysc/83.html:拜访的URL;

HTTP/1.1:网站的请求协议;

200:网站返回状态码;

Baiduspider/2.0; +http://www.baidu.com/search/spider.html:暗示这是一个真实的百度蜘蛛;

ok,基本数据概念解释就到这儿,接下来瞧瞧从日志文件里能得到那些信息。

运用光年日志分析工具能够得出以下信息:

蜘蛛抓取量,百度抓取最多,其次是搜狗,发掘这儿居然360的蜘蛛,去设置里添加个360 Spider重新分析就能够了。

目录最多的抓取数量表示每一个蜘蛛抓取的目录次数是区别的,能够看到百度对/spmn/目录抓取最多,其实这个不意外。。。由于这个目录页面的重要词排名最好!

另一能够瞧瞧404页面,把这些404的url放在一个txt文档里,取名silian,上传到根目录提交到百度站长平台就可

其它的数据能够自己瞧瞧哈!

以上的办法针对分析普通的小公司站日志已然足够了,金花日志工具能够满足大部分的需求。

针对有些日志文件比很强,不适合用工具能够运用shell分析网站日志(以下纯属装X,能够略过)。

首要是打开日志文件。

分析蜘蛛抓取最多的页面:

cat your.log | grep Baiduspider/2.0 | awk {print $7} | sort | uniq -c | sort -nr | head -10

能够看出,还是/spmn这个页面抓取的最多。。。。接下来才是首页。

找了些非200状态码的页面url:

cat test.log | grep Baiduspider/2.0 | awk {if($9!="200"){print $7,$9}} | sort | uniq -c | sort -nr

能够看到有那些404、304等等状态的页面。。。。尤其是找出404页面,按照以上说到办法进行处理

忽然想到鲁迅先生说的:数据本身是没卵用的,分析数据,才是价值所在。





上一篇:亲自验证:百度蜘蛛到底有没低权重高权重之说?
下一篇:百度搜索引擎爬行蜘蛛IP大全及详解
回复

使用道具 举报

0

主题

1万

回帖

1

积分

新手上路

Rank: 1

积分
1
发表于 2024-8-22 21:18:13 | 显示全部楼层
在遇到你之前,我对人世间是否有真正的圣人是怀疑的。
回复

使用道具 举报

1

主题

676

回帖

3

积分

新手上路

Rank: 1

积分
3
发表于 2024-8-30 00:07:00 | 显示全部楼层
楼主继续加油啊!外链论坛加油!
回复

使用道具 举报

2

主题

752

回帖

-7

积分

限制会员

积分
-7
发表于 2024-9-9 02:24:14 | 显示全部楼层
软文发布论坛开幕式圆满成功。 http://www.fok120.com
回复

使用道具 举报

2996

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99109194
发表于 2024-9-26 23:22:29 | 显示全部楼层
论坛的成果是显著的,但我们不能因为成绩而沾沾自喜。
回复

使用道具 举报

2986

主题

3万

回帖

9956万

积分

论坛元老

Rank: 8Rank: 8

积分
99569168
发表于 2024-10-27 17:21:33 | 显示全部楼层
谷歌外贸网站优化技术。
回复

使用道具 举报

3126

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108615
发表于 2024-11-2 12:54:38 | 显示全部楼层
论坛是一个舞台,让我们在这里尽情的释放自己。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 09:43 , Processed in 0.139654 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.