天涯论坛

 找回密码
 立即注册
搜索
查看: 44|回复: 2

详解Nginx怎么样查看搜索引擎蜘蛛爬虫行径:爬行次数、爬行页面等

[复制链接]

3046

主题

119

回帖

9915万

积分

论坛元老

Rank: 8Rank: 8

积分
99159064
发表于 2024-8-25 15:10:35 | 显示全部楼层 |阅读模式

概述

近期阿里云经常会被各样爬虫光临,有的是搜索引擎爬虫,有的不是,一般状况下这些爬虫都有UserAgent,而咱们晓得UserAgent是能够伪装的,UserAgent的本质是Http请求头中的一个选项设置,经过编程的方式能够给请求设置任意的UserAgent。

下面的Linux命令能够让你清楚的晓得蜘蛛的爬行状况咱们针对nginx服务器进行分析,日志文件所在目录:

/usr/local/nginx/logs/access.log,access.log这个文件记录的应该是近期一天的日志状况首要瞧瞧日志体积倘若很大(超过50MB)意见别用这些命令分析,由于这些命令很消耗CPU,更新下来放到分析机上执行,以避免影响服务器性能。

常用蜘蛛的域名

常用蜘蛛的域名都和搜索引擎官网的域名关联,例如:

百度的蜘蛛一般是baidu.combaidu.jp的子域名google爬虫一般是googlebot.com的子域名微软bing搜索引擎爬虫是search.msn.com的子域名搜狗蜘蛛是crawl.sogou.com的子域名

1、计算百度蜘蛛爬行的次数

cat access.log | grep Baiduspider | wc

最左面的数值表示便是爬行次数。

2、百度蜘蛛的仔细记录(Ctrl C能够终止)

cat access.log | grep Baiduspider

能够用下面的命令:

cat access.log | grep Baiduspider | tail -n 10

cat access.log | grep Baiduspider | head -n 10

说明:只看最后10条或最前10条

3、百度蜘蛛抓取首页的仔细记录

cat access.log | grep Baiduspider | grep “GET / HTTP”

百度蜘蛛好似对首页非常热爱每一个钟头都来光临,而谷歌和雅虎蜘蛛更爱好内页。

4、百度蜘蛛派性记录时间点分布

cat access.log | grep “Baiduspider ” | awk ‘{print $4}

5、百度蜘蛛爬行页面按次数降序列表

# cat access.log |grep "Baiduspider"|awk {print $7}|sort | uniq -c |sort -r

篇幅有限,关于nginx去查看搜索引擎蜘蛛爬虫的行径的内容就介绍到这了,上面的有些命令都是比较常用的,后面会分享更加多关于nginx方面内容,感兴趣的伴侣能够关注下!





上一篇:百度蜘蛛抓取规律——怎么让百度蜘蛛经常来?诠网科技告诉你
下一篇:网络爬虫是什么
回复

使用道具 举报

3059

主题

2万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99139060
发表于 2024-9-30 03:23:24 | 显示全部楼层
感谢您的精彩评论,为我带来了新的思考角度。
回复

使用道具 举报

3121

主题

2万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108633
发表于 2024-11-11 21:51:16 | 显示全部楼层
这夸赞甜到心里,让我感觉温暖无比。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-22 19:13 , Processed in 0.169260 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.