概述
近期阿里云经常会被各样爬虫光临,有的是搜索引擎爬虫,有的不是,一般状况下这些爬虫都有UserAgent,而咱们晓得UserAgent是能够伪装的,UserAgent的本质是Http请求头中的一个选项设置,经过编程的方式能够给请求设置任意的UserAgent。
下面的Linux命令能够让你清楚的晓得蜘蛛的爬行状况。咱们针对nginx服务器进行分析,日志文件所在目录: /usr/local/nginx/logs/access.log,access.log这个文件记录的应该是 近期一天的日志 状况, 首要请 瞧瞧日志 体积, 倘若很大(超过50MB) 意见别用这些命令分析, 由于这些命令很消耗CPU, 或更新下来放到分析机上执行, 以避免影响服务器性能。
常用蜘蛛的域名
常用蜘蛛的域名都和搜索引擎官网的域名关联,例如: 百度的蜘蛛 一般是baidu.com 或baidu.jp的子域名google爬虫 一般是googlebot.com的子域名微软bing搜索引擎爬虫是search.msn.com的子域名搜狗蜘蛛是crawl.sogou.com的子域名 1、计算百度蜘蛛爬行的次数
cat access.log | grep Baiduspider | wc
最左面的数值表示的便是爬行次数。
2、百度蜘蛛的仔细记录(Ctrl C能够终止)
cat access.log | grep Baiduspider
亦能够用下面的命令:
cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10
说明:只看最后10条或最前10条
3、百度蜘蛛抓取首页的仔细记录
cat access.log | grep Baiduspider | grep “GET / HTTP”
百度蜘蛛好似对首页非常热爱每一个钟头都来光临,而谷歌和雅虎蜘蛛更爱好内页。
4、百度蜘蛛派性记录时间点分布
cat access.log | grep “Baiduspider ” | awk ‘{print $4}
5、百度蜘蛛爬行页面按次数降序列表# cat access.log |grep "Baiduspider"|awk {print $7}|sort | uniq -c |sort -r
篇幅有限,关于nginx去查看搜索引擎蜘蛛爬虫的行径的内容就介绍到这了,上面的有些命令都是比较常用的,后面会分享更加多关于nginx方面内容,感兴趣的伴侣能够关注下!
|