详解Nginx怎么样查看搜索引擎蜘蛛爬虫行径：爬行次数、爬行页面等

esc0rp · 发表于 2024-8-25 15:10:35

概述

近期阿里云经常会被各样爬虫光临，有的是搜索引擎爬虫，有的不是，一般状况下这些爬虫都有UserAgent，而咱们晓得UserAgent是能够伪装的，UserAgent的本质是Http请求头中的一个选项设置，经过编程的方式能够给请求设置任意的UserAgent。

下面的Linux命令能够让你清楚的晓得蜘蛛的爬行状况。咱们针对nginx服务器进行分析，日志文件所在目录：

/usr/local/nginx/logs/access.log，access.log这个文件记录的应该是近期一天的日志状况，首要请瞧瞧日志体积，倘若很大(超过50MB)意见别用这些命令分析，由于这些命令很消耗CPU，或更新下来放到分析机上执行，以避免影响服务器性能。

常用蜘蛛的域名都和搜索引擎官网的域名关联，例如：

百度的蜘蛛一般是baidu.com或baidu.jp的子域名google爬虫一般是googlebot.com的子域名微软bing搜索引擎爬虫是search.msn.com的子域名搜狗蜘蛛是crawl.sogou.com的子域名

cat access.log | grep Baiduspider | wc

最左面的数值表示的便是爬行次数。

cat access.log | grep Baiduspider

亦能够用下面的命令：

cat access.log | grep Baiduspider | tail -n 10

cat access.log | grep Baiduspider | head -n 10

说明：只看最后10条或最前10条

cat access.log | grep Baiduspider | grep “GET / HTTP”

百度蜘蛛好似对首页非常热爱每一个钟头都来光临，而谷歌和雅虎蜘蛛更爱好内页。

cat access.log | grep “Baiduspider ” | awk ‘{print $4}

# cat access.log |grep "Baiduspider"|awk {print $7}|sort | uniq -c |sort -r

篇幅有限，关于nginx去查看搜索引擎蜘蛛爬虫的行径的内容就介绍到这了，上面的有些命令都是比较常用的，后面会分享更加多关于nginx方面内容，感兴趣的伴侣能够关注下！

j8typz · 发表于 2024-9-30 03:23:24

感谢您的精彩评论，为我带来了新的思考角度。

4zhvml8 · 发表于 2024-11-11 21:51:16

这夸赞甜到心里，让我感觉温暖无比。

		自动登录	找回密码
密码			立即注册