天涯论坛

 找回密码
 立即注册
搜索
查看: 33|回复: 2

各大搜索引擎蜘蛛IP段 以及怎么样判断蜘蛛真假

[复制链接]

3031

主题

312

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99099082
发表于 2024-8-25 17:00:02 | 显示全部楼层 |阅读模式

搜索引擎蜘蛛会定时来抓取网站内容,以便收录网页,站长们是非常欢迎蜘蛛来爬的,然则却有人经常伪造蜘蛛IP进行恶意采集内容,还有非常多DDOS攻击会伪导致蜘蛛的User Agent来攻击,我查看过一位站长伴侣被DDOS攻击的日志,里面大概20%的国外IP伪导致Googlebot来拜访这般会对咱们的网站导致影响。咱们必须要揪出这些假蜘蛛,拒绝她们拜访网页,此时咱们只能经过IP来识别了,由于User-agent是能够伪造的,仅有IP才可准确判断。

下面是站成长本营近期收集的各大搜索引擎蜘蛛IP数据,数据没办法保准完全准确,由于搜索引擎官方是不公开IP段的,且IP都会变,我对比太多个数据和自己核验,下面的数据还是挺靠谱的,有遗漏的下面还会有处理方法

百度蜘蛛IP段:

61.135.0.0/16

123.125.0.0/16

111.206.0.0/16

180.76.0.0/20

180.149.128.0/19

220.181.0.0/16

36.110.128.0/17

124.164.0.0/14

116.179.0.0/16

180.97.0.0/18

Google中国蜘蛛IP段:

203.208.32.0/19

203.208.60.0/24

74.125.0.0/16

72.14.192.0/18

64.233.160.0/19

66.249.64.0/19

66.102.0.0/20

64.68.64.0/19

66.249.90.0/24

66.249.91.0/24

66.249.92.0/24

搜狗蜘蛛IP段:

118.184.176.0/22

123.180.0.0/14

123.125.0.0/16

61.135.0.0/16

123.126.64.0/18

111.202.0.0/16

36.110.128.0/19

220.181.0.0/16

106.120.128.0/17

49.7.0.0/18

218.30.96.0/19

106.38.0.0/16

111.13.0.0/16

58.250.0.0/16

183.36.96.0/19

49.7.64.0/18

必应蜘蛛IP段:

103.25.156.0/24

111.221.16.0/20

157.56.0.0/16

199.30.16.0/20

65.52.0.0/14

13.64.0.0/11

157.55.0.0/16

207.46.0.0/16

40.64.0.0/10

52.224.0.0/11

40.76.0.0/14

40.80.0.0/12

52.160.0.0/11

360搜索蜘蛛IP段:(这是官方供给的,非常准确)

180.153.0.0/16

180.163.128.0/17

42.224.0.0/12

头条搜索蜘蛛IP段:

110.249.201.0/24

110.249.202.0/24

111.225.148.0/24

111.225.149.0/24

220.243.135.0/24

220.243.136.0/24

111.224.0.0/14

60.8.0.0/15

110.240.0.0/12

220.243.128.0/18

神马搜索蜘蛛IP段:

42.156.128.0/17

42.120.128.0/17

106.11.144.0/20

以上IP段可能将来还会新增,况且新增的IP段咱们没法获取到,此时咱们就需要另一一种方法来核实了,那便是DNS反查,咱们能够经过反查来访的蜘蛛IP,查到对应的域名位置就可核实。

经过DNS反查IP用的是一种代码指令,区别的操作平台运用的指令区别的,例如:linux、windows、Mac OS这三个操作平台,运用的指令为host、nslookup、dig,查找的格式为:host ip(ip=ip位置)、nslookupip(ip=ip位置)、digip(ip=ip位置)。例如:host 111.222.XXX.XXX 或 nslookup 111.222.XXX.XXX 或 dig host 111.222.XXX.XXX,如果是用PHP能够运用 gethostbyaddr("IP")来获取,区别的蜘蛛IP对应的域名是不同样的,咱们只要核实是哪家的蜘蛛就OK了。

下面我把各大搜索引擎蜘蛛的域名分享下:

百度蜘蛛IP对应的域名(例子):

baiduspider-116-179-32-216.crawl.baidu.com

谷歌蜘蛛IP对应的域名(例子):

crawl-203-208-60-60.googlebot.com

必应蜘蛛IP对应的域名(例子):

msnbot-40-77-167-2.search.msn.com

搜狗蜘蛛IP对应的域名(例子):

sogouspider-123-126-113-79.crawl.sogou.com

头条蜘蛛IP对应的域名(例子):

bytespider-111-225-149-71.crawl.bytedance.com

神马蜘蛛IP对应的域名(例子):

shenmaspider-42-156-137-55.crawl.sm.cn

360搜索官方说是禁止反查的,因此咱们只用官方给出的IP段判断就OK了。

经过以上IP反查能够得到域名,判断域名是不是是这些域名结尾就能够核实,这般咱们在防御上就不会将搜索引擎蜘蛛误杀了。

以后还会继续分享有价值的站长关联资源,感谢您的浏览!





上一篇:「白皮书诠释搜索引擎的工作原理」建库
下一篇:运营笔记:是时候认识蜘蛛爬取原理了!揭秘收录困难!
回复

使用道具 举报

2945

主题

2万

回帖

9997万

积分

论坛元老

Rank: 8Rank: 8

积分
99979431
发表于 2024-10-20 06:57:56 | 显示全部楼层
你的见解真是独到,让我受益匪浅。
回复

使用道具 举报

3069

主题

3万

回帖

9915万

积分

论坛元老

Rank: 8Rank: 8

积分
99158935
发表于 2024-11-10 06:34:28 | 显示全部楼层
大势所趋,用于讽刺一些制作目的就是为了跟风玩梗,博取眼球的作品。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-22 19:32 , Processed in 0.109675 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.