天涯论坛

 找回密码
 立即注册
搜索
查看: 55|回复: 2

防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

[复制链接]

2836

主题

316

回帖

9191万

积分

论坛元老

Rank: 8Rank: 8

积分
91919710
发表于 2024-8-25 18:54:18 | 显示全部楼层 |阅读模式

快科技8月22日信息,据报告近期百度百科起始屏蔽谷歌和必应等大都数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。

百度百科的robots.txt文件表示日前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少许几个搜索引擎被准许抓取其内容。

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被知道禁止抓取百度百科的内容。

虽然360搜索在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,因此360搜索和其他搜索引擎都是被屏蔽的。

不外百度百科这种做法其实只是防君子不防小人,肯定还有非常多爬虫经过各样方式继续抓取内容而后拿去训练AI。

返回外链论坛:www.fok120.com,查看更加多

责任编辑:网友投稿





上一篇:网站暗示蜘蛛抓取反常的原由
下一篇:百度百科限制谷歌必应等搜索引擎抓取 保护内容免被AI训练利用
回复

使用道具 举报

55

主题

488

回帖

553

积分

高级会员

Rank: 4

积分
553
发表于 2024-9-10 04:37:32 | 显示全部楼层
回顾过去一年,是艰难的一年;展望未来,是辉煌的一年。
回复

使用道具 举报

2951

主题

3万

回帖

9997万

积分

论坛元老

Rank: 8Rank: 8

积分
99979409
发表于 2024-10-14 16:56:03 | 显示全部楼层
楼主发的这篇帖子,我觉得非常有道理。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 16:47 , Processed in 0.108293 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.