【SEO】关于爬虫抓取JS、CSS、JSON

u1jodi1q · 发表于 2024-7-4 02:38:36

这是一个存在数年、经常显现但又从来无标准处理办法的问题：搜索引擎爬虫（尤其是百度）抓取JS、CSS、JSON文件，robots屏蔽依然抓取的状况。

这就引出了几个问题：

1、爬虫抓取JS、CSS是干什么的？ 2、爬虫能否执行JS？ 3、爬虫抓取JS对seo有什么影响？

针对以上问题，我说下自己的看法：

第1个，爬虫抓取CSS，用于判断页面元素的要紧程度，及保准快照表示的完整性；抓取JS，用于发掘新链接，及判断是不是存在作坏处的状况

第二个，会执行JS，但不确定所有的JS是不是都会执行。像网上好多人说的“搜索引擎会直接忽略JS、iframe什么的，只抓取纯文本信息”，这从实质状况上站不住脚啊，倘若搜索引擎对JS、iframe鸟都不鸟，那内些做黑帽的朋友岂不爽死了（不懂为何爽？请看前两篇关于黑帽的文案，你就懂了！）

第三个，这个不晓得。某些状况下，可能会占用抓取配额，不外我经历的几个存在蜘蛛抓取JS的站，流量上并无什么反常。

说到这，我的此刻工作的站在上半年显现过这种状况，百度疯狂的抓json，robots屏蔽各样没效，然而流量上并无下降等反常情况，本来依我的心理承受能力是基本不会在乎这种状况的┏ (゜ω゜)=☞，然则一查json的抓取比例着实让我菊花一紧，接近40%，是的，你无看错，40%，假设百度一天抓100万页面，40万都是json这玩意。

而后发掘日志中百度的抓取总量跟百度站长工具的抓取频次对不上，几次检测后发掘，日志中的抓取总量 = 百度工具的抓取频次 + 日志中json的抓取总量。亦便是说，针对百度给出的抓取频次数据，抓取json的部分是无计算在内的，等于说是附赠的抓取。从这点看，应该对SEO没什么影响，不存在占用抓取配额的问题么，但看抓取比例总是非常蛋疼，还是决定处理下这个状况。

经过排查，发掘有些页面包括一个功能：当页面被请求时先判断来访用户是不是登录，倘若登录则返回该用户历史拜访的其他制品，倘若未登录，则返回指定的内容。返回的内容转换成一个json文件（没错，便是百度疯狂抓的那个），而后传递到前台的js，js经过解析json文件，将解析json后的数据表示在前端界面。

用的是异步加载，从业务规律上看，对该页面的任何拜访者，倘若不执行这个js，相当于页面没加载完。

json路径是明文写在js里的，亦不晓得百度是把json的路径识别出来了还是执行js了，反正只要抓了包括这个功能的页面，都会顺带抓对应的json文件。

综上，预定的处理办法有两种：

第1种是直接把这个功能对应的JS删了

第二种是面对搜索引擎拜访，不返回这个js。因此蜘蛛基本看不到，亦就不会抓了

最后由于这个功能上线多月，但数据表现始终欠好，点击率低，直接把这个功能砍了.......而后转天在看日志，json抓取量为0......

------------------------------------------------------------------------------------------

扫描下图右下角二维码，关注“流量贩子”微X公众号。

dhfgh · 发表于 2024-8-19 22:01:02

楼主的文章深得我心，表示由衷的感谢！

xuaiqiang · 发表于 2024-9-5 20:46:22

软文发布平台 http://www.fok120.com/

		自动登录	找回密码
密码			立即注册