天涯论坛

 找回密码
 立即注册
搜索
查看: 7|回复: 0

运用蜜蜂采集器时怎么样检测百度网盘链接是不是有效

[复制链接]

3028

主题

210

回帖

9777万

积分

论坛元老

Rank: 8Rank: 8

积分
97779018
发表于 2024-10-29 18:35:56 | 显示全部楼层 |阅读模式

蜜蜂采集器运用教程 - 检测百度网盘链接是不是有效

建站过程中,可能需要运用到百度网盘等第三方网盘。而不少状况下,网盘分享链接可能已然失效。倘若网站长时间存在海量失效链接,对网站用户留存的影响非常大。对此,比较好的处理办法便是检测链接是不是有效。

本文以蜜蜂采集器为例,调用百度网盘链接有效性验证插件,实现链接有效性检测功能。

插件介绍

蜜蜂采集器的插件功能,分为列表页网址插件、数据处理插件、标签数据处理插件、文件上传插件、内容发布插件、信息通告插件。每一种插件都支持PHP、Python、Nodejs、Go四种编程语言。

其中,标签数据处理插件是在数据采集过程中对单个标签字段进行标签数据二次处理时调用的,针对的是单条数据记录的单个标签字段。

针对链接有效性检测功能,通常是在内容采集周期,对标签内容进行处理。因此这儿是采用标签数据处理插件实现的。

插件运用说明

运用办法

添加外边程序(Python)。添加或导入标签数据处理插件,添加标签数据处理配置。python需要安装urllib3组件: pip install urllib3 。 如安装后还是提示找不到组件,可重启采集器进程。

返回内容

网址链接形式 + 检测结果组合返回,一行表示一条检测结果。

返回结果可能包括以下字符串:检测失败,找到百度网盘链接检测失败,xxx检测成功,链接状态正常因此呢倘若期盼所有链接必须所有有效,能够添加内容过滤:不得包含检测失败倘若期盼最少一个链接有效,能够添加内容过滤:必须包括检测成功倘若网盘链接的,做为成功处理,则能够先字符串替换,替换检测失败,找到百度网盘链接检测成功,再添加内容过滤:必须包括检测成功

插件返回结果示例:

.../s/abcdabcdabcdabcdabcdabcdabcd?pwd=1234 : 检测成功,链接状态正常 .../s/abcdabcdabcdabcdabcdabcdabcd?pwd=1234 : 检测成功,链接状态正常 .../s/abcdabcdabcdabcdabcdabcdabcd?pwd=1234 : 检测成功,链接状态正常

功能实现

关于采集规则的编写,这儿略过。重点说一下链接有效性检测功能。

打开主菜单“帮忙”——“应用市场”。类型选取“标签数据处理插件”。搜索“百度网盘链接有效性”,能够看到“百度网盘链接有效性验证公共版”。“百度网盘链接有效性验证公共版”无需申请百度网盘开放平台接口权限,但有运用频次限制。选取对应插件,点击“下载”导入。

导入插件

如上图,导入时,需要指定外边程序。该插件采用Python语言实现,倘若安装Python,请先到外边程序管理器中,下载安装Python,再添加Python到外边程序中。导入时,意见选取同期自动创建标签数据处理配置”。创建标签数据处理配置后,能够在“标签数据处理配置管理”列表中找到对应的配置项。

转到采集规则的编辑窗口。对某个标签,启用“标签数据二次处理”,并添加“调用插件”处理项,选取刚才配置好的标签数据处理配置,就可。点击下方的“测试”,测试是不是正常执行。如图:

调用插件

这儿调用插件后,会替换标签内容的,因此,用于检测链接的标签应该是单独的“检测”标签,仅仅用于检测有效性,不消于采集内容输出。对此检测标签,还能够添加内容过滤,例如,不得包括检测失败,则需求所有提取的网盘链接都是有效的。

至此,咱们能够在自己的采集规则中检测百度网盘链接是不是有效了。





上一篇:百度是怎么样判断垃圾外链的,规则是什么?
下一篇:网站SEO优化必须!搜狗收录查询数据分析
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 06:22 , Processed in 0.111948 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.