天涯论坛

 找回密码
 立即注册
搜索
查看: 86|回复: 4

21个Python爬虫开源项目代码,包含微X、淘宝、豆瓣、知乎、博客等

[复制链接]

3068

主题

3万

回帖

9915万

积分

论坛元老

Rank: 8Rank: 8

积分
99158939
发表于 2024-7-2 03:30:52 | 显示全部楼层 |阅读模式

今天为大众整理了23个Python爬虫项目。整理的原由是,爬虫入门简单快速,非常适合新入门的小伙伴培养自信心,所有链接指向GitHub,微X不可直接打开,老规矩,能够用电脑打开。

1. WechatSogou – 微X公众号爬虫

基于搜狗微X搜索的微X公众号爬虫接口,能够扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号详细信息字典。

部分代码截图:

2. DouBanSpider – 豆瓣读书爬虫

能够爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大众筛选搜罗,例如筛选评估人数>1000的高分书籍;可依据区别的主题存储到Excel区别的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行径,避免爬虫被封。

部分代码截图:

3. zhihu_spider – 知乎爬虫

此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架运用scrapy,数据存储运用mongo

部分代码截图:

4. bilibili-user – Bilibili用户爬虫

总数据数:20119918,抓取字段:用户id,昵叫作,性别,头像,等级,经验值,粉丝数,生日,位置,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。

部分代码截图:





上一篇:举荐国外能够直链的免费网盘?
下一篇:十大国外常用网盘举荐
回复

使用道具 举报

0

主题

1万

回帖

1

积分

新手上路

Rank: 1

积分
1
发表于 2024-9-1 10:59:35 | 显示全部楼层
顶楼主,说得太好了!
回复

使用道具 举报

3045

主题

2万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99109052
发表于 2024-10-9 02:28:17 | 显示全部楼层
谷歌外链发布 http://www.fok120.com/
回复

使用道具 举报

3120

主题

2万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108637
发表于 2024-10-21 04:58:43 | 显示全部楼层
你的见解真是独到,让我受益良多。
回复

使用道具 举报

2984

主题

2万

回帖

9956万

积分

论坛元老

Rank: 8Rank: 8

积分
99569176
发表于 2024-11-9 13:34:09 | 显示全部楼层
软文发布平台 http://www.fok120.com/
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-22 15:06 , Processed in 0.117236 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.