天涯论坛

 找回密码
 立即注册
搜索
查看: 36|回复: 4

像蜘蛛侠同样抓数据:带你走进网络爬虫的有趣世界

[复制链接]

3070

主题

148

回帖

9911万

积分

论坛元老

Rank: 8Rank: 8

积分
99118910
发表于 2024-8-25 19:50:41 | 显示全部楼层 |阅读模式

无论是大学牲小组作业的赶due人,

还是上班的打工社畜人,

或多或少都会被数据收集熬煎

因此,爬虫到底是个啥

网络爬虫英文是 Web Crawler,从任何一个网页出发,用图的遍历算法,自动地拜访到每一个网页并把它们存起来,完成这个功能的程序叫做网络爬虫

1、什么是爬虫

爬虫基本概念

咱们每日上网冲浪的“互联网”,其实便是设备设备的连接,倘若设备拜访网页当作一个节点,那实现上网页之间相互连接的方式——超链接便是链接网页的

网络爬虫实质便是模拟设备上浏览器发送网络请求,接收请求响应,爬虫便是模拟浏览器的行径,越像越好,越像就越不易发掘

2、为何要爬虫

有效获取信息

例如,小兰想要经过某宝评论信息分析出某品牌的牛仔裤值不值得买,首要会打开网页,而后找到评论信息,再一条一条的翻看。

那样针对网络爬虫来讲,它能够自动化获取网页的所有信息,经过提取网页中的你想要的评论内容,将信息保留到文档中,便于对数据进行查看和分析。

爬虫详细应用

购物助手——淘宝、京东等

舆情分析——博客、知乎等

自动操作——抢票软件、自动关注等

搜索引擎——百度、谷歌等

认识了爬虫的基本概念,接下来咱们再细说爬虫基本原理以及必须的网络基本概念

从哪里爬取

l 、网页链接——URL

URL 是网页的位置,就像你的家庭住址同样。它告诉浏览器去哪里找到你想拜访的网页。能够把它想象成一个网址,在网络上为每一个网页、照片或视频定位。

2、网络传输协议http和https

HyperText Transfer Protocol,简叫作http,即超文本传输协议。在URL的开头,一般能看到HTTP四个字母打头

HTTP协议是互联网数据传输的一种规则,它规定了数据的传输方式。就像是咱们寄快递选取的快递机构,快递机构规定了邮寄方式。

而HTTPS(HyperText Transfer Protocol Secure,超文本传输安全协议)能够通俗理解为加密版本的http。

爬取下来的内容长什么样子

l 、 http请求(request)

http发送的请求(request)最重点的两部分是:“对谁?”和“干什么?”

“对谁?”——便是URL,即拜访的对象

“干什么?”——便是浏览器想让服务器完成什么任务。

 http请求内容参考 

2、 http响应(response)

按照上面所说到的http请求,服务器在接收到任务后,按照请求处理任务,并将响应信息(response)的状态等返回给浏览器。

 http响应内容参考 

3 、网页构成html、CSS、JS

HTML(超文本标记语言)

HTML 是网页的结构和内容,就像建筑物的框架和房间。它用标签来定义网页的标题、段落、链接、照片等内容。

举个例子

 HTML 标签‘<h1>’就像是房间的门牌号,告诉浏览器这是一个一级标题。<p>标签用来定义一个段落,就像是房间里的文字内容。

CSS(层叠样式表)

CSS 是用来美化网页的,就像装修师傅会为房间刷墙、摆放家具、挂装饰品同样。它决定了网页的颜色、字体、布局等视觉效果。

举个例子

能够用 CSS 让所有的段落字体变成红色,背景颜色变成黄色

JavaScript (JS)

JavaScript是给网页添加互动功能的,像家里的电器,它们让你的房子变得更智能、更有趣。JS 一样能够让网页响应用户的动作,例如点击按钮、输入数据、动态表示信息等。

举个例子

当你点击一个按钮,弹出一个提示框说“你好”,便是 JS 在背面工作的结果。

结合起来,HTML、CSS 和 JavaScript 能够创建一个完整且富有交互性的网页。

4、 静态网页和动态网页

静态网页,随着HTML代码的生成,页面的内容和表示效果就基本上不会出现变化。

动态网页否则,页面代码虽然变,然则表示的内容却是能够随着时间、环境数据库操作的结果而出现改变的。

爬虫取到的页面仅仅是一个静态的页面,即网页的源代码,就像在浏览器上的“查看网页源代码”同样有些动态的东西如JavaScript脚本执行后所产生的信息,是抓取不到的。

oho~要长脑子了

前面简单介绍了爬虫基本概念以及网络基本概念,想必你已然对爬虫有了一个大致的认识。在推文的最后一部分,想给大众介绍有些爬虫知识小技巧,供大众进阶学习参考~

爬虫论坛与书籍举荐

1. V2EX 爬虫版:讨论技术细节、交流实战经验的好地区

2. 知乎爬虫专题:[知乎爬虫专题]下有海量的讨论和问答,适合新手和进阶者。

3、《Python 爬虫研发与项目实战》 - 适合初学者,涵盖基本知识到实战项目。

爬虫工具介绍

1、Scrapy:

开源且功能强大的 Python 爬虫框架,支持异步请求和扩展插件。[Scrapy 官方文档](https://docs.scrapy.org/en/latest/)

2. Beautiful Soup:

简洁易用的 Python 库,适用于解析 HTML 和 XML 文档。[Beautiful Soup 官方文档](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

爬虫与反爬虫技术

在互联网数据抓取中,爬虫技术与反爬虫技术如同猫和鼠般互相较量。理解这两者的对抗是有效数据抓取的关键。

其中反爬虫技术包含有:

1、User-Agent 检测:检测拜访请求中的 User-Agent 字段是不是恰当,以辨别自动化拜访

2. IP 限制:经过限制相同 IP 的拜访频率来防止海量数据抓取。

爬虫小常识

网络蜘蛛需要抓取网页,区别通常拜访倘若掌控欠好,则会导致网站服务器包袱过重。

例如,淘宝就由于雅虎搜索引擎的网络蜘蛛抓取其数据导致淘宝网服务器的不稳定。

 ●好的网络爬虫,需要遵守Robots协议。Robots协议的全叫作是“网络爬虫排除标准”(Robots Exclusion Protocol) 。 

那看来,无论是大学生在赶小组作业的 due 日,还是上班族面对数据收集的“熬煎”,网络爬虫都能够作为咱们获取信息的“神器”哎!

是啊!想象一下,在浩瀚的互联网海洋中,网络爬虫就像是一只敏捷的蜘蛛,容易编织出一张信息的网,为咱们捉捕有价值的数据。

因此,下次当你被数据收集所困惑时,别忘了这只智能的“蜘蛛”哟!

END

爱好的话 点赞关注

科盐系男神连续推送

咱们下期见!





上一篇:SEO入门:6分钟,快速把握SEO基本知识
下一篇:百度官方:CDN对网站在搜索引擎中的影响
回复

使用道具 举报

2942

主题

2万

回帖

9997万

积分

论坛元老

Rank: 8Rank: 8

积分
99979441
发表于 2024-10-23 08:58:31 | 显示全部楼层
感谢楼主的分享!我学到了很多。
回复

使用道具 举报

3085

主题

2万

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99098784
发表于 2024-10-23 20:08:11 | 显示全部楼层
谢谢、感谢、感恩、辛苦了、有你真好等。
回复

使用道具 举报

3085

主题

2万

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99098784
发表于 2024-11-10 16:49:44 | 显示全部楼层
你的话语如春风拂面,温暖了我的心房,真的很感谢。
回复

使用道具 举报

3042

主题

2万

回帖

9606万

积分

论坛元老

Rank: 8Rank: 8

积分
96065870
发表于 昨天 21:59 | 显示全部楼层
你的话语如春风拂面,让我感到无比温暖。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-22 06:53 , Processed in 0.128415 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.