小秃科普:爬虫是什么,是虫子吗?
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">什么是爬虫?</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">爬虫,在计算机<span style="color: black;">行业</span>中,是一种收集网络数据的工具,有人叫它<strong style="color: blue;">网络爬虫</strong>,<span style="color: black;">亦</span>有人叫它<strong style="color: blue;">网络蜘蛛</strong>。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">应用场景举例:</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">定义听起来有点抽象,<span style="color: black;">咱们</span><span style="color: black;">来讲</span>几个可能用到爬虫的<strong style="color: blue;">场景</strong>。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">1)</strong> 小虚<span style="color: black;">朋友</span>是一位互联网从业者,平时<span style="color: black;">爱好</span>观赏和<span style="color: black;">保藏</span><span style="color: black;">有些</span>自己<span style="color: black;">爱好</span>的美女<span style="color: black;">照片</span>。他想批量下载这些<span style="color: black;">照片</span>存到电脑里,<span style="color: black;">此时</span>候他<span style="color: black;">能够</span>用爬虫搞定;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">2)</strong>小博是一位数据分析<span style="color: black;">关联</span>的从业人员,他<span style="color: black;">爱好</span>分析数据,例如分析<span style="color: black;">近期</span>房价<span style="color: black;">怎样</span>,<span style="color: black;">近期</span>某些工作的工资<span style="color: black;">怎样</span>。利用爬虫,他<span style="color: black;">能够</span>方便地把原始数据爬下来,进一步用程序进行分析;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">3)</strong> 小百是一家搜索引擎<span style="color: black;">机构</span>,它需要用<span style="color: black;">海量</span>爬虫收集网络上的数据。<span style="color: black;">仅有</span><span style="color: black;">这般</span>,当用户在搜索内容的时候,它才<span style="color: black;">晓得</span>返回什么内容;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">4)</strong>小查是一个查<span style="color: black;">各样</span><span style="color: black;">机构</span>信息的网站,而这些<span style="color: black;">机构</span>信息都在某些网站进行了公示。小查<span style="color: black;">能够</span>利用爬虫,<span style="color: black;">持续</span>地收集<span style="color: black;">近期</span>的内容,将这些网络上的内容整合起来,再进行加工,从而给用户<span style="color: black;">供给</span><span style="color: black;">查找</span>相应的服务;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">5)</strong> 小比是一个比较商品价格走势的应用,它<span style="color: black;">能够</span>从网络上收集<span style="color: black;">关联</span>商品的历史价格,从而<span style="color: black;">供给</span>价格趋势、比价等服务;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">这些场景有什么共性吗?</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">1) 工作量大:</strong>收集海量的数据,人工<span style="color: black;">没法</span>胜任;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">2) 重复有规律:</strong>无论是全网数据,还是特定<span style="color: black;">行业</span>的数据,都能用程序<span style="color: black;">规律</span>描述并实现;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">什么内容都能爬吗?</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">1) 网站不让爬:</strong>有<span style="color: black;">有些</span>网站的内容是不<span style="color: black;">准许</span>爬虫进行爬取的,例如某些电商网站上的内容,<span style="color: black;">或</span><span style="color: black;">有些</span>有版权的音视频内容;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">2) 干扰了网站或系统正常运营:</strong>用爬虫频繁、密集<span style="color: black;">拜访</span>某个网站,可能会把网站跑挂,<span style="color: black;">这般</span>可能会触犯国家法律;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">3) <span style="color: black;">触及</span><span style="color: black;">百姓</span>个人信息:</strong>例如爬取<span style="color: black;">百姓</span>的身份证等隐私内容,可能<span style="color: black;">亦</span>会触犯国家法律;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">为何</span>网上<span style="color: black;">非常多</span>教爬虫编程的?</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">1) 简单:</strong>虽然企业级爬虫需要处理<span style="color: black;">非常多</span><span style="color: black;">繁杂</span>的问题,<span style="color: black;">然则</span>针对<span style="color: black;">有些</span>小任务,爬虫程序比较简单,且能简单实现,让人有成就感;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">2) 有<span style="color: black;">需要</span>:</strong><span style="color: black;">因为</span><span style="color: black;">非常多</span>互联网应用是基于爬虫的,<span style="color: black;">因此</span>确实有<span style="color: black;">有些</span><span style="color: black;">关联</span>的<span style="color: black;">研发</span><span style="color: black;">需要</span>;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">我想学爬虫,怎么<span style="color: black;">起始</span>呢?</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">举荐</span>几个<strong style="color: blue;">关键词</strong>,<span style="color: black;">能够</span>搜索进行学习:</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">1) <span style="color: black;">第1</span><span style="color: black;">周期</span>:</strong>python、requests、正则表达式、 BeautifulSoup、lxml</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">2) 第二<span style="color: black;">周期</span>:</strong>scrapy/pyspider</p>
认真阅读了楼主的帖子,非常有益。 楼主果然英明!不得不赞美你一下! 外贸论坛是我们的,责任是我们的,荣誉是我们的,成就是我们的,辉煌是我们的。 感谢你的精彩评论,带给我新的思考角度。
页:
[1]