天涯论坛

 找回密码
 立即注册
搜索
查看: 15|回复: 0

Python爬虫之网站超清照片爬取

[复制链接]

2993

主题

330

回帖

9919万

积分

论坛元老

Rank: 8Rank: 8

积分
99199246
发表于 2024-11-1 22:57:28 | 显示全部楼层 |阅读模式

缺不缺好看的桌面呢?这边来爬取网站超清照片

这次爬虫用到的网址是:

http://www.netbian.com/index.htm: 彼岸桌面.里面有非常多的好看壁纸,况且都是能够下载高清无损的,还比较不错,因此我就拿这个网站练练手。

做为一个初学者,刚起始的时候,无论的代码的质量怎样,总之代码只要能够被正确完整的运行那就很能够让自己开心的,如同咱们的游戏同样,能在短期内得到正向的反馈,咱们就会更有兴趣去玩。

学习是如此,只要咱们能够在短期内得到学习带来的反馈,那样咱们针对学习的欲望剧烈的。能够完整的完整此次爬虫程序的编写,那便是一个最大的收货,但其实我这里次过程中的收获远不止此。

好的代码其实应该拥有以下特性

能够满足最关键的需要容易理解有充分的注释运用规范的命名显著的安全问题经过充分的测试

就以充分的测试为例,经常写代码的就应该晓得,尽管都数时候你的代码BUG,但那仅仅说明只是大都数状况下是稳定的,然则在某些要求下就会出错(达到出错要求,存在规律问题的时候等)。这是肯定的。至于什么原由区别的代码有区别原由倘若代码程序都是一次就能完善的,那样咱们运用的软件的软件就不会经常更新了。其他其中的道理就不一 一道说了,久而自知。

好的代码通常拥有的5大特性1.便于守护 2.可复用 3.可扩展 4.强灵活性 5.健壮性

经过我的代码运行我发掘时间繁杂度比很强因此呢这是我将要改进的地区,但不止于此。非常多利用得不恰当地区,至于存在的不足的地区就待我慢慢提高改进吧!

路过的大佬欢迎留下您宝贵的代码修改意见,

完整代码如下

import os import bs4 import re import time import requests from bs4 import BeautifulSoup def getHTMLText(url, headers): """向目的服务器发起请求并返回响应""" try: r = requests.get(url=url, headers=headers) r.encoding = r.apparent_encoding soup = BeautifulSoup(r.text,"html.parser") return soup except: return "" def CreateFolder(): """创建存储数据文件夹""" flag = True while flag == 1: file = input("请输入保留数据文件夹的名叫作:") if notos.path.exists(file): os.mkdir(file) flag =False else: print(该文件已存在,请重新输入) flag = True # os.path.abspath(file) 获取文件夹的绝对路径path = os.path.abspath(file) +"\\" return path def fillUnivList(ulist, soup): """获取每一张照片的原图页面""" # [0]使得得到的ul是 <class bs4.BeautifulSoup> 类型 div = soup.find_all(div, list)[0] for a in div(a): if isinstance(a, bs4.element.Tag): hr = a.attrs[href] href = re.findall(r/desk/[1-9]\d{4}.htm, hr) if bool(href) == True: ulist.append(href[0]) return ulist def DownloadPicture(left_url,list,path): for right in list: url = left_url + right r = requests.get(url=url, timeout=10) r.encoding = r.apparent_encoding soup = BeautifulSoup(r.text,"html.parser") tag = soup.find_all("p") # 获取img标签的alt属性,给保留照片命名 name = tag[0].a.img.attrs[alt] img_name = name + ".jpg" # 获取照片的信息 img_src = tag[0].a.img.attrs[src] try: img_data = requests.get(url=img_src) except: continueimg_path = path + img_namewith open(img_path,wb) as fp: fp.write(img_data.content) print(img_name, " ******下载完成!") def PageNumurl(urls): num = int(input("请输入爬取所到的页码数:")) for i in range(2,num+1): u = "http://www.netbian.com/index_" + str(i) + ".htm" urls.append(u) return urls if __name__ == "__main__": uinfo = [] left_url ="http://www.netbian.com" urls = ["http://www.netbian.com/index.htm"] headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36" } start = time.time() # 1.创建保留数据的文件夹 path = CreateFolder() # 2. 确定要爬取的页面数并返回每一页的链接 PageNumurl(urls) n = int(input("拜访初始页面:")) for i in urls[n-1:]: # 3.获取每一个页面的首页数据文本 soup = getHTMLText(i, headers) # 4.拜访原图所在页链接并返回照片的链接page_list = fillUnivList(uinfo, soup)# 5.下载原图 DownloadPicture(left_url, page_list, path) print("所有下载完成!", "共" + str(len(os.listdir(path))) + "张照片") end = time.time() print("共耗时" + str(end-start) + "秒")

运行

部分展示结果如下:

起学Python,一块写代码,加油!奥利给!!!





上一篇:怎么样将照片无损放大?3种办法秒变高清大图!
下一篇:怎么样引用蜘蛛池,正确自然引百度蜘蛛池免费试用—酷像SEO
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 13:02 , Processed in 0.124390 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.