萌新练手写了一个爬取福吧福利汇总的爬虫

学习专区 2 年前 0 16

自测几乎都能爬取，要自己改爬取范围，见注释。这个代码没考虑爬其他的网站所以没重构，可能代码有很多要优化的地方还请指教，如果不能再发的话还请管理不要审核通过。需要Python3
requests库
#导入库importre
importos
importrequests asr
# url默认部分，不需要修改https://fuliba2020.net/(issue).htmlurl1 = ‘https://fuliba2020.net/’url2 = ‘.html’#如果目标文件夹不存在就自动创建if notos.path.exists(r’D:/fuliba/’):
os.makedirs(r’D:/fuliba/’)
#主要工作部分defget():
#枚举results获取index之后初始文件名 forindex,url inenumerate(results):
#文件保存路径 path = r’D:/fuliba/’+ str(issue) + ‘at00’+ str(index)
#决定图片什么格式 if’gif’inurl:
file = path + ‘.gif’ else:
file = path + ‘.jpg’ #爬取图片链接 img = r.get(url)
#保存图片到目标文件夹 withopen(file,’wb’) asf:
f.write(img.content)
#要爬取的范围(eg.2021010即2021年第10期)第一个参数是起始期，第二个是结束期+1.只能从2021年开始爬)forissue inrange(2021001,2021002):
#定义完整的url url = url1 + str(issue) + url2
#爬取源代码 page = r.get(url)
content = page.text
#正则表达式 results = re.findall(‘

‘,content)
#匹配方式(选择哪个正则表达式匹配的结果) iflen(results) > 2:
#运行get() get()
else:
results = re.findall(‘

‘,content)
#运行get() get()

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

一个汇总爬取福爬虫福利练手

相关文章

发表回复 取消回复

发表回复取消回复