萌新练手写了一个爬取福吧福利汇总的爬虫
自测几乎都能爬取,要自己改爬取范围,见注释。这个代码没考虑爬其他的网站所以没重构,可能代码有很多要优化的地方还请指教,如果不能再发的话还请管理不要审核通过。需要Python3
requests库
#导入库importre
importos
importrequests asr
# url默认部分,不需要修改https://fuliba2020.net/(issue).htmlurl1 = ‘https://fuliba2020.net/’url2 = ‘.html’#如果目标文件夹不存在就自动创建if notos.path.exists(r’D:/fuliba/’):
os.makedirs(r’D:/fuliba/’)
#主要工作部分defget():
#枚举results获取index之后初始文件名 forindex,url inenumerate(results):
#文件保存路径 path = r’D:/fuliba/’+ str(issue) + ‘at00’+ str(index)
#决定图片什么格式 if’gif’inurl:
file = path + ‘.gif’ else:
file = path + ‘.jpg’ #爬取图片链接 img = r.get(url)
#保存图片到目标文件夹 withopen(file,’wb’) asf:
f.write(img.content)
#要爬取的范围(eg.2021010即2021年第10期)第一个参数是起始期,第二个是结束期+1.只能从2021年开始爬)forissue inrange(2021001,2021002):
#定义完整的url url = url1 + str(issue) + url2
#爬取源代码 page = r.get(url)
content = page.text
#正则表达式 results = re.findall(‘
‘,content)
#匹配方式(选择哪个正则表达式匹配的结果) iflen(results) > 2:
#运行get() get()
else:
results = re.findall(‘
‘,content)
#运行get() get()