博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python抓取妹纸图
阅读量:5239 次
发布时间:2019-06-14

本文共 1115 字,大约阅读时间需要 3 分钟。

import urllib.requestimport reimport osre_img = re.compile(r'

') # 预编译正则, 提高代码效率re_url = re.compile(r'http://aimm\.92game\.net/xinggan/(\d+)\.html')f2 = open("456.txt")headers = { 'user-agent': 'Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.23 Mobile Safari/537.36', # 伪造手机UA来访问手机端网页}pic_num = 0os.chdir("G:\\meizhi-image")for each_url in f2: each_url = 'http://m.aimm.92game.net/n.php?id=' + re_url.findall(each_url)[0] # 把电脑版url转换手机版方便抓取 url_image = urllib.request.Request(each_url, headers=headers) url_image2 = urllib.request.urlopen(url_image).read().decode("utf-8") url_image3 = re_img.findall(url_image2) for each in url_image3: pic_num += 1 url_image4 = (each) path = (str(pic_num) + '.jpg') print("... ... 第"+str(pic_num)+"只妹纸正在被保存... ...") image = urllib.request.urlopen(url_image4) image1 = image.read() f = open(path, 'wb') f.write(image1) f.close()

python3.4 第一只爬虫,主要用到urllib,request。正则表达式。代码比较渣渣

转载于:https://www.cnblogs.com/yefengpython/p/5305657.html

你可能感兴趣的文章
django ORM创建数据库方法
查看>>
php7 新特性整理
查看>>
RabbitMQ、Redis、Memcache、SQLAlchemy
查看>>
知识不是来炫耀的,而是来分享的-----现在的人们却…似乎开始变味了…
查看>>
口胡:[HNOI2011]数学作业
查看>>
数据库锁机制及乐观锁,悲观锁的并发控制
查看>>
03 线程池
查看>>
手机验证码执行流程
查看>>
设计模式课程 设计模式精讲 2-2 UML类图讲解
查看>>
Silverlight 的菜单控件。(不是 Toolkit的)
查看>>
jquery的contains方法
查看>>
linux后台运行和关闭SSH运行,查看后台任务
查看>>
CAN总线波形中ACK位电平为什么会偏高?
查看>>
MyBatis课程2
查看>>
桥接模式-Bridge(Java实现)
查看>>
Spring的JdbcTemplate、NamedParameterJdbcTemplate、SimpleJdbcTemplate
查看>>
Mac下使用crontab来实现定时任务
查看>>
303. Range Sum Query - Immutable
查看>>
图片加载失败显示默认图片占位符
查看>>
【★】浅谈计算机与随机数
查看>>