位置: IT常识 - 正文

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

编辑:rootadmin
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两: import requests //用于请求网页 import re / ...

推荐整理分享python爬虫入门教程:爬取网页图片(python爬虫入门教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫快速入门,python爬虫全套教程,python爬虫教程,python爬虫:入门+进阶,python爬虫入门教程,python爬虫入门教程pdf,python爬虫教程,python爬虫入门教程pdf,内容如对您有帮助,希望把文章链接给更多的朋友!

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

import requests //用于请求网页import re //正则表达式,用于解析筛选网页中的信息

其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序首先肯定要通过python访问这个网站,代码如下:headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'

像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)

返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码import requestsimport reimport osimage = '表情包'if not os.path.exists(image): os.mkdir(image)headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)response.encoding = 'GBK'response.encoding = 'utf-8'print(response.request.headers)print(response.status_code)t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'result = re.findall(t, response.text)for img in result: print(img) res = requests.get(img[0]) print(res.status_code) s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif with open(image + '/' + img[1] + '.' + s, mode='wb') as file: file.write(res.content)

最后结果就是这个样子:

本文链接地址:https://www.jiuchutong.com/zhishi/310334.html 转载请保留说明!

上一篇:python包和文件夹有什么区别(python27文件夹)

下一篇:长篇图解etcd核心应用场景及编码实战(etcd4)

  • 华为手机微信怎么恢复已备份的聊天记录(华为手机微信怎么设置密码才能进入)

    华为手机微信怎么恢复已备份的聊天记录(华为手机微信怎么设置密码才能进入)

  • 华为抬起亮屏怎么设置(华为抬起亮屏怎么设置mate20)

    华为抬起亮屏怎么设置(华为抬起亮屏怎么设置mate20)

  • 闲鱼怎么取消芝麻信用授权(闲鱼怎么取消芝麻应用授权)

    闲鱼怎么取消芝麻信用授权(闲鱼怎么取消芝麻应用授权)

  • 七天学堂怎么注册(七天学堂怎么注册账号新版)

    七天学堂怎么注册(七天学堂怎么注册账号新版)

  • 拼多多的拼小圈如何设置成不让别人看(拼多多的拼小圈怎么关闭动态)

    拼多多的拼小圈如何设置成不让别人看(拼多多的拼小圈怎么关闭动态)

  • 小米8如何隐藏app图标(小米8如何隐藏相册)

    小米8如何隐藏app图标(小米8如何隐藏相册)

  • 抖音直播众筹什么意思(抖音直播间众筹什么意思)

    抖音直播众筹什么意思(抖音直播间众筹什么意思)

  • 开通快手直播带货需要什么条件(开通快手直播带货需要交保证金吗)

    开通快手直播带货需要什么条件(开通快手直播带货需要交保证金吗)

  • 7p能用18w快充吗(苹果7p能用18w充电器吗)

    7p能用18w快充吗(苹果7p能用18w充电器吗)

  • 电脑能联网但是上不了网(电脑能联网但是网速很慢)

    电脑能联网但是上不了网(电脑能联网但是网速很慢)

  • 华为mate30贴什么膜(华为mate30贴什么膜没有白边)

    华为mate30贴什么膜(华为mate30贴什么膜没有白边)

  • 路由器黄灯闪烁(华为路由器黄灯闪烁)

    路由器黄灯闪烁(华为路由器黄灯闪烁)

  • 新概念计算机包括什么(新概念计算机包括量子计算机吗)

    新概念计算机包括什么(新概念计算机包括量子计算机吗)

  • 小工具在哪里找(荣耀50窗口小工具在哪里找)

    小工具在哪里找(荣耀50窗口小工具在哪里找)

  • 运营网络自动暂停是怎么回事(公司送给员工开工礼物)

    运营网络自动暂停是怎么回事(公司送给员工开工礼物)

  • 机械键盘和机械手感键盘的区别(机械键盘和机械手感键盘哪个好用)

    机械键盘和机械手感键盘的区别(机械键盘和机械手感键盘哪个好用)

  • 淘宝怎么解绑支付宝(淘宝怎么解绑支付宝和手机号)

    淘宝怎么解绑支付宝(淘宝怎么解绑支付宝和手机号)

  • oppo reno ace是5g么(reno ace 5g版)

    oppo reno ace是5g么(reno ace 5g版)

  • qq好友详细资料在哪(qq好友详细资料看不了)

    qq好友详细资料在哪(qq好友详细资料看不了)

  • 抖音能用id账号登录吗(抖音用id可以登录吗?)

    抖音能用id账号登录吗(抖音用id可以登录吗?)

  • 小米6烧屏怎么处理(小米烧屏怎么检测)

    小米6烧屏怎么处理(小米烧屏怎么检测)

  • 微信如何取消双小人(微信如何取消双重认证)

    微信如何取消双小人(微信如何取消双重认证)

  • 拼多多怎么改手机号码(拼多多怎么改手机号)

    拼多多怎么改手机号码(拼多多怎么改手机号)

  • 荣耀手环3怎么配对手机(荣耀手环3怎么重新连接手机)

    荣耀手环3怎么配对手机(荣耀手环3怎么重新连接手机)

  • 手机号怎么开通腾讯视频会员(手机号怎么开通短信功能)

    手机号怎么开通腾讯视频会员(手机号怎么开通短信功能)

  • 朋友圈怎么发无声视频(朋友圈怎么发无压缩视频)

    朋友圈怎么发无声视频(朋友圈怎么发无压缩视频)

  • excel如何批量删除行(excel如何批量删除指定字符)

    excel如何批量删除行(excel如何批量删除指定字符)

  • 怎样安装ps软件(怎么安装ps软件步骤)

    怎样安装ps软件(怎么安装ps软件步骤)

  • 开机要按F1才能进系统解决办法是什么?(开机要按f1才能进系统)

    开机要按F1才能进系统解决办法是什么?(开机要按f1才能进系统)

  • 流转税通俗
  • 小规模纳税人怎么变成一般纳税人
  • 建筑劳务公司做账分录
  • 怎么根据实发工资算应发工资
  • 服务类公司没有营业执照
  • 记账凭证工资表
  • 科技人员股权奖励
  • 委托贷款的资金借出方是谁
  • 在建工程购入的空调怎样入账
  • 资产负债率计算方式
  • 清算固定资产处置方案
  • 施工图审查费谁出
  • 公司付给职工的工资
  • 传媒公司的成本构成有哪些
  • 财务怎么查询微信转账单号真假
  • 什么凭证需要审计报告
  • 信汇凭证是转账凭证吗
  • mac打不开网页但是可以上微信
  • 新版edge浏览器如何恢复设置
  • 住房公积金如何使用
  • 约定抵销与法定抵销的区别
  • 发送文件桌面上显示不出来
  • 百内国家公园塔状尖峰
  • 项目不可用怎么解决
  • macos使用方法
  • 股权转让交易税计税依据是什么
  • 收回已核销的坏账分录
  • 莱姆 惨败
  • 外贸企业申报出口退税的期限
  • php使用while循环计算1到100的和
  • 工程物资已到发票怎么开
  • laravel框架实现cms的体会
  • 尚硅谷docker笔记
  • react错误处理
  • 支付境外佣金税收政策
  • 外地工程预缴的个人所得税是什么申报
  • 施工营业额是什么意思
  • 织梦cms要钱吗
  • 怎么把python代码发给别人运行
  • 房屋租赁时需要交税吗
  • 工程材料发票备注要求
  • 个体户季报要抄税吗
  • 工会经费计提比例0.8%
  • 怎么冲减多计提的工会经费
  • 根据出库商品的编码
  • 银行收到客户货款会计分录
  • 费用本期发生额怎么算
  • 公司与公司之间可以借款吗
  • 百旺红字专用发票怎么开
  • 弥补以前年度亏损怎么算
  • 技术服务收入如何纳税
  • 房地产 监控
  • 电子发票必须要打印出来才能作为入账依据
  • 建立新公司需要做什么
  • 商品流通企业如何控成本
  • sql server 2012r2
  • sql like多个
  • centos7.6怎么安装
  • myeclipse自动生成get set
  • 巧妙设置Vista任务栏和开始菜单的属性
  • ubuntu怎样
  • 通过修改注册表修改edge主页
  • 安装centos6.10
  • linux系统简介
  • awk中执行命令
  • windows 8.1 build 9600
  • mac安装dw
  • 如何搭建环境变量
  • nodejs自启动
  • Python实现Mysql数据库连接池实例详解
  • shell脚本switch
  • 批处理模式的例子
  • 一起学ap
  • centos6升级到centos8
  • java script教程
  • python代码检测在线
  • 使用权资产
  • 12123罚款滞纳金不能交嘛
  • 咸阳高新区税务局地址
  • 深圳国税系统
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设