位置: 编程技术 - 正文

简单实现python爬虫功能(python怎么爬)

编辑:rootadmin

推荐整理分享简单实现python爬虫功能(python怎么爬),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:用python做爬虫,python爬视频教程,python爬虫的几种方法,python 爬app,python简单的爬虫教程,python简单的爬虫教程,python爬视频教程,python 爬app,内容如对您有帮助,希望把文章链接给更多的朋友!

在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。

  我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样就降低图片的清晰度。好吧~!其实你很厉害的,右键查看页面源代码。

  我们可以通过python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。

一、获取整个页面数据

首先我们可以先获取要下载图片的整个页面信息。

getjpg.py

  Urllib模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数:

简单实现python爬虫功能(python怎么爬)

  urllib.urlopen()方法用于打开一个URL地址。

  read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。

二、筛选页面中想要的数据

Python 提供了非常强大的正则表达式,我们需要先要了解一点python 正则表达式的知识才行。

假如我们百度贴吧找到了几张漂亮的壁纸,通过到前段查看工具。找到了图片的地址,如:src=”   re.compile() 可以把正则表达式编译成一个正则表达式对象.   re.findall() 方法读取html 中包含 imgre(正则表达式)的数据.

运行脚本将得到整个页面中包含图片的URL地址。

三、将页面筛选的数据保存到本地把筛选的图片地址通过for循环遍历并保存到本地,代码如下:

这里的核心是用到了urllib.urlretrieve()方法,直接将远程数据下载到本地。通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。程序运行完成,将在目录下看到下载到本地的文件。

结果展示:

标签: python怎么爬

本文链接地址:https://www.jiuchutong.com/biancheng/379971.html 转载请保留说明!

上一篇:python实现颜色空间转换程序(Tkinter)(python颜色表)

下一篇:简单介绍Python中的几种数据类型(python介绍的主要内容)

  • 回退税款所属期后怎么返回
  • 个人所得税减除费用5000是什么意思
  • 建筑业增值税税负预警
  • 厂家返点是什么意思
  • 小额零星开支税前扣除
  • 什么是电子银行渠道限额
  • 其他应收款怎样做平
  • 应纳税额关于进项和销项的计算公式
  • 以前年度损益调整
  • 餐饮企业原材料四大类
  • 增值税转型前后对比
  • 个人厂房租赁税率是多少
  • 关联方借款的企业所得税政策
  • 质量问题产生的影响
  • 银行承兑汇票利息怎么算
  • 无实收资本能日本投资吗
  • 税务会计学知识点
  • 个人领取住房公积金需要什么材料
  • 借其他应收贷应付
  • 企业的其他业务收入
  • 企业里工会
  • 期望和方差的计算例题
  • 给客户打折账务处理
  • 对外支付和对外转账
  • 企业对外捐赠现金的会计处理
  • 股息红利需要缴纳个税吗
  • 3%减按2%征收增值税政策
  • 公司给员工的餐补有没有个税
  • 固定资产评估增值后如何入账
  • UPUPW 更新 64 位 Apache 系列 PHP 7.0 正式版
  • 处理车辆违章送哪个部门
  • 查补增值税的会计处理
  • 应缴纳消费税会增加吗
  • kb4580325更新
  • uniapp怎么运行到手机模拟器
  • el-upload上传文件大小限制
  • annaconda安装opencv
  • php模板引擎原理
  • php图文教程
  • 工会经费计提分录怎么写
  • 企业汇算清缴后发现有多计提的成本
  • vue中事件
  • 新公司固定资产怎么登记
  • 固定资产到期日
  • 出口退税进项税额转出怎么申报
  • 个体工商户属于灵活就业人员吗
  • 铁路运输企业受托代征 印花税
  • 出租车计入什么费
  • 逐步结转分步法的步骤
  • 小微企业免征增值税政策2022
  • SQLserver数据库的while附近有语法错误,应为AS
  • 库存商品出库分类
  • 查看、修改mysql的用户名和密码
  • 临时工的劳务费需要申报个税吗?
  • 已提足折旧固定资产
  • 电子银行承兑到期没有兑现怎么办
  • 个体户员工要签劳动合同吗
  • 坏账确认无法收回
  • 收到股权认购款怎么做账
  • 公司私账银行流水
  • 投资收益主要包括哪些
  • 车辆折旧费法律支持吗
  • 什么是计提坏账准备
  • sqlserver数据库版本号怎么查
  • mysql 分组语句
  • sql server分页查询sql语句
  • freebsd ports安装
  • windows模拟
  • 怎样打开windows设置页面
  • linux文件系统inode
  • gwsloader.exe是什么意思
  • netcfg -d
  • mac刻录工具
  • windows mobile10
  • win8.1怎么关闭防火墙
  • shell脚本可以使用的引号
  • python里!
  • windows安装node
  • linux运行nginx
  • 江宁市民之家上班时间?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设