位置: 编程技术 - 正文

Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据)

编辑:rootadmin

推荐整理分享Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:scheme抓取,python scapy 抓包,python抓取软件界面数据,python 抓取框架,python抓取软件界面数据,python 采集框架,python抓取软件界面数据,python 抓取框架,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义。本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容,分享出来供大家参考学习,下面随着小编来一起学习学习吧。

在开始之前,关于scrapy框架的入门大家可以参考这篇文章: 图虫网,顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为: xpath 选取应该是://div[@class="widget-gallery"]/ul/li,按照一般页面的逻辑,在li.gallery-item下面找到对应的链接地址,再往下深入一层页面抓取图片。

但是如果用类似 Postman 的HTTP调试工具请求该页面,得到的内容是:

也就是并没有实际的图集内容,因此可以断定页面使用了Ajax请求,只有在浏览器载入页面时才会请求图集内容并加入div.widget-gallery中,通过开发者工具查看XHR请求地址为:

参数很简单,page是页码,count是每页图集数量,order是排序,before_timestamp为空,图虫因为是推送内容式的网站,因此before_timestamp应该是一个时间值,不同的时间会显示不同的内容,这里我们把它丢弃,不考虑时间直接从最新的页面向前抓取。

请求结果为JSON格式内容,降低了抓取难度,结果如下:

根据属性名称很容易知道对应的内容含义,这里我们只需关心 postlist 这个属性,它对应的一个数组元素便是一个图集,图集元素中有几项属性我们需要用到:

url:单个图集浏览的页面地址 post_id:图集编号,在网站中应该是唯一的,可以用来判断是否已经抓取过该内容 site_id:作者站点编号 ,构建图片来源链接要用到 title:标题 excerpt:摘要文字 type:图集类型,目前发现两种,一种multi-photo是纯照片,一种text是文字与图片混合的文章式页面,两种内容结构不同,需要不同的抓取方式,本例中只抓取纯照片类型,text类型直接丢弃 tags:图集标签,有多个 image_count:图片数量 images:图片列表,它是一个对象数组,每个对象中包含一个img_id属性需要用到

根据图片浏览页面分析,基本上图片的地址都是这种格式: ,很容易通过上面的信息合成。

二、创建项目

进入cmder命令行工具,输入workon scrapy 进入之前建立的虚拟环境,此时命令行提示符前会出现(Scrapy) 标识,标识处于该虚拟环境中,相关的路径都会添加到PATH环境变量中便于开发及使用。 输入 scrapy startproject tuchong 创建项目 tuchong 进入项目主目录,输入 scrapy genspider photo tuchong.com 创建一个爬虫名称叫 photo (不能与项目同名),爬取 tuchong.com 域名(这个需要修改,此处先输个大概地址),的一个项目内可以包含多个爬虫

经过以上步骤,项目自动建立了一些文件及设置,目录结构如下:

scrapy.cfg:基础设置 items.py:抓取条目的结构定义 middlewares.py:中间件定义,此例中无需改动 pipelines.py:管道定义,用于抓取数据后的处理 settings.py:全局设置 spidersphoto.py:爬虫主体,定义如何抓取需要的数据

三、主要代码

items.py 中创建一个TuchongItem类并定义需要的属性,属性继承自 scrapy.Field 值可以是字符、数字或者列表或字典等等:

这些属性的值将在爬虫主体中赋予。

Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据)

spidersphoto.py 这个文件是通过命令 scrapy genspider photo tuchong.com 自动创建的,里面的初始内容如下:

爬虫名 name,允许的域名 allowed_domains(如果链接不属于此域名将丢弃,允许多个) ,起始地址 start_urls 将从这里定义的地址抓取(允许多个)

函数 parse 是处理请求内容的默认回调函数,参数 response 为请求内容,页面内容文本保存在 response.body 中,我们需要对默认代码稍加修改,让其满足多页面循环发送请求,这需要重载 start_requests 函数,通过循环语句构建多页的链接请求,修改后代码如下:

经过这些步骤,抓取的数据将被保存在 TuchongItem 类中,作为结构化的数据便于处理及保存。

前面说过,并不是所有抓取的条目都需要,例如本例中我们只需要 type="multi_photo 类型的图集,并且图片太少的也不需要,这些抓取条目的筛选操作以及如何保存需要在pipelines.py中处理,该文件中默认已创建类 TuchongPipeline 并重载了 process_item 函数,通过修改该函数只返回那些符合条件的 item,代码如下:

当然如果不用管道直接在 parse 中处理也是一样的,只不过这样结构更清晰一些,而且还有功能更多的FilePipelines和ImagePipelines可供使用,process_item将在每一个条目抓取后触发,同时还有 open_spider 及 close_spider 函数可以重载,用于处理爬虫打开及关闭时的动作。

注意:管道需要在项目中注册才能使用,在 settings.py 中添加:

另外,大多数网站都有反爬虫的 Robots.txt 排除协议,设置 ROBOTSTXT_OBEY = True 可以忽略这些协议,是的,这好像只是个君子协定。如果网站设置了浏览器User Agent或者IP地址检测来反爬虫,那就需要更高级的Scrapy功能,本文不做讲解。

四、运行

返回 cmder 命令行进入项目目录,输入命令:

终端会输出所有的爬行结果及调试信息,并在最后列出爬虫运行的统计信息,例如:

主要关注ERROR及WARNING两项,这里的 Warning 其实是不符合条件而触发的 DropItem 异常。

五、保存结果

大多数情况下都需要对抓取的结果进行保存,默认情况下 item.py 中定义的属性可以保存到文件中,只需要命令行加参数 -o {filename} 即可:

注意:输出至文件中的项目是未经过 TuchongPipeline 筛选的项目,只要在 parse 函数中返回的 Item 都会输出,因此也可以在 parse 中过滤只返回需要的项目如果需要保存至数据库,则需要添加额外代码处理,比如可以在 pipelines.py 中 process_item 后添加:

为了在插入数据库操作中排除重复的内容,可以使用 item['post_id'] 进行判断,如果存在则跳过。本项目中的抓取内容只涉及了文本及图片链接,并未下载图片文件,如需下载图片,可以通过两种方式:

安装 Requests 模块,在 process_item 函数中下载图片内容,同时在保存数据库时替换为本地图片路径。使用 ImagePipelines 管道下载图片,具体使用方法下回讲解。

总结

标签: python抓取软件界面数据

本文链接地址:https://www.jiuchutong.com/biancheng/377038.html 转载请保留说明!

上一篇:Python实现调度算法代码详解(python任务调度之schedule)

下一篇:Python中类的初始化特殊方法(python中类怎么用)

  • 分公司和总公司不在一个区
  • 金融资产交易增值税
  • 什么情况下不能做近视激光手术
  • 劳务发票打款用途写什么
  • 个人所得税汇缴报告
  • 小规模纳税人税率有几种
  • 融资租赁本金和租金的区别
  • 分公司可以参股其他公司吗
  • 无形资产的累计摊销是什么意思
  • 提取的生产企业安全费如何记帐
  • 企业所得税成本确认原则
  • 雇主责任险可以税前扣除吗
  • 执行公司股权
  • 领购增值税专用发票
  • 如何确定连锁店的纳税地点?
  • 网上银行转账被骗能追回吗
  • 涂料发票几个点的税
  • 社保已申报未缴费可以减员吗
  • 如何正确核算出租房屋所应交的房产税?
  • 收到采购商品
  • 个税经营所得申报怎么更正
  • 成品油属于什么费用
  • 为什么打开Win10虚拟器后一直在界面
  • 无法打开exe程序
  • win11安装不显示wifi
  • 税法规定哪些支出不得扣除
  • acer笔记本如何关闭键盘数字键
  • 世界十大销量书
  • 企业法人看病费用能报销吗
  • js技术干货分享
  • 如何做商品批发
  • 免费设备投放项目
  • 小微企业所得税税收优惠政策2023年
  • php数据库设计
  • 参加《2022 中国开发者影响力盛典》我的 4 重收获!
  • crypto 解密
  • 商业企业退货与退款区别
  • 固定资产报废会计科目处理
  • 话费补贴算工资还是福利
  • python中排序
  • mysqldump导入数据库
  • mysql的查询缓存与redis的区别
  • mongodb 教程
  • 医院交什么保险
  • 燃气费计入什么科目
  • 企业制造费用包括
  • 民间非营利组织会计制度及操作实务
  • 什么情况没有排卵期
  • 差旅费住宿专票可以抵扣增值税吗
  • 汽车固定资产清理怎么交税
  • 先计提所得税还是先出报表
  • 企业实缴各类税金的总额
  • 工会经费主要用于什么服务岗位
  • sql server查询
  • sql server怎么向表里添加数据
  • win10的java环境该怎么配置?java环境变量配置介绍
  • archlinux 配置网络
  • u盘背景图片设置方法
  • win7系统无法开机解决方法
  • windows7开机显示错误恢复进不去
  • win10怎么用cmd删除文件
  • win8开始菜单全屏怎么调回去
  • opengl入门视频教程
  • 从零开始咋样
  • opengl opengl
  • js按位运算符
  • nodejs网站开发
  • windows8.1 with bing
  • 2012年腾讯股价多少
  • python executemany的使用及注意事项
  • javascript详细介绍
  • 用jquery实现动态添加
  • 用python写随机数
  • 关于python中的判断条件
  • androidapk网站
  • 重庆国家电子税务总局怎样开电子税票
  • 2020宜兴市民中心营业时间
  • 广东每年交多少税给国家
  • 海南国税局待遇
  • 86年的2020年是多少岁
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设