位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 进项税额转出补交税款
  • 所得税费用包括递延所得税吗
  • 领用原材料 会计分录
  • 销售支付产品是什么意思
  • 开具红字增值税专用发票的条件
  • 公司出租非自有房产
  • 资产负债表预收账款期末余额怎么算
  • 基本户上的钱打到个人账户上,写什么用途
  • 预收账款缴税的计算公式
  • 发票开具丢失后如有罚款怎么处理?
  • 建筑企业未开票收入增值税申报表怎么填写
  • 税控盘上开完发票发的邮件在哪查看
  • 增值税失控发票什么意思
  • 增值税减免税申报明细表怎么填写1%
  • 哪些营业外支出要调增
  • 纳税人财务会计核算办法怎么上传
  • 税友服务费能否抵扣
  • 在会计上其他业务是什么
  • 商贸企业固定资产计提折旧吗
  • 企业赠送客户产品如何账务处理
  • 季度所得税申报可以弥补以前年度亏损吗
  • 开通电子税务局需要什么资料
  • 隐藏资源管理器里的cd驱动器
  • 快启动u盘制作
  • 税务退回城建税期末怎么结转
  • php session实例
  • 公司与个人的往来款怎么处理
  • 支付宝花呗服务费收费标准
  • php字符串的三种定义方式
  • 苹果手机铃声删除在哪里
  • 别人利息没给怎么发问
  • 酒店需要的原材料和包装费有哪些
  • 税前可扣除的税费
  • 偷税行为五年后被发现要接受行政处罚吗?
  • 什么是民办非企业属于民营经济吗
  • 委托收款拒收会退回吗
  • 在php中如何对多条记录进行分页
  • 业务招待费专票可以抵扣增值税吗
  • 设计公司的设计提成方案
  • 出售生产设备的会计分录
  • php获取长度
  • 行政事业单位慰问外单位
  • 实际成本法核算方法
  • 小规模增值税减征额怎么算
  • 增值税销项税红字应如何报税
  • 人力资源公司的税率是多少
  • python PyQt5如何实现窗口功能
  • dev怎么保存项目
  • 哪些进项税不允许从销项税额中抵扣
  • 待处理财产损益是什么类科目借贷方向
  • 费用类科目期末余额
  • 以前年度损益调整结转到哪里
  • 未开票的收入如何申报增值税
  • 收回客户货款会计分录怎么写
  • 长期待摊费用处置
  • 员工办理健康证费用由谁支付
  • 所得税汇算清缴报告在哪查
  • 银行信用贷款发放邮件后多久到账
  • 企业办理增资的程序
  • 注册表及其作用
  • xp能不能升级win10
  • os x10.10.4beta6下载地址 os x10.10.4beta6官方下载网址
  • MAC OS X Yosemite开启深色模式的方法
  • linux软件安装在哪个文件夹
  • 系统升级为中狼
  • xp系统怎么卸载驱动程序
  • ulimit命令详解
  • win10 window
  • Android触摸事件回调方法
  • 一个简单的灵魂福楼拜
  • linux开机启动进程
  • js实现滑动开关功能
  • css回到页面顶部
  • SQLite3中文编码 Python的实现
  • jquery表单事件验证表单
  • javascript面向对象编程指南 pdf
  • 用js实现类的方法
  • jquery的选择器都有哪些
  • 中国烟草一年税收占全国总收入
  • 纳税申报的期限是多久
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设