位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 增值税发票服务名称可以更改吗
  • 企业会计准则和新会计准则的区别
  • 进项票错了但是销项票开出去了怎么办
  • 外商投资企业土地使用税什么时候交
  • 预付房租摊销账务处理
  • 税务局扣税余额不足
  • 票面利率大于市场利率是溢价吗
  • 年终销售返利怎么算
  • 挂靠工程的所得税账务处理怎么做?
  • 股票转让所得不交增值税
  • 简易计税项目可以差额征税吗
  • 二房东税务局开发票
  • 增普票付款要不要从公户走?
  • 发票申领需要什么资料
  • 三代手续费入账
  • 年底员工聚餐
  • 过路费增值税可以抵扣吗
  • 增值税简易征收范围
  • 安置房税金如何交
  • 报税文件是纳税申报表吗
  • 监理费的付款比例
  • 黄金入账怎么做会计分录
  • 累积带薪缺勤金额怎么算
  • 农产品抵扣进项税额转出
  • pavmail.exe - pavmail进程是什么文件 有什么用
  • 进口增值税公式计算公式
  • PHP:is_executable()的用法_Filesystem函数
  • 如何把握售后租回交易的主要问题
  • 新西兰南岛西南部
  • 前端数据加密的三种方式
  • 房地产企业预缴增值税如何申报
  • 办理组织机构代码证需要什么材料
  • bert模型能做什么
  • telnet 执行命令
  • 残保金申报操作流程
  • 工业企业采购流程
  • Huggingface之transformers零基础使用指南
  • 汽车年审检测费收费标准
  • 担保贷款借款人征信不好有影响吗
  • 依法无需办理税务登记证
  • 小规模开票软件怎么升级
  • 电子发票税率怎么改
  • 织梦使用手册
  • 消防收费标准
  • 企业的财务报表不包括
  • 业务招待费的进项票可以抵扣吗
  • 处置固定资产亏损,增值税所得税申报不一至情况说明
  • 工作失误扣工资
  • 老板出差带礼物给员工的说说
  • 进口货物例题
  • 工业企业增值税税率
  • sql比较两个集合
  • mssql查询语句
  • w10预览版新功能
  • 远程桌面登录显示其他用户
  • VMware虚拟机中安装MATE桌面环境
  • initcause
  • 平板电脑中的电池工作时是将什么能转化成了电能
  • windows7开机后网络标志转圈
  • windows英文版本
  • linux常见压缩工具
  • Ubuntu 14.04安装java的方法以Ubuntu14.04为例
  • w10点击没反应
  • mom.exe是什么进程
  • P2P Networking2.exe - P2P Networking2是什么进程 有什么用
  • UnityEditor.UI.dll' is in timestamps but is not known in assetdatabase
  • js获取中文拼音
  • nodejs assert
  • androidsocket原理
  • shell中执行mysql命令
  • nodejs.
  • android:ellipsize="marquee"
  • Node.js+ES6+dropload.js实现移动端下拉加载实例
  • js中的?
  • 甘肃增值税发票查验平台官网
  • 车辆保险开增值税吗
  • 完税证明可以自己在家打印吗
  • 现行增值税税率表2023
  • 即征即退的留抵税额是否可以抵一般计税的税额
  • 国家税务总局多少员工
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设