位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 所得税汇算清缴账务处理
  • 增值税加计抵减政策10%和15%
  • 个税要计提吗?
  • 房产税纳税义务人
  • 银行的记账凭证怎么做
  • 房地产预售啥意思
  • 职工教育经费税法
  • 购置税发票如何下载
  • 组织职工捐款取得的现金计入什么会计科目?
  • 虚开发票企业所得税怎么补缴税?
  • 诉讼财产保全保险费计算
  • 公司购车购置税怎么交款
  • 个人所得税减半征收
  • 二手房交易需要多长时间?
  • 分公司可以迁移到新公司吗
  • 企业出租包装物收取的押金应通过其他应收款账户核算
  • 亏损企业是否可以上成长板
  • 采购审计要点
  • 消防工作经历证明哪些单位可以开
  • 所有者权益类科目借贷方向
  • 计提税金及附加怎么算
  • 法人变更涉及到什么
  • 苹果手机nfc录门禁卡
  • 完工产品成本怎么算
  • 白鹤芋的养殖方法和注意事项
  • php中header的用法
  • 优先股转化
  • 给退休人员发放一次性工龄补贴是真的吗
  • 购买电脑固定资产怎么记账
  • 加计抵减是适用什么税率
  • php uniqueid
  • 如何在vue项目中禁止谷歌浏览器改变网页颜色
  • spring security功能
  • css基础入门
  • 命令行系统
  • php中cookie的使用
  • thinkphp如何连接数据库
  • 印花税申报一直显示办理中什么意思
  • 研发费用计入营业利润吗
  • chrome插件开发拦截ajax
  • 开立一般户需要法人到场吗
  • 资产是指()
  • 个人所得税申报退税能退多少
  • 企业给员工的福利体检报告
  • 股权转让怎么做账
  • 水电费没有收到怎么处理
  • 现金折扣不考虑增值税
  • 收到投资款如何做账务处理
  • 工程行业收到工程发票
  • 如何学会计做账视频
  • 哪些会计凭证可以抵扣进项税
  • ubuntu 桌面
  • win10如何设置快捷键
  • win10小娜语音激活
  • 盘古pg插件
  • win8硬盘重装
  • 格式化快速格式化好吗
  • win10更新后自动锁定
  • win10应用默认
  • win10系统怎么找到我的电脑
  • 怎么看清水印
  • ubuntu 软件删除
  • [个人学习笔记]Android 从网络获取json并解析 --Demo
  • android studiojava报错
  • bat 参数个数
  • android layout布局
  • 批处理应用实例
  • startactivity()
  • jquery checkbox的相关操作总结
  • 安卓开发代码大全
  • python基础视频教程
  • js打开浏览器新的tab页
  • json格式例子
  • android退出功能
  • 12366纳税服务热线存在的问题
  • 长春国税局科员工资是多少
  • 荷兰基本工资一个月多少工资
  • 个体户定额怎么查询
  • 居间服务费税收优惠政策
  • 个人所得税需要计提吗?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设