位置: 编程技术 - 正文

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

编辑:rootadmin

推荐整理分享Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!'),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pycharm中beautifulsoup,python beautifulsoup用法,python中beautifulsoup,pycharm中beautifulsoup,s='python is beautiful!',python中beautifulsoup,pycharm中beautifulsoup,pycharm中beautifulsoup,内容如对您有帮助,希望把文章链接给更多的朋友!

BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法。

准备

1.Beautiful Soup安装

为了能够对页面中的内容进行解析,本文使用Beautiful Soup。当然,本文的例子需求较简单,完全可以使用分析字符串的方式。

执行

即可安装。

2.requests模块的安装

requests模块用于加载要请求的web页面。

在python的命令行中输入import requests,报错说明requests模块没有安装。

我这里打算采用easy_install的在线安装方式安装,发现系统中并不存在easy_install命令,输入sudo apt-get install python-setuptools来安装easy_install工具。

执行sudo easy_install requests安装requests模块。

基础

1.初始化 导入模块

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

创建对象:str初始化,常用urllib2或browser返回的html初始化BeautifulSoup对象。

指定编码:当html为其他类型编码(非utf-8和asc ii),比如GB的话,则需要指定相应的字符编码,BeautifulSoup才能正确解析。

2.获取tag内容 寻找感兴趣的tag块内容,返回对应tag块的剖析树

返回内容:hello 说明一下,contents属性是一个列表,里面保存了该剖析树的直接儿子。

3.获取关系节点 使用parent获取父节点

使用nextSibling, previousSibling获取前后兄弟

contents[]的灵活运用也可以寻找关系节点,寻找祖先或者子孙可以采用findParent(s), findNextSibling(s), findPreviousSibling(s)

4.find/findAll用法详解 函数原型:find(name=None, attrs={}, recursive=True, text=None, **kwargs),findAll会返回所有符合要求的结果,并以list返回。 tag搜索

attrs搜索

text搜索文字的搜索会导致其他搜索给的值如:tag, attrs都失效。方法与搜索tag一致

recursive和limit属性recursive=False表示只搜索直接儿子,否则搜索整个子树,默认为True。当使用findAll或者类似返回list的方法时,limit属性用于限制返回的数量,如findAll('p', limit=2): 返回首先找到的两个tag。

实例本文以博客的文档列表页面为例,利用python对页面中的文章名进行提取。

文章列表页中的文章列表部分的url如下:

代码:

python基于隐马尔可夫模型实现中文拼音输入 在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无

python制作爬虫并将抓取结果保存到excel中 学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。第一步:分析

python文件的md5加密方法 本文实例讲述了python文件的md5加密方法。分享给大家供大家参考,具体如下:简单模式:fromhashlibimportmd5defmd5_file(name):m=md5()a_file=open(name,'rb')#需要使用二

标签: s='python is beautiful!'

本文链接地址:https://www.jiuchutong.com/biancheng/385264.html 转载请保留说明!

上一篇:Python使用Mechanize模块编写爬虫的要点解析(python mem)

下一篇:python基于隐马尔可夫模型实现中文拼音输入(python 隐函数作图)

  • 保险佣金个人所得税怎么算
  • 外币收入的增值税是多少
  • 生产车间的办公用品费计入
  • 小规模纳税人城市维护建设税税率
  • 广告服务商是什么意思
  • 小规模个体户营业执照一共几个章
  • 营改增后转让土地使用权交什么税
  • 企业向个人借款合同模板
  • 物业公司收取电损费合法吗
  • 非居民企业投资收益
  • 1元转让股权账务实
  • 应交税金的期末余额怎么算
  • 投资性房地产的处置账务处理
  • 收到采购款
  • 材料的销售成本计算公式
  • 集体劳动合同与劳动合同的区别
  • 做企业所得税汇算清缴前需要准备什么资料
  • 土地增值税清算利息扣除规定
  • 印花税股权转让计税依据
  • 普票抵扣税
  • 全面推开营改增试点12366热点问题解答(一)
  • 主营业务成本怎么算出来的
  • 施工企业资产负债率
  • 出纳人员赔偿
  • 司法拍卖机器设备税率
  • 融资租入固定资产改建支出计入
  • 企业重组后的债务怎么算
  • 适用增值税差额征税政策的纳税人填写差额后的销售额
  • 科托儿古城
  • JavaScript includes() 方法
  • 预缴土地增值税的税率
  • ElementUI中<el-form>标签中 ref、:model、:rules 的作用
  • vue property decorator
  • vmware vmtools
  • 政府补助的会计准则
  • 员工迟到扣款怎么处理
  • 未抵扣增值税需结转吗
  • windows7/windows10/windows11最强Audacity音频编辑播放器软件,免费下载
  • 织梦使用手册
  • 怎么计算多个表格的某一数据
  • 企业出租无形资产使用权取得的收入应计入
  • 企业所得税的会计处理怎么做
  • 项目终止前期费用核销
  • 如何在税控盘上变更一般纳税人
  • 个人所得税数据怎么导入新电脑
  • 技术使用费 收费标准
  • 印花税怎么交,在哪里交
  • sqlserver远程连接失败
  • 机械租赁收入算成本吗
  • 实收资本印花税属于什么税目
  • 付款退回怎么做账
  • 哪些税计入税金及附加
  • 会计核算的内容包括
  • 应付账款账面价值扣除商业折扣吗
  • 企业产品研发
  • 月末怎么结转成本费用
  • 开发无形资产的支出
  • 出口免费样品怎么做账
  • 车辆使用费报销制度
  • 企业收到劳务费会计分录怎么做账
  • 员工个人买的保险可以税前扣除吗
  • 事业单位开的发票
  • 代扣代缴个人所得税分录
  • sql语句查询去重
  • sql2005定时备份数据库
  • ubuntu 15.04系统怎么安装qq?
  • opera installer
  • win7系统开机黑屏如何处理
  • Win7旗舰版64位如何关闭电脑触摸屏功能的方法
  • Win10 Redstone版Build 14251现身 正式版将在7月份发布
  • win10任务栏跳来跳去
  • 使用shell命令
  • android activity回调函数
  • 备份系统apk
  • 金税盘注销后怎么开发票
  • 临时占用耕地是否需要缴纳城镇土地使用税
  • 新一代票据系统怎么开通
  • 社保欠缴可以放弃吗
  • 中国进口奶粉关税税率表2019
  • 汽车装潢业务是干什么的
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设