位置: 编程技术 - 正文

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

编辑:rootadmin

推荐整理分享Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!'),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pycharm中beautifulsoup,python beautifulsoup用法,python中beautifulsoup,pycharm中beautifulsoup,s='python is beautiful!',python中beautifulsoup,pycharm中beautifulsoup,pycharm中beautifulsoup,内容如对您有帮助,希望把文章链接给更多的朋友!

BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法。

准备

1.Beautiful Soup安装

为了能够对页面中的内容进行解析,本文使用Beautiful Soup。当然,本文的例子需求较简单,完全可以使用分析字符串的方式。

执行

即可安装。

2.requests模块的安装

requests模块用于加载要请求的web页面。

在python的命令行中输入import requests,报错说明requests模块没有安装。

我这里打算采用easy_install的在线安装方式安装,发现系统中并不存在easy_install命令,输入sudo apt-get install python-setuptools来安装easy_install工具。

执行sudo easy_install requests安装requests模块。

基础

1.初始化 导入模块

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

创建对象:str初始化,常用urllib2或browser返回的html初始化BeautifulSoup对象。

指定编码:当html为其他类型编码(非utf-8和asc ii),比如GB的话,则需要指定相应的字符编码,BeautifulSoup才能正确解析。

2.获取tag内容 寻找感兴趣的tag块内容,返回对应tag块的剖析树

返回内容:hello 说明一下,contents属性是一个列表,里面保存了该剖析树的直接儿子。

3.获取关系节点 使用parent获取父节点

使用nextSibling, previousSibling获取前后兄弟

contents[]的灵活运用也可以寻找关系节点,寻找祖先或者子孙可以采用findParent(s), findNextSibling(s), findPreviousSibling(s)

4.find/findAll用法详解 函数原型:find(name=None, attrs={}, recursive=True, text=None, **kwargs),findAll会返回所有符合要求的结果,并以list返回。 tag搜索

attrs搜索

text搜索文字的搜索会导致其他搜索给的值如:tag, attrs都失效。方法与搜索tag一致

recursive和limit属性recursive=False表示只搜索直接儿子,否则搜索整个子树,默认为True。当使用findAll或者类似返回list的方法时,limit属性用于限制返回的数量,如findAll('p', limit=2): 返回首先找到的两个tag。

实例本文以博客的文档列表页面为例,利用python对页面中的文章名进行提取。

文章列表页中的文章列表部分的url如下:

代码:

python基于隐马尔可夫模型实现中文拼音输入 在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无

python制作爬虫并将抓取结果保存到excel中 学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。第一步:分析

python文件的md5加密方法 本文实例讲述了python文件的md5加密方法。分享给大家供大家参考,具体如下:简单模式:fromhashlibimportmd5defmd5_file(name):m=md5()a_file=open(name,'rb')#需要使用二

标签: s='python is beautiful!'

本文链接地址:https://www.jiuchutong.com/biancheng/385264.html 转载请保留说明!

上一篇:Python使用Mechanize模块编写爬虫的要点解析(python mem)

下一篇:python基于隐马尔可夫模型实现中文拼音输入(python 隐函数作图)

  • 一般纳税人申报纳税的流程
  • 企业存款利息收入缴纳企业所得税吗
  • 公司的纳税人识别号怎么查询
  • 进项税和销项税怎么理解
  • 开发票系统税号0和o怎么区别
  • 豆粕适用税率
  • 发票上的销货方是什么意思
  • 转出未交增值税是借方还是贷方
  • 股权增值转让的财税处理
  • 公司代扣代缴个人所得税如何退税
  • 增值税进项税金额是含税还是不含税
  • 什么是前期差错
  • 税控盘这个月没有反写会怎么样
  • 关税完税价格包含关税吗
  • 每月交的社保什么时候到账
  • 电力设备维护费增值税税率
  • 税控设备指什么
  • 合同开票金额一定等于合同额吗
  • 上级工会返还的会计分录
  • 雇主责任险税务处理
  • 建筑行业没有库存要做暂估成本怎么做?
  • 广告公司营改增后的会计分录
  • 外派人员计算个人所得税可否有附加扣除
  • 继承有个人所得税吗
  • 预付款后开发票时的摘要和分录怎么做?
  • 公司账户收款退回怎么退
  • 怎么更新电脑系统win10
  • 递延所得税当期要交吗
  • 麦克米伦anki
  • php数组内容替换
  • 非关联企业借款利息扣除
  • 会计凭证附件规范要求
  • 同城票据清算和清算资金往来的区别
  • php正则匹配a标签href
  • php zmq
  • 销售熟食卤制品怎么做
  • 现金折扣如何核算
  • 银行承兑汇票回头背书
  • 非财政补助结余在资产负债表中怎么填
  • Centos安装ntfs-3g
  • etc发票写着不征税怎么办
  • mysql主从配置详解
  • 有形动产租赁服务属于现代服务吗
  • 库存商品一直没有销售怎么办
  • 应付账款借方余额负数表示什么
  • 煤炭资源税优惠政策
  • 库存商品冲回
  • 公司房产税如何避税
  • 收到进项税发票
  • 将本月发生的制造费用在甲、乙产品之间
  • 固定资产清理借方增加还是减少
  • 场地租赁费属于劳务还是服务
  • 销售产品产生的运输费计入什么科目
  • 发票怎么打印的出来
  • 发票认证是为了什么
  • 个人境外投资限制
  • 账户与会计科目有什么联系与区别?
  • XP系统无法安装软件
  • win8怎么设置
  • 用OpenBSD 3.8 release自带的FTPD架设FTP服务器
  • linux的文件结构
  • linux的ssr
  • window7文件查看方式
  • linux git管理工具
  • linux whatis与whatis database 使用及查询方法(man使用实例)
  • linux shell语句
  • cocos2dx-js
  • jquery each return
  • ubuntu for android
  • Android 使用的字体
  • ajax请求传参
  • jquery checkbox的相关操作总结
  • jQuery简单实现tab选项卡切换效果
  • Python3使用requests发闪存的方法
  • 税收六大体系和六大能力基层
  • 国家税务总局使用
  • 怎样从税务局网上交医保
  • 养鱼业免增值税吗
  • 辽宁社保网上申报流程图
  • 烟叶税的意义和感悟
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设