位置: 编程技术 - 正文

浅谈Python爬取网页的编码处理(python3.9爬取网页教程)

编辑:rootadmin

推荐整理分享浅谈Python爬取网页的编码处理(python3.9爬取网页教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:如何利用python爬取网页内容,python爬取网址,python爬取网址,python爬虫爬取网页,用python爬取网站数据,python爬取网址,用python爬取网站数据,利用python爬取简单网页数据步骤,内容如对您有帮助,希望把文章链接给更多的朋友!

背景

中秋的时候,一个朋友给我发了一封邮件,说他在爬链家的时候,发现网页返回的代码都是乱码,让我帮他参谋参谋(中秋加班,真是敬业= =!),其实这个问题我很早就遇到过,之前在爬小说的时候稍微看了一下,不过没当回事,其实这个问题就是对编码的理解不到位导致的。

问题

很普通的一个爬虫代码,代码是这样的:

目的其实很简单,就是爬一下链家的内容,但是这样执行之后,返回的结果,所有涉及到中文的内容,全部会变成乱码,比如这样

这样的数据拿来可以说毫无作用。

问题分析

这里的问题很明显了,就是文字的编码不正确,导致了乱码。

查看网页的编码

从爬取的目标网页的头来看,网页是用utf-8来编码的。

所以,最终的编码,我们肯定也要用utf-8来处理,也就是说,最终的文本处理,要用utf-8来解码,也就是:decode('utf-8')

文本的编码解码

Python的编码解码的过程是这样的,源文件 ===》 encode(编码方式) ===》decode(解码方式),在很大的程度上,不推荐使用

这种方式来硬处理文字编码。不过在某些时候不影响的情况下,偷偷懒也不是什么大问题,不过比较建议的就是获取源文件之后,使用encode和decode的方式来处理文本。

浅谈Python爬取网页的编码处理(python3.9爬取网页教程)

回到问题

现在问题最大的是源文件的编码方式,我们正常使用requests的时候,它会自动猜源文件的编码方式,然后转码成Unicode的编码,但是,毕竟是程序,是有可能猜错的,所以如果猜错了,我们就需要手工来指定编码方式。官方文档的描述如下:

When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.

所以我们需要查看requests返回的编码方式到底是什么?

打印的结果如下:

ISO--1

也就是说,源文件使用的是ISO--1来编码。百度一下ISO--1,结果如下:

ISO-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。

问题解决

发现了这个东东,问题就很好解决了,只要指定一下编码,就能正确的打出中文了。代码如下:

打印的结果就很明显,中文都正确的显示出来了。

另一种方式是在源文件上做解码和编码,代码如下:

另:ISO--1也叫做latin1,使用latin1做解码结果也是正常的。

关于字符的编码,很多东西可以说,想了解的朋友可以参考以下大神的资料。

&#;《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》

以上这篇浅谈Python爬取网页的编码处理就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

基于Python的接口测试框架实例 背景最近公司在做消息推送,那么自然就会产生很多接口,测试的过程中需要调用接口,我就突然觉得是不是可以自己写一个测试框架?说干就干,由

Python+MongoDB自增键值的简单实现 背景最近在写一个测试工具箱,里面有一个bug记录系统,因为后台我是用Django和MongoDB来实现的,就遇到了一个问题,要如何实现一个自增的字段。传统

django1.8使用表单上传文件的实现方法 Python下有许多款不同的Web框架。Django是重量级选手中最有代表性的一位。许多成功的网站和APP都基于Django。Django是一个开放源代码的Web应用框架,由Pytho

标签: python3.9爬取网页教程

本文链接地址:https://www.jiuchutong.com/biancheng/383450.html 转载请保留说明!

上一篇:Django接受前端数据的几种方法总结(django 接收前端的json)

下一篇:基于Python的接口测试框架实例(python接口编写)

  • 个税手续费返还要交增值税吗
  • 税务筹划的基本前提是
  • 偷税漏税是指什么税种
  • 给职工租房的房租怎么进行账务处理?
  • 小企业一定要买五险吗
  • 进料加工出口退税政策
  • 计入投资收益的手续费
  • 资金结存期末余额方向
  • 保险公司收车船使用税吗
  • 货没出,发票先开
  • 国家税务局发票查询真伪
  • 无形资产计税基础怎么算
  • 向境外销售货物交增值税吗?
  • 私车公用产生的过路费开个人发票还是公司发票
  • 汽车修理店业务范围
  • 事业单位破产清算程序规定
  • 领备用金时会计怎么做分录
  • 快递增值税税率
  • 公司注销取不到采购发票怎么汇算清缴?
  • 父母的股权给子女可以怎样认证
  • 工程改造合同印花税
  • 异地不动产租赁 深圳税务 所得税
  • 增值税减免税如何处理
  • 购买材料,材料未验收入库,货款未付会计分录
  • 可转换债券赎回和回售如何理解
  • kali linux安装kde桌面
  • 如何升级mac系统到10.12
  • win10电脑和win7电脑怎么共享文件
  • 报关单上的生产销售单位
  • mac怎么设置桌面组件
  • 收到预付卡发票分录
  • mac怎么卸载软件core sync
  • 苹果手机麦克风模式关闭了,怎样才能打开?
  • gwsystemservice.exe是什么进程 有什么作用 gwsystemservice进程查询
  • keyemain.exe是什么
  • Vue3 入门笔记 ---- 利用Element Plus对页面进行布局划分以及实现左侧公共菜单
  • 销售商品收取的运费会计分录
  • PHP:date_sunrise()的用法_Date Time函数
  • 全局函数使用
  • 2021vue面试
  • vue项目部署后白屏
  • mkfifo命令
  • 款付了对方没开发票咋办
  • Docker 搭建api
  • 快递怎么做账单
  • phpcms v9 getshell
  • python怎么访问属性
  • 工会经费通过应交税费科目核算吗
  • 以摊余成本计量的债权投资与以公允价值计量且其变动
  • sql游标用法
  • 删除mysql重复数据
  • 在建工程如何转固
  • 非税收入票据能报税吗
  • 待报解啥意思
  • 商业承兑汇票如何承兑?
  • 实收资本印花税最新规定
  • 网银费用及回单怎么查
  • 国外公司与国内公司签约
  • 销售折让的会计账务处理分录
  • 对外投资未实缴怎么办
  • 增值税为负值时当年可抵扣的进项税
  • 企业的经济补偿包括哪些
  • 建筑业异地预缴个税税率
  • 基本户转法人个人账户如何做账
  • mysql数据库技术介绍
  • sql语句数字转化为文字
  • centos下载与安装
  • 新安装的Ubuntu系统无法联网
  • 电脑无法检测到麦克风怎么办
  • macoshosts文件位置
  • win7升级win10收费吗
  • win7系统电脑开机密码怎么设置
  • perl 字符串处理
  • 在微信支付宝借贷会影响征信吗
  • nodejs数据加密
  • sequelize join
  • excel password recovery5.0注册码
  • django在pycharm
  • 安卓手机 监听功能
  • 婚育证明可以开假的吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设