位置: 编程技术 - 正文

nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫)

编辑:rootadmin

推荐整理分享nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node网络爬虫,node爬取数据,node python 爬虫,nodejs爬取数据,node python 爬虫,node爬取数据,nodejs爬取数据,nodejs 爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

一、非UTF-8页面处理.

1.背景

windows-编码

比如俄语网站: Windows-(cp)编码与utf-8编码的问题,其他的如 gbk就先不考虑在内了~

2.解决方案

1.

使用js原生编码转换

但是我现在还没找到办法哈..

如果是utf-8转window-还可以 charCodeAt 方法只对 unicode有效,其他编码是如何挖掘出其码段? 因为用的是nodejs 所以考虑使用相应模块

2.

安装使用nodejs模块iconv-lite 使用说明见 使用说明见 之前没仔细看官方说明)

一般简单使用后,还是乱码 形如:п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#; п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#; п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;

encoding:binary (默认的encoding是utf-8)

-->另外要说的是,iconv的使用时需要一些环境依赖的,见官方说明: ;

第二需要编译工具的支持(windows下出错最多)

出错类似这种

nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫)

node,如无特定版本或更高版本,默认使用vs编译工具(所以出错提示的解决办法一般为按照vs和framwork sdk2.0)

问题解决方案:

1.安装visual stutio

2.指定vs编译工具版本(如果是vs就是)

(有些时候会自动指定,所有也不一定需要这个命令 npm config set msvs_version --global)

3.如若还是提示找不到 framwork sdk,可将其安装路径添加到系统环境变量path中

(对应sdk4.0版本,类似的 sdj3.5 sdk4.5&#;)

另外要记得的是,环境变量只会读取第一个!

比如你之前已经有了 SDK2.0的路径设到了系统环境变量中,那么你现在再增加设置一个SDK4.0的路径的时候,起作用的只有第一个

所以:

要么把之前那个删了

要么把想添加的路径放到那个前面

二、gzip页面处理

有时候我们发现浏览器访问页面是正常的,但是模拟请求回来就乱码了,可以查看一下浏览器请求的Response信息,如果有Content-Encoding:gzip,极有可能是因为页面被gzip压缩了,这时请求时需要添加如下参数

gzip:true

以上所述就是本文的全部内容了,希望大家能够喜欢。

nodejs爬虫抓取数据之编码问题 cheerioDOM化并解析的时候1.假如使用了.text()方法,则一般不会有html实体编码的问题出现2.如果使用了.html()方法,则很多情况下(多数是非英文的时候)都

node.js调用C++开发的模块实例 如何用C++和node交互,在node的程序中,如果有大数据量的计算,处理起来比较慢,可以用C++来处理,然后通过回调(callback的形式),返回给node。先回顾

node.js中格式化数字增加千位符的几种方法 每三位以逗号分隔的处理方式正则方式:"".split("").reverse().join("").replace(/(d{3})/g,"$1,").split("").reverse().join("");"".split("").reverse().join("").replace(/(

标签: nodejs 爬虫

本文链接地址:https://www.jiuchutong.com/biancheng/377966.html 转载请保留说明!

上一篇:使用DNode实现php和nodejs之间通信的简单实例(php操作dom)

下一篇:nodejs爬虫抓取数据之编码问题(nodejs爬取数据)

  • 一般纳税人没有开票要交税吗
  • 变更税务所怎么操作
  • 物流企业缴纳哪几种税
  • 出差补贴没有发票怎么做账
  • 疫情期间发生的费用进什么科目
  • 财务报告与财务报表的联系与区别
  • 销售费用和管理费用和财务费用
  • 实际收到股票股利的分录
  • 应付账款多计怎么处理
  • 公户没有进账,可以开发票吗?
  • 房屋租赁费发票可以抵扣吗
  • 拿票报销的交通费要交个人所得税吗
  • 成本票最多开多少
  • 电子商务平台支付的区别
  • 货物运输企业纳税多少
  • 高新技术企业优惠政策叠加
  • 资金与费用
  • 分红转增股本什么意思
  • 美团扣点怎么做凭证
  • 企业滞纳金属于什么税
  • 企业所得税投资收益纳税调整
  • 利润分配财务处理
  • 公司销售的产品自用如何记账
  • 财务预提
  • 小规模纳税人销售自己使用过的固定资产税率
  • 运输业什么进项税抵扣
  • PHP CURL CURLOPT参数说明(curl_setopt)
  • PHP:curl_close()的用法_cURL函数
  • vue3项目打包
  • 路由器重启以后wifi不见了
  • php中meta
  • 应付账款与其他应付款科目调整
  • 不能抵扣的发票可以做成本吗
  • 房产税的计税依据的形式包括
  • 以前年度收入如何确认收入
  • php编程基本语法是什么
  • 【AIGC】1、爆火的 AIGC 到底是什么 | 全面介绍
  • python pymongo
  • 前端处理map
  • 购买超市购物卡会计分录
  • 万科金域华府二手房房源
  • 《开具红字增值税专用发票信息表》纸质
  • 工会经费是公司交还是个人交
  • 个人所得税经营所得
  • mysql 连接过多
  • MySQL读写分离企业方案
  • 管理费用错账怎么处理
  • 软件研发费用怎么做账
  • 存货的采购成本不包括
  • 待抵扣进项税在贷方怎么冲掉
  • 经营范围中没有这个项目开票后果
  • 车间房屋的日常修理费
  • 退多收的费用计入什么科目
  • 设备融资租赁会上征信吗
  • mysql优化配置文件
  • 删除了c盘文件
  • Win7系统连接vpn失败且提示错误代码868的2种解决方法
  • nec笔记本电脑开机屏幕没反应
  • centos中如何查看ip地址
  • linux oracle图形界面
  • mac合盖不休眠怎么办
  • 电脑xp系统虚拟内存不足怎么解决
  • 2021年win10累积更新
  • windows10 天气
  • win10系统怎么设置默认打印机
  • win10鼠标移动速度怎么设置
  • linux怎样使用
  • cocos2dx + android 如何添加百度插屏广告
  • Android GLSurfaceView.Renderer
  • 在布局中使用选定的比例
  • android studio入门项目
  • 适配是什么
  • python生成器send
  • python中tab
  • 简述python语言
  • 如何开具红字发票明细
  • 怎样把短信转发到微信
  • 中国银行手机银行app官方下载
  • 汽车购置税发票有什么用
  • 江苏电子税务局网址
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设