位置: 编程技术 - 正文

python中常用的九种预处理方法分享(python九大特点)

编辑:rootadmin

推荐整理分享python中常用的九种预处理方法分享(python九大特点),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python的常用类型,python语言常用,python九大特点,python九大特点,python九大特点,python基本术语,python九大特点,python九大特点,内容如对您有帮助,希望把文章链接给更多的朋友!

本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;

1. 标准化(Standardization or Mean Removal and Variance Scaling)

变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。

一般会把train和test集放在一起做标准化,或者在train集上做标准化后,用同样的标准化器去标准化test集,此时可以用scaler

实际应用中,需要做特征标准化的常见情景:SVM

2. 最小-最大规范化

最小-最大规范化对原始数据进行线性变换,变换到[0,1]区间(也可以是其他固定最小最大值的区间)

3.规范化(Normalization)

规范化是将不同变化范围的值映射到相同的固定范围,常见的是[0,1],此时也称为归一化。

将每个样本变换成unit norm。

得到:

python中常用的九种预处理方法分享(python九大特点)

可以发现对于每一个样本都有,0.4^2+0.4^2+0.^2=1,这就是L2 norm,变换后每个样本的各维特征的平方和为1。类似地,L1 norm则是变换后每个样本的各维特征的绝对值和为1。还有max norm,则是将每个样本的各维特征除以该样本各维特征的最大值。在度量样本之间相似性时,如果使用的是二次型kernel,需要做Normalization

4. 特征二值化(Binarization)

给定阈值,将特征转换为0/1

5. 标签二值化(Label binarization)

6. 类别特征编码

有时候特征是类别型的,而一些算法的输入必须是数值型,此时需要对其编码。

上面这个例子,第一维特征有两种值0和1,用两位去编码。第二维用三位,第三维用四位。

另一种编码方式

7.标签编码(Label encoding)

8.特征中含异常值时

9.生成多项式特征

这个其实涉及到特征工程了,多项式特征/交叉特征。

原始特征:

转化后:

总结

标签: python九大特点

本文链接地址:https://www.jiuchutong.com/biancheng/385421.html 转载请保留说明!

上一篇:python 打印出所有的对象/模块的属性(实例代码)(python打印出none)

下一篇:浅谈python中的变量默认是什么类型(python 变参)

  • 收取承包费如何交税
  • 增值税影响利润总额吗
  • 劳务发票可以抵扣多少
  • 暂估成本会计处理
  • 其他业务成本影响营业成本吗
  • 预缴企业所得税分录
  • 股东投入款放入什么科目
  • 子公司注销资金还母公司冲实收资本吗
  • 银行存款转存利息一样吗
  • 保险赔款个人所得税计算
  • 服务合同需要征税吗
  • 委托企业和受托企业是什么意思
  • 甲供材的范围
  • 上海房产税如何退税
  • 个人独资企业所得税税率表最新
  • 新公司有减免税政策吗?
  • 代扣代缴的增值税怎么做账
  • 行政事业单位2014年前已交社保费
  • 营改增后印花税计税依据文件
  • 小企业处置固定资产
  • 收到多开的发票会计上怎么入成本?
  • 一般人企业所得税怎么算
  • 住宿服务可以开免税吗
  • 投资活动净现金流为负说明什么
  • 2020工会经费退费
  • Linux系统怎么调整屏幕亮度
  • 印花税的征收项目
  • win7原版系统安装后没有任何驱动
  • 苹果手机耳返功能怎么关闭
  • Win7系统中如何快速查询文件内容
  • 总成本费用包含
  • macbook 运行windows
  • dotnetfx35.exe
  • 软件能否成为无线网
  • ftp指什么
  • OfcPfwSvc.exe - OfcPfwSvc是什么进程 有什么用
  • 无形资产的账务处理候文江视频
  • ElementPlus DateTimePicker日期时间选择器限制可选时间范围(精确时分秒)
  • 材料入库款项未付会计分录
  • Laravel 5.4向IoC容器中添加自定义类的方法示例
  • 土地使用税缴纳人是使用者还是所有权人
  • 新准则与旧准则比较有哪些新变化
  • 2023英伟达显卡天梯图完整版
  • 新版python
  • 事业单位新会计制度固定资产
  • 股东借款转增资本公积要验资吗
  • 进料余料结转 报关单
  • 财政拨款事业单位的办公用车免征车船税吗
  • 季中转一般纳税人申报了小规模后无法勾选认证
  • 什么是企业会计确认计量和报告的空间范围
  • 企业主营业务利润是由什么构成的
  • 房地产开发企业成本核算方法
  • 普票不能抵扣为什么有税率
  • 私车公用的风险防范
  • 融资租赁咨询服务合同
  • 实际缴纳的税金比应交的多的部分记入什么科目
  • 新开的公司税务那边要办什么
  • 建筑发票可以一次性抵扣吗
  • 开了20万销项进项为0交多少税
  • 建立新公司需要做什么
  • SQL server字符串存数据库大还是二进制大
  • sqlserver存储过程怎么查看
  • mysql怎么直接向表中写数据
  • CentOS操作系统
  • linux 命令详解
  • 在局域网内,什么可进行网络资料的共享
  • 电脑系统垃圾
  • Win7系统打印机共享无法保存打印机设置0x000006d9
  • win8怎么打开ie浏览器
  • shell 字符串trim
  • 批处理查询文件是否存在
  • Ver、Vol、Ctty命令的使用教程
  • ug输入代码
  • unity3d2019安装步骤
  • 欢欢长大了的童年
  • python数据通信
  • 税务局属于什么行业类别
  • 电子税务局申报截止日期
  • 地税注销流程
  • 车船税为什么有时候不用交
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设