位置: 编程技术 - 正文

python中常用的九种预处理方法分享(python九大特点)

编辑:rootadmin

推荐整理分享python中常用的九种预处理方法分享(python九大特点),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python的常用类型,python语言常用,python九大特点,python九大特点,python九大特点,python基本术语,python九大特点,python九大特点,内容如对您有帮助,希望把文章链接给更多的朋友!

本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;

1. 标准化(Standardization or Mean Removal and Variance Scaling)

变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。

一般会把train和test集放在一起做标准化,或者在train集上做标准化后,用同样的标准化器去标准化test集,此时可以用scaler

实际应用中,需要做特征标准化的常见情景:SVM

2. 最小-最大规范化

最小-最大规范化对原始数据进行线性变换,变换到[0,1]区间(也可以是其他固定最小最大值的区间)

3.规范化(Normalization)

规范化是将不同变化范围的值映射到相同的固定范围,常见的是[0,1],此时也称为归一化。

将每个样本变换成unit norm。

得到:

python中常用的九种预处理方法分享(python九大特点)

可以发现对于每一个样本都有,0.4^2+0.4^2+0.^2=1,这就是L2 norm,变换后每个样本的各维特征的平方和为1。类似地,L1 norm则是变换后每个样本的各维特征的绝对值和为1。还有max norm,则是将每个样本的各维特征除以该样本各维特征的最大值。在度量样本之间相似性时,如果使用的是二次型kernel,需要做Normalization

4. 特征二值化(Binarization)

给定阈值,将特征转换为0/1

5. 标签二值化(Label binarization)

6. 类别特征编码

有时候特征是类别型的,而一些算法的输入必须是数值型,此时需要对其编码。

上面这个例子,第一维特征有两种值0和1,用两位去编码。第二维用三位,第三维用四位。

另一种编码方式

7.标签编码(Label encoding)

8.特征中含异常值时

9.生成多项式特征

这个其实涉及到特征工程了,多项式特征/交叉特征。

原始特征:

转化后:

总结

标签: python九大特点

本文链接地址:https://www.jiuchutong.com/biancheng/385421.html 转载请保留说明!

上一篇:python 打印出所有的对象/模块的属性(实例代码)(python打印出none)

下一篇:浅谈python中的变量默认是什么类型(python 变参)

  • 收购未税矿产品代扣代缴的资源税计入成本吗
  • 流转税具体的账务处理,可以怎样考虑?
  • 什么叫销售劳务
  • 企业所得税资产总额怎么填写
  • 固定资产装修费用计入房产税吗
  • 出售报废固定资产属于什么收入
  • 营业成本增加会导致
  • 红线范围外增加的工程量
  • 房地产中的存货是什么意思
  • 空白增值税专用发票丢失罚款
  • 应收账款融资的优缺点
  • 待认证进项分录
  • 支付职工一次性补助
  • 用公户付了一笔款怎么办
  • 个体户需不需要开立对公账户
  • 企业利润怎么拿出来
  • 小规模外贸公司
  • 关于个体工商户的法律规定及司法解释
  • 汇算清缴是啥
  • 企业暂估收入申报,未开发票,几年以后要开票如何处理
  • 筹建人员是什么工作
  • 零售行业折扣如何做账?
  • mac如何重装系统win10
  • 电脑开机黑屏没信号怎么回事
  • 进口设备和备件有哪些
  • win10安装版u盘安装
  • 预存500抵扣1000是几折活动?
  • 电脑一开机一会一会黑屏
  • linux配置ssh免密
  • PHP:Memcached::deleteByKey()的用法_Memcached类
  • 漏洞 标准
  • 差旅费的会计分录怎么做
  • yolov5损失
  • uni-app开发教程
  • 认缴制下实收资本需要验资吗
  • rgbt目标跟踪
  • 挂在树上的小鸟怎么画
  • deepwiser怎么用
  • 城建税减半征收会计分录
  • 委托代销受托方会计分录
  • 异地预缴税款多交了有影响吗
  • 银行开户费属于现金流量表的哪一类
  • 增值税中进项税额转出是什么意思
  • 现金流量明细分类
  • 转增资本需要交税吗
  • 房屋租赁合同印花税计税依据
  • 三证合一哪三个证
  • 职工福利费的扣除标准工资总额包括什么
  • 营业收入要包括什么
  • 待摊费用会计处理
  • 制造费用是借还是贷
  • mysql事务视图
  • window10系统主题
  • windows无法启动wlanautoconfig服务
  • win8系统任务栏怎么隐藏
  • win8怎么禁止开机启动项
  • 单网卡计算机有几个网络接口
  • ubuntu系统中如何安装WiFi驱动
  • linux 下VSFTP 530 Permission denied错误的解决方法
  • win10怎么预览
  • win8怎么设置
  • Msssrv.exe - Msssrv是什么进程 有什么用
  • linux find命令详解xargs
  • linux计划任务每天执行一次
  • cocos2dx 教程
  • activex控件在哪设置
  • 基于javascript的毕业设计
  • 希尔排序数据结构的代码
  • 运算符优先级由高到低的顺序
  • node js 开发
  • unity射击游戏完整功能代码
  • js的prepend
  • idea 分析源码
  • jquery事件解绑
  • 黑洞数6174视频
  • 异步promise原理
  • python tcp连接
  • 支付境外服务费代扣代缴增值税 会计凭证
  • 国家税务总局关于进一步优化营改增纳税服务工作的通知
  • 12333热线时间
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设