数据归归一化方法(标准化)-程序员宅基地

 数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。

一、 标准化
     标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过 标准化映射成在区间[0,1]中的值 ,其公式为:
                         新数据=(原数据-极小值)/(极大值-极小值)

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:

                                               

 

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

 

 二、z-score 标准化

    这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。
    z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
                           新数据=(原数据-均值)/标准差
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
                                                         
其中 u为所有样本数据的均值, *所有样本数据的标准差。

    例如:spss默认的标准化方法就是z-score标准化。
    用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。
步骤如下:
    1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
    2.进行标准化处理:
      zij=(xij-xi)/si
      其中:zij为标准化后的变量值;xij为实际变量值。
    3.将逆指标前的正负号对调。
    标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
三、Decimal scaling小数定标标准化
   这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimal scaling标准化到x'的计算方法是:
                                   x'=x/(10*j)

    其中,j是满足条件的最小整数。

 

    例如 假定A的值由-986到917,A的最大绝对值为986,为使用小数定标标准化,我们用1000(即,j=3)除以每个值,这样,-986被规范化为-0.986。
    注意,标准化会对原始数据做出改变,因此需要保存所使用的标准化方法的参数,以便对后续的数据进行统一的标准化。
四、对数Logistic模式
         新数据=1/(1+e^(-原数据))
         对数函数转换,表达式如下:
  y=log10(x)
  说明:以10为底的对数函数转换。
五、模糊量化模式
      新数据=1/2+1/2sin[3.1415/(极大值-极小值)*(X-(极大值-极小值)/2) ]       X为原数据
   反余切函数转换,表达式如下:
  y=atan(x)*2/PI

如果想要将数据映射到[-1,1],则将公式换成:

x* = x* * 2 -1

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39051011/article/details/82591789

智能推荐

Linux电源管理(11)_Runtime PM之功能描述_rpm的child_count-程序员宅基地

文章浏览阅读827次。转自:http://www.wowotech.net/pm_subsystem/rpm_overview.html1. Runtime PM的软件框架 RPM的代码在“drivers/base/power/runtime.c”中,软件框架如下: device driver(或者driver所在的bus、class等)需要提供3个回调函数,runtime_suspend、_rpm的child_count

用jQuery的clone()方法拷贝元素_jquery element clone-程序员宅基地

文章浏览阅读9.7k次。Clone an Element Using jQuery除了移动元素,你还可以拷贝元素。简单理解:移动元素就是剪切,拷贝元素就是复制。jQuery的clone()方法可以拷贝元素。比如,如果我想把target2从left-well拷贝到right-well,我们可以这样写:$("#target2").clone().appendTo("#right-well");你有没有发现两个jQuery方法..._jquery element clone

枚举 注解_编写一个person类,使用override注解它的tostring方法-程序员宅基地

文章浏览阅读157次。10.1 枚举类的使用 主要内容:  如何自定义枚举类  如何使用关键字enum定义枚举类  Enum类的主要方法  实现接口的枚举类10.1.1 枚举类的使用:入门  类的对象只有有限个,确定的。举例如下:  星期:Monday(星期一)、......、Sunday(星期天)  性别:Man(男)、Woman(女)  季节:Spring(春节)......Winter(冬天)  支付方式:Cash(现金)、WeChatPay(微信)、Alipay(_编写一个person类,使用override注解它的tostring方法

传统蓝牙RFCOMM协议概念介绍-Bluetooth rfcomm-程序员宅基地

文章浏览阅读9.2k次,点赞3次,收藏17次。零. 概述本文章主要讲下蓝牙RFCOMM协议(bluetooth rfcomm)的概念以及在整个蓝牙协议栈中的起的作用一. 声明本专栏文章我们会以连载的方式持续更新,本专栏计划更新内容如下:第一篇:蓝牙综合介绍 ,主要介绍蓝牙的一些概念,产生背景,发展轨迹,市面蓝牙介绍,以及蓝牙开发板介绍。第二篇:Transport层介绍,主要介绍蓝牙协议栈跟蓝牙芯片之前的硬件传输协议,比如基于UART的H4,H5,BCSP,基于USB的H2等第三篇:传统蓝牙controller介绍,主要介绍传_rfcomm

python 删除特定列_pandas删除某一列的方法(drop函数)-程序员宅基地

文章浏览阅读6w次,点赞7次,收藏53次。呆瓜半小时入门python数据分析(博主录制)方法一:直接del df['column-name']删除sub_grade_列,输入del df['sub_grade_x']方法二:采用drop方法,有下面三种等价的表达式:1. df= df.drop('column_name', 1)输入:df,drop('num',axix=1),不改变内存,及输入df的时候,它还是显示原数据2. df.d..._pandas drop列

最牛逼的java代码_分享史上java最牛逼,最简短的代码-程序员宅基地

文章浏览阅读1.7k次。确实是12306的最核心代码呀alert("当前访问用户过多,请稍后重试!");确实牛public class Test{static{System.out.println("hello world!");System.exit(0);}}这代码style逆袭了public class ZuiNiu{public static void main(String[] args){System.out..._java好用的代码

随便推点

itertools-程序员宅基地

文章浏览阅读49次。1. 组合数取出数组中的组合数import itertoolsprint list(itertools.combinations([1, 2, 3, 4, 5], 2))>>> [(1, 2), (1, 3), (1, 4), (1, 5), (2, 3), (2, 4), (2, 5), (3, 4), (3, 5), (4, 5)]

cannot import name ‘compare_ssim‘ from ‘skimage.measure‘_cannot import name 'compare_ssim' from 'skimage.me-程序员宅基地

文章浏览阅读1.8w次,点赞30次,收藏44次。1.将from skimage.measure import compare_ssim替换成 from skimage import measure2.将compare_ssim()替换成measure.compare_ssim()_cannot import name 'compare_ssim' from 'skimage.measure

MyBaits学习-3_@mapper 取别名-程序员宅基地

文章浏览阅读151次。MyBatus学习-3再经过MyBatis的Helloworld程序学习,我们知道Mapper的配置文件就是MyBatis的核心,也是他的魅力所在,魔法之源,至尊奥义。接下来我们先去补全我们的增删改查操作,在EmployeeMappper接口中添加剩下的三个方法: public boolean addEmp(Employee employee); public void upd..._@mapper 取别名

matlab如何用二分法求函数零点,如何用二分法求函数的“零点”的近似值-程序员宅基地

文章浏览阅读2.6k次。什么是二分法?定义:对于区间 【a , b】上连续的,且 f ( a ) - f ( b ) < 0="" 的函数="" y="f" (="" x="" )="" ,通过不断地把函数="" f="" (="" x="" )="">怎么用二分法求函数的零点的近似值?用二分法求函数零点的近似值步骤如下:第一步:确定区间 【a , b】,验证:f(a)·f(b)<0,给定精确度;第二步:求区..._二分法求函数零点matlab

Oracle10g RAC在线更换OCR votedisk-程序员宅基地

文章浏览阅读123次。操作之前确认集群状态都正常1、替换OCR# ./ocrconfig -replace ocrmirror /dev/rhdisk11# ./ocrcheckStatus of Oracle Cluster Registry is as follows : Version : 2 Total s..._oracle 10g rac替换ocr

颜色识别_csdn颜色识别-程序员宅基地

文章浏览阅读456次。【OpenCV】颜色识别实例(瓶盖) 原创 ..._csdn颜色识别