缺失值填充
数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。
数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。
缺失值填充是针对带有缺失值的数据进行处理;因为有的分析算法在进行数据分析前要求数据是无缺失的;所以数据的缺失值填充是非常关键的一步,对后续的分析影响很大。
常用的数据缺失值填充的方法有:列均值填充、列中值填充、临近点均值法、列众数填充、线性插值填充、固定值填充等方法。
三相关应用缺失值填充主要目的是对数据进行补充,使能够用分析算法进一步的分析挖掘数据之中的规律和价值
四参考资料马克威分析系统使用教程,http://www.tenly.com
五实例示例数据为某小学三年级部分学生的体重数据(单位为:千克)
编号 | 体重 |
1 | 52 |
2 | 42 |
3 | 31 |
4 | 48 |
5 | 33 |
6 | 35 |
7 | 46 |
1)根据列均值填充法:
编号为4的学生体重=(编号1+2+3+5+6+7)/6=40
得到的结果为:
编号 | 体重 |
1 | 52 |
2 | 42 |
3 | 31 |
4 | 40 |
2)根据列中值填充法:
编号为4的学生体重=(编号3+5)/2=32
得到的结果为:
编号 | 体重 |
1 | 52 |
2 | 42 |
3 | 31 |
4 | 32 |
当然还有许多种其他的填充方法,这里就不一一介绍,根据实际的情况选取合适的算法进行计算,以便得到精确的结果。
六输入输出输入变量类型:数值型数据
输出结果:给出经过缺失值填充处理后的数据结果
七相关条目数据处理、中值填充、众数填充
八优缺点优点:让数据更完整,有利于进行数据统计分析。
缺点:填充的数据与真实数据存在偏差,对结果有可能产生影响。