Array ( [article_id] => 148 [article_title] => 重新编码 [article_keyword] => 重新编码,重新编码算法原理 [article_description] => 重新编码把数据进行分组,可分为对数值型变量和字符型变量编码。 [article_detail] => 把数据进行分组,可分为对数值型变量和字符型变量编码。 [article_content] => <div class="rightwrap collegeDetail"> <h1 class="algorithmName"> 重新编码 </h1> <div class="clearfix topcontent"> <p> 数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。 </p> <p> 数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。 </p> <p> 计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。 </p> </div> <div class="lemma_catalog clearfix"> <h2 class="block_title"> 目录 </h2> <div class="lemma_list"> <a href="#a_2">1、算法描述</a><a href="#a_7">2、相关应用</a><a href="#a_9">3、参考资料</a><a href="#a_11">4、实例</a><a href="#a_18">5、相关条目</a><a href="#a_20">6、优缺点</a> </div> </div> <a name="a_2"></a><a class="para_title"><span class="number">一</span>算法描述</a> <p> 重新编码用于把各式各样的数据进行分组,一般可分为对数值型变量和字符型变量编码。 </p> <p> 对于数值型变量,有两种不同的编码方式:等距离划分和不等距离划分。1)等距离划分:根据指定的起点和步长对数据进行分组,并从0开始为各组编码。因为每组的组距相等,故称等距离划分法。2)不等距离划分:根据指定的上限和下限对数据进行分组,并根据新的编码值为数据编码。因为指定各组的组距一般不相等,故称不等距划分法。 </p> <p> 对于字符型变量则需要指定编码规则进行编码。如需要用户自定义替代的新值。 </p> <a name="a_7"></a><a class="para_title"><span class="number">三</span>相关应用</a> <p> 对数据进行重新编码,即用简单的数字对原始数据进行标记,便于统计分析。 </p> <a name="a_9"></a><a class="para_title"><span class="number">四</span>参考资料</a> <p> 马克威分析系统使用教程,http://www.tenly.com </p> <a name="a_11"></a><a class="para_title"><span class="number">五</span>实例</a> <p> 示例为某银行对客户的不同信用评分数据;具体数据如下所示: </p> <p> <br /> </p> <table class="college_table"> <tbody> <tr class="thead"> <td> 编号 </td> <td> 性别 </td> <td> 年龄 </td> <td> 级别 </td> <td> 信用评分 </td> </tr> </tbody> <tbody> <tr> <td> 1 </td> <td> 1 </td> <td> 45 </td> <td> 1 </td> <td> 65.8 </td> </tr> <tr> <td> 2 </td> <td> 2 </td> <td> 35 </td> <td> 1 </td> <td> 70.4 </td> </tr> <tr> <td> 3 </td> <td> 1 </td> <td> 64 </td> <td> 1 </td> <td> 71.4 </td> </tr> <tr> <td> 4 </td> <td> 2 </td> <td> 22 </td> <td> 1 </td> <td> 74 </td> </tr> <tr> <td> 5 </td> <td> 2 </td> <td> 32 </td> <td> 1 </td> <td> 75.2 </td> </tr> <tr> <td> 6 </td> <td> 1 </td> <td> 29 </td> <td> 1 </td> <td> 76.6 </td> </tr> <tr> <td> 7 </td> <td> 1 </td> <td> 31 </td> <td> 1 </td> <td> 78.2 </td> </tr> <tr> <td> 8 </td> <td> 1 </td> <td> 55 </td> <td> 1 </td> <td> 79.8 </td> </tr> <tr> <td> 9 </td> <td> 2 </td> <td> 45 </td> <td> 2 </td> <td> 80.2 </td> </tr> <tr> <td> 10 </td> <td> 1 </td> <td> 45 </td> <td> 2 </td> <td> 80.2 </td> </tr> <tr> <td> 11 </td> <td> 1 </td> <td> 37 </td> <td> 2 </td> <td> 80.4 </td> </tr> <tr> <td> 12 </td> <td> 1 </td> <td> 58 </td> <td> 2 </td> <td> 82.4 </td> </tr> <tr> <td> 13 </td> <td> 1 </td> <td> 32 </td> <td> 2 </td> <td> 82.8 </td> </tr> <tr> <td> 14 </td> <td> 2 </td> <td> 45 </td> <td> 2 </td> <td> 84.5 </td> </tr> <tr> <td> 15 </td> <td> 2 </td> <td> 36 </td> <td> 3 </td> <td> 85.4 </td> </tr> <tr> <td> 16 </td> <td> 1 </td> <td> 37 </td> <td> 3 </td> <td> 85.6 </td> </tr> <tr> <td> 17 </td> <td> 1 </td> <td> 40 </td> <td> 3 </td> <td> 86.8 </td> </tr> <tr class="lasttr"> <td> 18 </td> <td> 1 </td> <td> 67 </td> <td> 3 </td> <td> 87.2 </td> </tr> </tbody> </table> <p> 假设现在要对客户按年龄进行等距划分的重新编码,计算过程如下:设编码的初始点为10,步长间隔为10,故编号为1的顾客重新编码结果为:(45-10)/10=3.5;取整,即编号1的顾客重新编码为3。同理可计算其他客户,最终的结果为: </p> <table class="college_table"> <tbody> <tr class="thead"> <td> 编号 </td> <td> 性别 </td> <td> 年龄 </td> <td> 级别 </td> <td> 信用评分 </td> <td> 年龄重新编码 </td> </tr> </tbody> <tbody> <tr> <td> 1 </td> <td> 1 </td> <td> 45 </td> <td> 1 </td> <td> 65.8 </td> <td> 3 </td> </tr> <tr> <td> 2 </td> <td> 2 </td> <td> 35 </td> <td> 1 </td> <td> 70.4 </td> <td> 2 </td> </tr> <tr> <td> 3 </td> <td> 1 </td> <td> 64 </td> <td> 1 </td> <td> 71.4 </td> <td> 5 </td> </tr> <tr> <td> 4 </td> <td> 2 </td> <td> 22 </td> <td> 1 </td> <td> 74 </td> <td> 1 </td> </tr> <tr> <td> 5 </td> <td> 2 </td> <td> 32 </td> <td> 1 </td> <td> 75.2 </td> <td> 2 </td> </tr> <tr> <td> 6 </td> <td> 1 </td> <td> 29 </td> <td> 1 </td> <td> 76.6 </td> <td> 1 </td> </tr> <tr> <td> 7 </td> <td> 1 </td> <td> 31 </td> <td> 1 </td> <td> 78.2 </td> <td> 2 </td> </tr> <tr> <td> 8 </td> <td> 1 </td> <td> 55 </td> <td> 1 </td> <td> 79.8 </td> <td> 4 </td> </tr> <tr> <td> 9 </td> <td> 2 </td> <td> 45 </td> <td> 2 </td> <td> 80.2 </td> <td> 3 </td> </tr> <tr> <td> 10 </td> <td> 1 </td> <td> 45 </td> <td> 2 </td> <td> 80.2 </td> <td> 3 </td> </tr> <tr> <td> 11 </td> <td> 1 </td> <td> 37 </td> <td> 2 </td> <td> 80.4 </td> <td> 2 </td> </tr> <tr> <td> 12 </td> <td> 1 </td> <td> 58 </td> <td> 2 </td> <td> 82.4 </td> <td> 4 </td> </tr> <tr> <td> 13 </td> <td> 1 </td> <td> 32 </td> <td> 2 </td> <td> 82.8 </td> <td> 2 </td> </tr> <tr> <td> 14 </td> <td> 2 </td> <td> 45 </td> <td> 2 </td> <td> 84.5 </td> <td> 3 </td> </tr> <tr> <td> 15 </td> <td> 2 </td> <td> 36 </td> <td> 3 </td> <td> 85.4 </td> <td> 2 </td> </tr> <tr> <td> 16 </td> <td> 1 </td> <td> 37 </td> <td> 3 </td> <td> 85.6 </td> <td> 2 </td> </tr> <tr> <td> 17 </td> <td> 1 </td> <td> 40 </td> <td> 2 </td> <td> 86.8 </td> <td> 3 </td> </tr> <tr class="lasttr"> <td> 18 </td> <td> 1 </td> <td> 67 </td> <td> 3 </td> <td> 87.2 </td> <td> 5 </td> </tr> </tbody> </table> <p> 同理,可根据需要对其他变量进行重新编码,如对用户评分进行处理。 </p> <a name="a_18"></a><a class="para_title"><span class="number">七</span>相关条目</a> <p> 编码方式、分组 </p> <a name="a_20"></a><a class="para_title"><span class="number">八</span>优缺点</a> <p> 优点:数据的重新编码对数据重新分组特别有用,尤其是它用简单的数字对原始数据进行划分,非常便于进行统计分析。 </p> </div> [is_show] => 1 [cat_id] => 68 [article_img] => [article_order] => 1 [article_time] => 1481248906 [isdel] => 0 )

重新编码

数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。

数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。

算法描述

重新编码用于把各式各样的数据进行分组,一般可分为对数值型变量和字符型变量编码。

对于数值型变量,有两种不同的编码方式:等距离划分和不等距离划分。1)等距离划分:根据指定的起点和步长对数据进行分组,并从0开始为各组编码。因为每组的组距相等,故称等距离划分法。2)不等距离划分:根据指定的上限和下限对数据进行分组,并根据新的编码值为数据编码。因为指定各组的组距一般不相等,故称不等距划分法。

对于字符型变量则需要指定编码规则进行编码。如需要用户自定义替代的新值。

相关应用

对数据进行重新编码,即用简单的数字对原始数据进行标记,便于统计分析。

参考资料

马克威分析系统使用教程,http://www.tenly.com

实例

示例为某银行对客户的不同信用评分数据;具体数据如下所示:


编号 性别 年龄 级别 信用评分
1 1 45 1 65.8
2 2 35 1 70.4
3 1 64 1 71.4
4 2 22 1 74
5 2 32 1 75.2
6 1 29 1 76.6
7 1 31 1 78.2
8 1 55 1 79.8
9 2 45 2 80.2
10 1 45 2 80.2
11 1 37 2 80.4
12 1 58 2 82.4
13 1 32 2 82.8
14 2 45 2 84.5
15 2 36 3 85.4
16 1 37 3 85.6
17 1 40 3 86.8
18 1 67 3 87.2

假设现在要对客户按年龄进行等距划分的重新编码,计算过程如下:设编码的初始点为10,步长间隔为10,故编号为1的顾客重新编码结果为:(45-10)/10=3.5;取整,即编号1的顾客重新编码为3。同理可计算其他客户,最终的结果为:

编号 性别 年龄 级别 信用评分 年龄重新编码
1 1 45 1 65.8 3
2 2 35 1 70.4 2
3 1 64 1 71.4 5
4 2 22 1 74 1
5 2 32 1 75.2 2
6 1 29 1 76.6 1
7 1 31 1 78.2 2
8 1 55 1 79.8 4
9 2 45 2 80.2 3
10 1 45 2 80.2 3
11 1 37 2 80.4 2
12 1 58 2 82.4 4
13 1 32 2 82.8 2
14 2 45 2 84.5 3
15 2 36 3 85.4 2
16 1 37 3 85.6 2
17 1 40 2 86.8 3
18 1 67 3 87.2 5

同理,可根据需要对其他变量进行重新编码,如对用户评分进行处理。

相关条目

编码方式、分组

优缺点

优点:数据的重新编码对数据重新分组特别有用,尤其是它用简单的数字对原始数据进行划分,非常便于进行统计分析。