马克威重新编码

马克威操作说明

以数据文件“马克威通用数据1.mkw”为例,选取前面10条记录,演示重新编码算法的操作。

(1)首先,在工作区,打开建模分析工作流“数据处理”→“重新编码”算法到工作区内;

(2)接着选择数据源;

(3)然后设置算法的参数,双击运行节点;

(4)最后双击运行按钮。

其中各类参数的含义为:

重新编码字段:选择需要重新编码的字段;

输出字段:自定义输出字段的名称;

区间范围外的值处理:数值型可以以原值或空值替代,也可以直接删除记录;原变量为字符型数据需用户自定义替代的新值。

对“年龄”进行重新编码。具体的参数设置如下所示:

(5)输出结果:

(6)结果说明:

从结果看出:由于设置的起点为10,步长为10,所以10到20区间内的数据分组为1;20到30数据分组为2;同理,可以把其他的所有原始数据重新编码为新的数值。

数据要求

输入变量类型:数值型、字符型

算法用途

重新编码用于把各式各样的数据进行分组,并用简单的数字标识,便于统计分析。

算法原理

根据不同的数据类型可采用不同的编码方式;对数值型数据:等距划分和不等距划分;对字符型数据:需指定编码规则进行编码。

等距划分:指定起点和步长对数据分组,且从0开始编码;

不等距划分:指定上下限对数据分组,且根据新的编码值为数据编码。

结果与解释

输出结果:

给出经过重新编码的数据结果