马克威数据抽样

马克威操作说明

以数据文件“马克威通用数据1.mkw”为例,演示数据抽样算法的操作。

(1)首先,在工作区,打开建模分析工作流“数据处理”→“数据抽样”算法到工作区内;

(2)接着选择数据源;

(3)然后设置算法的参数,双击运行节点;

(4)最后双击运行按钮。

其中各类参数的含义为:

抽样方法:选择抽样方法,并设置参数;系统提供五种方法可供选择;

变量设置:可选择分层字段;分层字段表的顺序会影响抽样结果(注:分层字段仅在用分层抽样时才有效)。

输出选项:选择是否需要导出生成的数据。

具体的参数设置如下所示:

(5)输出结果:

(6)结果说明:

选取的结果如上表所示;按上述抽样方法得到的结果,每次操作都是不一样的,因为这种抽样方式是随机的。

数据要求

输入变量类型:任意类型数据

算法用途

数据抽样是从总体样本数据中按一定的方法抽取出部分数据;能够实现对任意类型数据进行抽样。

算法原理

系统支持如下四种抽样方法:1)去近似于记录的百分之几;2)前N个样本抽样方法;3)系统抽样法:每隔N条记录取一条;4)分层抽样法:按分层变量将数据总体分为若干层次总体,然后在每一层进行随机抽样;5)按比例分类抽样。

结果与解释

输出结果:

输出按特定抽样方法得到的抽样结果