马克威数据抽样
马克威操作说明
以数据文件“马克威通用数据1.mkw”为例,演示数据抽样算法的操作。
(1)首先,在工作区,打开建模分析工作流“数据处理”→“数据抽样”算法到工作区内;
(2)接着选择数据源;
(3)然后设置算法的参数,双击运行节点;
(4)最后双击运行按钮。
其中各类参数的含义为:
抽样方法:选择抽样方法,并设置参数;系统提供五种方法可供选择;
变量设置:可选择分层字段;分层字段表的顺序会影响抽样结果(注:分层字段仅在用分层抽样时才有效)。
输出选项:选择是否需要导出生成的数据。
具体的参数设置如下所示:


(5)输出结果:

(6)结果说明:
选取的结果如上表所示;按上述抽样方法得到的结果,每次操作都是不一样的,因为这种抽样方式是随机的。
数据要求
输入变量类型:任意类型数据
算法用途
数据抽样是从总体样本数据中按一定的方法抽取出部分数据;能够实现对任意类型数据进行抽样。
算法原理
系统支持如下四种抽样方法:1)去近似于记录的百分之几;2)前N个样本抽样方法;3)系统抽样法:每隔N条记录取一条;4)分层抽样法:按分层变量将数据总体分为若干层次总体,然后在每一层进行随机抽样;5)按比例分类抽样。
结果与解释
输出结果:
输出按特定抽样方法得到的抽样结果