机器学习PAL数据预处理
机器学习PAL数据预处理
本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集。
前提条件
完成数据准备,详情请参见准备数据。
操作步骤
-
登录PAI控制台。
-
在左侧导航栏,选择模型开发和训练 > Studio-可视化建模。
-
在PAI可视化建模页面,单击进入机器学习。
-
将组件拖入画布并拼接为实验。
i. 在左侧菜单栏,单击组件。
ii. 在组件列表,选择数据预处理 > 数据合并,将类型转换和归一化组件拖入画布。
iii. 在组件列表,将工具下的SQL脚本组件拖入画布,并与准备数据中的读数据表组件拼接为实验,如下图所示。
-
配置组件参数。
i. 单击画布中的SQL脚本组件,在右侧SQL脚本编辑框中输入SQL语句,将字符型字段转化为数值型。
ii. select age,
iii. (case sex when ‘male’ then 1 else 0 end) as sex,
iv. (case cp when ‘angina’ then 0 when ‘notang’ then 1 else 2 end) as cp,
v. trestbps,
vi. chol,
vii. (case fbs when ‘true’ then 1 else 0 end) as fbs,
viii. (case restecg when ‘norm’ then 0 when ‘abn’ then 1 else 2 end) as restecg,
ix. thalach,
x. (case exang when ‘true’ then 1 else 0 end) as exang,
xi. oldpeak,
xii. (case slop when ‘up’ then 0 when ‘flat’ then 1 else 2 end) as slop,
xiii. ca,
xiv. (case thal when ‘norm’ then 0 when ‘fix’ then 1 else 2 end) as thal,
xv. (case status when ‘sick’ then 1 else 0 end) as ifHealth
from ${t1};
xvi. 单击画布中的类型转换组件,在右侧字段设置页签,单击转换为double类型的列下的选择字段,将所有字段转换为double类型。
xvii. 单击画布中的归一化组件,在右侧字段设置页签,选择所有字段。
7. 单击画布上方的运行,运行过程中右键单击组件,可以查看组件的输出。
8. 在组件列表,选择数据预处理 > 数据合并,将拆分组件拖入画布并与其他组件拼接,单击运行。
拆分组件默认将原始数据按4:1拆分为模型训练集和模型预测集。您也可以单击拆分组件,在右侧参数设置页签,设置切分比例。
后续步骤
完成数据预处理后,需要进行数据可视化,详情请参见数据可视化。
总结
以上是生活随笔为你收集整理的机器学习PAL数据预处理的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 机器学习PAL基本概念
- 下一篇: 机器学习PAL数据可视化