训练集产生的onehot编码特征如何在测试集、预测集复现
生活随笔
收集整理的这篇文章主要介绍了
训练集产生的onehot编码特征如何在测试集、预测集复现
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
数据处理中有时要用到onehot编码,如果使用pandas自带的get_dummies方法,训练集产生的onehot编码特征会跟测试集、预测集不一样,正确的方式是使用sklearn自带的OneHotEncoder。
代码
import pandas as pd from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncoder(handle_unknown='ignore') data_train=pd.DataFrame({'职业':['数据挖掘工程师','数据库开发工程师','数据分析师','数据分析师'],'籍贯':['福州','厦门','泉州','龙岩']}) ohe.fit(data_train)#训练规则 feature_names=ohe.get_feature_names(data_train.columns)#获取编码后的特征名 data_train_onehot=pd.DataFrame(ohe.transform(data_train).toarray(),columns=feature_names)#应用规则在训练集上data_new=pd.DataFrame({'职业':['数据挖掘工程师','jave工程师'],'籍贯':['福州','莆田']}) data_new_onehot=pd.DataFrame(ohe.transform(data_new).toarray(),columns=feature_names)#应用规则在预测集上如果对你有帮助,请点下赞,予人玫瑰手有余香!
时时仰望天空,理想就会离现实越来越近!
总结
以上是生活随笔为你收集整理的训练集产生的onehot编码特征如何在测试集、预测集复现的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: macbook蓝牙pan未连接_LOFR
- 下一篇: 【PCA】2D-PCA原始文献《Two-