当前位置：首页 >

数据挖掘竞赛-北京PM2.5浓度回归分析训练赛

发布时间：2024/4/11 64 豆豆

生活随笔收集整理的这篇文章主要介绍了数据挖掘竞赛-北京PM2.5浓度回归分析训练赛小编觉得挺不错的,现在分享给大家,帮大家做个参考.

北京PM2.5浓度回归分析训练赛

简介
- DC上的一个回归题，比较简单。
- 时间原因没有细看，提交到70多名就结束了。
- 使用stacking方法结合多个回归模型。
过程
- 数据获取
  - 官方给定。
- 数据探索
  - 训练集有35746条记录，13个字段，有表头，其中pm2.5为目标。
  - 叙述
- 数据预处理
  - 主要对date属性进行预处理，因为其字符串属性无法参与建模。
    - 利用time模块解析日期并生成新特征为年、月、日、周。
  - 还可以进行一些特征组合，时间关系，我就直接强代入模型了。
- 数据挖掘建模
  - 平时比较喜欢将一个模型调参到合适，这次由于数据原因选择了stacking构建模型，使用mlxtend库。
  - 核心代码
    - from sklearn.linear_model import LinearRegression, Ridge, Lassofrom sklearn.tree import DecisionTreeRegressorfrom sklearn.svm import SVRfrom sklearn.neighbors import KNeighborsRegressorlr = LinearRegression()dtr = DecisionTreeRegressor()svr_rbf = SVR(kernel='rbf', gamma='auto')knr = KNeighborsRegressor()ridge = Ridge()lasso = Lasso()regression_models = [lr, dtr, svr_rbf, knr, ridge, lasso]from mlxtend.regressor import StackingCVRegressorsclf = StackingRegressor(regression_models, meta_regressor=ridge)sclf.fit(x_tra, y_tra)
    - mlxtend的模型是可以使用sklearn库进行网格搜索调参的。
  - 验证集拟合情况
补充说明
- 如果继续调参会有不错的分数。
- 数据集和代码见我的Github，欢迎star或者fork。
- 附上提交时的排名（76/832)。

总结

以上是生活随笔为你收集整理的数据挖掘竞赛-北京PM2.5浓度回归分析训练赛的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇：机器学习-Stacking方法的原理及实
下一篇：回溯算法-03八皇后问题