欢迎访问 生活随笔!

生活随笔

当前位置: 首页 >

数据挖掘竞赛-北京PM2.5浓度回归分析训练赛

发布时间:2024/4/11 64 豆豆
生活随笔 收集整理的这篇文章主要介绍了 数据挖掘竞赛-北京PM2.5浓度回归分析训练赛 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

北京PM2.5浓度回归分析训练赛

  • 简介
    • DC上的一个回归题,比较简单。
    • 时间原因没有细看,提交到70多名就结束了。
    • 使用stacking方法结合多个回归模型。
  • 过程
    • 数据获取
      • 官方给定。
    • 数据探索
      • 训练集有35746条记录,13个字段,有表头,其中pm2.5为目标。
      • 叙述
    • 数据预处理
      • 主要对date属性进行预处理,因为其字符串属性无法参与建模。
        • 利用time模块解析日期并生成新特征为年、月、日、周。
      • 还可以进行一些特征组合,时间关系,我就直接强代入模型了。
    • 数据挖掘建模
      • 平时比较喜欢将一个模型调参到合适,这次由于数据原因选择了stacking构建模型,使用mlxtend库。
      • 核心代码
        • from sklearn.linear_model import LinearRegression, Ridge, Lassofrom sklearn.tree import DecisionTreeRegressorfrom sklearn.svm import SVRfrom sklearn.neighbors import KNeighborsRegressorlr = LinearRegression()dtr = DecisionTreeRegressor()svr_rbf = SVR(kernel='rbf', gamma='auto')knr = KNeighborsRegressor()ridge = Ridge()lasso = Lasso()regression_models = [lr, dtr, svr_rbf, knr, ridge, lasso]from mlxtend.regressor import StackingCVRegressorsclf = StackingRegressor(regression_models, meta_regressor=ridge)sclf.fit(x_tra, y_tra)
        • mlxtend的模型是可以使用sklearn库进行网格搜索调参的。
      • 验证集拟合情况
  • 补充说明
    • 如果继续调参会有不错的分数。
    • 数据集和代码见我的Github,欢迎star或者fork。
    • 附上提交时的排名(76/832)。

总结

以上是生活随笔为你收集整理的数据挖掘竞赛-北京PM2.5浓度回归分析训练赛的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。