当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

决定系数R2真的可靠吗？

发布时间：2025/3/21 编程问答 75 豆豆

生活随笔收集整理的这篇文章主要介绍了决定系数R2真的可靠吗？小编觉得挺不错的,现在分享给大家,帮大家做个参考.

1. R2

2. 是否可以通过比较R方大小，来证明“加入某个变量有利于提高模型的拟合程度”？

3. 调整后的R2

4. R方不能支持模型的哪些假设？

5. R2和调整后的R2调用方法

1. R2

1) 含义：

反应回归模型拟合数据的优良程度

2）分析

实际信息：点的实际值减去均值认为是这个点的实际信息（蓝色条），可以拆分成下面两部分
误差信息：实际值减线上的点的值，这是未拟合出来的信息（黄色条）
拟合出的信息：拟合出来的线上的点减均值（红色条）

对于一个模型来说：误差信息越短，拟合出的信息越长，拟合效果越好。

拟合优度涉及的三个指标： SST, SSE, SSR

1. SST：总体平方和，它的大小描述了数据集中的数的分散程度

2. SSE：残差平方和

3. SSR：回归平方和，拟合数据的分散情况

R方的范围是。

2. 是否可以通过比较R方大小，来证明“加入某个变量有利于提高模型的拟合程度”？

在大多数模型中（包括线性模型），加入某个自变量之后，R方保持不变或增加，即使该变量对因变量的相关性或者预测能力很差。直观理解是，模型可能对数据过度拟合，出现了虚假的模型改进。因此，以R方增加来判断新加入变量对模型的贡献，不合适。

为了解决这个问题，可以用adjusted R squared。这个指标同时考虑了R方和变量个数，如果新加入变量的贡献小于已有变量的“平均贡献”，则adjusted R squared会随着变量加入而减小。

3. 调整后的R2

在样本容量一定的情况下，增加解释变量必定使得自由度减少

目的：在模型的复杂程度和衡量模型的优良程度上取一个平衡

　　让模型趋于简单（模型复杂之后会使预测受到一定限制：过拟合）

　　所以注意！多元统计要用调整后的R2来衡量

具体操作：将残差平方和与总离差平方和分别除以各自的自由度，以剔除变量个数对拟合优度的影响

或者写成：

n是样本的个数，p是变量的个数

4. R方不能支持模型的哪些假设？

R方并不能用于说明以下的假设是否成立[2]

模型中的自变量是因变量产生变化的原因。

模型存在omit-variable bias，即忽略了某个重要自变量导致出现偏差。

所选用的回归模型是合理的。

所选用的自变量集合是最合理的。

自变量之间不存在共线性。

如果对自变量进行变换，模型的拟合程度将会提升。

选用的数据量足够用于得到有说服力的结论。

因此，如果你在定量研究中得到了很高的R方，恭喜你得到了不错的结果，但这并不是研究的最终目的。为了说明模型的可用性，需要从其他方面进行讨论和验证。很多时候，画出预测值 vs. 真实值的散点图，可以提供直观的判断。

5. R2和调整后的R2调用方法

from sklearn.metrics import r2_score#R square R2：r2_score(y_test,y_predict) Adjusted_R2：:1-((1-r2_score(y_test,y_predict))*(n-1))/(n-p-1)

参考资料：

【1】统计知识 | 决定系数 R方、调整后的R方、F值 - 机器快点学习 - 博客园 (cnblogs.com)

【2】Wikipedia entry on the Coefficient of determination https://en.wikipedia.org/wiki/Coefficient_of_determination

总结

以上是生活随笔为你收集整理的决定系数R2真的可靠吗？的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇：统计学相关问答
下一篇：【强烈推荐】最好理解的LSTM与GRU教