可视化总结
4类主要的可视化视图
比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图;联系:查看两个或两个以上变量之间的关系,比如散点图;构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图;分布:关注单个变量,或者多个变量的分布情况,比如直方图。单变量可视化视图:
一次值关注一个变量。如我们一次只关注身高变量,来看身高的取值分布,而暂时忽略其他变量。多变量可视化视图:
可以让一张图同时查看两个以上的变量,比如“身高”和“年龄”,你可以理解是同一个人的两个参数,这样在同一张图中可以看到每个人的“身高”和“年龄”的取值,从而分析出这两个变量之前是否存在某种联系。离散变量和连续变量:
离散变量是指其数值只能用自然数或整数单位计算的则为离散变量. 例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得. 反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.针对离散变量我们可以使用常见的条形图和饼图完成数据的可视化工作,那么,针对数值型变量,我们也有很多可视化的方法,例如箱线图、直方图、折线图、面积图、散点图等等。散点图:
引入工具包,Matplotlib的pyplot包
import matplotlib.pyplot as plt总结
- 上一篇: 家里的蟑螂怎么消灭?
- 下一篇: K折交叉验证和pipeline