pandas的菜鸟级应用(谁都能学会)
简述:
这是本人第一篇博文,因为自己想向最近很火的人工智能,大数据,进行靠拢。所以就从基本做起,掌握基本的python 的库,像 pandas ,numpy 。水平有限大家见谅。
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。(来自百度百科)
一.生成数据
最基础的把不管你进行大数据还是啥的首先你得先读数据吧。
1.导入库`
2.读入csv 或 xlsx 文件。
df = pd.DataFrame(pd.read_csv('name.csv',header=1)) df = pd.DataFrame(pd.read_excel('name.xlsx'))1)关于 read_csv 这个文件有很多参数:
咱罗列一下
这是官网的数据
官网原文链接:(http://pandas.pydata.org/pandas-docs/stable/io.html)
有点吓人,但是别慌,我感觉常用的有几个,总结一下。常用的有,`
(1).filepath_or_buffer 文件的地址和名字`
df = pd.read_csv('mcup(6).CSV', sep=',',engine='python')(2)sep 间隔。如果不使用参数,默认用逗号分隔。有一个好用的间隔符
‘\s+’
正则表达式中\s匹配任何空白字符,包括空格、制表符、换页符等等。
但是要分情况 。不一定‘\s+’ 好用。
(3)delimiter sep 会失效 pd.read_csv(path,sep='\s+',delimiter='\n')sep 不会有作用
(4)delim_whitespace
delim_whitespace=True,分隔符我们就简化成了和sep=’\s+'一样能处理各种常见分割符
(5) header 默认为0 可为数字也可为list(列表) 没有列名时要设成None
为列表时,就像[1,3]时是将第1行和第3行作为标题,第2行就会跳过,并从第4行开始读取数据
当为0 时就是直接第一行为列名,第二行开始为数据,其他同理。 没有列名时要设成None
第一行开始读为数据。
我感觉差不多就这些,再用到别的看官网。
2) 关于read_excel()这个
在罗列几个常用的:
(1)io Excel的存储路径
(2)sheet_name
工作表的名称(中英文都行)。
data = pd.read_excel(io, sheet_name = 1) #还可以 sheet_name = “SheetN” S 要大写 。代表第N个sheet
(3) header 和上面的类似:、
(4) names 重新进行命名 ,像数据库里的 As
假设之前的列名就会别改成 year day month 注意: names 里的个数一定要和列名个数一样。
(5) index_col 用作索引的列
以年作为用作索引的列``
(6) usecols 需要读那些列 可以为整型
意思就是读1,2,3,行
(7)
nrows 读取多少行。
差不多就这样:
二.对读取的信息进行查看
1.看形状 df.shape
2.基本信息df,info()
3.看格式df.dtype
4.看空值df.isnull()
5.看列名df.columns
6.看前十行df.head
7.看后十行df.tail
三.数据合并
1.用merge合并(注意:需指定链接键)
left 左面的DataFrame 对象
right 右面的DataFrame 对象
on 用来确定数据集合的主键
left_on right_on用来指列名使不同的列明合并(注意 列名属性必须相同)
df = pd.merge(df1,df2,left_on="country",right_on ="city")how 是链接方式,默认为inner
how:inner:取交集,outer:并集;left:参照左边表格行,right:参照右边表格行
2.concat 合并
axis =0 为默认值,上下合并 axis =1 左右合并
join 同上
sort 网上说在大数据时不要用。
合并后重新索引。
3.join 合并 (默认为外连接 outer)
df= pd.concat([df1, df2], axis=0, join='outer')默认之下先是进行列合并 ,有相同的列再行合并
四.数据清洗
1.处理缺失值
首先 isnull() 和 notnull 使用
对于缺失的值来说,我用的都是用0 或用平均值代替 或者直接删除
1)用0代替df.fillna(0)
2) 用平均值代替
3)删除df.dropna()
两个返回的都是bool 型变量
2.重复值
df.duolicated() 这是找重复值的函数
df.drop_duplicates() 这是去掉重复值。
3.数据之间有空格(这个因为我是小白还没见过太多数据)
查看 df['名字'].value_counts()
3.去空格:
1)去两边的空格
2)去左边的空格
df['name']=df['name'].map(str.lstrip)3)去右边的空格
df['name']=df['name'].map(str.rstrip)还有就是大小写的转换:
1) 全部变成大写
df['name']=df['name'].map(str.upper)2)全部变成小写
df['name']=df['name'].map(str.lower)3)首字母大写
df['name']=df['name'].map(str.tittle)4.检验类型
1)检验字符
2)检验字母
df['name'].apply(lambda x: x.isalpha())3)检验数字
df['name'].apply(lambda x: x.isalnum())5.改数据类型
df['name']=df['name'].astype(np.int64)6.数据替换
df['city'].replace('sh', 'shanghai')五.数据分组
1.groupby 这学期在学数据库,感觉很像数据库老师说的pandas 和sql 很像,这个就是按什么分类。
对一个字段
df.groupby('country‘) .count()对两个字段
df.groupby(['name','country'])['id'].count()六.数据筛选
这是最关键的至少我感觉(大佬勿喷)
1.直接
2.loc 行索引 以及筛选
print(df1.loc["1"]) aa=df1.loc[( df1['age'] > 1) & (df1['age'] < 10) ] aa=df1.loc[( df1['age'] > 1) ].sort_values(['age'])注意一定要是行标签
2 iloc获取列索引
df1.iloc[0:len(df), 0:3]0 到3 列 所有行
df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称,而是数据所在的位置,从0开始,前三行,前两列。3.重新设置索引
df.reset_index()4.isin 的简单应用
df['city'].isin(['beijing'])也可取反
5.
contains的简单应用
也可正则化,下一次打算系统总结一下正则化
七.常用操作
删除一行,axis 指轴
df1.drop(‘列名’, axis=1)
标准差:
协方差
df['price'].cov(df['m-point'])两个字段的相关性分析
df['price'].corr(df_i['m-point'])写入文件
df.to_csv('example.csv') df.to_excel('python.xlsx', sheet_name='love')大体操作,当然我也只是一个’小学生’,刚刚入门,所以会有理解的偏差,希望大家多多指教。我们共同进步。
总结
以上是生活随笔为你收集整理的pandas的菜鸟级应用(谁都能学会)的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: win7没有语音识别怎么办|win7系统
- 下一篇: USB过滤驱动程序