当前位置：首页 > 编程语言 > python >内容正文

python

大数据学习-python通过Pyhive连接hive数据库

发布时间：2023/12/20 python 44 豆豆

生活随笔收集整理的这篇文章主要介绍了大数据学习-python通过Pyhive连接hive数据库小编觉得挺不错的,现在分享给大家,帮大家做个参考.

1.hbase和hive结合

（1）hbase建表添加数据

#test是表名，name是列族 #hbase可以一个列族里边多个字段 create 'test','name'#添加数据 put 'test','1','name:t1','1' put 'test','1','name:t2','2'#查询 scan 'test'#查询 get 表名，row-key，列族 get 'test','1','name:t1'#删除表 disable 'test' drop 'test'#查看表信息 desc 'test'

（2）在hive上创建外部表，映射hbase

CREATE EXTERNAL TABLE test( key string,t1 int, t2 int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\u0001' STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,name:t1,name:t2") TBLPROPERTIES ("hbase.table.name" = "test", "hbase.mapred.output.outputtable" = "test");

测试，两个平台数据是否相通。且数据同步更新。

2.hive连接和并用pandas读取数据

（1）配置hive-site.xml文件

<property><name>hive.server2.thrift.bind.host</name><value>192.168.99.250</value> </property> <property><name>hive.server2.thrift.port</name><value>10000</value> </property>

（2）启动hive

hive --service metastore & hiveserver2 &

（3）读取数据

from pyhive import hive import pandas as pd conn = hive.Connection(host = IP地址, port = 10000, username = 'hive') #host主机ip,port：端口号，username:用户名，database:使用的数据库名称cursor = conn.cursor() cursor.execute('show databases')# 打印结果 for result in cursor.fetchall():print(result) 或者pandas读取 sql = 'select * from default.employees'df = pd.read_sql(sql,conn)

总结

以上是生活随笔为你收集整理的大数据学习-python通过Pyhive连接hive数据库的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇： c语言抽签系统_抽签小程序（C语言随机数
下一篇： python os renames_Py