执行sqoop 用shell_Mysql和Hive之间通过Sqoop进行数据同步
生活随笔
收集整理的这篇文章主要介绍了
执行sqoop 用shell_Mysql和Hive之间通过Sqoop进行数据同步
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
文章回顾
理论
大数据框架原理简介
大数据发展历程及技术选型
实践
搭建大数据运行环境之一
搭建大数据运行环境之二
本地MAC环境配置
CPU数和内存大小
- 查看CPU数
- 内存大小
在本地开了3个虚拟机centos服务器
虚拟机服务器配置
服务器1 192.168.84.128 4核4G服务器2 192.168.84.131 1核2G服务器3 192.168.84.132 1核2G因为服务器1上的按照的软件比较多 所以这样分配核数和内存 可以将大数据环境运行起来虚拟机软件给一个虚拟机分配核数和内存的方式
通过Sqoop查看Mysql数据库
/usr/local/sqoop/bin/sqoop list-databases --connect jdbc:mysql://hadoop001:3306/?useSSL=false --username root --password 123456在Hive中创建测试表
创建test表
CREATE TABLE IF NOT EXISTS test (id int,uid int,title string,name string,status int,time timestamp)COMMENT '简介'ROW FORMAT DELIMITEDFIELDS TERMINATED BY "001"LINES TERMINATED BY ""STORED AS TEXTFILE;创建test_out表
CREATE TABLE IF NOT EXISTS test_out (name string, count int,time date)COMMENT '简介'ROW FORMAT DELIMITEDFIELDS TERMINATED BY '001'LINES TERMINATED BY ''STORED AS TEXTFILE;hive删除表
- 使用truncate仅可删除内部表数据,不可删除表结构
- 使用shell命令删除外部表
- 使用 drop 可删除整个表
查看hive表
- 查询hive所有表
- 指定default数据库
在Mysql中创建测试表
- 创建test
插入3条测试数据
INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (1, 1, '第一条数据', '平凡人笔记', 1, '2021-01-11 16:30:02');INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (2, 2, '第二条数据', '孟凡霄', 2, '2021-01-11 16:30:20');INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (3, 3, '第三条数据', '平凡人', 3, '2021-01-11 16:30:41');- 创建test_out
Mysql导入Hive
/usr/local/sqoop/bin/sqoop import --driver com.mysql.jdbc.Driver --connect jdbc:mysql://hadoop001:3306/test?useSSL=false --username root --password 123456 --table test --fields-terminated-by '001' --lines-terminated-by '' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table test --direct虽然有报错 ERROR bonecp.BoneCP: Unable to start/stop JMXjava.security.AccessControlException: access denied ("javax.management.MBeanTrustPermission" "register")但不影响导入结果- 查看hive表
增量数据定时导入
mysql test表增加一条测试数据
INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (4, 4, '第四条数据', '笔记', 4, '2021-01-11 16:50:00');- 删除指定job
- 添加一个增量更新的job
- 执行job
- 查看数据已被更新
- 查看job
通常情况可以结合sqoop job和crontab等任务调度工具实现相关业务
Hive导入Hive
cd /usr/local/hive/binhive# 统计后将结果数据加入另一个表INSERT INTO TABLE test_out(name,count,time) SELECT name,count(1),to_date(time) FROM test GROUP BY name,to_date(time);# 或者INSERT OVERWRITE TABLE test_outSELECT name,count(1),to_date(time) FROM test GROUP BY name,to_date(time);查看统计结果
统计成功Hive导入Mysql
# hive的default库中的test_out表数据导出到mysql的test库test_out表/usr/local/sqoop/bin/sqoop export --connect "jdbc:mysql://hadoop001:3306/test?useUnicode=true&characterEncoding=UTF-8&useSSL=false&serverTimezone=Asia/Shanghai" --username root --password 123456 --input-null-string 'N' --input-null-non-string 'N' --input-fields-terminated-by '' --table test_out --hcatalog-database default --hcatalog-table test_out -m 1;导出成功可能遇到的问题及注意点
- hive访问mysql数据库权限问题
mysql需要授权访问者
GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.84.128' IDENTIFIED BY '123456' WITH GRANT OPTION;flush privileges;- 在namenode上执行
- 只有namenode才会有webui 50070端口
后记
接下来研究的方向:1、hive运行原理2、弄一笔数据走一下搭建好的大数据运行环境3、10亿数据如何分库分表存储Mysql4、10亿数据同步到hive5、flink数据如何求交总结
以上是生活随笔为你收集整理的执行sqoop 用shell_Mysql和Hive之间通过Sqoop进行数据同步的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: windows集线器端口上的电涌问题怎么
- 下一篇: centos php 安装mysql_C