欢迎访问 生活随笔!

生活随笔

当前位置: 首页 >

pig的安装、pig的数据模型和pig的常用命令

发布时间:2023/12/20 40 豆豆
生活随笔 收集整理的这篇文章主要介绍了 pig的安装、pig的数据模型和pig的常用命令 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

pig的安装

1、解压pig的安装到到安装位置

tar -zxvf pig-***.jar -C 你的安装目录

2、配置环境变量

vim ~/.bash_profile

3、运行pig

pig的运行方式有俩种,这两种方式取决于他们处理文件在什么上面,如果处理的文件在本地linux目录中那么就是本地模式,如果

处理的是hdfs上的文件那么就是集群模式。所以总结为俩种模式,本地模式和集群模式。

本地模式的启动方式:处理的是本地Linux的文件,不是HDFS

启动命令:pig -x local

通过打印的日志Connecting to hadoop file system at: file:///可以看到是链接的就是本地的文件

集群模式:操作的就是HDFS

需要配置一个环境变量:指向Hadoop的配置文件的目录
  PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
  export PIG_CLASSPATH

启动命令:pig

从启动命令后打印的日志,pig链接的是hdfs

pig的数据模型:

pig的数据模型其实pig的表的结构

pig表叫做bag,bag又是有tuple组成。

tuple中有可以嵌套bag

pig有几个注意的点:

   pig的表中的每个tuple可以不是一样的,可以有不同的列

   pig允许表的嵌套

   pig物理存储的数据模型是json数据

  pig的常用命令:

   ls  cd  cat  mkdir  pwd:在pig的集群模式下是操作的是hdfs上的文件,这几个操作命令要比使用hdfs的命令快很多

  copyFromLocal  copyToLocal:这个是用来在本地和hdfs集群上来回的拷贝文件的

  sh:这个是用来在pig集群命令行模式下操作本地文件的

   register define:register是为了注册jar到pig中,define是为了给取别名用的

总结

以上是生活随笔为你收集整理的pig的安装、pig的数据模型和pig的常用命令的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。