欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop组件及功能

发布时间:2023/12/14 编程问答 36 豆豆
生活随笔 收集整理的这篇文章主要介绍了 Hadoop组件及功能 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

Hadoop组件及其作用

hadoop有三个主要的核心组件:HDFS(分布式文件存储)、MAPREDUCE(分布式的计算)、YARN(资源调度)。

    Hadoop Distributed File System (HDFS™):HDFS是一个分布式文件系统,提供高吞吐量数据存储

    Hadoop MapReduce大数据集合的并行计算

    Hadoop YARN: 是一框架,任务调度和集群资源管理

1.HDFS

      将数据划分为很多个块,默认一个块block(128MB),一个500M文件4块,每一个块存储3份,存储3份的好处,为了安全(空间换安全性)。

主节点:NameNode

       决定数据存储在那个DataNode

       管理元数据(那个机器存储了什么数据,索引)

       管理所有从节点

从节点:DataNode

       存储数据,管理数据(管理当前机器)

2.MapReduce

       并行计算的框架

       分而治之的思想

              将海量的数据划分为 多个部分,每部分单独进行处理,最后将所有处理的结果进行合并

       Map:MapTask

              但对处理每一部分的数据

              按照OOP思想,就是一个方法(map),在里面处理实际业务逻辑能力

       Reduce:ReduceTask

             合并MapTask输出的结果数据

            按照OOP思想,就是一个方法(reduce),在里面处理实际业务逻辑能力

3.YARN

 

      分布式集群资源管理和任务调度框架:管理各个机器的资源(cpu和内存),并且合理调度分配资源给各个程序使用(MapReduce程序的运行)

主节点:ResourceManager

       管理子节点功能

       相应客户端请求

任务调度

从节点:NodeManager

       管理当前机器的资源

总结

以上是生活随笔为你收集整理的Hadoop组件及功能的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。