当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

HDFS【2.5.1】系列1：HDFS的核心数据结构---元数据

发布时间：2025/3/17 编程问答 29 豆豆

生活随笔收集整理的这篇文章主要介绍了 HDFS【2.5.1】系列1：HDFS的核心数据结构---元数据小编觉得挺不错的,现在分享给大家,帮大家做个参考.

2019独角兽企业重金招聘Python工程师标准>>>

我们都知道Hadoop的底层是HDFS-Hadoop Distributed File System.也就是Hadoop分布式文件系统。

所有的运算都是基于HDFS文件的，它的核心关键词有：主从NameNode VS DataNode.

-----------其中NameNode上存储的就是元数据---描述数据文件的meta信息。

存在形式有：内存信息+硬盘文件信息。

这段时间，就让我们一起来了解HDFS的元数据以及HDFS文件系统的要义吧。

-------------------------------------------------------------------------------------------------

试想，如果让我们自己设计一个文件系统，我们需要元数据存储哪些信息？

其实这取决于信息得到哪些功能？

个人认为功能包括：

1）namenode和所有datanode的IP,端口，文件夹，容量等信息。这相当于一个总体的文件系统框架描述。

2）每个datanode的文件的层次描述，文件目录关系。这个比1就更细致了。

3）对于某个文件，知道拆分了几块，每块的大小，备份情况，分别分布在哪些datanode上的哪些路径上。

从1我们可以得到分布式文件系统框架的骨架，从2我们可以得到分布式文件系统的血肉，从3我们可以得到具体的访问一个文件的方式。

有了以上3个，实际上就是namenode的元数据信息的组成部分，一切从应用的需求出发才可以得到设计图。

-------------------------------------------------------------------------------------------------

启动时，元数据从硬盘里被FSImage读取到内存中。

在持久化时，元数据被FSImage持久化到硬盘中。

同时硬盘中也会存放操作日志edits.我目前的理解是：把操作日志的行为累加起来---》最终的元数据。

这个也就像是redis里干的一样了。很多数据库也是这么操作的，这个没啥好说的，很简答！

-------------------------------------------------------------------------------------------------

HDFS也引入了INode,这实际上跟linux中的文件系统中的INode是一样的，其次就是由于是分布式文件系统

所以每个文件的分片在hdfs中就成了Block。块。

这里必须要强调：块是按照物理大小分的，而不是分局逻辑大小，这样会引入什么问题？

就是一个逻辑记录可能会分到2个块中，而这2个块可能还是跨机器的。

这些hadoop都会解决。以后再讨论。

-------------------------------------------------------------------------------------------------

理论讲得再多，也不及代码来得实在而痛快。

下面就讲一讲HDFS的format究竟做了哪些事情！

转载于:https://my.oschina.net/qiangzigege/blog/345055

以上是生活随笔为你收集整理的HDFS【2.5.1】系列1：HDFS的核心数据结构---元数据的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。