欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

看google三篇论文的感触

发布时间:2025/3/15 编程问答 30 豆豆
生活随笔 收集整理的这篇文章主要介绍了 看google三篇论文的感触 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

           刚开始看老师推荐的三篇Google的技术论文(分别是GFS,Mapreduce,Bigtable)时,基本上是云里雾里,摸不着头尾。于是我结合网上查询的资料,对于这些论文讲述的一些知识有了一定的了解。最后,我不得不佩服谷歌的开发人员,佩服他们的思维,佩服他们的逻辑,佩服他们的智慧。其中,最感兴趣的便是Google文件系统的产生。

Google文件系统(GFS):

       Google文件系统(GFS)是由 Google Inc.创建的可扩展分布式文件系统(DFS),旨在满足 Google 不断扩展的数据处理要求。 GFS 为大型网络和连接节点提供容错,可靠性,可扩展性,可用性和性能。

GFS 由几个由低成本商用硬件组件构建的存储系统组成。它经过优化,可以满足谷歌不同的数据使用和存储需求,例如搜索引擎,它可以生成大量必须存储的数据。谷歌文件系统充分利用了现成的优势服务器同时最大限度地减少了硬件缺陷。

GFS 也称为 GoogleFS。

GFS 节点集群是一个拥有多个块服务器的主服务器不断的客户端系统不断访问。块服务器将数据作为 Linux 文件存储在本地磁盘上。存储的数据分为大块(64 MB),这些块在网络中至少复制三次。大块大小减少了网络开销。

GFS 旨在满足 Google 的大型集群需求,而不会给应用程序带来负担。文件存储在由路径名标识的分层目录中。元数据 – 例如命名空间,访问控制数据和映射信息 – 由主控制器控制,主控制器通过定时心跳消息与每个块服务器的状态更新进行交互并监视它们的状态更新。

GFS 功能包括:

最大的 GFS 集群拥有 1,000 多个节点,300 TB 磁盘存储容量。数百名客户可以连续访问。

Google MapReduce:

Google在2003年和2004年提出一篇论文,面向大数据的并行处理的框架模型--MapReduce.

单个计算机无论再好的设备处理能力终究有限,而MapReduce通过简单的接口来实现自动的并行化和大规模的分布式计算,在大量普通的PC机上实现高性能运算,他可以很简单粗暴的通过不断增加pc机数目来提高性能.将此难题迎刃而解,同时促进了大数据时代的到来MapReduce的主要思想概括说来就是四个字,”化整为零”,通过Map(映射)和Reduce(规约)来实现.面对一个复杂的问题,将其分解成若干个map任务和reduce任务,一个map任务即所一个复杂问题分解的一个小问题,reduce任务即将所有已解决的map任务总结汇总最后得出该复杂问题的答案.而这些一个任务的承担者即是一台普通的pc机,叫他worker,执行map任务的叫map worker,当然执行reduce任务的就叫reduce worker了.那么这些任务由谁来分配?也是这些pc机中的一台,他叫做master,他的任务就像他的名字一样,解决这个问题不是他的事儿,他负责分配任务下去,同时管理好这些这些map worker和reduce worker,每一个worker的详细信息都在他的数据内.由于一个问题是由成百上千的机器集群来解决的,如果其中一台机器故障怎么办?Worker故障就由master再集群中再选一个空闲状态的机器出来代替他.

 

Google Bigtable:

Bigtable是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多google的项目使用Bigtable存储数据,这些应用对Bigtable提出了不同的挑战,比如数据规模的要求、延迟的要求。Bigtable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。

Bigtable看起来像一个数据库,采用了很多数据库的实现策略。但是Bigtable并不支持完整的关系型数据模型;而是为客户端提供了一种简单的数据模型,客户端可以动态地控制数据的布局和格式,并且利用底层数据存储的局部性特征。Bigtable将数据统统看成无意义的字节串,客户端需要将结构化和非结构化数据串行化再存入Bigtable

以上就是通过阅读google三篇论文所了解到的知识与感悟

 

 

总结

以上是生活随笔为你收集整理的看google三篇论文的感触的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。