400 028 6601

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

Hadoop相关概念

Hadoop是什么
Hadoop核心
Hadoop基础架构

 HDFS概念
  数据块
  NameNode
  DataNode

成都创新互联,是成都地区的互联网解决方案提供商,用心服务为企业提供网站建设、成都app软件开发微信小程序、系统按需开发网站和微信代运营服务。经过数10年的沉淀与积累,沉淀的是技术和服务,让客户少走弯路,踏实做事,诚实做人,用情服务,致力做一个负责任、受尊敬的企业。对客户负责,就是对自己负责,对企业负责。

数据块:抽象块而非整个文件作为存储单;默认大小64MB一般设置为128M,备份X3。
NameNode:管理文件系统的命名空间,存放文件元数据;维护着文件系统的所有文件和目录,文件与数据块的映射;记录每个文件中各个块所在数据节点的信息。
DataNode:存储并检索数据块;向NameNode更新所存储块的列表。

HDFS优点
HDFS缺点
Hadoop各个功能模块的理解

1、HDFS模块

HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,HDFS是个相对独立的模块,可以为YARN提供服务,也可以为HBase等其他模块提供服务。

2、YARN模块

YARN是一个通用的资源协同和任务调度框架,是为了解决Hadoop1.x中MapReduce里NameNode负载太大和其他问题而创建的一个框架。
YARN是个通用框架,不止可以运行MapReduce,还可以运行Spark、Storm等其他计算框架。

3、MapReduce模块

MapReduce是一个计算框架,它给出了一种数据处理的方式,即通过Map阶段、Reduce阶段来分布式地流式处理数据。它只适用于大数据的离线处理,对实时性要求很高的应用不适用。

延伸思考

HDFS写流程

Hadoop相关概念
1、客户端想NameNode发起写数据请求
2、分块写入DataNode节点,DataNode自动完成副本备份
3、DataNode向NameNode汇报存储完成,NameNode通知客户端

HDFS读流程

Hadoop相关概念
1、客户端向NameNode发起读数据请求
2、NameNode找出距离最近的DataNode节点信息
3、客户端从DataNode分块下载文件

MapReduce

MapReduce是一种编程模型,是一种编程方法,是抽象的理论。

MapReduce四个阶段

MapReduce编程模型
- 输入一个大文件,通过split之后将其分为多个分片    
- 每个文件分片由单独的机器去处理,这就是Map方法    
- 将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法。    

分享名称:Hadoop相关概念
文章分享:http://mzwzsj.com/article/igsepo.html

其他资讯

让你的专属顾问为你服务