400 028 6601

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

Hadoop相关概念-创新互联

Hadoop是什么
Hadoop核心
Hadoop基础架构

 HDFS概念
  数据块
  NameNode
  DataNode

成都创新互联科技有限公司专业互联网基础服务商,为您提供川西大数据中心高防主机,成都IDC机房托管,成都主机托管等互联网服务。

数据块:抽象块而非整个文件作为存储单;默认大小64MB一般设置为128M,备份X3。
NameNode:管理文件系统的命名空间,存放文件元数据;维护着文件系统的所有文件和目录,文件与数据块的映射;记录每个文件中各个块所在数据节点的信息。
DataNode:存储并检索数据块;向NameNode更新所存储块的列表。

HDFS优点
HDFS缺点
Hadoop各个功能模块的理解

1、HDFS模块

HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,HDFS是个相对独立的模块,可以为YARN提供服务,也可以为HBase等其他模块提供服务。

2、YARN模块

YARN是一个通用的资源协同和任务调度框架,是为了解决Hadoop1.x中MapReduce里NameNode负载太大和其他问题而创建的一个框架。
YARN是个通用框架,不止可以运行MapReduce,还可以运行Spark、Storm等其他计算框架。

3、MapReduce模块

MapReduce是一个计算框架,它给出了一种数据处理的方式,即通过Map阶段、Reduce阶段来分布式地流式处理数据。它只适用于大数据的离线处理,对实时性要求很高的应用不适用。

延伸思考

HDFS写流程

Hadoop相关概念
1、客户端想NameNode发起写数据请求
2、分块写入DataNode节点,DataNode自动完成副本备份
3、DataNode向NameNode汇报存储完成,NameNode通知客户端

HDFS读流程

Hadoop相关概念
1、客户端向NameNode发起读数据请求
2、NameNode找出距离最近的DataNode节点信息
3、客户端从DataNode分块下载文件

MapReduce

MapReduce是一种编程模型,是一种编程方法,是抽象的理论。

MapReduce四个阶段

MapReduce编程模型
- 输入一个大文件,通过split之后将其分为多个分片    
- 每个文件分片由单独的机器去处理,这就是Map方法    
- 将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法。

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


网站标题:Hadoop相关概念-创新互联
URL链接:http://mzwzsj.com/article/dpgoss.html

其他资讯

让你的专属顾问为你服务