`
退役的龙弟弟
  • 浏览: 446806 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

HDFS block块的副本存放策略

 
阅读更多

转自:http://www.cnblogs.com/sparkwoo/archive/2013/05/14/3077440.html

并作一些修改,以更容易理解副本存放策略

 

 

系统默认为每一个数据块存放3个副本,按照布署在NameNode上的默认机架感知策略存放数据块副本。其中:

第一个block副本放在上传文件的datanode,如果是集群外提交则随机挑选一台磁盘不太满,cpu不太忙的datanode。 

 

注:这里所说的本地节点是相对于客户端来说的,也就是说某一个用户正在用一个客户端来向HDFS中写数据,如果该客户端上有数据节点,那么就应该最优先考虑把正在写入的数据的一个副本保存在这个客户端的数据节点上,它即被看做是本地节点,但是如果这个客户端上的数据节点空间不足或者是当前负载过重,则应该从该数据节点所在的机架中选择一个合适的数据节点作为此时这个数据块的本地节点。另外,如果客户端上没有一个数据节点的话,则从整个集群中随机选择一个合适的数据节点作为此时这个数据块的本地节点。

 

第二个block副本放置在与第一个datanode节点相同的机架中的另一个datanode中(随机选择)。  

第三个block副本放置于另一个随机远端机架的一个随机datanode中。 

如果还有更多的副本就随机放在集群的node里。 

 

将第一、二个block副本放置在同一个机架中,当用户发起数据读取请求时可以较快地读取,从而保证数据具有较好的本地性。

第三个及更多的block副本放置于其他机架,当整个本地结点都失效时,HDFS将自动通过远端机架上的数据副本将数据副本的娄得恢复到标准数据。

Hadoop的副本放置策略在可靠性(block在不同的机架)和带宽(一个管道只需要穿越一个网络节点)中做了一个很好的平衡。

分享到:
评论

相关推荐

    云计算环境中HDFS数据块存储策略研究.pdf

    云计算环境中HDFS数据块存储策略研究.pdf

    云计算中HDFS副本管理策略及其应用研究.pdf

    云计算中HDFS副本管理策略及其应用研究.pdf

    HDFS block丢失,导致hadoop进入安全模式的解决方案

    HDFS block丢失hadoop进入安全模式(Safe mode)的解决方法

    HDFS可靠性策略

    分布式文件系统(HDFS)的高可靠性主要是由多种策略及机制共同作用实现的。

    大数据平台构建:HDFS运行原理.pptx

    数据存放在DataNode中后,主节点NameNode会记录这份文件具体切分了多少Block块和每个Block块具体存放的位置,也即元数据信息。 数据文件存储 二、Block Block是HDFS的最小存储单元,默认大小为128M,可以自定义修改...

    基于灰色马尔可夫链预测模型的HDFS云存储副本选择策略 (2011年)

    在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本。针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间...

    第4章 HDFS 2 4.1. 简介 2 4.1.1. 概述 2 4.1.2. 组成架构 4 4.1.3. HDFS文件块大小

    4.1.3. HDFS文件块大小 5 4.2. HDFS的shell操作 6 4.2.1. 基本语法 7 4.2.2. 参数大全 8 4.2.3. 常用命令实操 9 4.3. 通过Java实现HDFS操作及访问 14 4.3.1. IntelliJ IDEA 16 4.3.2. maven软件安装与配置 17 4.3.3....

    hdfs源码.zip

    3.2.2 数据块副本状态 167 3.2.3 BlockManager类(done) 177 3.3 数据节点管理 211 3.3.1 DatanodeDescriptor 212 3.3.2 DatanodeStorageInfo 214 3.3.3 DatanodeManager 217 3.4 租约管理 233 3.4.1...

    论文研究-基于差别概率的HDFS数据放置策略 .pdf

    基于差别概率的HDFS数据放置策略,朱亮亮,卢美莲,HDFS默认的数据放置策略是以均等概率选择数据节点来保证数据均衡地写入数据节点。然而在数据节点性能存在较大差异的实际HDFS集群应�

    8、HDFS内存存储策略支持和“冷热温”存储

    8、HDFS内存存储策略支持和“冷热温”存储 网址:https://blog.csdn.net/chenwewi520feng/article/details/130338388 本文介绍HDFS的存储策略以及“冷热温”存储的配置。 本文的前提依赖是hadoop集群环境可以正常的...

    分布式文件系统hdfs - 副本.zip

    分布式文件系统hdfs分布式文件系统hdfs分布式文件系统hdfs

    HDFS Comics HDFS 漫画

    HDFS是Hadoop分布式计算的存储基础。HDFS具有高容错性,可以部署在通用硬件设备上,适合数据密集型应用,并且提供对数据读写的高吞 吐量。HDFS能 够提供对数据的可扩展访问,通过简单地往集群里添加节点就可以解决...

    HDFS原理介绍

    保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 2. 运行在廉价的机器上。 3. 适合大数据的处理。HDFS默认会将文件分割成block,64M为1个block。 然后将block按键值对存储在HDFS上,并将键值对...

    HDFS原理图

    此图包含内容:HDFS结构/HDFS运行机制、HDFS优缺点、HDFS架构、HDFS数据存储单元(block)、HDFS设计思想、SNN合并流程、Block的副本放置策略、HDFS读流程、HDFS写流程、HDFS文件权限与安全模式,需要使用viso工具打开...

    hdfs文件传输调优

    hdfs文件传输调优,hdfs文件传输调优 hdfs文件传输调优

    HDFS管理工具HDFS Explorer下载地址、使用方法.docx

    windows平台下的HDFS文件浏览器,就像windows管理器一样管理你的hdfs文件系统。现在官网已经停止更新这款软件。具体配置如下: HDFS配置页面及端口http://master:50070 配置HDFS服务器 配置WebHDFS HDFS Explorer...

    Hadoop-Improved-Replic-Data-Placement:基于节点性能上的副本放置策略

    Hadoop-Improved-Replic-data-PlacementHDFS的默认副本放置策略是基于“机架感知”的,即将副本块放置在不同的机架中,以保证数据的安全性,同时结合网络距离排序选择最近的节点放置数据副本,以减少网络带宽的使用...

    HDFS全面详解

    HadoopHDFS分布式文件系统DFS简介HDFS的系统组成介绍HDFS的组成部分详解副本存放策略及路由规则命令行接口Java接口客户端与HDFS的数据流讲解掌握hdfs的shell操作掌握hdfs的javaapi操作理解hdfs的工作原理设计思想...

    7_尚硅谷大数据之HDFS概述1

    1.1 HDFS 产生背景 1.3.1 优点 1.3.2 缺点 1.4 HDFS 组成架构 1.5 HDFS 文件块大小

    论文研究-一种面向HDFS的数据随机访问方法.pdf

    其设计思想是为Datanode添加本地数据访问接口,用户程序可以读取Datanode上存放的数据块文件以及把数据写入到Datanode上的数据块存放目录。文件的首副本由用户程序直接产生,其余副本在首副本写入完成之后采用数据...

Global site tag (gtag.js) - Google Analytics