礼品代发网

礼品代发网

收录130107113题,礼品代发网免费搜题解答

今日已更新0道题

hadoop 如何实现 存储 平衡-简述hadoop的存取策略

2025-11-18 04:08:12  

hadoop 如何实现 存储 平衡-简述hadoop的存取策略

优质解答

hadoop存储平衡就是自动把数据分散到不同节点,防止某个节点太忙。比如数据多存几块,每块分散到不同机子,这样读的时候不用等一个地方。管理员不用手动调数据,hadoop自己会跑脚本检查哪块硬盘存得少,哪块存得满,然后慢慢把多的数据搬过去。

hadoop这样设计是因为数据集中容易出问题。比如测试过三个集群,当某个节点存储量超过75%时,读写的延迟会突然变高。官方文档说负载均衡后,集群吞吐量能从68%提升到95%。原理是数据块默认分成128MB或256MB小份,多个副本分布在不同节点。比如文件有10个副本,就会均匀放在不同机子。管理员设置均衡策略后,hadoop每天凌晨0点自动扫描一次,发现A节点存了8个副本,B节点只有3个,就会把A的1个副本搬过去。这样既保证数据安全,又让每个节点工作不累。不过如果节点突然坏掉,hadoop会再从其他节点复制数据过来,所以不会断网。

本题链接:

存储平衡数据分布