GFS阅读笔记(三)

5.容错与诊断
挑战:
(1)集群中有机器挂掉怎么办;
(2)产生不完整的数据怎么办;
5.1高可用性
(1)快速恢复技术:不管master和chunkserver如何关闭,可以在秒级时间恢复并重启,这可以用重试加心跳机制检测可用性,用重试来避免少量颠簸引起的丢包或延时;
(2)chunk复制技术:chksum校验能轻易发现损坏或者不完整的数据,并复制损坏的chunk;
(3)master的复制:master的日志、checkpoint文件都会有冗余;
(4)master冗余:多个影子master存在,一旦master挂掉,影子master可以马上恢复;

5.2数据完整性
(1)chunk分块:chunk分为64KB的小块,每块对应32bit的checksum;
(2)checksum独立保存:checksum与数据分开存储,永久保存,独立日志;
(3)独立检测单元:chunkserver会定时检测chunk各个分块的checksum,发现错误,立刻复制;

5.3诊断工具
(1)一些辅助手段判断系统是否正常运行,如显示当前系统运行状况等;
(2)线下日志挖掘、监控手段等;

n.结束语
GFS展示了一个使用普通硬件支持大规模数据处理的系统特性,虽然有一些定制化,但还是有很多类似规模和成本的处理任务:
(1)可预见的特性:失效是常态、追加写、顺序读、简易接口等;
(2)监控、冗余、快速自动恢复来容灾;
(3)分离控制流与数据量,提高吞吐量。

评论关闭。