Facebook是如何存储每天20亿张照片的——Cold Storage系统揭秘
yuyutoo 2024-10-12 01:18 8 浏览 0 评论
Facebook的庞大帝国需要存储的数据时刻都在不断爆炸。比方说,现在它每天要分享20亿张照片,而且需求还在不断增加,唯有靠不断建设扩充存储和数据中心才能满足。
此前我们曾多次介绍过Facebook的数据中心(见Facebook新数据中心揭秘、再探Facebook数据中心),包括俄勒冈的Prineville、北卡罗来纳州的Forest和瑞典的吕勒奥以及爱荷华州的阿尔图纳拥等不仅如此,Facebook还大量采用自己自家的技术来搭建,并且把这种经验开放出来跟大家共享。这里面最先进的是最新的阿尔图纳数据中心,它采用了由廉价交换机组成的网状连接交换架构来提升性能,Facebook称之为下一代的数据中心—Data Center Fabric。
上述解决方案对于提升数据中心的网络性能、降低成本以及提高能效起到了非常关键的作用。但是对于存储需求的不断增加却没有办法,需要Facebook研究其他的应对措施。近日,Facebook揭秘了自己的cold storage system存储系统是如何解决这个问题的。
顾名思义,cold storage(冷存储)存放的就是不常使用的数据,比如说几年前的历史数据。对于历史数据,传统的解决方案是采用带库、光盘等廉价介质来存储的,但是这种介质的缺点在于存取和访问速度太慢。Google不久前推出的云存储服务Google Cloud Storage Nearline较好地解决了这个问题。
设计原则
不过Facebook团队决定用全新的角度去审视问题,他们从头开始,以端到端的方式重新设计了软硬件。
1)节能降耗
在这套以存储为核心的Cold Storage System中,存储资源是按需启动的,同时摒弃了冗余发电机或备用电池等以提高能效。由于cold storage采用的是低端商品化硬盘,硬件方面的约束要求进行命令批处理要非常小心,并且需要牺牲时延以换取效能。其对物理盘的存取是以平均故障间隔时间为基础控制硬盘的忙闲度(占空比)的。
2)智能管理
由于前面为了省电降低成本舍弃了备用电,这就要求软件任何时候都能应对哪怕是最小的电力中断,避免出现数据丢失的情况。
此外,数据还要具备持久性并保证完整性。为了保证持久性,系统设计时每一层面都要考虑持久性,消除单点故障,以尽可能少的步骤恢复整个系统,Cold Storage甚至连单独管理元数据的系统都是可有可无。也就是说,数据本身即可自我描述,不需要借助外部就能够辅助进行恢复。这么做的原因在于cold storage是其他系统数据丢失情况下的最后一道防线了。
3)面向未来
考虑到Facebook的数据设计时还需要考虑未来。很多系统在规模扩大或者利用率上升时往往就会性能下降或出问题,所以Facebook的这套系统一开始设计时就得考虑如何避免这一问题。
Facebook在Prineville的Cold Storage设施
基于上述考虑,目前Facebook已经在Prineville及Forest两个中心建设了两套cold storage系统,里面存放着数百PB(100万)的数据。不过如此的高容量其能耗仅为传统存储解决方案的1/4。而且跟一般系统不一样的是,这套系统的性能并不会随着规模扩大而下降,恰恰相反,系统越大性能反而越佳。最后一点值得关注的是,Facebook的这套存储系统采用了十分经济高效的冗余备份方式,可以以低于2的系数实现数据的备份冗余。从以上几点来看,作为一套半在线半离线存储系统,cold storage表现出来十分理想的特性。当然,要想发挥这套系统的效用,还需要Facebook开放计算体系如开放机架、网络、数据中心等其他组成部分的配合,一般人想学并不容易。
Cold Storage System的基础是Open Vault Storage。这是一套专门针对Open Rack(开放计算的机架标准)打造的简单高效的存储解决方案,它采用了模块化的I/O拓扑,2U机框可容纳30块硬盘(每托盘15块硬盘,横放而不是竖放),几乎可以与任何服务器互操作。Cold Storage就是在这样一套高密度的JBOD(Just a Bunch Of Disks ,磁盘簇)存储基础上修改而成的。
Cold Storage机架
硬盘按需启动,电耗降到1/4
降低耗电是系统一开始的设计目标之一。据介绍这套系统的耗电极低,降到了传统数据中心的1/6。其手段之一是以空间换降耗。数据中心占地面积非常大,满容的情况下每数据大厅可支撑1000PB的存储容量。随着以后单盘容量的提升,其存储规模还可以进一步扩大。
同时由于cold storage system存放的不是活跃的生产数据,而是历史数据,所以Facebook把冗余电力系统(不间断电源、发电机、备用电池等)也撤销了,从而进一步提升了能效。
架内布置,每2U放30块硬盘,电源插框放中间位置
为了尽可能降低能耗,Cold Storage允许服务器可以不带硬盘启动,然后由软件来控制忙闲度。不过这样就要求对Open Vault存储规范进行修改。其最大的改动是每次只允许每托盘有一块硬盘上电。为了避免软件bug错将所有硬盘上电导致数据中心保险烧坏,Facebook甚至还专门修改了硬盘驱动器的固件。
此外,由于不必每次都要给所有硬盘供电,每个存储节点散热风扇的数量也从6个降到了4个,供电机框数从3个降到了1个,供电单元数从7个降到了5个,Open Rack机架母线数特从3条降到了1条。这样的调优令机架的存储密度大大增加,每机架可容纳2PB的存储容量(4TB硬盘),与传统存储服务器相比,其耗电只有后者的1/4。
2U机箱,5*3块硬盘,绿色的是SAS扩展板
用经济的方式保证数据安全
传统上为了保证数据的安全,一般会采用多副本技术来避免硬件故障,但这么做需要拷贝几份数据,造成了资源的浪费,能不能在存放的数据不多于两份的情况下避免数据丢失呢?
尤其是Cold Storage采用的都是些廉价硬盘,而且又没有备用电池,故障中断等情况都是难免的。
怎么解决呢?Facebook采用了Reed Solomon Coding纠删码技术。纠删码是存储领域常用的数据冗余技术,其基本原理是将原始数据切分为n块,然后根据这几块生成m个校验块。利用算法,从从n个原始数据块和m 个校验块中任取n块就能解码出原始数据,也就是说进行这样的处理后,哪怕有m块数据同时丢失数据仍能恢复。通过将这些数据分到不同的故障域(如硬盘),Cold Storage就可以以较小的成本实现数据的保护。显然,校验块越多,可容忍的数据块出错数也就越多。当然,其代价是额外需要的硬盘也越多。
那多少才合适呢?这需要对硬盘的失败特征进行调查和建模才能确定数据分块数和校验块数。Facebook目前的配置是10:4(每10块硬盘配4块校验盘)。也就是说,用1.4GB的空间实现对1GB数据的备份,这种情况下可忍受4块硬盘同时坏掉。但是这种配比也会随着硬件特性以及对安全性的要求而变化的,因此Facebook开发了数据重新编码服务,这样就可以根据情况变化(存储媒体的可靠性)来重新灵活组织数据。
RS纠删码技术,把1GB数据切分为10块分别放在10块硬盘,另用4块硬盘放校验,可容忍4块硬盘同时坏掉
与以往模式相比,这种备份方式效率显然高得多,而且数据的持久性也大为增长。不过纠删码只能应付数据丢失,但是对于篡改却无能为力。为此,Facebook通过创建、维护及检查校验和来验证数据的完整性。而且这些校验和就挨着数据存放,一旦发现错误就马上从别处复制一份过来。
俗话说大脑越用越灵,不用则衰,存储也是这样。完全闲置或者不动的数据容易损坏,这就是所谓的“位衰减”。为此,Facebook在后台开启了一个“反熵”进程,专门用来定期扫描所有硬盘上的数据,从中检测数据畸变并报告。这个频率是每30天一次全扫描。一旦发现错误,另一个进程就会接管,然后读取足够多的数据去重建丢失的数据,并将其写入到新的硬盘上。由于整个过程将检测、失败分析与重构及保护分离开来,重构的耗时从小时级降到了分钟级。
Facebook还对数据存取进行了彻底改造。由于大多数现代文件系统在设计上的缺陷,这些文件系统基本上无法胜任短时间内进行大量频繁的加载与卸载操作。而且而且由于文件系统处在非常底层的位置,导致错误调试非常困难。Facebook的做法是跳过文件系统,将所有硬盘移植为“裸盘”。这样的好处是可以掌控整个数据流,从而进一步保证数据的持久性。
规模越大性能越好
传统系统往往规模越大性能就开始下降。Facebook希望避免这一点,甚至定下了越大越好的目标。其做法是每次增加容量时软件都要对现有数据进行再平衡—即将原有数据分配到新的硬件上,并释放之前用过的空间。这个过程并非实时进行,十分适合于在用系统的逐步移植,即既不影响系统的使用,又能逐步将数据迁移到新硬件上。如果把Cold Storage看作一块大硬盘的话,你可以把这种再平衡的做法视为智能硬盘整理程序。
未来计划
通过将冷数据(历史数据)与热数据(生产数据)分离、用冷存储系统处理冷数据的做法,Facebook得以实现降低能耗及节省其他资源节省的同时服务好数据请求。不过尽管目前Facebook的两套cold storage系统已经有数百PB的数据,但是这还只是整个数据量的1%,而且Facebook的数据每天还在不断增加。因此,社交巨头还需要继续扩大自己系统的规模,同时还将探索闪存、蓝光盘等各种存储媒介的利用,以及研究跨数据中心分布式存储文件数据的方法以改进持久性。
相关推荐
- 墨尔本一华裔男子与亚裔男子分别失踪数日 警方寻人
-
中新网5月15日电据澳洲新快网报道,据澳大利亚维州警察局网站消息,22岁的华裔男子邓跃(Yue‘Peter’Deng,音译)失踪已6天,维州警方于当地时间13日发布寻人通告,寻求公众协助寻找邓跃。华...
- 网络交友须谨慎!美国犹他州一男子因涉嫌杀害女网友被捕
-
伊森·洪克斯克(图源网络,侵删)据美国广播公司(ABC)25日报道,美国犹他州一名男子于24日因涉嫌谋杀被捕。警方表示,这名男子主动告知警局,称其杀害了一名在网络交友软件上认识的25岁女子。雷顿警...
- 一课译词:来龙去脉(来龙去脉 的意思解释)
-
Mountainranges[Photo/SIPA]“来龙去脉”,汉语成语,本指山脉的走势和去向,现比喻一件事的前因后果(causeandeffectofanevent),可以翻译为“i...
- 高考重要考点:range(range高考用法)
-
range可以用作动词,也可以用作名词,含义特别多,在阅读理解中出现的频率很高,还经常作为完形填空的选项,而且在作文中使用是非常好的高级词汇。...
- C++20 Ranges:现代范围操作(现代c++白皮书)
-
1.引言:C++20Ranges库简介C++20引入的Ranges库是C++标准库的重要更新,旨在提供更现代化、表达力更强的方式来处理数据序列(范围,range)。Ranges库基于...
- 学习VBA,报表做到飞 第二章 数组 2.4 Filter函数
-
第二章数组2.4Filter函数Filter函数功能与autofilter函数类似,它对一个一维数组进行筛选,返回一个从0开始的数组。...
- VBA学习笔记:数组:数组相关函数—Split,Join
-
Split拆分字符串函数,语法Split(expression,字符,Limit,compare),第1参数为必写,后面3个参数都是可选项。Expression为需要拆分的数据,“字符”就是以哪个字...
- VBA如何自定义序列,学会这些方法,让你工作更轻松
-
No.1在Excel中,自定义序列是一种快速填表机制,如何有效地利用这个方法,可以大大增加工作效率。通常在操作工作表的时候,可能会输入一些很有序的序列,如果一一录入就显得十分笨拙。Excel给出了一种...
- Excel VBA入门教程1.3 数组基础(vba数组详解)
-
1.3数组使用数组和对象时,也要声明,这里说下数组的声明:'确定范围的数组,可以存储b-a+1个数,a、b为整数Dim数组名称(aTob)As数据类型Dimarr...
- 远程网络调试工具百宝箱-MobaXterm
-
MobaXterm是一个功能强大的远程网络工具百宝箱,它将所有重要的远程网络工具(SSH、Telnet、X11、RDP、VNC、FTP、MOSH、Serial等)和Unix命令(bash、ls、cat...
- AREX:携程新一代自动化回归测试工具的设计与实现
-
一、背景随着携程机票BU业务规模的不断提高,业务系统日趋复杂,各种问题和挑战也随之而来。对于研发测试团队,面临着各种效能困境,包括业务复杂度高、数据构造工作量大、回归测试全量回归、沟通成本高、测试用例...
- Windows、Android、IOS、Web自动化工具选择策略
-
Windows平台中应用UI自动化测试解决方案AutoIT是开源工具,该工具识别windows的标准控件效果不错,但是当它遇到应用中非标准控件定义的UI元素时往往就无能为力了,这个时候选择silkte...
- python自动化工具:pywinauto(python快速上手 自动化)
-
简介Pywinauto是完全由Python构建的一个模块,可以用于自动化Windows上的GUI应用程序。同时,它支持鼠标、键盘操作,在元素控件树较复杂的界面,可以辅助我们完成自动化操作。我在...
- 时下最火的 Airtest 如何测试手机 APP?
-
引言Airtest是网易出品的一款基于图像识别的自动化测试工具,主要应用在手机APP和游戏的测试。一旦使用了这个工具进行APP的自动化,你就会发现自动化测试原来是如此简单!!连接手机要进行...
- 【推荐】7个最强Appium替代工具,移动App自动化测试必备!
-
在移动应用开发日益火爆的今天,自动化测试成为了确保应用质量和用户体验的关键环节。Appium作为一款广泛应用的移动应用自动化测试工具,为测试人员所熟知。然而,在不同的测试场景和需求下,还有许多其他优...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)