数据存储,为什么是利用数据的基础?

存储是利用数据的基础。只有看清了这一点,我们才能更加游刃有余地改造和优化存储架构,并使之成为数据价值挖掘的有利工具和平台。

文|陈根 

在信息化时代里,作为人们获取信息、汲取知识的素材和源泉,数据已经成为社会生产和生活既重要又具体的资源。当然,要让数据全面、充分地发挥出其价值,一个看似简单却必要的前提是:数据需要被妥善保管在可靠、可信、可管理的平台中,能够被随时随地且方便地存取。

可以说,存储是利用数据的基础,是数据处理、数据挖掘、数据价值等实现的前提,数据存储的重要性不言而喻。然而,数据作为当前社会最宝贵的资源之一,如何做好各类数据的长期存储管理,依然是个有待解决的问题。

一方面,伴随着各类信息化应用的迅猛发展,数据量正在呈指数级增长,大量数据吞吐和运算,带来不可忽视的能耗问题;另一方面,由于不同主体对信息化的不同需求,各类数据依然被封存在不同的系统中,孤岛林立,不可避免地带来资源的浪费。

当前,我们已身处于存储变革的风暴眼中,加快推动数据资源共享和开发应用,更好地存储、管理和使用数据是数据存储的当务之急。

存储技术日新月异

不可否认,人类在过去200年里取得的存储技术的进步比在之前2000年里取得的还要多。

1932年,奥地利出现了早期计算机的磁鼓内存。一个三维模拟的磁鼓存储器形成一个阵列,相当于一个硬盘,由此而生的磁滚筒存储成功地运用在IBM 650超级计算机中,并于1953年发布。IBM 650长为16英寸,直径4英寸,鼓旋转速度为750千赫,可以存储高达8.5 KB的数据。

磁鼓存储器在1950至60年代用作计算机的主要外存储器。它利用电磁感应原理进行数字信息的记录与再生,由作为信息载体的磁鼓筒、磁头,读写及译码电路和控制电路等主要部分组成。不过,磁鼓是利用铝鼓筒表面涂覆的磁性材料来存储数据的。鼓筒旋转速度很高,因此存取速度快。它采用饱和磁记录,从固定式磁头发展到浮动式磁头,从采用磁胶发展到采用电镀的连续磁介质。

这些,都为后来的存储器打下了基础。1956年,世界上的第一款硬盘终于由IBM设计完成。这款名为IBM350 RAMAC的硬盘产品体积十分庞大,但容量仅为5MB,总共使用了50张24英寸的盘片。

1973年,IBM公司制造出第一台采用“温彻斯特”技术的硬盘。自此,硬盘技术的发展有了正确的结构基础。它的容量为60MB,转速略低于3000RPM,采用4张14英寸盘片,存储密度为每平方英寸1.7MB。1991年,IBM生产的3.5英寸的硬盘使用了MR磁头,使硬盘的容量首次达到了1GB,硬盘容量由此进入了GB数量级的发展新阶段。 

数字数据存储的引入改变了我们生产、操作和存储信息的方式。显然,相比起书面存储,数字存储有更低的成本和更高的效益。当前,数字信息已经渗透到我们生活和社会的方方面面,以至于近些年信息生产量的增长似乎势不可挡。数字信息的膨胀带了巨大的存储需求,也推动了存储产业进行自发的更新。

一方面,新的存储产品形态和技术架构开始普及。一是闪存和固态硬盘(SSD)价格持续降低,成为更多人的选择;二是存储技术也在快速发展,新的接口、协议、架构开始出现,使存储设备的带宽、性能和存储容量得到极大提升,为更高性能的服务器设计和更大规模的数据中心应用做好了准备。

另一方面,新的存储系统以及建立在其上的各种存储架构理念开始出现。除了传统的存储阵列之外,全闪存阵列、混合存储等存储系统开始涌现,从不同的角度满足大规模存储和上层应用对于数据的快速读取需要;融合存储、超融合存储、软件定义存储等各种理念,各自都能看到许多厂商的背后支持。

此外,在软件技术和硬件发展的推动下,云计算技术和产业日趋成熟,给包括存储在内的传统硬件产业带来巨大的冲击。总的来说,存储技术的发展支撑着日益扩大的数据应用的需求,使数据不断升华为信息和知识,并再一次被重新投入到新一轮的各类社会经济活动中,创造出更大的价值。

能耗问题和数据孤岛

数据存储的重要性不言而喻。然而,数据作为当前社会最宝贵的资源之一,在数据存储技术不断更新的背景下,却依然面临各类数据的长期存储管理不善的问题——在大量数据吞吐和运算带来不可忽视的能耗问题的另一边,数据孤岛问题突出,资源浪费难以避免。

在2进制代码中,数字信息以1和0的形式存储,也称为比特。8比特构成1字节。然而,全世界在2018年创建、捕获、复制和消耗的数据总量就已经达到33泽字节(ZB),而1泽字节整整有8x1021比特。2020年,这一数字增长到59 ZB,预计到2025年将达到令人难以想象的175 ZB。

更直观地说,假设每一个比特都是一枚硬币,大约3毫米厚。由一摞硬币组成的1ZB将有2550光年高,可以到达最近的恒星系统半人马座阿尔法星600次。目前,我们每年产生的数据量是这个数字的59倍,复合增长率估计在61%左右。

为满足日益增长的数字数据存储需求,每两年就会有约100个新的超大规模数据中心建成。根据工信部印发的《新型数据中心发展三年行动计划(2021-2023年)》,到2023年底,全国数据中心机架规模年均增速保持在20%左右,总算力超过200EFLOPS,高端算力占比达到10%。

大量数据吞吐和运算,不可避免地增加用电量,这将排放大量二氧化碳,以及二氧化硫、氮氧化物等主要环境污染物。2018年,中国数据中心总用电量为1608亿千瓦时,占全社会用电量2.35%,用电相关排放量为9855万吨二氧化碳,成为名副其实的“耗能大户”。按照当前速度发展,预计到2023年,数据中心能耗将相当于2.6个三峡电站的发电量,碳排放量将达1.63亿吨。

面对不可忽视的能耗问题,建设一体化大数据中心、破解高能耗难题,找准破局关键点尤为重要。然而,事实是,由于不同主体对信息化的不同需求,各类数据依然被封存在不同的系统中,孤岛林立,不可避免地造成了资源的浪费。

数字信息通常存储在三种地方:一是全球各地的终端,包括所有物联网设备、个人电脑、智能手机和所有其他信息存储设备。二是边缘位置,包括基础设施如手机发射塔和机构服务器,以及服务处如大学、政府办公室、银行和工厂。三是存储大部分数据的核心位置——传统数据服务器和云数据中心。

然而,在设计信息系统架构时,由于没有一套参照的标准。因此,不同的主体的不同的选择,使得各类数据依然被封存在不同的系统中。以政府为例,根据政府采购网的采购公告,仅过去半年就有11431条相关采购,各省的各种单位都有,采购金额从几十万到几百万不等,比如:

中国教育图书进出口有限公司私有云存储扩容采购项目230万;重庆大学全闪存储及服务器采购项目243万;中央广播电视总台私有云存储设备全包代维项目150万;广州中山大学第一附属医院数据中心服务器与存储扩容升级项目601万;广东工贸职业技术学院存储容量扩容项目 30万等等。

这带来的后果,首先是每个单位都有自己的机房、服务器和管理员,造成管理成本上的浪费;再就是当每个单位都使用自己的存储格式、数据库设计、操作软件,将不利于数据通用和对外开放,而大量数据吞吐和运算,又不可避免地增加用电量,侧面带来能耗上的浪费。

政府尚且如此,更不用说以商业为目的企业。因为企业在不同发展时段对信息化有着不同需求,在搭建基础设施与软件系统时本就有侧重。再加上有限的预算与部署难度,使得很多企业信息化系统之间都互不相通。

往往每个事业部都有各自存储、各自定义的数据。各部门数据就像一个个孤岛一样无法和企业内部其他数据进行连接互动。存在数据孤岛的企业,所有数据被封存在各系统中,让完整的业务链上孤岛林立,信息的共享、反馈难。数据之间缺乏关联性,数据库彼此无法兼容。

合理规划打破孤岛

如何解决能耗问题和数据孤岛,更好地存储、管理和使用数据是数据存储的当务之急。

显然,社会对数据存储和使用的认识有待提高。当前,随着全球云计算产业的深刻变化,其产生了越来越多的新型数据库,这些数据库一方面依靠存储技术来存储海量数据,另一方面又给存储服务提出了新的诉求,影响着它的发展。但是,全社会对数据存储的认识并未及时更新。比如,现阶段政府部门虽然大力倡导大数据发展战略,但是许多数据存储仍然沿袭传统分析流程和方法。

一方面,从能耗角度来看,数据存储需要合理规划布局,统筹集群发展。供需失衡、能源布局失配,是我国数据中心的突出问题。这需要全国大数据中心的一体化布局,合理应用我国能源分布特点,结合当地能源条件。目前,我国数据中心存量机柜数量机柜总数约360余万架,其中热数据集聚在京津冀、长三角、珠三角三大经济区,冷数据集聚于西部资源富足地区。

此外,还应进一步挖掘数据中心的节能减排潜力,提升能源利用效率、降低能耗;加大对基础设施的整合调度,推动老旧基础设施转型升级,灵活运用高密度集成高效电子信息设备、液冷等节能技术,及可再生能源。

另一方面,对于数据分散的现状而言,“各打各的锣、各唱各的戏”是导致政府部门信息孤岛、重复建设问题的重要原因。目前,中央层面建立了国家电子政务统筹协调机制,厘清了中央有关部门在电子政务建设、管理、运行和标准化方面的职能和职责,避免了部门之间职责交叉重叠。

然而,由于国家电子政务统筹协调工作职能多次调整,各地数字政府建设水平参差不齐,使得地方数字政府建设统筹工作的情况依然复杂,各地做法也不尽相同。从整体来看,地方统筹协调不畅,网络、平台、应用等资源建设管理缺乏有效配合的现象仍旧客观存在。因此,想要打破政府部门的“孤岛”现象,还需要持续的深入的调整和改革。

在企业方面,失去对数据的控制权是企业对开放数据的最大担忧。基于此,隐私计算作为一种由两个或多个参与方联合计算的技术和系统,参与方可以在不泄露各自数据的前提下通过协作对他们的数据进行联合机器学习和联合分析。

隐私计算的参与方既可以是同一机构的不同部门,也可以是不同的机构。在隐私计算框架下,参与方的数据不出本地,在保护数据安全的同时实现多源数据跨域合作,可以破解数据保护与融合应用难题。

存储是利用数据的基础,只有看清了这一点,我们才能更加游刃有余地改造和优化存储架构,并使之成为数据价值挖掘的有利工具和平台。

声明:本文内容仅代表该投稿文章作者观点,不代表蓝鲸号立场。 未经授权不得随意转载,蓝鲸号保留追究相应责任的权利
相关阅读
中国客服三十年:技术迭代,与通讯、数据、智能三次变革
东数西算,来自中国云计算企业的战略注脚
Q3营收超20亿,东南亚会是万国数据的另一块“掘金地”?
CDCE2020展前剧透 构建5G时代新基建 12月3-5日上海数据中心行业全产业展示