全球两大开放组织首度联手,应对AI基础设施大挑战

让开放走向全球,让全球化的开放走入中国。‍‍‍‍‍‍

文|数智前线 牛慧‍‍‍‍‍‍‍‍‍‍‍‍‍

‍‍‍‍‍‍‍‍‍编|赵艳秋‍‍‍‍‍‍‍‍‍‍

6月,快手文生视频应用“可灵”爆火出圈。在开放申请后,媒体报道,在43天内,有超过30万用户注册成功,但还有70万人在排队。大家猜测,这背后一个重要原因是算力供给。“未来,当人们将几千字的故事丢入大模型,让它生成一个长视频时,算力荒甚至电力荒都会出现。”一位人士预测。

过去一年,大模型突飞猛进,但对背后基础设施提出的挑战也前所未有。在这一行业背景下,由OCP(开放计算项目)和OCTC(中国电子工业标准化技术协会开放计算标准工作委员会)两大开放计算组织,联合主办的2024开放计算中国峰会,日前在北京召开。

峰会吸引了广泛的参与者,无论主论坛、分论坛还是展示区,都挤满了技术人士。会上,少了一些大会上的场面话,大家都在分享自己的技术理解,思想在会场中交织碰撞。不少人也提出了问题,其中很多目前还没有答案。

“我感受到了开放计算的热情。”一位与会者说。而业界比以往任何时候,都更需要全球化的开放协作平台,来共同迎接人工智能发展提出的严峻挑战。

01

AI基础设施的发展范式变了

7月,马斯克宣布旗下x.AI建成了全球最大的AI集群——由10万张英伟达H100组成的“孟菲斯”,这宣告智算设施迈入了10万卡大关。另一家巨头Meta则预计今年底将拥有35万张GPU卡构建的AI基础设施。业界预期未来百万卡的集群也指日可待。这些动向令基础设施行业既振奋,也感到紧迫。

这么大的AI集群,它会是什么形态?它是把一个完整的数据中心(IDC)汇总到一个整机柜里?还是把一个机柜浓缩到一个节点?这些可能是一个明确的趋势,而即便如此“浓缩”,业界仍需要更多的机柜和IDC。因为根据中国信通院的数据,当下全球智算需求每4~5个月翻一番,远超摩尔定律每18月翻番的速率。

近5年全球算力结构也发生了革命性变化。过去几十年间,基础设施都是以CPU为核心的体系。而中国信通院的报告显示,在最近5年,全球智算在总算力中的占比从10%飙升到60%。业界判断,用不了多久,智算占比就会超过80%。

“我们说未来一切计算皆AI,今天无论是手机、电脑、边缘设备、CPU服务器、加速服务器都具有了AI计算能力,也都承载着多样化的AI应用。”浪潮信息服务器产品线总经理赵帅说,AI算力已深入到千行百业,渗透进每一个计算设备里。

算力结构的变化导致了基础设施发展范式的变化。以往,在CPU为主的时代,大家追求的是极致弹性、极致高效、极致性价比。而智算从千卡到万卡、十万卡甚至百万卡的飞奔,已让大家转向全面追求技术创新。每一个从业者都朝着追赶scaling law的方向去发展。但在这个过程中,也面临五大挑战:

首先是集群规模已从去年的千卡演变到了今年的万卡、十万卡,未来将朝百万卡迈进。这么多GPU卡,如何能让它运行起来,还要运行得好?尤其是想让集群的性能按照卡数实现线性增长,是件非常困难的事。更不要说,今年大厂还打起了价格战,想方设法降成本。

其次是集群的可靠性。在最近Meta发表的论文中,记录了Llmma3.1在54天的训练过程中,发生了419次中断,其中78%是硬件故障,这其中又有58%是GPU引发的。“我们对集群的要求从高性能,要逐步过渡到兼顾高性能和高可用。”中国工商银行数据中心资深经理陈庆说。但GPU的可靠性本身就比CPU要低,又如何去提高一个集群的可靠性?

再次是AI基础设施遵循木桶原理,用中国移动的说法是“存算网管效”五大方面不能有一块短板。

此外,还有集群功耗。有企业测算,马斯克的AI集群“孟菲斯”一天的耗电,相当于北京东城区一天的电量。

最后是集群部署难。与以往IT团队自己也能搞一个小型云计算中心不同,智算中心现在技术门槛较高,也需要工程化能力,是一个复杂的系统工程。这项技术在各个行业中推广,更需要通用方式。

面对如此多的挑战,业界需要用更加开放的理念,加速算力系统和底座的全面创新,实现Scale up、Scale out上的扩展。

02

开放计算,应对Scaling Law挑战

其实,开放计算曾在10多年前,帮助业界应对了全球超级数据中心的构建挑战。当时,Facebook(后改名为Meta)为应对自身基础设施建设不足以支撑业务扩张的挑战,决定与厂商共同进行服务器等的设计,并选择将这些设计方案开放,随之在2011年诞生了OCP基金会。

这一开放决策让OCP逐步凝聚了全球产业的力量。目前,已有360多家企业加入OCP社区,全球5000多位工程师参与到OCP项目的管理中。阿里、腾讯、浪潮信息等企业,也都为OCP社区贡献了创新。

当下OCP也在通过开放计算,解决AI基础设施的挑战。比如,由谷歌、Meta、微软和英伟达等联合发布的GPU相关项目,目标之一是用模块化方式,来促进AI的增长,形成好的解决方案。

除了OCP,2022年4月,由中国电子标准院、浪潮信息、百度、中国移动、中国工商银行、国家电网六大创始成员发起创立了开放计算组织OCTC。OCTC成立后的大量工作,也与这一轮大模型爆发中,AI基础设施的创新密不可分。

“与OCP类似,OCTC通过技术规范和标准方式,推动了多种技术,尤其是多元异构计算的互联互通和AI基础设施建设。”OCTC秘书长、中国电子技术标准研究院信息技术研究中心硬件研究室主任陈海告诉数智前线。

由于CPU算力的普适性,OCTC最新的立项与构建一个CPU的统一底座、推动CPU运行大模型的技术路径相关。

在智算时代,CPU算力单元的应用越来越丰富,也能承担企业日常的AI应用任务。此次峰会上,中国电子技术标准化研究院、浪潮信息、百度、Intel等机构和企业,宣布启动开放计算模组规范(OCM),通过统一国内外CPU芯片厂商的处理器接口和管理协议等。OCTC希望更多伙伴参与,让多元的统一算力模组尽快走进用户的机房。

由于海外几乎都是互联网巨头建设的超大规模数据中心,而国内除了这些超大规模数据中心外,还有不同行业如运营商、金融企业构建的基础设施及私有化数据中心。因此,相较于海外开放组织,OCTC更倾向于将数据中心的先进技术面向全产业推广应用。

“比如,OCTC在制定液冷标准时,六大行、头部通信企业代表都参与其中,让多个行业达成一致,从而推动液冷快速产业化。”浪潮信息赵帅举例说,“而目前中国液冷是全球最领先的,这也体现了OCTC的重大意义和价值。”

陈海秘书长介绍,截至目前,OCTC已梳理了数据中心基础设施和IT设备的技术发展趋势,发布了5项技术白皮书,包括液冷柜计算白皮书、算力工厂建设指南等。OCTC还组织立项和颁布12项团体标准,其中液冷、异构计算等领域的5项团标,已转化为国家标准。在生态上,OCTC发布了部分团标测评认证方式,推动产品落地应用。

很多企业认为,参与开放组织的一个益处是可以看到未来会发生什么。“作为数据中心规划团队,我们要基于现状做一些前瞻性规划,应对未来的不确定性。”工商银行陈庆说。尤其当下全球都在建设智算中心,怎么建设才能保证5年后不落后?采用什么标准可以在未来进行产业化扩张,而不至于再花巨资重建。

已深入参与开放计算多年的赵帅谈到,浪潮信息之所以在开放的路上继续奔跑,是因为他们看到很多开放技术,已意识到了基础设施面临的问题。“通过开放技术,我们快速与客户沟通、落地,从而应对Scaling law。”他补充说,今天2/3的大模型选择了开源,开源模型的下载量已突破3亿次。同时,硬件的开放设计,让百花齐放的生态能有统一的算力平台。“开源开放带来了AI的发展和繁荣。”

03

开放议题在碰撞中产生价值

在这次峰会上,全球企业对未来技术提出了丰富的倡议。比如,OCP基金会介绍,由谷歌牵头的一个液冷项目,包括余热的复用,计划要看到未来5年的发展趋势。

国内也有不少企业提出倡议。如果从AI基础设施木桶原理涉及的存储、计算、网络、管理和能耗几个方向,这次涉及了几个主要的议题:

对于存储,有行业人士感叹之前它很少被关注,其实内存在整个AI系统当中是成本非常高的一环。阿里云基础设施超高速互联负责人孔阳分享了目前正在做的CXL工作。“CPU内存扩展的CXL技术生态,已成为行业的重要方向。”

开放网络是今年的热点,字节跳动、英伟达、阿里云等多家企业都提出了技术倡议。如英伟达网络高级总监宋庆春谈到,数据中心走向了AI工厂和AI云两个新型应用场景,网络成为了决定数据中心性能的核心。支持高带宽、低延迟、零Jitter、网络数字孪生、网络计算、动态路由、应用性能隔离等技术的新型AI网络应需而生。

阿里云则提出了ALS(Alink System)架构。“这是Scale up网络上一个更具扩展性的架构。我们认为,它是实现多个GPU甚至多元异构加速器超大规模集群的关键。”阿里云基础设施服务器研发产业合作总监吴灵熙告诉数智前线,秉承开放共赢的态度,阿里云会把包括ALS以及CXL在内的创新,通过开放平台对外寻求标准共建和生态合作。

在管理上,断点续训是一个焦点。如何对系统进行更全面的监控,对故障进行更快速的诊断定位,各家企业都在做。浪潮信息介绍,已在与头部大型互联网企业及生态伙伴一起讨论,如何去构建一个面向OAM部件管理的规范,从而能更标准化地管理AI服务器系统,分层进行故障诊断和定位。

在能耗和可持续发展方面,液冷成为全球热点。OCTC正在用液冷标准,把产业链上下游结合到一起,让液冷尽快产业化。针对液冷现在缺乏标准、成本高等问题,OCTC在液冷冷板标准方面,去年已做了四个团标,今年将推进国标建设。在GPU和CPU核心算力组件的液冷化上,同样也推出了模块化标准接口等。针对成本,浪潮信息赵帅提到,希望在未来两年,做到“风液同价”。

此外,峰会上业界也提到了算电协同、垂直供电、光互联等,其中算电协同本质是最大程度地去使用光伏等可再生能源,来降低整体创新成本。不过,这些创新都处于早期阶段,业界在进行技术跟踪和研究。

OCP和OCTC联合发布全球开放计算十大创新成果

峰会当天,OCP基金会新兴市场副总裁Steve Helvie惊叹于峰会上有如此多的参会者。“我感觉到大家对开放社区的热情和动力。”他告诉数智前线,人们谈论的内容,不仅有提纲挈领的战略,也有企业的具体实践。“说明大家已充分利用开放社区的创新,推动自己的业务发展。”

浪潮信息赵帅也对峰会上的人潮与人们相互间的交流碰撞感到振奋。“开放的力量是全球化的。大家要把开放组织在国内外思想的碰撞、技术的碰撞、业务的碰撞,更多结合起来,这会产生更大的价值。”他说,“我觉得我们要更多地让开放走向全球,让全球化的开放走入中国。”

声明:本文内容仅代表该投稿文章作者观点,不代表蓝鲸号立场。 未经授权不得随意转载,蓝鲸号保留追究相应责任的权利