数字时代,最重要的资源是什么?毫无疑问是算力。无处不在的算力正成为激活数据要素潜能、驱动经济社会数字化转型的新引擎。
过去十几年,云、大数据、区块链以及人工智能的大模型等,对算力产生巨大需求。而摩尔定律逐渐放缓和登纳德缩放定律走向终结,算力供需失衡问题日益突出。当前的数据中心计算体系架构中,“内存墙”、“I/O墙”、“功耗墙”已成新的挑战,数据中心计算体系架构的创新已迫在眉睫。
算力正在像水、电一样成为基础设施,是数字经济发展中的核心动能。从“要想富,先修路”到“想发展,投算力”,算力基础设施等“新基建”正在国内掀起“落地潮”。
智慧时代,业务场景日益复杂多元针对传统高性能计算,特别今天针对地震波的模拟科学计算,可能需要LP64双精度的计算能力;而新兴起的AI训练可能需要混合精度LP32或者LP16的计算能力;AI推理则需要Int8或者Int4的计算能力,不同场景对于算力要求不一样。数据量级上,不同应用场景需要的量级从GB到TB到PB不断提升。不同计算场景催生了越来越多的计算芯片,从通用计算芯片到AI计算芯片到可定义计算的芯片到整个算力平台,百花齐放。
多元算力平台的蓬勃发展,实际上给算力基础设施带来了巨大挑战。比如,现在异构芯片种类比较多,大家接口标准不一样,生态体系差异也很大,产业化面临着非常巨大的挑战。企业在面临业务应用时,同时要部署多种多样不同类型的算力,算力池化、融合、调度、应用面临巨大挑战。
浪潮信息服务器产品线总经理赵帅表示:“当前数据中心遇到的 ‘内存墙’ 、‘I/O墙’、‘功耗墙’等现象并不是孤立存在,它们是现有计算体系架构不足放大后的体现。只有通过计算体系架构的整体创新,才能彻底解决各种瓶颈带来的挑战。”
计算体系架构的整体创新是什么?浪潮信息给出的破局之道就是融合架构。自2014年浪潮信息提出融合架构指明数据中心体系结构的发展方向到现在,融合架构即将走过10年历程。
赵帅总结,融合架构分为三个阶段:第一阶段更多是融合整个系统的基础设施,集中供电、散热,实现了非IT资源的集中和模块化;第二阶段,非计算部分的存储、网络等设备做池化,应用软件虚拟化技术满足云的需求;第三阶段,研究一致性的高速互联、软件定义等关键技术,创新产品的形态,融合多元算力,实现整个计算资源的解耦、池化和效力提升,可扩展性可以提升2-4倍,达到更好的应用效果。
当前,融合架构进入第三阶段,即基于软件定义和硬件重构的思路,通过计算资源、内存资源、加速资源多种硬件解耦和软件定义实现融合,根据应用场景灵活进行资源调配,从而提升资源的整体利用率。
如何以系统化思维,突破计算体系架构?8月10日,在北京举行的第五届OCP China Day 2023(开放计算中国技术峰会)上,浪潮信息正式推出融合架构3.0原型系统,通过系统架构创新解耦重构服务器系统,突破性实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,可支持多种通用处理器平台与GPU、FPGA、DPU等多种异构加速单元的协同计算,并可通过软件定义实现资源协同动态调度。
内存解耦与池化一直是业界的热点与难点。随着以CXL为代表的串行缓存一致性总线的出现,给主机和远端共享内存之间提供了低延时的访问路径以及缓存一致性保证,为大规模内存扩展与内存资源池化提供了可能。融合架构3.0原型系统突破内存解耦池化关键技术,研制新型应用串行缓存一致性总线及其交换技术的内存模组和内存池化系统,保障主机系统对大容量、高带宽内存的应用需求。
赵帅介绍,融合架构3.0原型系统首创JBOM独立内存资源池设计,创新实现标准服务器高密度内存扩展方案,主机系统远端内存扩展技术领先业界。通过软件定义系统设计及CXL高性能交换技术,率先实现内存资源池化与细粒度多主机共享。
融合架构3.0,不是一个技术的突破,而是突破多个技术点后形成的系统级的解决方案。在这种高效能融合架构系统里,除了通过多元异构来提升绝对性能之外,也通过更多基础架构设计方面的创新,包括空间架构,液环式真空负压液冷架构,让数据中心提供了高算力,可持续的算力。赵帅表示,融合架构3.0原型系统效率可比上一代软件虚拟化系统提升一到两个数量级,可扩展性提高2~4倍,系统延时降低90%,PUE低于1.1。
通过融合架构3.0,让数据中心由资源驱动型向业务驱动型的转变,真正意义上实现开放融合、安全高效、智能绿色、灵动成长。
回到融合架构的设计理念来看,其核心就在于通过硬件解耦实现物理资源的池化和动态重构,通过软件定义实现业务感知的按需资源组合与配置,满足系统的弹性伸缩和超大规模的持续扩展,实现软硬高度协同发展。
这样的设计理念为数据中心发展提供了一个非常有想象力的空间,那就是可以做各种服务器系统的异步迭代。因为解耦之后,不是以处理器为核心,更多的是以数据为核心,通过系统设计来实现异步迭代。比如通用计算单元,异构计算单元,内存单元,IO单元都可以按照业界最先进的技术发展水平同步去迭代,也可以按照业务需求去异步迭代,为客户带来更高价值。
未来,可能每一个节点都不是以CPU为中心,而是以数据处理单元为核心构建一个完整的数据中心交换体系,实现融合架构的终极目标,那就是实现了 “服务器即计算机(Server as a Computer)” “机柜即计算机(Rack as a Computer)”之后的“数据中心即计算机(Data Center as a Computer)”。
赵帅表示,浪潮信息发布融合架构3.0,还有一个愿景是希望推动这种开放的架构和领先的技术走向千行百业,让各行各业的用户能够看到技术的进步,能够快速的响应和知道互联网在用什么,先进的企业在用什么,真正让技术走向普适和普惠。随着数字经济、人工智能持续发展,企业的各项业务越来越依赖数据及其价值,算力技术也需要不断演进,融合架构3.0原型系统的发布,有助于企业提升数据管理效率,最大化释放数据价值。
如今,摩尔定律接近极限,性能提升变缓,单纯依靠芯片获得算力增长的传统模式需要重新思考。需要整个产业链从上游厂商到算力平台供应商、到软件供应商一起努力,解决整个供应和产业链问题。而浪潮信息发布融合架构3.0,充分释放算力,以系统视角解决产业发展遇到的问题,无疑推动算力产业前进了一大步。