安静:在提升算力规模上,需要应对三大挑战
规模效应(Scaling Law,规模定律、尺度定律、缩放定律)在2023年的算力圈里再度成为人们关注的焦点。这个Deep Mind在2020年发现的规律是:模型性能随着模型规模、数据规模和算力规模等因素的增大而提升,呈现出幂律分布的特征。
工信部等六部门在2023年10月发布的《算力基础设施高质量发展行动计划》中明确:2023年末,我国算力总规模达到220Eflops,智能算力占比25%;到2025年,总算力达到300Eflops,智能算力占比要达到35%。根据相关市场机构调研,我国智能算力在未来几年中,将以52.3%的年复合增长率增长。相比之下,工信部的建设目标可谓相当“保守”。
“Scaling Law其实就是俗话说的大力出奇迹,或者量变到质变。在人工智能需求持续增长的大趋势下,快速形成算力规模是我们未来几年的必然趋势。”中国智能计算产业联盟秘书长安静日前在评述这现象时表示,“国家‘东数西算’工程提供了大量廉价绿色算力资源,为迅速做大我国算力规模做出了巨大贡献!但在提升算力规模的大背景下,也出现诸多新挑战,需要我们认真思考应对。”
安静 中国智能算力产业联盟 秘书长
挑战1:如何解决算力设施整体能耗偏高问题?
我国数据中心总体上还处于小而散的粗放建设阶段,大型、超大型数据中心占比仅为12%。大部分中小数据中心多依赖空调、冷水机等设备来降温,受自然冷源、气候等环境因素影响,解热极限相对较低。据统计,2021年度全国数据中心平均PUE为1.49,并且有相当数量数据中心PUE超过1.8甚至达到2.0。随着ICT设备器件性能提高和单机柜功耗的增加,发热量随之上升,制冷系统的电能消耗还在不断持续增高。
新型液冷技术有待加大推广应用。液冷是指借助高比热容的液体作为热量传输介质满足服务器等IT设备散热需求的一种冷却方式。有数据显示,液冷比传统风冷具备更强的冷却能力,其冷却力是空气的1000-3000倍,热传导能力是空气的25倍。同等散热水平时,液冷系统噪音比风冷低25-35分贝,相比传统风冷系统约节电 30%-50%,数据中心 PUE 值可 降至 1.2 以下,甚至接近于1。北京冬奥云数据中心部署了浸没式液冷集群,对数据设备采用了环保节能的自然冷却技术,年平均PUE低于1.2,大幅度降低了碳排放量。
海底数据中心作为一种新型数据中心系统,把海水作为自然冷源,具有绿色低碳、安全可靠、节约土地和淡水资源等优势,且易于与海上风电等清洁能源融合,将海洋电力转化为算力,助力数据中心碳中和,为全国一体化大数据中心体系提供有益补充。
2023年11月24日,“海兰云”在海南陵水部署全球首个商用海底数据中心的数据舱,下沉到海底35米深度,采用重力热管技术,利用海水作为自然冷源,提升整体能效40-60%。“海兰云”海底数据中心项目计划部署100个舱,相较于同等规模的陆地传统数据中心,每年能节省用电总量1.22亿千瓦时、节省建设用地面积6.8万平方米、节省淡水10.5万吨。
挑战2:如何让西部算力资源与东部用户更好融合?
带宽和时延是信息传输的两个关键指标,受限于物理规律,无论网络带宽 多大,传输速度多快,传输时延都是客观存在的。因此,在“东数西算”中,工业互联网、灾害预警、远程医疗、自动驾驶等需要被计算节点频繁访问、网 络时延要求高的实时在线类“热数据”不适合“西算”。离线分析、后台加工、存储备份等离线类访问频率低、网络时延要求不高的“冷数据”以及介于 两者之间的“温数据”,则更适合“西算”。
从一般的统计来看,社会运行所产生的数据,冷、温、热数据的占比分别为 80%、15%、5%,其中冷数据是存量最多的数据。随着“东数西算”工程的逐渐深入,内蒙古自治区、甘肃省、宁夏回族自治区、贵州省等枢纽节点省份存力规模将持续扩大,为西部数据中心承接东部“冷数据”“温数据” 夯实了基础,其发展空间和发展潜力巨大。
虽然“东数西算”在网络时延上的限 制使其不适用于时效紧迫型的数据应用,但“东数西存”、“东数西渲”、“东数 西训”,以及未来的“东云西库”等对存力、算力要求高,但对数据实效性要求不高的应用场景将成为“东数西算”未来应用的重要支点。
云游戏XR、视频制作过程中完成大规模的视频渲染离不开算力的支持,随着云计算技术的逐渐成熟,渲染业务云化发展是大势所趋。通过建立渲染云应用平台,业务需求方可以将渲染任务快速提交到平台,从而获取算力、网络、存储一体化资源,实现资源编排、调度等的最优匹配。
随着人工智能技术的快速发展,面向指数级增长的海量数据,想要有效激发数据资源的价值,离不开高级人工智能算法和强大算力的支持。特别是针对大规模人工智能任务应用场景下的复杂计算,东部算力资源的成本过高,为降低算力资源的使用成本,可以将训练数据和训练任务调度至西部枢纽数据中心集群进行上亿级参数的大模型深度学习,实现算网资源综合成本最优。
一些算力需求巨大的科学计算应用开始探索适用于“东数西算”场景。如格点量子色动力学的大规模数值模拟,涉及场景多、应用广,是最耗费计算资源的科研领域之一,其运算过程以及运算后海量组态数据分析,就适合于东数西算场景;又如材料基因组工程的各类高通量计算,每个计算任务之间无耦合,可以分配到任何可用节点,因此可以充分利用超算互联网连接的各超算中心的闲置资源。目前,中西部地区新建的数据中心已经开始面向全国科研用户提供绿色普惠的高性能一体化算力服务。
挑战3:如何让高电价地区先立后破,推动产业转型?
建立算力中心,并以此推动本地区新经济增长是不少地方政府开展新基建的重要举措,但高电价推高算力资源成本价格,势必降低吸引用户入驻和采买算力资源的竞争优势。对于没有绿电资源,更多依靠传统火电资源的高电价地区该如何推进算力中心发展,的确是一个巨大挑战!
通过液冷或其它方式降低PUE值是必然选择,但相对高电价来说,显得杯水车薪。需要在高性能应用和商业模式创新上大胆创新,“先立后破”,不断扩展高性能应用规模。在提高用电总量的基础上,不断降低平均电价水平。从商业实践来看,可以思考如下几个方式:
以高性能算力中心为主
通过建立高性能超算或智算中心,大幅提升算力设施使用价值,大力降低电费在整体投资的比例,才能扭转客户选择近地资源的关注度,最终选择本地或近地算力资源。
一方面,提升机柜功率密度。传统数据中心功率密度偏低,大部分功率密度低于10kW/机架,最常见的是5~9kW/机架,平均功率密度高于20kW/ 机架的数据中心约占 16%。只有不断提升机柜功率密度,才能满足不断上升的高性能计算(HPC)、智能计算需求;另一方面,Scaling Law在高电价地区将表现得更加明显,但对当地政府和数据中心业主本身的考验更加严苛。需要对本地产业转型发展战略和数据中心、算力中心建设有深入思考、高度认知后,做出战略选择。
深入挖掘绿电资源潜力
必须深入挖掘绿色电力资源,无论是风电、光伏、水电、核电等多方面资源,加大绿电资源开发,不断降低综合用电成本。
新能源和算力中心建设被称为一对相互匹配的“黄金搭档”!绿电项目有了稳定可靠的消纳大户,而算力中心可以获得相对便宜的电力资源。双方可以找到一个相对合理平衡的投资回报和成本控制节点,形成互利互惠、协同发展的良好局面。在新能源项目指标供不应求的大环境下,算力中心可以成为产业落地的最佳选择之一,进一步推动形成双产业紧耦合发展模式。
跨区域投资建设模式
类似不少地区采取“飞地”方式招商引资和产业落地的模式,算力中心建设也可以采取跨区域投资模式。
作为当地算力中心的投资建设主体,在完成本地高电价算力中心建设的同时,还可以在投资“风光无限”、绿电资源丰富地区的算力中心,组成自有的全国算力网络,租赁给本地或异地客户资源。既可以加大算力资源规模,又可以通过外地成本较低算力中心建设,对冲原有地区的高电价算力中心投资,获得较好的综合收益。
发放算力券已经成为不少地方政府招商引资的新招、高招,有力促进智能产业的入驻落户。这些算力资源纯粹来自于当地高价算力中心,无疑给当地财政带来巨大压力。如果来自全国组网的综合算力资源,则财政压力可以获得显著下降和释放。
算力中心建设在2023年的火爆,自然源自人工智能技术大爆发带来的算力需求刺激。但作为未来智能世界的新型基础设施,算力中心是人工智能发展的重要支柱,其重要性远超“供需”关系这么简单。规模效应(Scaling Law)将在规模不断扩展时再度显现,将作为地方政府和从业者深入思考,不断创新开发,寻找解决新挑战、新问题的逻辑基础。