大模型之家讯 9月28日,在2024中国算力大会上,秦淮数据集团CTO张炳华发表了题为《智算时代起浪潮,数据中心迎新机》的主旨演讲,聚焦于智能计算中心在大模型时代所面临的挑战与机遇。他强调,随着大模型和算力需求的迅速增长,传统的IDC(互联网数据中心)正向AIDC(人工智能数据中心)转型,并且这种转型对中国数据中心建设提出了全新的要求。
张炳华首先分析了大模型时代对算力的极大需求。 他指出,随着AI模型的快速发展,参数规模从GPT-2的150亿到GPT-4的18万亿,数据和计算能力的需求急剧增加。与此同时,芯片技术的迭代,尤其是从CPU到GPU的过渡,也推动了数据中心从传统模式向高效能智算中心的转变。他指出:“过去十几年,CPU功耗增加了1倍,而GPU的功耗则增加了8倍,这使得数据中心必须应对新的能耗挑战。”
关于智能计算中心面临的挑战,张炳华提出了五大关键点:
- 大规模算力需求:大模型的应用需要更大的算力规模,单台GPU服务器的功耗和计算能力成倍增加,要求数据中心提供更强大的处理能力。
- 多样化算力支持:为了应对不同AI应用场景,智算中心必须具有更高的弹性,包括支持风冷与液冷的切换及扩展。
- 高效能管理:随着算力规模和能耗的增加,智算中心需要实现更低的PUE(电能使用效率),以减少电力消耗并提升计算效率。
- 智能化管理:随着数据中心规模的扩大,传统的人工管理方式难以应对,AI工具的应用成为提升管理效率的关键。
- 高效冷却系统:为了保持服务器的稳定运行,秦淮数据创新了冷却系统,从全风冷到液冷、磁悬浮相变系统等技术,都在为提高能效服务。
张炳华还特别强调了技术创新对智算中心的支撑作用。他说:“AIDC的本质是如何高效地将电力转化为算力,或者将瓦特转化为比特。” 为此,秦淮数据在供电系统设计上采用了全模块化、超融合的方式,大大提高了供电效率,并且通过分布式冗余设计保障系统的高可靠性。他还指出,秦淮数据通过积极布局国内外市场,尤其是在中国区和东南亚地区,构建了强大的智算基础设施网络,总容量达到1.6GW,其中国内部分接近900MW,海外布局则接近700MW。
此外,张炳华透露,秦淮数据在智算中心的冷却标准化上也走在行业前列。他表示:“我们牵头在ODCC(开放数据中心委员会)制定了冷板液冷的全生命周期质量控制标准,从系统设计到产品规划,再到施工质量与运维,形成了完整的标准化体系。” 这一标准的出台将为行业提供重要的参考,并有助于推动智算中心建设的规范化和高效化。
最后,张炳华强调,随着AI时代的到来,智算中心的建设速度和质量将成为未来产业发展的关键驱动力。他呼吁行业各方加强合作,共同推动技术创新,满足大模型时代日益增长的算力需求。
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/7446