华为推出“UCM”推理记忆数据管理器,面向长上下文与多级缓存的系统级加速方案

大模型之家讯 8月12日,华为在“2025金融AI推理应用落地与发展论坛”上发布了名为UCM(Unified Cache Manager,推理记忆数据管理器)的推理加速套件。公司表示,该套件以KV Cache(键值缓存)与记忆分级管理为核心,旨在通过推理框架、算力与存储三层协同来优化大模型推理的延时、吞吐与成本结构,并计划于2025年9月在魔擎社区(MoEngine)首发开源。

华为推出“UCM”推理记忆数据管理器,面向长上下文与多级缓存的系统级加速方案

华为对外介绍,UCM由三大模块构成:用于对接不同推理引擎与算力的Connector(推理引擎插件)、承载多级KV Cache管理与加速算法的Accelerator(算法库)、以及高性能KV Cache存取适配器Adapter,三者通过统一的北向/南向接口对接主流推理框架、各类算力节点与共享存储系统。方案强调将高带宽内存(HBM)、服务器DRAM与外部专业共享存储按数据“热度”分级调度,以在不同延时要求下置放相应记忆数据,从而减少重复计算并扩大可用上下文容量。

华为及多家国内媒体发布的测试数据与试点结果显示,UCM在内部与合作伙伴的工程测试中取得显著性能改善:首Token(first token)时延在某些场景中可降至原来的10%(最高降低约90%),系统吞吐在不同配置下可实现数倍至二十倍级别的提升,并宣称可把上下文窗口规模扩展至“10倍级”。这些指标由华为在对外材料与论坛发言中提出,并被多家媒体引用报道。华为同时表示,UCM已在与中国银联的联合试点中得到工程化验证:在中国银联“客户之声”场景里,借助UCM与配套工程手段,官方披露的大模型推理速度获得了大幅提升(报道中提及约125倍的提升,业务响应能够在10秒级别完成识别高频问题),该试点被用作行业化落地的案例参考。

需要指出的是,上述性能数字来自厂方与合作方的工程与试点数据。外部独立复现、在不同模型/硬件/业务组合下的表现差异以及长期稳定性,尚需更多公开对比测试来进一步验证。

华为在发布会上表示,UCM将以开源方式推动生态互通,首发于魔擎社区,随后计划贡献给业界主流推理引擎社区,并希望与存储、算力与框架厂商在接口与标准上展开协同。公司相关负责人在会中强调,面向Agentic AI(代理式AI)及超长上下文的推理需求,软件层的系统级优化将成为重要路径,并期望通过开放算法库与接口吸引更多业界合作者共同完善加速组件与工程化实践。

UCM把“KV Cache分级管理”与“专业共享存储接入”放在系统级议程上,体现了在算力受限或成本敏感场景下,用软件与系统架构缓解对单一高带宽内存(HBM)依赖的思路。厂方公布的指标与银行业试点说明了这一方向在特定业务下的潜在价值,但该类系统级优化往往依赖于具体硬件拓扑、调度策略与模型特性。后续开源版本的实施细节、对外贡献的兼容性与第三方复现结果,将是判定其行业影响力的关键。

原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/12290

(0)
上一篇 21小时前
下一篇 20小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注