华为发布UCM加速AI推理,9月将开源

大模型之家讯 8月12日,华为推出AI推理技术UCM(推理记忆数据管理器),通过多级缓存优化,实现首Token时延降90%、吞吐提升22倍、10倍级上下文扩展,显著降低推理成本。该技术已在中国银联 “客户之声” 场景落地,大模型推理速度提升125倍,10秒即可识别客户高频问题。华为计划9月在魔擎社区开源UCM,后续贡献至主流推理引擎社区,推动行业共建高效推理生态,破解 “推不动、慢、贵” 痛点。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注