MiniMax发布新一代语音模型Speech 2.6,重点提升实时语音交互能力

大模型之家讯 10月30日,MiniMax发布最新版本的语音模型MiniMax Speech 2.6。本次更新主要面向Voice Agent场景,优化端到端延迟、专业格式文本支持能力,并提升语音自然度。

MiniMax发布新一代语音模型Speech 2.6,重点提升实时语音交互能力

根据MiniMax介绍,Speech 2.6通过对音频生成链路的整体优化,将端到端延迟降低至约250毫秒,接近行业前沿水平。该能力主要面向实时语音对话应用,如AI客服与交互式智能助手等场景。公司表示,快速响应将有助于减少交互过程中的停顿感,提高整体流畅度。

在信息表达层面,Speech 2.6新增了多语言环境下对电话号码、Email、网址、日期及金额等非标准文本的直接识别和口语化处理机制,减少业务方在接入语音系统前的文本预处理成本。对于涉及动态数据的信息播报场景,如在线客服、支付系统提醒等,处理方式将更加接近真实工作流程。

在语音质量方面,相比此前版本,Speech 2.6进一步改善语音自然度,并引入Fluent LoRA能力,旨在使音色复刻场景中生成语音表达更加流畅。MiniMax表示,即便原始素材带有口音或语流不稳定,系统也能在保留音色特征的同时生成符合目标文本的自然语音。

MiniMax Speech目前已被多家语音平台及硬件设备厂商集成。例如,LiveKit为ChatGPT高级语音模式提供基础能力,开源框架Pipecat,以及YC孵化企业Vapi均采用MiniMax Speech作为底层技术引擎。在消费级智能硬件方面,Haivivi Bubble Pal、Fuzozo、Rokid等厂商的产品已搭载其语音技术。

原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/13409

(0)
上一篇 22小时前
下一篇 2025年8月7日 下午1:28

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注