智谱开源GLM-ASR,重新定义人机交互范式

近日,国内人工智能公司智谱AI正式发布并开源了其GLM-ASR系列语音识别模型,同时推出了基于此模型打造的桌面端“智谱AI输入法”。这一系列动作不仅标志着其在多模态技术领域的深入布局,更旨在将语音交互从简单的“转写工具”升级为能够直接理解并执行复杂任务的“智能协作者”,推动人机交互从“手动输入”时代迈向“自然对话”时代。

开源与闭源并行,打造高低搭配的产品矩阵

本次发布的核心在于GLM-ASR系列模型。该系列采用了“云端旗舰+端侧开源”的双轨策略,以满足不同场景下的需求。旗舰模型GLM-ASR-2512定位为全球领先的云端语音识别服务,其在多场景、多语种、多口音的真实复杂环境测试中,实现了字符错误率(CER)低至0.0717的行业领先表现,为高精度、高并发的云端应用提供了坚实基础。

智谱开源GLM-ASR,重新定义人机交互范式

更具行业影响力的是其同步开源的端侧模型GLM-ASR-Nano-2512。该模型虽参数量仅为1.5B,却在多项测试中取得了当前开源语音识别方向的SOTA(当前最优)表现,甚至在部分指标上优于某些闭源模型。将如此强大的识别能力“压缩”至可在本地设备上运行的规模,其意义深远:一方面,本地处理避免了语音数据上传云端,为用户提供了更强的隐私保护;另一方面,消除了网络传输延迟,使得语音交互的响应更加即时丝滑。这一开源举动,无疑将为全球开发者和研究者在端侧智能语音应用上的创新提供强大的底层工具,降低技术门槛。

从听写到改写:输入法成为智能交互中心

基于上述强大的模型能力,智谱AI输入法则承载了将技术转化为普惠生产力的使命。它不仅仅是一个“语音转文字”的工具,而是试图成为用户在PC端的首个“语音智能交互中心”。其核心设计理念是“指尖即模型,语音即指令”,让大模型能力在输入框内触手可及。

传统输入法止步于“打字”,而智谱AI输入法则实现了“理解-执行-替换”的一体化流程。用户可对屏幕上任意一段文字直接调用底层GLM大模型进行实时翻译、扩写、精简或润色,整个过程无需切换应用窗口,极大地提升了文本处理效率。更为创新的是其“千人千面人设切换”功能,用户可根据对话场景(如“面对老板”、“面对伴侣”)预设表达风格,使同一段口语化表述自动转化为风格迥异的书面文本,这在一定程度上解决了AI生成内容“口吻”单一的痛点。

针对特定职业群体,该输入法提供了深度定制化体验。例如,面向开发者的“Vibe Coding(语感编程)”功能,允许开发者通过自然语言描述代码逻辑或查询指令,直接获得代码片段或系统命令,将编程从“手敲键盘”部分解放为“口述思路”。同样,设计师也可通过语音指令操控设计软件,实现“用嘴做设计”的构想。此外,针对开放式办公等公共场景,其优化的“耳语捕捉”能力与“高效热词”自定义功能,旨在解决用户在使用语音输入时的“社交尴尬”与专业术语识别难题,体现了产品设计中对真实使用场景的细致洞察。

技术突破与行业影响:重新定义“输入”边界

智谱此次发布,其深层价值在于对“输入”这一根本人机交互行为的重新定义。它不再满足于将语音被动地转换为文字,而是致力于让语音成为主动调用复杂AI能力的自然指令。这标志着AI应用正从“功能替代”走向“能力增强”,从“处理结果”走向“理解意图”。

将顶尖的端侧语音模型开源,是推动整个生态发展的关键一步。它鼓励更多开发者在本地、低延迟、高隐私要求的环境中部署智能语音应用,可能催生出一批全新的桌面级、边缘计算端的AI工具。而输入法作为用户接触最频繁的软件之一,被改造为AI能力网关,这一思路也为大模型落地提供了极具潜力的轻量化入口。

目前,GLM-ASR-2512云端模型已在智谱开放平台提供调用,GLM-ASR-Nano-2512的开源权重及代码也已发布。智谱AI输入法则面向所有用户免费开放,并提供了初始体验积分。从技术开源到产品落地,智谱AI正试图构建一个从底层模型到上层应用的完整语音交互生态,其最终目标无疑是让用户“动动嘴,活就干了”的愿景加速照进现实。

原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/13896

(0)
上一篇 2天前
下一篇 1天前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注