DeepSeek 在《自然》刊登强化学习推理模型:DeepSeek‑R1显著提升数学与编程性能

大模型之家讯 9月18日消息,DeepSeek‑AI团队负责人梁文锋及其同事在《自然》杂志上发布了开源人工智能模型DeepSeek‑R1的训练方法。研究显示,利用纯强化学习可显著提升大语言模型(LLM)的推理能力,减少对人类示例的依赖,降低训练成本。DeepSeek‑R1在数学、编程竞赛以及STEM领域的研究生水平题目上均优于传统训练的LLM,得分分别为77.9%(DeepSeek‑R1‑Zero)和79.8%(DeepSeek‑R1)。模型采用奖励机制,让模型在解决问题后获得模板化的推理过程,从而强化学习效果。团队指出,未来可进一步优化奖励设计,提升推理结果的可靠性。此举标志着强化学习在 AI 推理领域的应用迈向实用化,为数学与科学计算提供更高效、低成本的技术方案。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注