昆仑万维与南洋理工大学联合开发Q*算法，大幅提升大模型推理能力

志斌 • 2024年6月25日下午5:37 • 人工智能

大模型之家讯近日，昆仑万维与新加坡南洋理工大学合作，成功开发了一种名为Q的算法，这种算法能显著提升现有大模型的推理能力。在GSM8K数据集上，Q将Llama-2-7b的准确率提升到80.8%，超过了ChatGPT；在MATH数据集上，Q将DeepSeek-Math-7b的准确率提升到55.4%，超过了Gemini Ultra；在MBPP数据集上，Q将CodeQwen1.5-7b-Chat的准确率提升到77.0%，缩小了与GPT-4在编程水平上的差距。

Q*能使小模型的推理能力达到大模型的水平，这不仅提升了小模型的性能，还减少了计算资源的需求，为人工智能的广泛应用带来了新的可能性，开创了高效智能的新纪元。

该项目的论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》已经公开发布。

论文链接：https://arxiv.org/abs/2406.14283

打破OpenAI封锁，提升现有模型能力

自OpenAI的Q项目曝光后，业界展开了广泛讨论。现有信息显示，Q项目被视为OpenAI在探索人工通用智能（AGI）道路上的重要尝试，有望在数学问题解决、自主学习和自我改进等多个方面带来突破性进展。

不过，OpenAI尚未公开Q*算法的具体细节，因此其实际效果仍有待观察。

自Q项目曝光以来，昆仑万维一直密切关注其动向，并迅速成立研究小组开发自己的Q算法，旨在提升现有开源模型的推理能力。经过数月的研究，团队提出了一种新颖的Q*框架，并在GSM8K、MATH和MBPP数据集上分别超越了ChatGPT和Gemini Ultra。

全盘规划复杂推理任务

在论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》中，研究人员将大语言模型的推理过程分解为多个状态。对于每个状态，参考DeepCubeA的设计，通过将定义路径成本的g(s_t)函数和定义累计奖励的Q*(s_t, a_t)集成到同一个f(s_t)函数内，实现了对历史收益和未来期望的综合考虑。最后，利用A*搜索算法对状态进行最佳优先搜索，从而提升开源模型在推理任务上的性能。

其中，g(s_t)表示当前轨迹中的多个历史状态的聚合收益。g(s_t)的函数形式可以人为定义，例如判断当前代码是否符合语法规则，或通过构建过程奖励模型（PRM）进行监督学习得到；聚合方式可以是求和、最大值、最小值等。

为了获得状态-动作对(s_t, a_t)的最优Q值，研究人员在现有大模型策略生成的数据上，通过监督学习的方式训练了一个代理Q值模型。训练过程中的真实标签可以通过离线强化学习、蒙特卡罗采样估计和更强大的语言模型补全得到。

实验结果表明，昆仑万维提出的Q框架，显著提升了大模型的推理能力。在GSM8K数据集上，Q将Llama-2-7b的准确率提升到80.8%，超过了ChatGPT；在MATH数据集上，Q将DeepSeek-Math-7b的准确率提升到55.4%，超过了Gemini Ultra；在MBPP数据集上，Q将CodeQwen1.5-7b-Chat的准确率提升到77.0%，缩小了与GPT-4在编程水平上的差距。

研究证明，Q能使参数量仅为7b的小模型达到参数量大数十倍甚至百倍模型的推理能力，大幅提升模型性能，并显著减少计算资源需求。目前，Q的研究尚处于初期阶段，算法在各个环节还有改进空间。未来，昆仑万维将继续深入研究，不断提升国产开源模型的推理能力，打破OpenAI的封锁，为人工智能技术发展带来新的可能性。

原创文章，作者：志斌，如若转载，请注明出处：http://www.damoai.com.cn/archives/6037