腾讯混元联合多机构打造具备长链式推理的多模态奖励模型

大模型之家讯 5月13日，腾讯混元科技携手上海AI Lab、复旦大学及上海创智学院推出全新研究成果UnifiedReward-Think。该模型具有长链式推理能力，为首个能在视觉任务中“学会思考”的统一多模态奖励模型，显著提升了复杂视觉生成与理解任务的评估准确性和跨任务泛化性。目前，该项目已全面开源，包含模型、数据集、训练脚本及评测工具。