大模型之家讯 9月1日,清华大学、北京中关村学院等机构联合发布了首个面向具身智能的“渲训推一体化”大规模强化学习框架RLinf。该框架由用户层到硬件层的六大层级组成,采用混合式执行模式,在具身智能训练场景中实现超120%的系统提速和VLA模型涨幅40%-60%。RLinf的设计高度灵活且可扩展,已成功应用于数学推理大模型的训练,并在多个数据集上取得了领先成绩。
大模型之家讯 9月1日,清华大学、北京中关村学院等机构联合发布了首个面向具身智能的“渲训推一体化”大规模强化学习框架RLinf。该框架由用户层到硬件层的六大层级组成,采用混合式执行模式,在具身智能训练场景中实现超120%的系统提速和VLA模型涨幅40%-60%。RLinf的设计高度灵活且可扩展,已成功应用于数学推理大模型的训练,并在多个数据集上取得了领先成绩。