OpenAI推出医疗AI评估基准HealthBench,全球医生参与设计

大模型之家讯 OpenAI近日推出开源评估基准HealthBench,旨在衡量大语言模型在医疗场景中的性能与安全性。该基准由全球医生参与设计,涵盖多个领域和4.8万维度的评估标准,包括准确性、指令遵循等。HealthBench还包括两个子集,用于验证重要行为维度和最高得分表现。OpenAI表示,此基准将推动医疗AI模型的真实世界应用。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注