OpenAI推出医疗AI评估基准HealthBench，全球医生参与设计

大模型之家讯 OpenAI近日推出开源评估基准HealthBench，旨在衡量大语言模型在医疗场景中的性能与安全性。该基准由全球医生参与设计，涵盖多个领域和4.8万维度的评估标准，包括准确性、指令遵循等。HealthBench还包括两个子集，用于验证重要行为维度和最高得分表现。OpenAI表示，此基准将推动医疗AI模型的真实世界应用。