OpenAI开源HealthBench，60个国家合力开发5000段真实对话

ceshi阅读：2025-05-13 07:42:03

OpenAI开源医疗大模型测试评估集HealthBench。

该测试集包含5000段核心对话，由262名来自60个**/地区的医生设计，覆盖26个专业领域，提升了测试的难度、真实性和丰富度。采用多轮对话形式，而非简单问答或选择题。

测试结果显示，大模型在医疗保健领域的表现显著提升。例如，GPT-3.5 Turbo到GPT-4o准确率从16%提高至32%，再到GPT-o3的60%。小型模型进步更明显，GPT-4.1 nano性能超越GPT-4o，同时成本**25倍。