OpenAI开源HealthBench,60个国家合力开发5000段真实对话
ceshi阅读:2025-05-13 07:42:03
OpenAI开源医疗大模型测试评估集HealthBench。
该测试集包含5000段核心对话,由262名来自60个**/地区的医生设计,覆盖26个专业领域,提升了测试的难度、真实性和丰富度。采用多轮对话形式,而非简单问答或选择题。
测试结果显示,大模型在医疗保健领域的表现显著提升。例如,GPT-3.5 Turbo到GPT-4o准确率从16%提高至32%,再到GPT-o3的60%。小型模型进步更明显,GPT-4.1 nano性能超越GPT-4o,同时成本**25倍。
本文地址:https://licai.bestwheel.com.cn/qk/252642.html
文章标题:OpenAI开源HealthBench,60个国家合力开发5000段真实对话
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。







