OpenAI发布LifeSciBench：衡量AI系统在真实科研场景中的能力

PANews 6月20日消息， OpenAI官方发布全新评测基准LifeSciBench，旨在衡量AI系统在真实科研场景中的能力。据悉，LifeSciBench基于750道专家编写任务，覆盖7类科研工作流与7个生物学领域，任务来源于173名具有博士背景并具备生物科技或制药行业经验的科研人员，该基准强调复杂科研能力评估，包括证据整合、实验设计、数据分析、科学推理与科研沟通等能力，而非单一事实性问题。超过79%的任务包含多步骤推理，平均每道题需约4个推理步骤，并包含1,062个真实科研相关数据附件（如论文、图表、序列数据及结构文件等）。（PANews） [原文链接]

OpenAI发布LifeSciBench：衡量AI系统在真实科研场景中的能力

请登录

联系我们