OpenAI发布LifeSciBench:衡量AI系统在真实科研场景中的能力

PANews 6月20日消息, OpenAI官方发布全新评测基准LifeSciBench,旨在衡量AI系统在真实科研场景中的能力。据悉,LifeSciBench基于750道专家编写任务,覆盖7类科研工作流与7个生物学领域,任务来源于173名具有博士背景并具备生物科技或制药行业经验的科研人员,该基准强调复杂科研能力评估,包括证据整合、实验设计、数据分析、科学推理与科研沟通等能力,而非单一事实性问题。超过79%的任务包含多步骤推理,平均每道题需约4个推理步骤,并包含1,062个真实科研相关数据附件(如论文、图表、序列数据及结构文件等)。(PANews) [原文链接]

上一篇:

下一篇:

联系我们

邮件:contact@dappchaser.com

QR code