AI热点 3 months ago 210 Views 11 Comments

全球首个AI科学家天团出道!007做实验碾压人类博士,生化环材圈巨震

新智元公众号

Published 7995 Articles

声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。

就在刚刚,世界上首个公开可用的AI科学家登场了!

前谷歌CEO Eric Schmidt投资的一家非营利组织FutureHouse,官宣发布四个超人类的AI科学家智能体。

通用智能体:Crow(乌鸦)

自动化文献综述智能体:Falcon(猎鹰)

调研智能体:Owl(猫头鹰)

实验智能体:Phoenix(凤凰)

这些智能体都是专门为科学研究而开发。

Crow、Falcon和Owl通过了严格的基准测试,在搜索精度和准确性上已经超越了目前顶级搜索模型,比如o3-mini,GPT-4.5,Claude-3.7。

LitQA基准测试精度(正确答案 / 已回答问题)和准确率(正确答案 / 所有问题)比较

FutureHouse还通过实验,验证了它们在直接文献搜索任务中,检索和综合能力比博士水平的研究人员具有更高的精度。

在问答、文章总结和矛盾检测这三个任务中,PaperQA2与人类博士的性能对比

在未来一两年内,我们将见证:今天科学家所做的大部分桌面工作,都会通过这些AI科学家的帮助而加速!

完胜人类的AI科学家

FutureHouse董事兼CEO Sam Rodriques表示:我们的AI科学家智能体,执行起科学任务来已经完胜人类!

通过把它们串联起来,我们已经很快有了全新的生物学发现。

这次FutureHouse发布的AI科学家,跟以往那些AI科学家有什么不同呢?

这主要就体现在,Crow、Falcon和Owl可以访问大量完整的科学文本。

这就意味着,你可以向它们提出关于实验方案和研究局限性的更详细的问题。

而一般的网络搜索智能体,通常只能访问摘要,这就会错过这些问题。

而且,它们还能使用各种因素来区分来源质量,确保它们不会依赖低质量的论文,或者是流行的科学来源。

最后还有一点,也是至关重要的一点,就是FutureHouse会为用户提供一个API,允许研究者将这些智能体直接集成到他们的工作流中。

网友热评:为我量身打造

已经有网友摩拳擦掌,表示自己已经在想象使用起这个AI科学家的样子了。

有人表示,自己如今已经63岁了,有过12年的学界经验,和25年的私人诊所经验,感觉这些AI科学家非常适合自己。

当然,也有人提出疑问:这些产品使用的数据经过允许了吗?

诚然,目前这些智能体还不能自主完成大多数的科学研究。

不过我们已经可以用它们来生成和评估新的假设,规划新的实验,速度还比以前快很多。

另外,Future House内部还有专门用于数据分析、假设生成、蛋白质工程等方面的智能体,未来几个月内即将上线。

人类科研效率在下降,该AI上场了!

所以,AI科学家具体是怎么工作的?

FutureHouse的三位科学家,为我们提供了详尽的解答。

据他们介绍,FutureHouse的平台,是从科学第一的角度构建的,而不仅仅是为了吸引尽可能多的用户。

这三位科学家,本身对于科学就有着十分浓厚的兴趣。

比如左边的Michaela,在过去十年中,一直对控制人类细胞基因调控的分子机制十分好奇;中间的Mike是一位计算材料科学博士。

右边的Andrew表示,当他们共同创立未来之家时,他们注意到很多生产力和科学都在下降——每年人类发表的论文都越来越多,但突破却越来越少。

与此同时,AI却已经进化到了可以真正加速科学发展的程度。

因此,他们希望能让AI科学家做到自动化科研的全过程,如搜索文献、生成假设和进行分析。

其中,Crow非常适合文献检索问题,尤其是需要使用开放目标等数据源的问题提供简洁答案的时候。

Falcon是一个更深度的搜索工具,会考虑更多的来源,会在回答中为我们提供长篇报告。

Owl则专注于先例搜索,如果你好奇某项科研此前是否已经被做过,它的用武之地就来了。而且,它非常擅长梳理出某研究和过去研究的细微差别。

Phoenix则是一名化学药剂师,比其他科学家显得更定制化,更关注化学问题。

从PCOS开始,找到值得研究的新药

比如Michaela表示,自己的朋友最近表示自己有多囊卵巢综合征(PCOS),却很难找到一种非激素的治疗方法。

Michaela就实测了一番,是否能用这些AI科学家从零知识获得明确的可验证假设。

首先,她去问Falcon:请对PCOS进行全面解释。然后,AI科学家就开始工作了,并且我们可以看到全程的推理过程。

可以看到,Falcon创建了自己的搜索词,去搜寻已发表的论文,这一切都是它自行决定的。

更特别的是,跟主流的Agent不同,FutureHouse的AI科学家可以访问科学文献的全文。引用次数、引用图表、来自哪些期刊,都一清二楚。

在下一步,它抽出了其中的19份论文,同时还纳入了治疗PCOS的临床实验信息。

随后,就发生了一个非常密集的推理过程,Falcon会找到与所提问题最相关的背景证据。在整个系统中,这种信息漏斗的功能极其强大。

几位科学家表示,这个AI是目前该领域性能最强的信息提取系统之一。

下一步,就该Crow出场了。它被问到一个相当具体的问题:在基因组关联研究中,哪些关键基因跟PCOS相关?是否有人做过更清晰的筛选?

果然,Crow发现了此前的研究:已经有人在一项功能基因组学研究中, 将特定基因表达的增加,与细胞培养中睾酮表达的增加联系起来。

但这是为什么呢?AI科学家也能找到答案。

就这样,我们从对PCOS一无所知的小白,一下子掌握了决定该领域的一个关键差距,本来这会耗费我们大量时间去阅读资料、与专家交谈的,现在全都省去了。

甚至我们还可以点击链接,看到实际的推理轨迹:AI会解释为什么选择这项来源。

对于科学家而言,AI科学家的辅助无疑意义重大。

因为在生物学或药物设计领域拥有丰富经验的研究者,并不会成为工程师,对于诸如抓取论文、设置分布式数据库、速率限制这类事都并不擅长。

而这,就是FutureHouse平台诞生的意义。

那如何在提出假设和检验假设这两方面取得进展呢?这就需要Phoenix出场了。

我们可以向它提问,让它给出三种可以治疗由DENND1A过度表达引起的疾病的新型化合物。(这是基于此前AI科学家给出的调研结果)

因为在这个阶段,我们需要找到能治疗PCOS的药物。

我们可以从与蛋白质结合的分子开始,确保它更易溶解,不会进入肝脏或肾脏,以及没有获得过专利。

在提问中,我们了解到,目前不存在已知的针对该基因的结合剂。这就提供了一个很好的线索,甚至值得投入资金来进行药物研发。

最后,AI科学家给出了一份关于不同候选分子的报告,列出了它们已知的结合物,以及为什么可能与调节DENND1A的表达有关。

这样,它就给出了下一步研究的起点,我们可以直接去实验室中验证了。

1年造出AI科学家

FutureHouse的科学总监/联合创始人Andrew White,在X上回顾了过去一年的研发历程。

2024年6月,FutureHouse发布了Lab-Bench基准测试。

2024年9月,FutureHous成功开发了PaperQA2智能体。

PaperQA2示意图:与传统的RAG不同,在PaperQA2中LLM决定将哪些工具应用于查询。

2024年10月,他们编写了17,000篇关于人类编码基因的维基百科文章,验证了AI科学家的可行性。

2024年12月,他们利用新的框架和训练方法,在多个任务上了训练智能体——在分子克隆和文献研究方面超过生物学专家20多个准确率点。

昨天,他们隆重发布了FutureHouse平台。

独具匠心的智能体,

真正改变科研

与传统智能体相比,FutureHouse智能体的优势非常独特:

它们不仅能够访问海量高质量的免费论文和专业科学工具,而且还能从专业的论文数据库中精准搜索信息。

它们还能模仿研究人员,采用多种方法评估信息来源的质量

而且这些智能体的推理过程完全透明,对每个信息来源都进行了多阶段的深入分析。

更重要的是,用户可以清晰地查看整个推理过程,了解智能体得出结论的每一步依据

此外,FutureHouse平台具备良好的扩展性

科学家个人往往难以维护自己的AI智能体部署,因此FutureHouse不仅提供了网页端接口,还开放了API,便于研究人员将其集成进实际工作流中。

通过大规模整合和链接这些智能体,科学家能够大幅提升科学发现的速度与效率。

已知的具体应用场景

这个平台尤其擅长应对以下两类问题:

需要详尽全文文献分析的研究课题,

或需要运用专业化学工具的探索任务。

具体应用场景包括:

挖掘疾病路径中的未知机制:用户可利用Falcon获取背景知识,Crow挖掘关键基因关联,Owl定位研究空白。

这些操作只要几分钟就能完成,而传统的文献调研要花费数周时间。

系统梳理文献中的矛盾:用户可利用Falcon分析数百篇论文中争议性话题的矛盾证据,精准指出需要进一步实验去澄清的争议点。

深入剖析实验方法:由于智能体可以访问计划全部的科学论文,用户可详细询问实验方法或研究局限性,挖掘摘要中难以察觉的关键细节。

通过API定制研究流程:研究团队利用API构建软件系统,实时监控最新论文,或大规模搜索文献,为筛选实验结果提供全面的背景知识支持。

寻找目标蛋白的结合候选物:科学家可指示Phoenix基于现有数据,筛选结合目标蛋白的候选物,同时满足溶解度、官能团或新颖性等复杂要求。

探索化学知识:Phoenix能判断化合物的新颖性、估算成本、预测化学反应结果,甚至比较直接购买与自行合成化学品的成本。

(举报)

新智元公众号

新智元公众号

7995 Articles 1244368 Views 950300 Fans

Comment (11)

User avatar

AI科学家天团登场,未来科技真有趣!

User avatar

未来科技,我感觉他们要成为新的统治者,这太有趣了!

User avatar

未来科技,这简直是给未来的孩子们准备的玩具!

User avatar

未来科技,我有点担心,但又觉得好玩!

User avatar

这群AI,估计在用算法来预测人类的梦想!

User avatar

未来科技,我感觉他们要解锁一个全新的宇宙!

User avatar

这未来科技,想想就觉得有点不对劲,怪好玩的!

User avatar

这AI,估计要把人类的思维都给改写了!

User avatar

未来科技?我感觉他们是在玩一场超现实的剧本!

User avatar

未来科技,这玩意儿要不就带劲,要不就带崩!

睡觉动画