AI热点 3月前 264 浏览次数 11 评论

我国团队研发,全球首个基因挖掘大模型 SYMPLEX 问世

发布了 1221 文章

感谢IT之家网友 六月河 的线索投递!

IT之家 4 月 14 日消息,随着生物测序技术突破,全球天然基因库已积累数十亿量级序列,其中蕴藏海量高价值功能基因。然而,当前仅有少数明星基因被深度挖掘,绝大多数仍处于“沉睡”状态。

4 月 9 日,中国科学院深圳先进技术研究院定量合成生物学全国重点实验室、合成生物学研究所娄春波团队与北京大学定量生物学中心钱珑团队合作在国际学术期刊 Science Advances 上发表研究论文,报道了全球首个面向合成生物学元件挖掘与生物制造应用的大语言模型 ——“SYMPLEX”,并将 SYMPLEX 模型应用于 mRNA 加帽酶基因的挖掘,展示了大语言模型赋能生物制造的巨大潜力。

该模型通过融合领域大语言模型训练、合成生物专家知识对齐和大规模生物信息分析,实现了从海量文献中自动化挖掘功能基因元件,并精准评估其工程化应用潜力

研究团队将 SYMPLEX 应用于 mRNA 疫苗生物制造关键酶 —— 加帽酶的挖掘,成功获得多种高性能新型加帽酶。第三方公司实验验证显示,这些酶在催化效率上超越国际头部企业 New England Biolabs(NEB)商业化加帽酶 2 倍以上,显著提升了 mRNA 疫苗生产率和成本效益。

研究团队创造性地将大型语言模型(LLM)与结构化生物知识库深度融合,开发出 SYMPLEX 智能基因挖掘平台。

SYMPLEX 是强大的功能基因搜索引擎,通过自动化阅读和理解千万级体量的生物学文献,在基因、功能和知识水平上提取分析文献内容,并与专家数据库进行概念对齐、交互和基于先进生物信息技术的统计模式生成,从而提供证据链完整的高质量候选基因集合。

SYMPLEX 不仅有效规避了大语言模型幻觉,还能自动生成基因功能相关的细粒度知识树,引导科学家探索广泛的生物机制和分子过程。

▲ SYMPLEX 大模型的技术路线及其与传统基因挖掘流程对比

对比结果表明,SYMPLEX 大模型在挖掘基因的深度、数量和多样性上均显著优于传统生物信息学方法,其挖掘的基因多样性也超越了现有蛋白质功能预测模型的边界。

▲ SYMPLEX 挖掘结果多样性对比和细粒度知识树生成

目前,SYMPLEX 在线交互式平台已上线供研究人员免费使用。平台采用模块化设计,提供三个核心功能:

  • (1)文献智能提取引擎 PubEngine:支持高通量的文献智能检索分析与可视化交互。

  • (2)基因功能标注系统 GeneTagger:实现从分子机制到生物过程的细粒度自动化基因与功能提取。

  • (3)标准化知识中枢 GeneNorm:实现与专家知识库的概念对齐与标准化,支持知识树构建和功能模式识别。

IT之家附论文链接:

https://www.science.org/doi/full/10.1126/sciadv.adt0402

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

1221 文章 178813 浏览次数 5638 粉丝

评论 (11)

User avatar

太酷了!基因挖掘大模型,未来可期!

User avatar

这基因挖掘,简直是上帝在开玩笑,太搞笑了!

User avatar

这想法太有意思,未来肯定会充满各种不可思议!

User avatar

感觉我们人类要变成数据里的玩偶,有点小丧!

User avatar

这玩意儿,说未来可期,我感觉未来要崩!

User avatar

基因挖掘?这未来太疯狂了,我喜欢!

User avatar

有点儿可怕,但又觉得这未来真的会是这样,太奇妙!

User avatar

这简直是科幻成真了,未来世界,我只想躺平!

User avatar

太牛逼了,简直是人类进化加速器,不过有点害怕

User avatar

基因挖掘大模型?感觉我们人类快要被自己玩死!

睡觉动画