Midjourney操作界面

Meta 发布巨型 AI 化学数据集 OMol25及通用模型 UMA

4.8
0热度

Meta 近日重磅发布了其迄今为止规模最大的 AI 驱动化学开放数据集 OMol25,并同步推出了用于预测分子和材料化学性质的通用人工智能模型 UMA(Universal Atom Model)。这两项创新成果旨在加速药物研发、电池材料开发和催化剂研究等关键领域。据 Meta 介绍,OMol25数据集包含了超过1亿次高精度的分子计算数据,其规模远超此前任何公开的同类数据集。为了生成这一庞大的资源,

Meta 近日重磅发布了其迄今为止规模最大的 AI 驱动化学开放数据集 OMol25,并同步推出了用于预测分子和材料化学性质的通用人工智能模型 UMA(Universal Atom Model)。这两项创新成果旨在加速药物研发、电池材料开发和催化剂研究等关键领域。

据 Meta 介绍,OMol25数据集包含了超过1亿次高精度的分子计算数据,其规模远超此前任何公开的同类数据集。为了生成这一庞大的资源,Meta 耗费了超过60亿小时的计算时间。OMol25涵盖了广泛的分子类型,包括小型有机化合物、生物分子(如蛋白质和 DNA 片段)、金属复合物以及电解质。此外,该数据集还包含了分子的带电态、自旋态、多种空间排列(构象)以及化学反应的相关信息,并提供了能量、力值、电荷分布和轨道等详细的化学性质数据。目前,OMol25数据集已在 Hugging Face 平台公开。

芯片 科技 (1)

与 OMol25同步发布的 UMA 模型,是 Meta 基于 OMol25及其他数据集训练的全新 AI 模型。UMA 的独特之处在于其能够在原子层面预测化学性质,并且速度远超传统的计算方法。与以往需要为特定任务构建专门模型的方法不同,UMA 具备通用性,能够处理从分子模拟(用于药物发现)到材料和催化研究等多种应用场景。UMA 基于先进的图神经网络构建,并采用了“混合线性专家”架构,实现了计算速度和预测精度的良好平衡。在基准测试中,UMA 的表现已达到此前只有经过精细调整的专用模型才能实现的水准。

Meta 强调,借助 UMA,以往需要数天才能完成的分子模拟和计算现在仅需几秒钟即可完成,这将使研究人员能够在实验室合成之前快速筛选数千种潜在的新分子,从而高效评估其作为药物或电池材料的潜力。UMA 模型同样已在 Hugging Face 上开放获取。

值得一提的是,Meta 还推出了一种名为“伴随采样”的全新 AI 分子模拟方法。与传统 AI 模型通常需要大量真实世界数据来生成新分子结构不同,“伴随采样”即使在缺乏真实样本的情况下,也能学习并提出新的分子结构。该技术借鉴了随机控制理论和扩散过程的概念,Meta 团队认为扩散过程尤其适用于模拟分子。实验表明,“伴随采样”只需少量计算即可快速探索多种分子结构变体,并且生成的分子构象不仅能与传统软件的结果相匹配,在处理具有多个灵活组件的分子时甚至表现更优。相关的模型、代码和更多信息已在 Hugging Face 和 GitHub 上提供。

尽管取得了显著进展,Meta 也指出当前仍存在一些挑战。例如,对于聚合物、某些金属或复杂的质子化状态等化学领域,数据的覆盖尚不完善。此外,AI 模型在预测电荷、自旋和长程相互作用等性质方面仍有提升空间。

点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部