中国科学院研究团队发布了两篇重要论文:首个跨物种生命基础大模型问世,以及新型细胞命运预测AI模型的发布

作者 | 中国科学院多学科交叉研究团队
编辑 | ScienceAI
被称为20世纪人类三大科学计划之一的人类基因组计划,拉开了深度解析生命奥秘的序幕。由于生命过程具有多维度、高度动态的特点,传统实验研究手段难以系统精准地破解基因密码的底层共性规律,亟需运用强大的计算技术来实现基因数据的表征建模与知识发现。
当前,以大型模型为核心的人工智能技术在计算机视觉和自然语言理解等领域引发了革命,展示了对数据和知识的深入理解能力,有望应用于生命科学研究领域,系统地精准破解基因密码的底层共性规律
近日,由中国科学院多学科交叉研究团队组成的“指南针联盟”(Xcompass Consortium)在人工智能赋能生命科学研究方面取得了重要突破,成功构建了世界首个跨物种生命基础大模型——GeneCompass。 该模型集成了人和小鼠超过1.26亿个单细胞的转录组数据、融合了包括启动子序列和基因共表达关系等四种先验知识、基础模型参数量达到1.3亿,实现了对基因表达调控规律的全景式学习理解,同时支持细胞状态变化预测及多种生命过程的精准分析,展示了人工智能赋能生命科学研究的巨大潜力。
该研究以《GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Model》为题,发布在bioRxiv上。
论文链接:https://www.biorxiv.org/content/10.1101/2023.09.26.559542v1
另外,该团队还同步发布了一个基于迁移学习的基因调控网络生成模型, CellPolaris,该模型能够准确识别细胞命运转换核心因子,并具有转录因子扰动模拟能力。
该研究以《CellPolaris: Decoding Cell Fate through Generalization Transfer Learning of Gene Regulatory Networks》为题,发布在bioRxiv上。
GeneCompass:首个跨物种生命基础大模型
哺乳动物个体一般包含数万到数十万亿个细胞。尽管个体中的所有细胞均含有相同的基因序列,但是每个细胞的命运和功能却因其独特的时空背景而千差万别。如此精密的生命过程是由复杂的基因表达调控系统所控制
为了增进对生命本质规律的理解,并创新各种重大疾病的诊疗手段,需要对生命普遍存在的基因调控机制进行深入探索。然而,传统的研究方法通量低且局限于单个模式生物,无法揭示复杂的基因调控机制
近年来,单细胞组学技术的突破产生了大量不同类型细胞的基因表达谱数据,为解读基因-基因相互作用提供了数据基础。同时深度学习的发展,尤其是生成式大模型的出现,可以综合汇总海量不同细胞状态下的数据学习非线性调控机制,为生命科学研究带来了前所未有的机遇。
一个跨越物种的生命基础大模型,包含了1.2亿个细胞数量和1.3亿个参数
目前,全世界范围内在单一物种上已获得的单细胞转录组数据规模仅为千万级别,难以充分支撑用于解析复杂生命过程的生命基础大模型训练。
该团队收集了不同物种的单细胞转录组开源数据,经过筛选、清洗、均一化等预处理流程,建立了目前已知最大规模、包含小鼠和人类的超过1.26亿细胞的高质量训练数据集scCompass-126M;采用了基于Transformer自注意力机制的深度学习架构,可捕获不同基因之间在不同细胞背景下的长程动态关联关系,模型参数规模达1.3亿。为实现针对生命过程的高分辨率刻画,GeneCompass首次将基因编号和表达量进行双重编码,从而能够有效、灵敏地提取基因之间的关联关系。这使GeneCompass对各种特定条件,如细胞类型和扰动状态的基因-基因相互作用提供更加精准分析。
预训练时嵌入先验知识可有效提升模型性能
模型通过有效整合启动子序列、已知基因调控网络、基因家族信息和基因共表达关系四种生物学先验知识,加入人类注释信息编码,提高了对生物数据间复杂特征关联关系的理解。通过训练整合不同物种的数据信息及先验知识,GeneCompass有望提高传统生物学研究的效率和精准性为尚无法突破的复杂生命科学难题带来新的切入点。
规模效应提示模型训练捕捉生物进化的保守规律
团队发现,针对大规模跨物种数据进行预训练的模型,在单一物种的子任务上符合尺度定律(scaling law):即较大规模的多物种预训练数据能够产生更好的预训练表征,并进一步提高下游任务的性能。这一发现表明,物种之间存在保守的基因调控规律,并且这些规律可以被预训练模型所学习和理解。同时,这也意味着随着物种和数据的扩展,模型性能有望不断提升
多任务性能优势展现基础大模型强大泛化能力
作为迄今为止最大规模的、具有知识嵌入的跨物种预训练生命基础大模型,GeneCompass可实现多个跨物种下游任务的迁移学习,并在细胞类型注释、定量基因扰动预测、药物敏感性分析等方面,相比已有方法取得更优性能。这充分展示了基于多物种无标注大数据预训练,再利用不同子任务数据进行模型微调的策略优势,有望成为实现基因-细胞特征相关联的各种生物问题分析预测的通用解决方案。
细胞极化:迁移学习解码基因调控网络,预测细胞命运变化
利用迁移学习生成细胞特异的基因调控网络
团队还开发了一套基于泛化迁移学习的基因调控网络构建AI模型,称为CellPolaris。模型首先整理数百套匹配细胞场景下的转录组及染色质可及性数据,构建高质量的基因调控网络,随后通过泛化迁移学习模型,仅使用转录组数据生成更多细胞场景下的基因调控网络。进而利用生成的高可信度基因调控网络,开发了细胞命运转换核心转录因子识别工具以及基于概率图模型的转录因子扰动模拟工具。该模型能够有效识别细胞命运转换核心因子,并实现转录因子扰动的模拟,在基因调控机制解析及致病基因发现方面均有重要应用价值。
CellPolaris模型产生的基因调控网络,提供了丰富的分子相互作用信息,可以作为深度学习大模型的先验知识。而深度学习大模型产生的低维嵌入向量,将为基因调控机制解析及致病基因发现提供重要信息。
上述两项研究由“指南针联盟”团队完成,“指南针联盟”团队目前主要由中国科学院动物研究所联合计算机网络信息中心,自动化研究所,计算技术研究所,数学与系统科学研究院等组成,联盟的目标是建立数智驱动的生命科学研究新范式,解析生命的本质规律。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
以上是中国科学院研究团队发布了两篇重要论文:首个跨物种生命基础大模型问世,以及新型细胞命运预测AI模型的发布的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

Diffusion不仅可以更好地模仿,而且可以进行「创作」。扩散模型(DiffusionModel)是一种图像生成模型。与此前AI领域大名鼎鼎的GAN、VAE等算法,扩散模型另辟蹊径,其主要思想是一种先对图像增加噪声,再逐步去噪的过程。其中如何去噪还原原图像是算法的核心部分。最终算法能够从一张随机的噪声图像中生成图像。近年来,生成式AI的惊人增长将文本转换为图像生成、视频生成等领域的许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念,这是一种特殊的采样机制,克服了以前的方法中被

Kimi:一句话,十几秒钟,一份PPT就新鲜出炉了。PPT这玩意儿,可太招人烦了!开个碰头会,要有PPT;写个周报,要做PPT;拉个投资,要展示PPT;就连控诉出轨,都得发个PPT。大学更像是学了个PPT专业,上课看PPT,下课做PPT。或许,37年前丹尼斯・奥斯汀发明PPT时也没想到,有一天PPT竟如此泛滥成灾。吗喽们做PPT的苦逼经历,说起来都是泪。「一份二十多页的PPT花了三个月,改了几十遍,看到PPT都想吐」;「最巅峰的时候,一天做了五个PPT,连呼吸都是PPT」;「临时开个会,都要做个

北京时间6月20日凌晨,在西雅图举办的国际计算机视觉顶会CVPR2024正式公布了最佳论文等奖项。今年共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,另外还有2篇最佳论文提名和4篇最佳学生论文提名。计算机视觉(CV)领域的顶级会议是CVPR,每年都会吸引大量研究机构和高校参会。据统计,今年共提交了11532份论文,2719篇被接收,录用率为23.6%。根据佐治亚理工学院对CVPR2024的数据统计分析,从研究主题来看,论文数量最多的是图像和视频合成与生成(Imageandvideosyn

C语言作为一门广泛应用的编程语言,对于想从事计算机编程的人来说是必学的基础语言之一。然而,对于初学者来说,学习一门新的编程语言可能会有些困难,尤其是缺乏相关的学习工具和教材。在本文中,我将介绍五款帮助初学者入门C语言的编程软件,帮助你快速上手。第一款编程软件是Code::Blocks。Code::Blocks是一个免费的开源集成开发环境(IDE),适用于

快速入门PyCharm社区版:详细安装教程全解析导言:PyCharm是一个功能强大的Python集成开发环境(IDE),它提供了一套全面的工具,可以帮助开发人员更高效地编写Python代码。本文将详细介绍如何安装PyCharm社区版,并提供具体的代码示例,帮助初学者快速入门。第一步:下载和安装PyCharm社区版要使用PyCharm,首先需要从其官方网站上下

我们知道LLM是在大规模计算机集群上使用海量数据训练得到的,本站曾介绍过不少用于辅助和改进LLM训练流程的方法和技术。而今天,我们要分享的是一篇深入技术底层的文章,介绍如何将一堆连操作系统也没有的「裸机」变成用于训练LLM的计算机集群。这篇文章来自于AI初创公司Imbue,该公司致力于通过理解机器的思维方式来实现通用智能。当然,将一堆连操作系统也没有的「裸机」变成用于训练LLM的计算机集群并不是一个轻松的过程,充满了探索和试错,但Imbue最终成功训练了一个700亿参数的LLM,并在此过程中积累

标题:技术入门者必看:C语言和Python难易程度解析,需要具体代码示例在当今数字化时代,编程技术已成为一项越来越重要的能力。无论是想要从事软件开发、数据分析、人工智能等领域,还是仅仅出于兴趣学习编程,选择一门合适的编程语言是第一步。而在众多编程语言中,C语言和Python作为两种广泛应用的编程语言,各有其特点。本文将对C语言和Python的难易程度进行解析

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。视频链接:https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ最近,独居女孩的生活Vlog在小红书上走红。一个插画风格的动画,再配上几句治愈系文案,短短几天就能轻松狂揽上
