中國科學院研究團隊發布了兩篇重要論文:首個跨物種生命基礎大模型問世,以及新型細胞命運預測AI模型的發布

作者| 中國科學院多元學科交叉研究團隊
編輯 | ScienceAI
被稱為20世紀人類三大科學計畫之一的人類基因組計劃,拉開了深度解析生命奧秘的序幕。由於生命過程具有多維度、高度動態的特點,傳統實驗研究手段難以系統精準地破解基因密碼的底層共性規律,亟需運用強大的計算技術來實現基因數據的表徵建模與知識發現。
目前,以大型模型為核心的人工智慧技術在電腦視覺和自然語言理解等領域引發了革命,展示了對數據和知識的深入理解能力,並有望應用於生命科學研究領域,系統地精準破解基因密碼的底層共性規律
近日,由中國科學院多學科交叉研究團隊組成的「指南針聯盟」(Xcompass Consortium)在人工智慧賦能生命科學研究方面取得了重要突破,成功建構了世界首個跨物種生命基礎大模型-GeneCompass。該模型整合了人類和小鼠超過1.26億個單細胞的轉錄組數據、融合了包括啟動子序列和基因共表達關係等四種先驗知識、基礎模型參數量達到1.3億,實現了對基因表達調控規律的全景式學習理解,同時支持細胞狀態變化預測及多種生命過程的精準分析,展現了人工智慧賦能生命科學研究的巨大潛力。
研究以《GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Model》為題,發佈在bioRxiv。
論文連結:https://www.biorxiv.org/content/10.1101/2023.09.26.559542v1
#另外,該團隊還同步發布了一個基於遷移學習的基因調控網絡生成模型, CellPolaris,該模型能夠準確識別細胞命運轉換核心因子,並具有轉錄因子擾動模擬能力。
研究以《CellPolaris: Decoding Cell Fate through Generalization Transfer Learning of Gene Regulatory Networks》為題,發佈在bioRxiv上。
#GeneCompass:首個跨物種生命基礎大模型
#哺乳動物個體一般包含數萬到數十兆個細胞。儘管個體中的所有細胞都含有相同的基因序列,但是每個細胞的命運和功能卻因其獨特的時空背景而千差萬別。如此精密的生命過程是由複雜的基因表現調控系統所控制
為了增進對生命本質規律的理解,並創新各種重大疾病的診療手段,需要對生命普遍存在的基因調控機制進行深入探索。然而,傳統的研究方法通量低且局限於單一模式生物,無法揭示複雜的基因調控機制
近年來,單細胞組學技術的突破產生了大量不同類型細胞的基因表現譜數據,為解讀基因-基因交互作用提供了數據基礎。同時深度學習的發展,尤其是生成式大模型的出現,可以綜合匯總海量不同細胞狀態下的資料學習非線性調控機制,為生命科學研究帶來了前所未有的機會。
一個跨越物種的生命基礎大模型,包含了1.2億個細胞數量和1.3億個參數
目前,全世界範圍內在單一物種上已獲得的單細胞轉錄組資料規模僅為千萬個級別,難以充分支撐用於解析複雜生命過程的生命基礎大模型訓練。
該團隊收集了不同物種的單細胞轉錄組開源數據,經過篩選、清洗、均一化等預處理流程,建立了目前已知最大規模、包含小鼠和人類的超過1.26億細胞的高質量訓練資料集scCompass-126M;採用了基於Transformer自註意力機制的深度學習架構,可捕捉不同基因之間在不同細胞背景下的長程動態關聯關係,模型參數規模達1.3億。為實現針對生命過程的高解析度刻畫,GeneCompass首次將基因編號和表現量進行雙重編碼,以便能夠有效、靈敏地提取基因之間的關聯關係。這使得GeneCompass對各種特定條件,如細胞類型和擾動狀態的基因-基因交互作用提供更精準分析。
預訓練時嵌入先驗知識可有效提升模型表現
模型透過有效整合啟動子序列、已知基因調控網絡、基因家族資訊與基因共表達關係四種生物學先驗知識,加入人類註釋資訊編碼,提升了對生物資料間複雜特徵關聯關係的理解。透過訓練整合不同物種的資料資訊及先驗知識,GeneCompass有望提高傳統生物學研究的效率和精準性為尚無法突破的複雜生命科學難題帶來新的切入點。
規模效應提示模型訓練捕捉生物演化的保守規律
團隊發現,針對大規模跨物種資料進行預訓練的模型,在單一物種的子任務上符合尺度定律(scaling law):即較大規模的多物種預訓練資料能夠產生更好的預訓練表徵,並進一步提高下游任務的表現。這項發現表明,物種之間存在保守的基因調控規律,而這些規律可以被預訓練模型所學習和理解。同時,這也意味著隨著物種和資料的擴展,模型效能可望不斷提升
#多任務表現優勢展現基礎大模型強大泛化能力
作為迄今為止最大規模的、具有知識嵌入的跨物種預訓練生命基礎大模型,GeneCompass可實現多個跨物種下游任務的遷移學習,並在細胞類型註釋、定量基因擾動預測、藥物敏感性分析等方面,相比已有方法取得更優性能。這充分展示了基於多物種無標註大數據預訓練,再利用不同子任務數據進行模型微調的策略優勢,有望成為實現基因-細胞特徵相關聯的各種生物問題分析預測的通用解決方案。
細胞極化:遷移學習解碼基因調控網絡,預測細胞命運變化
利用遷移學習產生細胞特異的基因調控網絡
團隊也開發了一套基於泛化遷移學習的基因調控網絡建構AI模型,稱為CellPolaris。模型首先整理數百套匹配細胞場景下的轉錄組及染色質可及性數據,建構高品質的基因調控網絡,接著透過泛化遷移學習模型,僅使用轉錄組數據產生更多細胞場景下的基因調控網路。進而利用產生的高可信度基因調控網絡,開發了細胞命運轉換核心轉錄因子識別工具以及基於機率圖模型的轉錄因子擾動模擬工具。此模型能有效辨識細胞命運轉換核心因子,並實現轉錄因子擾動的模擬,在基因調控機制解析及致病基因發現方面均有重要應用價值。
##模擬胎盤發育過程中轉錄因子敲除對細胞命運的影響
CellPolaris模型產生的基因調控網絡,提供了豐富的分子相互作用信息,可以作為深度學習大模型的先驗知識。而深度學習大模型所產生的低維度嵌入向量,將為基因調控機制解析及致病基因發現提供重要資訊。
人工智慧
以上是中國科學院研究團隊發布了兩篇重要論文:首個跨物種生命基礎大模型問世,以及新型細胞命運預測AI模型的發布的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

Diffusion不僅可以更好地模仿,而且可以進行「創作」。擴散模型(DiffusionModel)是一種影像生成模型。與先前AI領域大名鼎鼎的GAN、VAE等演算法,擴散模型另闢蹊徑,其主要想法是先對影像增加噪聲,再逐步去噪的過程。其中如何去噪還原原影像是演算法的核心部分。最終演算法能夠從一張隨機的雜訊影像中產生影像。近年來,生成式AI的驚人成長將文字轉換為圖像生成、視訊生成等領域的許多令人興奮的應用提供了支援。這些生成工具背後的基本原理是擴散的概念,這是一種特殊的取樣機制,克服了先前的方法中被

Kimi:一句話,十幾秒鐘,一份PPT就新鮮出爐了。 PPT這玩意兒,可太招人煩了!開個碰頭會,要有PPT;寫個週報,要做PPT;拉個投資,要展示PPT;就連控訴出軌,都得發個PPT。大學比較像是學了個PPT專業,上課看PPT,下課做PPT。或許,37年前丹尼斯・奧斯汀發明PPT時也沒想到,有一天PPT竟然如此氾濫成災。嗎嘍們做PPT的苦逼經歷,說起來都是淚。 「一份二十多頁的PPT花了三個月,改了幾十遍,看到PPT都想吐」;「最巔峰的時候,一天做了五個PPT,連呼吸都是PPT」;「臨時開個會,都要做個

北京時間6月20日凌晨,在西雅圖舉辦的國際電腦視覺頂會CVPR2024正式公佈了最佳論文等獎項。今年共有10篇論文獲獎,其中2篇最佳論文,2篇最佳學生論文,另外還有2篇最佳論文提名和4篇最佳學生論文提名。電腦視覺(CV)領域的頂級會議是CVPR,每年都會吸引大量研究機構和高校參會。根據統計,今年共提交了11532份論文,2719篇被接收,錄取率為23.6%。根據佐治亞理工學院對CVPR2024的數據統計分析,從研究主題來看,論文數量最多的是圖像和視頻合成與生成(Imageandvideosyn

快速入門PyCharm社群版:詳細安裝教學全解析導言:PyCharm是一個功能強大的Python整合開發環境(IDE),它提供了一套全面的工具,可以幫助開發人員更有效率地編寫Python程式碼。本文將詳細介紹如何安裝PyCharm社群版,並提供具體的程式碼範例,幫助初學者快速入門。第一步:下載和安裝PyCharm社群版要使用PyCharm,首先需要從其官方網站上下

我們知道LLM是在大規模電腦叢集上使用海量資料訓練得到的,本站曾介紹過不少用於輔助和改進LLM訓練流程的方法和技術。而今天,我們要分享的是一篇深入技術底層的文章,介紹如何將一堆連作業系統也沒有的「裸機」變成用來訓練LLM的電腦叢集。這篇文章來自於AI新創公司Imbue,該公司致力於透過理解機器的思維方式來實現通用智慧。當然,將一堆連作業系統也沒有的「裸機」變成用於訓練LLM的電腦叢集並不是一個輕鬆的過程,充滿了探索和試錯,但Imbue最終成功訓練了一個700億參數的LLM,並在此過程中積累

C語言作為一門廣泛應用的程式語言,對於想從事電腦程式設計的人來說是必學的基礎語言之一。然而,對於初學者來說,學習新的程式語言可能會有些困難,尤其是缺乏相關的學習工具和教材。在本文中,我將介紹五款幫助初學者入門C語言的程式設計軟體,幫助你快速上手。第一款程式軟體是Code::Blocks。 Code::Blocks是一個免費的開源整合開發環境(IDE),適用於

標題:技術入門者必看:C語言和Python難易度解析,需要具體程式碼範例在當今數位化時代,程式設計技術已成為一項越來越重要的能力。無論是想要從事軟體開發、數據分析、人工智慧等領域,還是僅僅出於興趣學習編程,選擇一門合適的程式語言是第一步。而在眾多程式語言中,C語言和Python作為兩種廣泛應用的程式語言,各有其特色。本文將對C語言和Python的難易度進行解析

機器之能報道編輯:楊文以大模型、AIGC為代表的人工智慧浪潮已經在悄悄改變我們生活及工作方式,但絕大部分人依然不知道該如何使用。因此,我們推出了「AI在用」專欄,透過直覺、有趣且簡潔的人工智慧使用案例,來具體介紹AI使用方法,並激發大家思考。我們也歡迎讀者投稿親自實踐的創新用例。影片連結:https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ最近,獨居女孩的生活Vlog在小紅書上走紅。一個插畫風格的動畫,再配上幾句治癒系文案,短短幾天就能輕鬆狂攬上
