


中国科学院の研究チームは2つの重要な論文を発表した。1つは種を超えた生命の基盤に関する初の大規模モデルの発表、もう1つは細胞運命予測のための新しいAIモデルの発表だ。

著者 | 中国科学院多分野研究チーム
編集者 | ScienceAI
20 世紀の人類の 3 つの主要な科学プロジェクトの 1 つとして知られています。世紀 ゲノムプロジェクトは、生命の謎の詳細な分析を開始しました。生命プロセスは多次元で非常に動的な性質を持っているため、従来の実験研究手法では遺伝コードの根底にある共通法則を体系的かつ正確に解読することが困難であり、表現モデリングと知識を達成するには強力なコンピューティング技術を使用することが急務となっています。遺伝子データの発見。
現在、大規模モデルを核とした人工知能技術は、コンピュータビジョンや自然言語理解などの分野で革命を引き起こし、データや知識の深い理解を実証し、応用が期待されています。生命科学研究、システムの基礎となる遺伝暗号の共通法則を正確に解読するために
最近、中国科学院の多分野の学際的研究チームで構成される「Xcompass Consortium」(Xcompassコンソーシアム)は、生命科学研究に力を与える人工知能における重要なブレークスルー 異種生命の基礎を示す世界初の大規模モデル、ジーンコンパスの構築に成功。このモデルは、ヒトやマウスの1億2,600万個以上の単細胞のトランスクリプトームデータを統合し、プロモーター配列や遺伝子の共発現関係など4種類の事前知識を統合し、基本モデルパラメーター数は1億3,000万個に達し、遺伝子制御を実現します。規制法のパノラマ学習と理解は、細胞の状態変化の予測とさまざまな生命プロセスの正確な分析を同時にサポートし、生命科学研究を強化する人工知能の大きな可能性を実証します。
この研究のタイトルは「GeneCompass:知識に基づいた異種基礎モデルによる普遍的な遺伝子制御機構の解読」で、bioRxivに掲載されました。
紙のリンク: https://www.biorxiv.org/content/10.1101/2023.09.26.559542v1
さらに, 同チームは、細胞運命変換の中核因子を正確に特定でき、転写因子の摂動をシミュレートする機能を備えた転移学習に基づく遺伝子制御ネットワーク生成モデル「CellPolaris」も同時にリリースした。
研究のタイトルは「CellPolaris:遺伝子制御ネットワークの一般化転移学習による細胞運命の解読」で、bioRxivに掲載されました。
#GeneCompass: 種を超えた生命の基盤に関する初の大規模モデル
1 億 2,000 万の細胞と 1 億 3,000 万のパラメーターを含む、種を超えた生命の基本の大規模モデル
現在、単一の種が世界中で取得されています。 -細胞トランスクリプトームデータは数千万にすぎず、複雑な生命プロセスの分析に使用される基本的な生命モデルの大規模モデルのトレーニングを完全にサポートすることは困難です。
チームは、さまざまな種からオープンソースの単一細胞トランスクリプトーム データを収集し、スクリーニング、クリーニング、正規化などの前処理プロセスを通じて、マウスの 1 億 2,600 万個以上の細胞を含む既知最大の高品質データベースを確立しました。トレーニング データ セット scCompass-126M は、Transformer 自己注意メカニズムに基づく深層学習アーキテクチャを採用しており、異なる細胞背景の異なる遺伝子間の長期的な動的相関を捉えることができ、モデル パラメーターのサイズは 1 億 3,000 万に達します。生命プロセスの高解像度特性評価を達成するために、GeneCompass は初めて遺伝子数と発現レベルを二重エンコードし、遺伝子間の相関関係を効果的かつ高感度に抽出できるようにしました。これにより、GeneCompass は、細胞の種類や摂動状態など、さまざまな特定の条件下での遺伝子間の相互作用をより正確に分析できるようになります。
事前トレーニング中に事前知識を埋め込むと、モデルのパフォーマンスを効果的に向上させることができます。
モデルは、プロモーター配列、既知の遺伝子制御ネットワーク、遺伝子ファミリー情報、および遺伝子の共発現を効果的に統合します。 4 種類の生物学的事前知識間の関係に人間による注釈情報のエンコーディングを追加することで、生物学的データ間の複雑な特徴相関関係の理解を向上させます。データ情報とさまざまな種の事前知識をトレーニングおよび統合することにより、GeneCompass は従来の生物学研究の効率と精度を向上させ、まだ突破できない複雑な生命科学の問題に新たな入り口をもたらすことが期待されています。
スケール効果により、生物学的進化の保守的な法則を捉えるためのモデル トレーニングが促進されます
チームは、大規模な異種データで事前トレーニングされたモデルのパフォーマンスが向上することを発見しました。これはスケーリングの法則と一致しています。大規模な複数種の事前トレーニング データにより、より優れた事前トレーニング表現が生成され、下流タスクのパフォーマンスがさらに向上します。この発見は、種間で保存された遺伝子制御パターンが存在し、これらのパターンは事前訓練されたモデルによって学習および理解できることを示しています。同時に、これは、種とデータの拡大に伴い、モデルのパフォーマンスが引き続き向上すると予想されることも意味します。
マルチタスクのパフォーマンスの利点は、基本的な大規模モデルの強力な一般化能力を示しています
知識が埋め込まれた最大の事前トレーニング済みの異種基本生活モデルとして現在までのところ、GeneCompass は下流タスクのための複数の異種間転移学習を実現し、細胞型アノテーション、定量的遺伝子摂動予測、薬剤感受性分析などにおいて既存の方法よりも優れたパフォーマンスを達成できます。これは、ラベルのない複数種のビッグデータに基づいた事前トレーニングと、モデルの微調整に異なるサブタスクデータを使用することの戦略的利点を十分に実証しており、遺伝子に関連するさまざまな生物学的問題を分析および予測するための普遍的なソリューションとなることが期待されています-細胞の特性。
細胞分極: 転移学習により遺伝子制御ネットワークを解読し、細胞運命の変化を予測
転移学習を使用して細胞を生成する特定の遺伝子制御ネットワーク
チームはまた、CellPolaris と呼ばれる、一般化転移学習に基づいた遺伝子制御ネットワーク構築 AI モデルのセットも開発しました。このモデルはまず、一致する細胞シナリオで数百セットのトランスクリプトームとクロマチンのアクセシビリティ データを分類して高品質の遺伝子制御ネットワークを構築し、次に一般化転移学習モデルを使用して、トランスクリプトーム データのみを使用して細胞シナリオでより多くの遺伝子を生成します。 。次に、生成された信頼性の高い遺伝子制御ネットワークを使用して、細胞運命遷移におけるコア転写因子を同定するツールと、確率的グラフィカルモデルに基づく転写因子摂動シミュレーションツールを開発しました。このモデルは、細胞運命変換の中核因子を効果的に同定し、転写因子摂動のシミュレーションを実現することができ、遺伝子制御機構の解析や疾患原因遺伝子の発見において重要な応用価値を持っています。
上記の 2 つの研究は、「コンパス アライアンス」チームによって完了しました。「コンパス アライアンス」チームは現在、主に中国科学院動物研究所、共同コンピュータ ネットワーク情報センター、オートメーション研究所、コンピューティング技術研究所、数理・システム科学研究所の研究機関およびその他の研究機関で構成され、この提携の目標は、デジタルインテリジェンスを推進するライフサイエンス研究の新たなパラダイムを確立し、人生の本質的な法則。 ################################################ #人工的な知能
以上が中国科学院の研究チームは2つの重要な論文を発表した。1つは種を超えた生命の基盤に関する初の大規模モデルの発表、もう1つは細胞運命予測のための新しいAIモデルの発表だ。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック

拡散はより良いものを模倣するだけでなく、「創造」することもできます。拡散モデル(DiffusionModel)は、画像生成モデルである。 AI 分野でよく知られている GAN や VAE などのアルゴリズムと比較すると、拡散モデルは異なるアプローチを採用しており、その主な考え方は、最初に画像にノイズを追加し、その後徐々にノイズを除去するプロセスです。ノイズを除去して元の画像を復元する方法は、アルゴリズムの中核部分です。最後のアルゴリズムは、ランダムなノイズを含む画像から画像を生成できます。近年、生成 AI の驚異的な成長により、テキストから画像への生成、ビデオ生成など、多くのエキサイティングなアプリケーションが可能になりました。これらの生成ツールの背後にある基本原理は、以前の方法の制限を克服する特別なサンプリング メカニズムである拡散の概念です。

キミ: たった 1 文の PPT がわずか 10 秒で完成します。 PPTはとても面倒です!会議を開催するには PPT が必要であり、週次報告書を作成するには PPT が必要であり、投資を勧誘するには PPT を提示する必要があり、不正行為を告発するには PPT を送信する必要があります。大学は、PPT 専攻を勉強するようなものです。授業中に PPT を見て、授業後に PPT を行います。おそらく、デニス オースティンが 37 年前に PPT を発明したとき、PPT がこれほど普及する日が来るとは予想していなかったでしょう。 PPT 作成の大変な経験を話すと涙が出ます。 「20 ページを超える PPT を作成するのに 3 か月かかり、何十回も修正しました。PPT を見ると吐きそうになりました。」 「ピーク時には 1 日に 5 枚の PPT を作成し、息をすることさえありました。」 PPTでした。」 即席の会議をするなら、そうすべきです

北京時間6月20日早朝、シアトルで開催されている最高の国際コンピュータビジョンカンファレンス「CVPR2024」が、最優秀論文やその他の賞を正式に発表した。今年は、最優秀論文 2 件と学生優秀論文 2 件を含む合計 10 件の論文が賞を受賞しました。また、最優秀論文ノミネートも 2 件、学生優秀論文ノミネートも 4 件ありました。コンピュータービジョン (CV) 分野のトップカンファレンスは CVPR で、毎年多数の研究機関や大学が集まります。統計によると、今年は合計 11,532 件の論文が投稿され、2,719 件が採択され、採択率は 23.6% でした。ジョージア工科大学による CVPR2024 データの統計分析によると、研究テーマの観点から最も論文数が多いのは画像とビデオの合成と生成です (Imageandvideosyn

C言語は広く使われているプログラミング言語であり、コンピュータプログラミングを志す人にとって必ず学ばなければならない基本的な言語の一つです。ただし、初心者にとって、特に関連する学習ツールや教材が不足しているため、新しいプログラミング言語を学習するのは難しい場合があります。この記事では、C言語初心者がすぐに始められるプログラミングソフトを5つ紹介します。最初のプログラミング ソフトウェアは Code::Blocks でした。 Code::Blocks は、無料のオープンソース統合開発環境 (IDE) です。

PyCharm コミュニティ版のクイック スタート: 詳細なインストール チュートリアル 完全な分析 はじめに: PyCharm は、開発者が Python コードをより効率的に作成できるようにする包括的なツール セットを提供する強力な Python 統合開発環境 (IDE) です。この記事では、PyCharm Community Edition のインストール方法を詳しく紹介し、初心者がすぐに使い始めるのに役立つ具体的なコード例を示します。ステップ 1: PyCharm Community Edition をダウンロードしてインストールする PyCharm を使用するには、まず公式 Web サイトからダウンロードする必要があります

LLM が大量のデータを使用して大規模なコンピューター クラスターでトレーニングされていることはわかっています。このサイトでは、LLM トレーニング プロセスを支援および改善するために使用される多くの方法とテクノロジが紹介されています。今日、私たちが共有したいのは、基礎となるテクノロジーを深く掘り下げ、オペレーティング システムさえ持たない大量の「ベア メタル」を LLM のトレーニング用のコンピューター クラスターに変える方法を紹介する記事です。この記事は、機械がどのように考えるかを理解することで一般的な知能の実現に努めている AI スタートアップ企業 Imbue によるものです。もちろん、オペレーティング システムを持たない大量の「ベア メタル」を LLM をトレーニングするためのコンピューター クラスターに変換することは、探索と試行錯誤に満ちた簡単なプロセスではありませんが、Imbue は最終的に 700 億のパラメータを備えた LLM のトレーニングに成功しました。プロセスが蓄積する

タイトル: 技術初心者必読: 具体的なコード例を必要とする C 言語と Python の難易度分析 今日のデジタル時代において、プログラミング技術はますます重要な能力となっています。ソフトウェア開発、データ分析、人工知能などの分野で働きたい場合でも、単に興味があってプログラミングを学びたい場合でも、適切なプログラミング言語を選択することが最初のステップです。数あるプログラミング言語の中でも、C言語とPythonは広く使われているプログラミング言語であり、それぞれに独自の特徴があります。この記事ではC言語とPythonの難易度を分析します。

Machine Power Report 編集者: Yang Wen 大型モデルや AIGC に代表される人工知能の波は、私たちの生活や働き方を静かに変えていますが、ほとんどの人はまだその使い方を知りません。そこで、直感的で興味深く、簡潔な人工知能のユースケースを通じてAIの活用方法を詳しく紹介し、皆様の思考を刺激するコラム「AI in Use」を立ち上げました。また、読者が革新的な実践的な使用例を提出することも歓迎します。ビデオリンク: https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ 最近、Xiaohongshu で一人暮らしの女の子の生活 vlog が人気になりました。イラスト風のアニメーションといくつかの癒しの言葉を組み合わせれば、数日で簡単に習得できます。
