オープンソース!香港華人、MIT、復丹が初のRNA基礎モデルを提案
タンパク質分野とは異なり、RNA 分野の研究では十分なアノテーション データが不足していることが多く、たとえば 3D データには 1,000 以上の RNA しかありません。これは、RNA の構造と機能の予測タスクにおける機械学習手法の開発を大幅に制限します。
注釈付きデータの不足を補うために、 この記事では、さまざまな RNA 研究に豊富な構造的および機能的知識を提供できる基礎モデルを示します - RNA基礎モデル (RNA-FM)。 RNA-FM は、2,300 万の未標識 RNA 配列に基づいて教師なし方法でトレーニングされた世界初の RNA 基礎モデルとして、RNA 配列に含まれる進化パターンと構造パターンをマイニングします。
RNA-FM は、単純な下流モデルと一致するか、埋め込みを提供するだけで済み、多くの下流タスクで SOTA をはるかに超えるパフォーマンスを達成できることは注目に値します。二次構造予測では 20%、距離マップ予測では 30% 改善されます。大規模実験により、このモデルは非常に一般化可能であり、新型コロナウイルス感染症や mRNA の制御断片にも使用できることが証明されました。
- ##論文のプレプリント: https://arxiv. org/abs/2204.00300
- コードとモデル: https://github.com/ml4bio/RNA-FM
- ##サーバー: https://proj.cse.cuhk.edu.hk/rnafm
近年、タンパク質分野ではディープラーニングに基づくバイオコンピューティング手法が画期的な進歩を遂げており、最も有名なマイルストーンは、Google DeepMind チームが開発したエンドツーエンドのタンパク質 3D 構造予測フレームワーク AlphaFold2 です。しかし、タンパク質は数多くの生体分子のうちの一種にすぎず、タンパク質の生成源である遺伝子(DNA/RNA)の方が基礎的な情報が多く、重要な研究価値を持っています。
一般に、タンパク質はコード化に使用される RNA、つまり mRNA が翻訳されてできたものであり、固定された mRNA は固定されたタンパク質配列に翻訳されます。実際、コーディング RNA のこの部分は全 RNA 配列の 2% のみを占め、残りの 98% は非コーディング RNA (ncRNA) です。 ncRNA はタンパク質に直接「翻訳」されませんが、特定の機能を持つ三次構造に折り畳まれ、mRNA やその他の生物学的機能の翻訳プロセスにおいて制御的な役割を果たします。したがって、ncRNA の構造と機能の解析は、タンパク質の解析よりも基礎的かつ複雑な研究となります。
しかし、計算手法がより成熟しているタンパク質分野と比較すると、RNAに基づく構造と機能の予測はまだ初期段階にあり、計算手法はもともとタンパク質分野に適用可能です。 RNA領域に直接移行することは困難です。これらの計算手法の主な制限は、通常、RNA データのアノテーションを取得するのが難しく、少量のデータのアノテーションを完了するには多くの実験リソースと時間を必要とすることです。ほとんどの計算手法は、大量のアノテーション付きデータを必要とします。高いパフォーマンスを実現するための監視に。アノテーション付きのデータはそれほど多くありませんが、RNA 分野には実際にはアノテーションのない配列データが数多く蓄積されています。この記事の方法は、これらのラベルなしデータを使用して、さまざまな下流タスクに追加の効果的な情報を提供することです。
この考察に基づいて、香港華人、MIT、復丹、上海人工知能研究所のチームは、RNA財団に教師なし手法を提案しました。モデル (RNA-FM) は、2,300 万のラベルフリーの純粋な RNA シーケンスでトレーニングされます。データはトレーニング プロセス中にアノテーション情報を提供しませんが、RNA-FM は依然として、これらの RNA 配列に含まれる進化パターンと構造パターンを教師なしの方法でマイニングします。
RNA-FM を下流の RNA の構造と機能の予測タスクに効果的に適用できれば、これらの計算手法は RNA-FM によってもたらされる知識から確実に恩恵を受け、より優れたパフォーマンスを達成できるでしょう。 RNA-FM の上流の事前トレーニングと下流の移行およびアプリケーションのフレームワークを以下の図に示します。
事前学習済みRNA-FMが大量の「知識」を学習しているかどうかを確認するためラベルのないデータの分析と、どのような「知識」が学習されたのでしょうか? 記事では、埋め込みに関する一連の分析を実施しています。
まず、さまざまな特徴の単純なクラスタリング比較が UMAP を通じて直接実行され、事前トレーニングされたものからの埋め込みがRNA-FM は、より明確な RNA 種を含む他の埋め込み形成クラスターよりも優れていました。これは、RNA-FM の埋め込みには RNA 種を区別するための構造または機能情報が含まれていることを意味します。
その後、この記事では、RNA-FM 埋め込みによるさまざまな種からの lncRNA の進化を予測するために、軌道推論 (Trajectory inference) も使用しています。 。以下のストリームプロットから、種間の予測された進化の擬似時間は実際の種の進化情報とほぼ一致しており、RNA-FM の埋め込みにも進化情報の一部が含まれていることを示しています。
RNA 種のコミュニティ情報であれ、lncRNA の進化情報であれ、RNA-FM はトレーニング中にこれらのラベルに直接さらされていないことは注目に値します。RNA-FM は、完全に自己監視された方法で、純粋な配列から構造、機能、進化に関連するパターンを発見します。
特に二次構造予測の観点から、この記事では RNA-FM をバックボーンとして使用し、下流モデルとして単純な ResNet ネットワークのみを使用しており、2 つの公開データセットを上回っています。最先端のメソッドは、F1 スコアで最高の UFold より 3 ~ 5 パーセンテージ ポイント優れています。UFold との直接比較では、RNA-FM はほとんどの RNA カテゴリで優れたパフォーマンスを示します。UFold よりも優れています。 RNA-FM を E2Efold と組み合わせると、さらに 5% のパフォーマンス向上が達成できます。
モデルの実用的な応用価値を検証するには、記事 RNA-FM を使用して完全な解析を行うRNA-FM を使用して COVID-19 参照ゲノム (29870 nt) の主要な制御要素を正確に予測すること、および RNA-FM 埋め込みを使用して主要な 新型コロナウイルスの進化傾向を大まかに予測することを含む、COVID-19 データ
のデータ-19のバリエーション。
一般に、分子の構造はその機能を決定しますが、RNA-FM は RNA の構造予測タスクを見事に完了できるため、RNA-FM を使用して次のようなことができるでしょうか?機能予測も向上しますか?その結果は? したがって、記事
# に RNA-FM を導入することをさらに試みています。 RNA とタンパク質の役割の予測。
実験により、RNA-FM 埋め込みの導入によりモデルのパフォーマンスが向上し、場合によっては入力としての実際の二次構造情報と一致する予測結果が得られることが証明されました。
ncRNA トレーニングに基づく RNA-FM を他の RNA に一般化できるかどうかを調査するために、記事 # では最終的に次のことを試みます。 RNA -FM を使用すると、mRNA
の 5'UTR に基づいてタンパク質発現の機能予測が実行されます。 mRNAはncRNAには属しませんが、その5'UTRは翻訳されないが制御機能を持つ領域であり、ncRNAの特徴と一致しており、学習データには現れません。
以下の図からわかるように、RNA-FM 埋め込みを含むモデルは、含まないモデルよりも常に優れています。パフォーマンスの向上は比較的限定的ですが、RNA-FM が非 ncRNA データに対して一定の一般化能力も備えていることを部分的に示しています。
結論
一般に、この記事では、ラベルのない RNA 配列データを使用して言語モデル RNA-FM を事前トレーニングし、直接的または間接的な方法を通じて、一連の構造的または機能的な包括的な検証を行います。さまざまなタスクは、RNA-FM が下流タスクのコンピューティング手法のパフォーマンスを実際に効果的に向上させることができることを証明しています。
RNA-FM の出現により、RNA 標識データの現状はある程度緩和され、他の研究者に大量の標識されていないデータにアクセスするための便利なインターフェースが提供されました。 RNA分野の基本モデルとして、この分野のさまざまな研究を強力にサポートします。
著者について
この記事には 2 人の共同筆頭著者がいます。 Chen Jiayang は香港中文大学の研究助手です。 Hu Zhihang は香港中文大学の博士候補者です。
#この記事には 2 人の責任著者がいます。 Sun Siqi 氏、復旦大学知能複雑システム研究所および上海人工知能研究所の若手研究者、ホームページ https://intersun.github.io。
Li Yu 氏、香港中文大学助教授、MIT ジェームズ・コリンズ研究所客員助教授、MIT およびハーバード大学ブロード研究所研究員、米国大学客員研究員ハーバード大学ウィス研究所、フォーブス誌アジアの 30 歳未満の 30 人リスト – 2022 年卒業生、ヘルスケアおよびサイエンス。ホームページ:https://liyu95.com。
以上がオープンソース!香港華人、MIT、復丹が初のRNA基礎モデルを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

顔の検出および認識テクノロジーは、すでに比較的成熟しており、広く使用されているテクノロジーです。現在、最も広く使用されているインターネット アプリケーション言語は JS ですが、Web フロントエンドでの顔検出と認識の実装には、バックエンドの顔認識と比較して利点と欠点があります。利点としては、ネットワーク インタラクションの削減とリアルタイム認識により、ユーザーの待ち時間が大幅に短縮され、ユーザー エクスペリエンスが向上することが挙げられます。欠点としては、モデル サイズによって制限されるため、精度も制限されることが挙げられます。 js を使用して Web 上に顔検出を実装するにはどうすればよいですか? Web 上で顔認識を実装するには、JavaScript、HTML、CSS、WebRTC など、関連するプログラミング言語とテクノロジに精通している必要があります。同時に、関連するコンピューター ビジョンと人工知能テクノロジーを習得する必要もあります。 Web 側の設計により、次の点に注意してください。

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。
