DNAメチル化は、細胞の分化、老化、がんの発生など、さまざまな生物学的プロセスにおいて重要な役割を果たしています。哺乳動物における最も重要なメチル化は 5-メチルシトシンであり、これは主に CpG ジヌクレオチドに関連して発生します。
全ゲノム重亜硫酸塩シーケンスなどのシーケンス手法は、5-メチルシトシン DNA 修飾を正常に検出できます。ただし、読み取り長が短いという重大な欠点があり、増幅バイアスが発生する可能性があります。
シンガポール A*STAR の研究者らは、オックスフォード ナノポア シーケンシング (ONT) ピリミジン検出機能を使用することで読み取りレベルの 5-メチルシトシンを大幅に改善する深層学習アルゴリズム Rockfish を開発しました。
この研究は「ロックフィッシュ:ナノポアシーケンスからの正確な5-メチルシトシン予測のためのトランスフォーマーベースのモデル」と題され、2024年7月3日に「Nature Communications」に掲載されました。
高精度の読み取りレベル予測手法の必要性を考慮して、研究者たちは、最新アーキテクチャの Transformers を使用した新しい最先端の深層学習手法の開発に着手しました。彼らの方法 Rockfish は、生のナノポアシグナル、核酸塩基配列、およびアライメント情報に基づいて 5mC 修飾を検出します。 イラスト: Rockfish アーキテクチャの概要。 (出典: 論文)研究者らは、高品質のヒトおよびマウスのデータセットを使用してモデルをトレーニングし、以下を含む複数の R9.4.1 および R10.4.1 データセットでテストしました。
R9.4.1 と R10.4.1 の両方を考慮すると、 NA12878 と新生仔マウスのデータセットが評価に使用され、研究者らはそれらを区別するためにウェルのバージョンを指摘しました。残りのデータセットは、R9.4.1 ウェル バージョンのみを使用して配列決定されました。
ロックフィッシュ モデルの広範な評価と次のツールとの比較:
比較には以下が含まれます:
単一塩基精度と F1 メトリクスは、R.9.4.1 データセットでは最大 5 パーセント ポイント、R10.4.1 データセットでは最大 0.82 パーセント ポイント改善されました。
さらに、Rockfish は全ゲノム重亜硫酸塩シークエンシングと高い相関を示し、必要な読み取り深度が低く、CpG リッチなプロモーターなどの生物学的に重要な領域において高い信頼性で計算効率が高くなります。
ヒトおよびマウスのサンプルにおけるその優れたパフォーマンスは、さまざまな生物や疾患における 5-メチルシトシンのメチル化の研究における多用途性を強調しています。最後に、その適応性のあるアーキテクチャにより、新しいバージョンの細孔、化学的性質、および修飾タイプとの互換性が保証されます。
図: ONT ベースのツールと WGBS の間の相関分析。 (出典: 論文)それにも関わらず、他の種類の修飾に対する高品質な制御データセットが不足しているため、Rockfish は現在 5mC と 5hmC のメチル化を区別できません。モデルの計算効率にはまだ改善の余地があり、将来的にはアーキテクチャとエンジニアリングの最適化によって効率が向上すると予想されます。
Rockfish は、小規模モデルのパフォーマンスが向上し、すべてのデータセットで実行時間が短縮され、ONT の生信号からメチル化情報を抽出する能力を実証し、追加のデータと知識の蒸留の利点を実証しました。
5mC 修飾は、転写制御、病気、老化などのさまざまな生物学的現象に関連しています。したがって、1 塩基分解能の検出を通じて DNA メチル化の役割を深く理解することが重要です。病気の早期診断と治療戦略の選択。 Rockfish のアーキテクチャにより、さまざまな種類の DNA および RNA 修飾を検出するために簡単に拡張できます。
論文リンク: https://www.nature.com/articles/s41467-024-49847-0
以上がトランスフォーマーベースの新しい手法は、ナノポア配列決定から DNA メチル化を正確に予測しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。