Rumah Peranti teknologi AI Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal Alam

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal Alam

Jun 10, 2024 pm 10:21 PM
teori

. .

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal AlamBaidu Big Data Lab (BDL) dan pasukan Shanghai Jiao Tong University membangunkan RNAErnie, model pra-latihan berpusat RNA berdasarkan seni bina Transformer.

Para penyelidik menilai model menggunakan tujuh set data dan lima tugas, menunjukkan keunggulan RNAErnie dalam kedua-dua pembelajaran diselia dan tidak diselia.

RNAErnie melepasi garis dasar dengan meningkatkan ketepatan klasifikasi sebanyak 1.8%, ketepatan ramalan interaksi sebanyak 2.2% dan ramalan struktur skor F1 sebanyak 3.3%, menunjukkan keteguhan dan kebolehsuaiannya.

Kajian ini bertajuk "

Pemodelan bahasa RNA pelbagai guna dengan pralatihan sedar motif dan penalaan halus berpandukan jenis

" dan diterbitkan dalam "

Nature Machine Intelligence

" pada 13 Mei 2024.

RNA memainkan peranan penting dalam dogma utama biologi molekul, bertanggungjawab untuk memindahkan maklumat genetik dalam DNA kepada protein.

Molekul RNA memainkan peranan penting dalam pelbagai proses selular seperti ekspresi gen, pengawalan dan pemangkinan. Memandangkan kepentingan RNA dalam sistem biologi, terdapat keperluan yang semakin meningkat untuk kaedah analisis yang cekap dan tepat untuk jujukan RNA.

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal AlamAnalisis RNA-seq tradisional bergantung pada teknik eksperimen seperti penjujukan RNA dan susunan mikro, tetapi kaedah ini selalunya mahal, memakan masa dan memerlukan input RNA yang banyak.

Untuk menangani cabaran ini, pasukan Baidu BDL dan Universiti Jiao Tong Shanghai telah membangunkan model bahasa RNA terlatih: RNAErnie.

RNAErnie

Model ini dibina di atas rangka kerja Perwakilan Dipertingkat Integrasi Pengetahuan (ERNIE) dan mengandungi blok Transformer berbilang lapisan dan berbilang kepala, masing-masing dengan dimensi keadaan tersembunyi 768. Pralatihan dilakukan menggunakan korpus luas yang terdiri daripada kira-kira 23 juta jujukan RNA yang dipilih dengan teliti daripada RNAcentral.

Strategi pra-latihan sedar motif yang dicadangkan melibatkan penutupan peringkat asas, penutupan peringkat subjujukan dan penutup rawak peringkat motif, yang secara berkesan menangkap pengetahuan peringkat subjujukan dan motif serta memperkaya perwakilan jujukan RNA. Selain itu, RNAErnie melabelkan jenis RNA berbutir kasar sebagai perbendaharaan kata khas dan menambahkan label jenis RNA berbutir kasar pada penghujung setiap jujukan RNA semasa pra-latihan. Dengan berbuat demikian, model ini berpotensi untuk membezakan ciri unik pelbagai jenis RNA, dengan itu memudahkan penyesuaian domain kepada pelbagai tugas hiliran.

Ilustrasi: Gambaran keseluruhan model. (Sumber: kertas)

Secara khusus, model RNAErnie terdiri daripada 12 lapisan Transformer. Dalam fasa pra-latihan sedar topik, RNAErnie dilatih pada set data kira-kira 23 juta jujukan yang diekstrak daripada pangkalan data RNAcentral, menggunakan pembelajaran diselia sendiri dan topeng rawak pelbagai peringkat peka topik.

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal Alam

Ilustrasi: Strategi pra-latihan yang sedar topik dan strategi penalaan halus berpandukan jenis. (Sumber: kertas)

Dalam peringkat penalaan halus berpandukan jenis, RNAErnie mula-mula menggunakan benam keluaran untuk meramalkan kemungkinan jenis RNA berbutir kasar, dan kemudian menggunakan jenis yang diramalkan sebagai maklumat tambahan untuk memperhalusi model melalui tugas- tajuk tertentu.

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal AlamPendekatan ini membolehkan model menyesuaikan diri dengan pelbagai jenis RNA dan meningkatkan kegunaannya dalam pelbagai tugas analisis RNA.

Secara lebih khusus, untuk menyesuaikan diri dengan perubahan pengedaran antara set data pra-latihan dan domain sasaran, RNAErnie memanfaatkan penyesuaian domain untuk menggabungkan tulang belakang pra-latihan dengan modul hiliran dalam tiga seni bina saraf: tulang belakang beku dengan jaring kepala boleh dilatih (FBTH), tulang belakang boleh dilatih dengan kepala boleh dilatih (TBTH), dan susun untuk penalaan halus berpandukan jenis (STACK).

Dengan cara ini, kaedah yang dicadangkan boleh mengoptimumkan pengepala tulang belakang dan khusus tugasan dari hujung ke hujung, atau menggunakan benam yang diekstrak daripada tulang belakang beku untuk memperhalusi pengepala khusus tugas, bergantung pada aplikasi hiliran.

Penilaian prestasi

Ilustrasi: RNAErnie menangkap corak ontologi pelbagai peringkat. (Sumber: Kertas)

Penyelidik menilai kaedah dan keputusan menunjukkan bahawa RNAErnie mengatasi prestasi terkini pada tujuh set data jujukan RNA yang meliputi lebih daripada 17,000 motif RNA utama, 20 jenis RNA dan 50,000 jujukan RNA.

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal Alam

Ilustrasi: Prestasi RNAErnie pada tugas ramalan struktur sekunder RNA menggunakan set data ArkibII600 dan TS0. (Sumber: kertas)

Dinilai menggunakan 30 teknologi penjujukan RNA arus perdana, menunjukkan generalisasi dan keteguhan RNAErnie. Pasukan itu menggunakan ketepatan, ketepatan, ingat semula, skor F1, MCC dan AUC sebagai metrik penilaian untuk memastikan perbandingan yang saksama bagi kaedah analisis RNA-seq.

Pada masa ini, terdapat beberapa kajian tentang mengaplikasikan seni bina Transformer dengan pengetahuan luaran yang dipertingkatkan kepada analisis data RNA-seq. Rangka kerja RNAErnie dari calar menyepadukan pembenaman jujukan RNA dan strategi pembelajaran penyeliaan sendiri untuk membawa prestasi unggul, kebolehtafsiran dan potensi generalisasi kepada tugasan RNA hiliran.

Selain itu, RNAErnie boleh disesuaikan dengan tugas lain dengan mengubah suai output dan isyarat pemantauan. RNAErnie tersedia secara umum dan merupakan alat yang cekap untuk memahami analisis RNA berpandukan jenis dan aplikasi lanjutan.

Limitation

Walaupun model RNAErnie adalah inovatif dalam analisis jujukan RNA, ia masih menghadapi beberapa cabaran.

Pertama, model ini dihadkan oleh saiz jujukan RNA yang boleh dianalisis, kerana jujukan yang lebih panjang daripada 512 nukleotida dibuang, yang berpotensi mengabaikan maklumat struktur dan fungsian yang penting. Kaedah menyekat yang dibangunkan untuk mengendalikan urutan yang lebih panjang boleh mengakibatkan kehilangan maklumat lanjut tentang interaksi jarak jauh.

Kedua, fokus kajian ini sempit, hanya memfokuskan pada domain RNA dan tidak meluas kepada tugas seperti ramalan protein RNA atau pengenalan tapak pengikat. Selain itu, model ini menghadapi kesukaran dalam mengambil kira motif struktur tiga dimensi RNA, seperti gelung dan persimpangan, yang penting untuk memahami fungsi RNA.

Lebih penting lagi, reka bentuk seni bina post-hoc sedia ada juga mempunyai potensi had.

Kesimpulan

Namun begitu, RNAErnie mempunyai potensi besar untuk memajukan analisis RNA. Model ini menunjukkan kepelbagaian dan keberkesanannya sebagai penyelesaian umum dalam tugas hiliran yang berbeza.

Selain itu, strategi inovatif yang diguna pakai oleh RNAErnie dijangka meningkatkan prestasi model pra-latihan lain dalam analisis RNA. Penemuan ini menjadikan RNAErnie sebagai aset berharga, memberikan penyelidik alat yang berkuasa untuk membongkar kerumitan penyelidikan berkaitan RNA.

Pautan kertas:https://www.nature.com/articles/s42256-024-00836-4

Atas ialah kandungan terperinci Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal Alam. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama. Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama. Jul 26, 2024 pm 05:38 PM

Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama.

Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K Jul 26, 2024 am 08:40 AM

Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K

Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali Jul 26, 2024 pm 02:40 PM

Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG

Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan? Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan? Aug 22, 2024 pm 04:37 PM

Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan?

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains Aug 08, 2024 pm 09:22 PM

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains

Prestasi SOTA, kaedah AI ramalan pertalian protein-ligan pelbagai mod Xiamen, menggabungkan maklumat permukaan molekul buat kali pertama Prestasi SOTA, kaedah AI ramalan pertalian protein-ligan pelbagai mod Xiamen, menggabungkan maklumat permukaan molekul buat kali pertama Jul 17, 2024 pm 06:37 PM

Prestasi SOTA, kaedah AI ramalan pertalian protein-ligan pelbagai mod Xiamen, menggabungkan maklumat permukaan molekul buat kali pertama

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama Jun 22, 2024 am 07:16 AM

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

See all articles