'Yang terbaik dari kedua-dua dunia', mereka bentuk molekul dari awal, seni bina pembelajaran mendalam S4 untuk pemodelan bahasa kimia-AI-php.cn

Rumah

'Yang terbaik dari kedua-dua dunia', mereka bentuk molekul dari awal, seni bina pembelajaran mendalam S4 untuk pemodelan bahasa kimia

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 05, 2024 pm 08:58 PM

ai model bahasa teori penyelidikan dan pembangunan dadah kimia sains molekul

Yang terbaik dari kedua-dua dunia, mereka bentuk molekul dari awal, seni bina pembelajaran mendalam S4 untuk pemodelan bahasa kimia

Editor |. KX

Pembelajaran mendalam generatif sedang membentuk semula reka bentuk dadah. Model bahasa kimia (CLM), yang menjana molekul sebagai rentetan molekul, amat penting untuk proses ini.

Baru-baru ini, penyelidik dari Universiti Teknologi Eindhoven di Belanda memperkenalkan seni bina pembelajaran mendalam (S4) terkini ke dalam reka bentuk ubat de novo.

Model Jujukan Ruang Negeri Berstruktur (S4) mempunyai prestasi cemerlang dalam mempelajari sifat global jujukan, jadi bolehkah S4 memajukan pemodelan bahasa kimia direka dari awal?

Untuk memberikan jawapan, penyelidik menanda aras S4 secara sistematik terhadap CLM tercanggih pada pelbagai tugas penemuan ubat, seperti pengenalpastian sebatian bioaktif dan reka bentuk molekul seperti ubat dan produk semula jadi. S4 mempunyai keupayaan unggul untuk meneroka pelbagai perancah sambil mempelajari sifat molekul kompleks.

Akhirnya, 8 daripada 10 molekul yang direka oleh S4 diramalkan sangat aktif oleh simulasi dinamik molekul apabila digunakan secara prospektif pada perencat kinase.

Ringkasnya, S4 mempunyai potensi besar dalam pemodelan bahasa kimia, terutamanya dalam menangkap aktiviti biologi dan sifat molekul kompleks. Ini adalah kali pertama model ruang keadaan telah digunakan untuk tugas molekul.

Penyelidikan berkaitan bertajuk "Pemodelan bahasa kimia dengan model jujukan ruang keadaan berstruktur" dan diterbitkan dalam "Komunikasi Alam Semulajadi" pada 22 Julai.

Yang terbaik dari kedua-dua dunia, mereka bentuk molekul dari awal, seni bina pembelajaran mendalam S4 untuk pemodelan bahasa kimia

Pautan kertas: https://www.nature.com/articles/s41467-024-50469-9

Merancang molekul dengan sifat yang diingini dari awal adalah masalah "jarum dalam timbunan jerami". Alam semesta kimia, yang mengandungi sehingga 10^60 molekul kecil, masih tidak diketahui.

Pembelajaran mendalam generatif boleh menghasilkan molekul yang diingini tanpa peraturan rekaan tangan, membolehkan cara yang menjimatkan masa dan kos rendah untuk meneroka alam semesta kimia. Khususnya, CLM telah menghasilkan reka bentuk bioaktif yang disahkan secara eksperimen dan menonjol sebagai penjana molekul yang berkuasa.

CLM menggunakan algoritma yang dibangunkan untuk pemprosesan jujukan untuk mempelajari "bahasa kimia", iaitu cara menjana molekul yang sah secara kimia (sintaks) dan mempunyai sifat yang dikehendaki (semantik). Ini dicapai dengan mewakili struktur molekul sebagai simbol rentetan, seperti Sistem Kemasukan Talian Input Molekul Mudah (SMILES). Rentetan molekul ini kemudiannya digunakan untuk latihan model dan penjanaan molekul seterusnya dalam bentuk teks.

Yang terbaik dari kedua-dua dunia, mereka bentuk molekul dari awal, seni bina pembelajaran mendalam S4 untuk pemodelan bahasa kimia

Ilustrasi: Konsep utama model jujukan ruang keadaan berstruktur (S4) untuk pemodelan bahasa kimia. (Sumber: Kertas)

CLM Architecture:

Long Short-Term Short-Term (LSTM) model
Transformer Architecture

Structured State Space Sequence Model🜎S4 baru yang sedang membangun

Mempunyai "sifat dwi":
Latih keseluruhan jujukan input untuk mempelajari sifat global yang kompleks
- Aplikasi

Penyelidik menggunakan S4 untuk pemodelan bahasa kimia pada rentetan SMILES
Menanda aras terhadap pelbagai tugas yang berkaitan dengan reka bentuk ubat:
- Mempelajari aktiviti biologi
- Penerokaan produk kimia semula jadi

Reka bentuk molekul seperti dadah dan produk semula jadi:

Penyelidik menanda aras S4 terhadap CLM tercanggih
seperti reka bentuk molekul seperti dadah dan produk semula jadi
Pertama, Menganalisis keupayaan S4 untuk mereka bentuk dadah -seperti molekul kecil (panjang SENYUM kurang daripada 100 token) yang diekstrak daripada pangkalan data ChEMBL
🎜1. Semua CLM menjana lebih daripada 91% molekul yang sah, 91% daripada molekul unik dan 81% daripada molekul baharu.
S4 mereka bentuk molekul yang paling cekap, unik dan baharu dengan menghasilkan lebih banyak molekul baharu daripada garis dasar (kira-kira 4000 hingga lebih 12,000), dan menunjukkan keupayaan yang baik untuk mempelajari "tatabahasa kimia" rentetan SMILES.
Potensi S4 berbanding kaedah reka bentuk de novo sedia ada disahkan lagi pada penanda aras MOSES, di mana S4 secara konsisten berada di kedudukan antara kaedah pembelajaran mendalam berprestasi terbaik.
S4 juga diuji lagi terhadap entiti molekul yang lebih mencabar daripada molekul seperti dadah.
Untuk tujuan ini, penyelidik menilai keupayaannya untuk merekayasa produk semula jadi (NP).
Berbanding dengan molekul kecil sintetik, NP cenderung mempunyai struktur molekul dan sistem gelang yang lebih kompleks, serta bahagian yang lebih besar daripada atom karbon hibrid sp3 dan pusat kiral.
Ciri-ciri ini sepadan dengan jujukan SMILES yang lebih panjang secara purata, dengan lebih banyak kebergantungan jarak jauh, dan menjadikan produk semula jadi mencabar kes ujian untuk CLM.

Semua CLM boleh mereka bentuk produk semula jadi, tetapi prestasinya lebih rendah berbanding molekul seperti dadah. Reka bentuk S4 mempunyai bilangan molekul berkesan tertinggi, dengan kira-kira 6000 hingga 12,000 lebih molekul daripada S4 (7-13% lebih baik), manakala LSTM mempunyai kebaharuan tertinggi, dengan kira-kira 2000 lebih molekul (2%) daripada S4.
Akhir sekali, latihan dan kelajuan penjanaan seni bina CLM apabila meningkatkan panjang SMILES juga dianalisis untuk menguji kebolehgunaan praktikalnya apabila mereka bentuk molekul yang lebih besar seperti produk semula jadi. Analisis menyerlahkan bahawa disebabkan sifat dwinya, S4 adalah sepantas GPT semasa latihan (kedua-duanya ~1.3x lebih pantas daripada LSTM) dan terpantas dari segi penjanaan. Ini seterusnya menyokong pengenalan S4 sebagai kaedah yang cekap untuk reka bentuk molekul, menawarkan "yang terbaik dari kedua-dua dunia" berbanding dengan GPT dan LSTM.
Reka bentuk de novo prospektif
Penyelidik menggunakan S4 menjalankan kajian prospektif dalam silico tertumpu pada mereka bentuk perencat protein kinase 1 (MAPK1) diaktifkan mitogen, sasaran yang relevan untuk terapi tumor. Aktiviti biologi putative reka bentuk kemudiannya dinilai oleh dinamik molekul (MD).
Ilustrasi: Reka bentuk prospektif de novo perencat MAPK1 yang diduga menggunakan S4. (Sumber: kertas) Model S4 telah diperhalusi dan kemudian lima zaman terakhir model diperhalus digunakan untuk menjana molekul 256K. Reka bentuk telah disenaraikan dan ditapis mengikut skor kemungkinan log dan persamaan perancah dengan set latihan, dan 10 molekul pemarkahan tertinggi telah dicirikan lagi menggunakan simulasi MD.
8 daripada 10 reka bentuk diramalkan sebagai bioaktif terhadap sasaran yang dimaksudkan oleh MD, dengan ramalan pertalian yang setanding atau lebih tinggi daripada molekul diperhalusi terdekat, keputusan ini mengesahkan lagi potensi S4 untuk reka bentuk ubat de novo.
Peluang untuk Molekul S4 Secara ringkasnya, kajian ini adalah yang pertama memperkenalkan model ruang keadaan ke dalam pemodelan bahasa kimia, memfokuskan pada ruang keadaan berstruktur (S4). Sifat dwi unik S4, termasuk penjanaan lilitan dan gelung semasa latihan, menjadikannya amat sesuai untuk reka bentuk de novo bermula daripada rentetan SMILES.
Penyelidik menjalankan perbandingan sistematik dengan GPT dan LSTM mengenai pelbagai tugas penemuan dadah, mendedahkan kelebihan S4: Walaupun penjanaan gelung (LSTM dan S4) lebih unggul dalam mempelajari tatabahasa kimia dan meneroka pelbagai perancah, ia tidak berkesan untuk keseluruhan pembelajaran Ensemble jujukan SMILES (GPT dan S4) berfungsi dengan baik dalam menangkap sifat kompleks tertentu seperti aktiviti biologi.
S4 mempunyai sifat dwi, "yang terbaik daripada kedua-dua dunia": ia berprestasi sebaik atau lebih baik daripada LSTM dalam mereka bentuk molekul yang cekap dan pelbagai, dan secara sistematik mengatasi garis dasar dalam menangkap sifat molekul kompleks sambil mengekalkan kecekapan pengiraan. Aplikasi
S4 dalam perencatan MAPK1 telah disahkan oleh simulasi MD, seterusnya menunjukkan potensinya untuk mereka bentuk molekul bioaktif yang kuat. Pada masa hadapan, penyelidik secara prospektif akan menggabungkan S4 dengan eksperimen makmal basah untuk meningkatkan impaknya di lapangan.
Terdapat banyak aspek S4 yang masih belum diterokai dalam sains molekul, seperti potensinya dalam jujukan yang lebih panjang (cth. peptida makrosiklik dan jujukan protein) dan tugas molekul lain (cth. perancangan tindak balas organik dan reka bentuk ubat berasaskan struktur).
Pada masa hadapan, aplikasi S4 dalam penemuan molekul akan terus meningkat dan mungkin menggantikan model bahasa kimia yang digunakan secara meluas seperti LSTM dan GPT.

Atas ialah kandungan terperinci 'Yang terbaik dari kedua-dua dunia', mereka bentuk molekul dari awal, seni bina pembelajaran mendalam S4 untuk pemodelan bahasa kimia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

Putera Biru: Cara sampai ke ruangan bawah tanah

1 bulan yang lalu By DDD

Nordhold: Sistem Fusion, dijelaskan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1664

Tutorial CakePHP

1423

Tutorial Laravel

1321

Tutorial PHP

1269

Tutorial C#

1249

Tunjukkan Lagi

Related knowledge

Bagaimana cara menggunakan Perpustakaan Chrono di C? Apr 28, 2025 pm 10:18 PM

Menggunakan perpustakaan Chrono di C membolehkan anda mengawal selang masa dan masa dengan lebih tepat. Mari kita meneroka pesona perpustakaan ini. Perpustakaan Chrono C adalah sebahagian daripada Perpustakaan Standard, yang menyediakan cara moden untuk menangani selang waktu dan masa. Bagi pengaturcara yang telah menderita dari masa. H dan CTime, Chrono tidak diragukan lagi. Ia bukan sahaja meningkatkan kebolehbacaan dan mengekalkan kod, tetapi juga memberikan ketepatan dan fleksibiliti yang lebih tinggi. Mari kita mulakan dengan asas -asas. Perpustakaan Chrono terutamanya termasuk komponen utama berikut: STD :: Chrono :: System_Clock: Mewakili jam sistem, yang digunakan untuk mendapatkan masa semasa. Std :: Chron

Bagaimana untuk memahami operasi DMA di C? Apr 28, 2025 pm 10:09 PM

DMA di C merujuk kepada DirectMemoryAccess, teknologi akses memori langsung, yang membolehkan peranti perkakasan secara langsung menghantar data ke memori tanpa campur tangan CPU. 1) Operasi DMA sangat bergantung kepada peranti perkakasan dan pemacu, dan kaedah pelaksanaan berbeza dari sistem ke sistem. 2) Akses langsung ke memori boleh membawa risiko keselamatan, dan ketepatan dan keselamatan kod mesti dipastikan. 3) DMA boleh meningkatkan prestasi, tetapi penggunaan yang tidak wajar boleh menyebabkan kemerosotan prestasi sistem. Melalui amalan dan pembelajaran, kita dapat menguasai kemahiran menggunakan DMA dan memaksimumkan keberkesanannya dalam senario seperti penghantaran data berkelajuan tinggi dan pemprosesan isyarat masa nyata.

Bagaimana untuk mengendalikan paparan DPI yang tinggi di C? Apr 28, 2025 pm 09:57 PM

Mengendalikan paparan DPI yang tinggi di C boleh dicapai melalui langkah -langkah berikut: 1) Memahami DPI dan skala, gunakan API Sistem Operasi untuk mendapatkan maklumat DPI dan menyesuaikan output grafik; 2) Mengendalikan keserasian silang platform, gunakan perpustakaan grafik silang platform seperti SDL atau QT; 3) Melaksanakan pengoptimuman prestasi, meningkatkan prestasi melalui cache, pecutan perkakasan, dan pelarasan dinamik tahap butiran; 4) Selesaikan masalah biasa, seperti teks kabur dan elemen antara muka terlalu kecil, dan selesaikan dengan betul menggunakan skala DPI.

Apakah pengaturcaraan sistem operasi masa nyata di C? Apr 28, 2025 pm 10:15 PM

C berfungsi dengan baik dalam pengaturcaraan sistem operasi masa nyata (RTOS), menyediakan kecekapan pelaksanaan yang cekap dan pengurusan masa yang tepat. 1) C memenuhi keperluan RTO melalui operasi langsung sumber perkakasan dan pengurusan memori yang cekap. 2) Menggunakan ciri berorientasikan objek, C boleh merancang sistem penjadualan tugas yang fleksibel. 3) C menyokong pemprosesan gangguan yang cekap, tetapi peruntukan memori dinamik dan pemprosesan pengecualian mesti dielakkan untuk memastikan masa nyata. 4) Pemrograman templat dan fungsi sebaris membantu dalam pengoptimuman prestasi. 5) Dalam aplikasi praktikal, C boleh digunakan untuk melaksanakan sistem pembalakan yang cekap.

Bagaimana untuk mengukur prestasi benang di C? Apr 28, 2025 pm 10:21 PM

Mengukur prestasi thread di C boleh menggunakan alat masa, alat analisis prestasi, dan pemasa tersuai di perpustakaan standard. 1. Gunakan perpustakaan untuk mengukur masa pelaksanaan. 2. Gunakan GPROF untuk analisis prestasi. Langkah -langkah termasuk menambah pilihan -pg semasa penyusunan, menjalankan program untuk menghasilkan fail gmon.out, dan menghasilkan laporan prestasi. 3. Gunakan modul Callgrind Valgrind untuk melakukan analisis yang lebih terperinci. Langkah -langkah termasuk menjalankan program untuk menghasilkan fail callgrind.out dan melihat hasil menggunakan kcachegrind. 4. Pemasa tersuai secara fleksibel dapat mengukur masa pelaksanaan segmen kod tertentu. Kaedah ini membantu memahami sepenuhnya prestasi benang dan mengoptimumkan kod.

Kedudukan Pertukaran Kuantitatif 2025 Cadangan Top 10 untuk Aplikasi Perdagangan Kuantitatif Mata Wang Digital Apr 30, 2025 pm 07:24 PM

Alat kuantisasi terbina dalam pertukaran termasuk: 1. Binance: Menyediakan modul kuantitatif niaga hadapan Binance, yuran pengendalian yang rendah, dan menyokong urus niaga AI-dibantu. 2. OKX (OUYI): Menyokong Pengurusan Multi Akaun dan Routing Pesanan Pintar, dan menyediakan kawalan risiko peringkat institusi. Platform strategi kuantitatif bebas termasuk: 3. 4. Kuadensi: Perpustakaan Strategi Algoritma Tahap Profesional, menyokong ambang risiko yang disesuaikan. 5. PionEx: Strategi Preset 16 terbina dalam, yuran transaksi yang rendah. Alat domain menegak termasuk: 6. Cryptohopper: platform kuantitatif berasaskan awan, menyokong 150 petunjuk teknikal. 7. Bitsgap:

Langkah -langkah untuk menambah dan memadam medan ke jadual mysql Apr 29, 2025 pm 04:15 PM

Di MySQL, tambah medan menggunakan alterTabletable_nameaddcolumnnew_columnvarchar (255) afterexisting_column, memadam medan menggunakan altertabletable_namedropcolumncolumn_to_drop. Apabila menambah medan, anda perlu menentukan lokasi untuk mengoptimumkan prestasi pertanyaan dan struktur data; Sebelum memadam medan, anda perlu mengesahkan bahawa operasi itu tidak dapat dipulihkan; Mengubah struktur jadual menggunakan DDL dalam talian, data sandaran, persekitaran ujian, dan tempoh masa beban rendah adalah pengoptimuman prestasi dan amalan terbaik.

Bagaimana cara menggunakan aliran rentetan di C? Apr 28, 2025 pm 09:12 PM

Langkah -langkah utama dan langkah berjaga -jaga untuk menggunakan aliran rentetan dalam C adalah seperti berikut: 1. Buat aliran rentetan output dan tukar data, seperti menukar integer ke dalam rentetan. 2. Memohon untuk berseri struktur data kompleks, seperti menukar vektor ke dalam rentetan. 3. Beri perhatian kepada isu -isu prestasi dan mengelakkan penggunaan aliran rentetan yang kerap apabila memproses sejumlah besar data. Anda boleh mempertimbangkan menggunakan kaedah tambahan std :: string. 4. Perhatikan pengurusan ingatan dan elakkan penciptaan dan pemusnahan objek stream rentetan yang kerap. Anda boleh menggunakan semula atau menggunakan std :: stringstream.

See all articles