Editor |. Rama-rama Daun Kering
Model bahasa berskala besar telah meningkatkan keupayaan saintis untuk memahami biologi dan kimia, tetapi kaedah yang boleh dipercayai untuk penemuan ubat berasaskan struktur, kimia kuantum dan biologi struktur kekal jarang berlaku. Set data interaksi biomolekul-ligan yang tepat diperlukan segera untuk model bahasa yang besar.
Untuk menyelesaikan masalah ini, penyelidik dari Institut Biologi Pusat Penyelidikan Helmholtz München dan Universiti Teknikal Munich mencadangkan MISATO. Ini ialah set data yang menggabungkan sifat mekanik kuantum (QM) molekul kecil dengan simulasi dinamik molekul (MD) berkaitan kira-kira 20,000 kompleks protein-ligan eksperimen, dan pengesahan meluas data eksperimen.
Bermula daripada struktur eksperimen sedia ada, para penyelidik secara sistematik menambah baik struktur ini menggunakan mekanik kuantum separa empirik. Ini termasuk simulasi dinamik molekul bagi sejumlah besar kompleks protein-ligan dalam air tulen, dengan masa pengumpulan melebihi 170 mikrosaat.
Pasukan menyediakan contoh model garis dasar pembelajaran mesin (ML) yang menunjukkan ketepatan yang dipertingkatkan dengan menggunakan set data ini. Menyediakan pakar pembelajaran mesin dengan titik masuk yang mudah untuk melaksanakan model kecerdasan buatan generasi akan datang untuk penemuan dadah.
Kajian itu bertajuk "MISATO: set data pembelajaran mesin kompleks protein–ligan untuk penemuan ubat berasaskan struktur" dan diterbitkan dalam "Nature Computational Science" pada 10 Mei 2024.
Dalam beberapa tahun kebelakangan ini, teknologi ramalan AI telah mencetuskan revolusi dalam bidang saintifik Contohnya, AlphaFold boleh meramalkan struktur protein dengan tepat. Walaupun penemuan dadah berpandukan struktur kekal sebagai cabaran besar, aplikasi AI dalam bidang ini masih cetek. Kaedah semasa menghadapi cabaran seperti ketepatan, kos pengiraan dan pergantungan percubaan, dan kebanyakannya menumpukan pada penyelesaian mudah dan pemprosesan data satu dimensi. Kerumitan kompleks protein-ligan tiga dimensi telah diabaikan.
Walaupun pelbagai pangkalan data wujud, tiada model AI telah ditunjukkan untuk memajukan penemuan ubat kerana had dalam volum data dan kekurangan maklumat termodinamik. Tidak seperti pencapaian AlphaFold dalam bidang ramalan struktur protein, model AI juga dihadkan dengan mengabaikan isu seperti dinamik dan kerumitan kimia, yang menjejaskan potensinya dalam analisis biomolekul dan kimia kuantum.
Di sini, penyelidik dari Institut Biologi Struktur Pusat Penyelidikan Helmholtz München dan Universiti Teknikal Munich mencadangkan pangkalan data struktur protein-ligan berdasarkan struktur protein-ligan eksperimen, MISATO (Interaksi Molekul Dioptimumkan Secara Struktur) ).
Penyelidik telah menunjukkan bahawa pangkalan data boleh membantu melatih model yang lebih baik dalam bidang yang berkaitan dengan penemuan dadah dan seterusnya. Ini termasuk kimia kuantum, biologi struktur am dan bioinformatik.
Pasukan ini menyediakan pengurusan dan penghalusan struktur berasaskan kimia kuantum, termasuk penyelarasan geometri ligan. Para penyelidik menambah pangkalan data ini dengan maklumat dinamik dan kimia yang hilang, termasuk MD pada skala masa, membolehkan pengesanan keadaan sementara dan misteri sistem tertentu. Yang terakhir ini sangat penting untuk reka bentuk ubat yang berjaya.
Oleh itu, penyelidik menambah data eksperimen dengan bilangan maksimum parameter fizikal. Ini melegakan model AI daripada beban mempelajari semua maklumat ini secara tersirat, membolehkan ia memberi tumpuan kepada tugas pembelajaran utama. Pangkalan data MISATO menyediakan format mesra pengguna yang boleh diimport terus ke dalam kod pembelajaran mesin.
Pasukan ini juga menyediakan pelbagai skrip prapemprosesan untuk menapis dan menggambarkan set data. Tambahan pula, contoh model garis dasar AI disediakan untuk mengira sifat kimia kuantum (kekerasan kimia dan pertalian elektron), pengiraan pertalian mengikat dan meramalkan fleksibiliti protein atau ciri kesesuaian teraruh, membolehkan data dipermudahkan. Selain itu, model QM, MD, dan AI telah disahkan secara meluas pada data eksperimen.
Para penyelidik berharap dapat mengubah MISATO menjadi projek komuniti yang bermanfaat yang akan memberi manfaat kepada keseluruhan bidang penemuan dadah.
Pautan kertas:https://www.nature.com/articles/s43588-024-00627-2
Atas ialah kandungan terperinci Menggabungkan ciri kuantum dan 20,000 simulasi dinamik molekul, set data ML kompleks protein-ligan baharu telah diterbitkan dalam sub-jurnal Nature. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!