Penulis |. Cornell University Du Yuanqi
Editor |. negara bidang yang serupa.
AI dan penemuan dadah molekul kecil adalah salah satu bidang yang paling mewakili dan diterokai awal. Penemuan molekul adalah masalah pengoptimuman gabungan yang sangat sukar (disebabkan oleh sifat diskret struktur molekul) dan ruang carian adalah sangat besar dan lasak Pada masa yang sama, adalah sangat sukar untuk mengesahkan sifat molekul yang dicari memerlukan eksperimen yang mahal, sekurang-kurangnya pengiraan simulasi, kaedah kimia kuantum untuk memberikan maklum balas.
Dengan perkembangan pesat pembelajaran mesin dan terima kasih kepada penerokaan awal (termasuk pembinaan matlamat pengoptimuman yang mudah dan boleh digunakan serta kaedah pengukuran kesan), sejumlah besar algoritma telah dibangunkan, termasuk pengoptimuman gabungan, carian, algoritma pensampelan (algoritma genetik , carian pokok Monte Carlo, pembelajaran pengukuhan, model aliran generatif/GFlowNet, rantai Markov Monte Carlo, dsb.), dan algoritma pengoptimuman berterusan, pengoptimuman Bayesian, pengoptimuman berasaskan kecerunan, dsb. Pada masa yang sama, penanda aras pengukuran algoritma yang agak lengkap sedia ada dan kaedah perbandingan yang agak objektif dan adil juga telah membuka ruang yang luas untuk pembangunan algoritma pembelajaran mesin.
Baru-baru ini, penyelidik dari Cornell University, University of Cambridge dan Ecole Polytechnique Fédérale de Lausanne (EPFL) menerbitkan artikel ulasan bertajuk "
Reka bentuk molekul generatif berbantukan pembelajaran mesin" dalam "Nature Machine Intelligence".
Pautan kertas:
https://www.nature.com/articles/s42256-024-00843-5Semakan ini mengkaji aplikasi pembelajaran mesin dalam reka bentuk molekul generatif. Penemuan dan pembangunan ubat memerlukan pengoptimuman molekul untuk memenuhi sifat fizikokimia dan aktiviti biologi tertentu. Walau bagaimanapun, kaedah tradisional adalah mahal dan terdedah kepada kegagalan kerana ruang carian yang besar dan fungsi pengoptimuman yang tidak berterusan. Pembelajaran mesin mempercepatkan proses penemuan ubat peringkat awal dengan menggabungkan penjanaan molekul dan langkah saringan.
Ilustrasi: Proses reka bentuk molekul berbantukan ML Generatif.
Tugas reka bentuk molekul generatifReka bentuk molekul generatif boleh dibahagikan kepada dua paradigma utama: pembelajaran teragih dan penjanaan berorientasikan matlamat, di mana penjanaan berorientasikan matlamat boleh dibahagikan lagi kepada penjanaan bersyarat dan pengoptimuman molekul. Kesesuaian setiap kaedah bergantung kepada tugas khusus dan data yang terlibat. Pembelajaran pengedaran (distribution learning)
Penjanaan bersyarat (penjanaan bersyarat)
Penjanaan terkondisi molekul (sub)struktur(penjanaan terkondisi molekul (sub)struktur): Hasilkan molekul dengan kekangan struktur tertentu, seperti mereka bentuk struktur separa, melompat perancah, reka bentuk penghubung, mereka bentuk semula keseluruhan struktur (pengoptimuman juruterbang) atau keseluruhan penjanaan Bersyarat molekul (generasi konformasi).
Ilustrasi: Ilustrasi tugas penjanaan, strategi penjanaan dan pencirian molekul.
Proses penjanaan molekul
Penjanaan molekul ialah proses kompleks yang merangkumi banyak unit gabungan berbeza Kami menyenaraikan kerja perwakilan dalam rajah di bawah dan memperkenalkan unit perwakilan setiap bahagian.
Perwakilan Molekul
Apabila membangunkan seni bina saraf yang dijana secara molekul, pertama sekali adalah perlu untuk menentukan perwakilan input dan output yang boleh dibaca mesin bagi struktur molekul. Perwakilan input membantu menyuntik bias induktif yang sesuai ke dalam model, manakala perwakilan output menentukan ruang carian yang dioptimumkan untuk molekul. Jenis perwakilan menentukan kebolehgunaan kaedah penjanaan, contohnya, algoritma carian diskret hanya boleh digunakan pada perwakilan gabungan seperti graf dan rentetan.
Walaupun pelbagai perwakilan input telah dikaji, pertukaran antara jenis perwakilan dan seni bina saraf yang mengekodnya masih belum jelas. Transformasi perwakilan antara molekul tidak semestinya bijektif, contohnya, peta ketumpatan dan cap jari tidak dapat mengenal pasti molekul secara unik, dan teknik lanjut diperlukan untuk menyelesaikan masalah pemetaan bukan remeh ini. Perwakilan molekul biasa termasuk rentetan, graf topologi dua dimensi dan graf geometri tiga dimensi.
Kebutiran perwakilan ialah satu lagi pertimbangan dalam reka bentuk model generatif. Biasanya, kaedah menggunakan atom atau serpihan molekul sebagai blok binaan asas semasa penjanaan. Perwakilan berasaskan serpihan memperhalusi struktur molekul menjadi unit yang lebih besar yang mengandungi kumpulan atom, membawa maklumat hierarki seperti pengenalan kumpulan berfungsi, dengan itu menjajarkan dengan pendekatan reka bentuk ubat berasaskan serpihan atau farmakofor tradisional.
Kaedah generatif
Model generatif mendalam ialah kelas kaedah yang menganggarkan taburan kebarangkalian data dan sampel daripada taburan pembelajaran (juga dipanggil pembelajaran pengedaran). Ini termasuk pengekod auto variasi, rangkaian adversarial generatif, aliran normalisasi, model autoregresif dan model resapan. Setiap kaedah penjanaan ini mempunyai kes penggunaannya, kebaikan dan keburukan, dan pilihan bergantung pada tugas dan ciri data yang diperlukan.
Strategi penjanaan
Strategi penjanaan merujuk kepada cara model mengeluarkan struktur molekul, yang secara amnya boleh dibahagikan kepada penjanaan satu kali, penjanaan berjujukan atau penambahbaikan berulang.
Generasi satu pukulan: Generasi satu pukulan menjana struktur molekul lengkap dalam satu hantaran hadapan model. Pendekatan ini sering bergelut untuk menjana struktur molekul yang realistik dan munasabah dengan ketepatan yang tinggi. Tambahan pula, penjanaan satu pukulan selalunya tidak dapat memenuhi kekangan eksplisit, seperti kekangan valens, yang penting untuk memastikan ketepatan dan kesahihan struktur yang dijana.
Penjanaan Berjujukan: Penjanaan berjujukan membina struktur molekul melalui satu siri langkah, biasanya oleh atom atau serpihan. Kekangan valensi boleh disuntik dengan mudah ke dalam penjanaan berjujukan, dengan itu meningkatkan kualiti molekul yang dihasilkan. Walau bagaimanapun, had utama penjanaan berjujukan ialah susunan trajektori yang dijana perlu ditakrifkan semasa latihan dan lebih perlahan dalam inferens.
Peningkatan berulang: Peningkatan berulang melaraskan ramalan dengan meramalkan siri kemas kini, mengelakkan kesukaran dalam kaedah penjanaan satu pukulan. Sebagai contoh, modul struktur kitaran dalam AlphaFold2 berjaya memperhalusi rangka kerja tulang belakang, pendekatan yang memberi inspirasi kepada strategi penjanaan molekul yang berkaitan. Pemodelan resapan ialah teknik biasa yang menjana data baharu melalui satu siri langkah pengurangan hingar. Pada masa ini, model resapan telah digunakan untuk pelbagai masalah penjanaan molekul, termasuk penjanaan konformasi, reka bentuk ubat berasaskan struktur dan reka bentuk penghubung.
Strategi pengoptimuman
Pengoptimuman gabungan: Untuk pengekodan gabungan molekul (gambar atau rentetan), teknologi dalam bidang pengoptimuman gabungan boleh digunakan secara langsung.
Pengoptimuman Berterusan: Molekul boleh diwakili atau dikodkan dalam domain berterusan, seperti awan titik dan peta geometri dalam ruang Euclidean, atau model generatif dalam mengekodkan data diskret dalam ruang pendam berterusan.
Penilaian Model Pembelajaran Mesin Generatif
Menilai model generatif memerlukan penilaian pengiraan dan pengesahan percubaan. Metrik standard termasuk keberkesanan, keunikan, kebaharuan, dsb. Pelbagai metrik harus dipertimbangkan semasa menilai model untuk menilai prestasi binaan sepenuhnya.
Pengesahan percubaan
Molekul yang dijana mesti disahkan secara eksplisit melalui eksperimen basah, berbeza dengan penyelidikan sedia ada yang memberi tumpuan terutamanya kepada sumbangan pengiraan. Walaupun model generatif bukan tanpa kelemahan, pemutusan antara ramalan dan eksperimen juga disebabkan oleh kepakaran, perbelanjaan dan kitaran ujian yang panjang yang diperlukan untuk menjalankan pengesahan tersebut.
Menjana undang-undang model
Kebanyakan kajian yang melaporkan pengesahan percubaan menggunakan RNN dan/atau VAE, dengan SMILES sebagai objek operasi. Kami meringkaskan empat pemerhatian utama:
Arah Masa Depan
Walaupun algoritma pembelajaran mesin telah membawa harapan kepada penemuan dadah molekul kecil, masih terdapat lebih banyak cabaran dan peluang untuk dihadapi.
Cabaran
Pengarang: Du Yuanqi, pelajar kedoktoran tahun kedua di Jabatan Sains Komputer di Universiti Cornell Minat penyelidikan utamanya termasuk pembelajaran mendalam geometri, model probabilistik, pensampelan, carian, masalah pengoptimuman, kebolehtafsiran dan aplikasi dalam bidang. penerokaan molekul Untuk maklumat khusus, lihat: https://yuanqidu.github.io/.
Atas ialah kandungan terperinci 'Ensiklopedia' penemuan ubat molekul kecil AI, disemak oleh penyelidik dari Cornell, Cambridge, EPFL dan lain-lain yang diterbitkan dalam sub-jurnal Nature. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!