Aplikasi kecerdasan buatan telah mempercepatkan penyelidikan mengenai kejuruteraan protein.
Baru-baru ini, sebuah syarikat permulaan yang masih baru di Berkeley, California telah mencapai kemajuan yang menakjubkan sekali lagi.
Para saintis menggunakan Progen, model bahasa pembelajaran mendalam kejuruteraan protein yang serupa dengan ChatGPT, untuk mencapai ramalan AI bagi sintesis protein buat kali pertama.
Bukan sahaja protein ini berbeza sama sekali daripada yang diketahui, persamaan paling rendah adalah genap sahaja 31.4%, tetapi berkesan seperti protein semulajadi.
Kini, karya ini telah diterbitkan secara rasmi dalam sub-jurnal Nature.
Alamat kertas: https://www.nature.com/articles/s41587-022-01618-2
Percubaan ini juga menunjukkan bahawa walaupun pemprosesan bahasa semula jadi dibangunkan untuk membaca dan menulis teks bahasa, ia juga boleh mempelajari beberapa prinsip asas biologi.
Sebagai tindak balas, penyelidik berkata bahawa teknologi baharu ini mungkin menjadi lebih berkuasa daripada evolusi terarah (teknologi reka bentuk protein yang memenangi Hadiah Nobel ) lebih berkuasa.
"Ia akan menggiatkan semula bidang kejuruteraan protein yang berusia 50 tahun dengan mempercepatkan pembangunan protein baharu yang boleh digunakan dalam hampir semua perkara daripada terapeutik kepada plastik yang merendahkan maruah."
Syarikat itu dipanggil Profluent Ia diasaskan oleh bekas ketua penyelidikan AI Salesforce dan telah menerima AS$9 juta sebagai permulaan-. membiayai Yu menubuhkan makmal basah bersepadu dan merekrut saintis dan ahli biologi pembelajaran mesin.
Pada masa lalu, sangat susah payah untuk melombong protein secara semula jadi atau menyesuaikan protein kepada fungsi yang diperlukan. Matlamat Profulent adalah untuk menjadikan proses ini mudah.
Mereka melakukannya.
Pengasas dan Ketua Pegawai Eksekutif ternama Ali Madani
Madani berkata dalam temu bual bahawa Profulent telah mereka bentuk beberapa keluarga protein. Protein ini berfungsi seperti protein contoh dan oleh itu merupakan enzim yang sangat aktif.
Tugas ini sangat sukar dan dilakukan secara sifar, yang bermaksud bahawa berbilang pusingan pengoptimuman tidak dilakukan, malah sebarang data daripada makmal basah tidak disediakan di semua.
Protein akhirnya direka bentuk ialah protein yang sangat aktif yang biasanya mengambil masa ratusan tahun untuk berkembang.
ProGen berdasarkan model bahasaSebagai sejenis rangkaian neural dalam, model bahasa bersyarat ialah bukan sahaja dari segi semantik dan tatabahasa yang betul, teks bahasa semula jadi yang novel dan pelbagai boleh dijana, dan teg kawalan input boleh dimanfaatkan untuk membimbing gaya, topik dan banyak lagi.
Begitu juga, penyelidik telah membangunkan protagonis hari ini—ProGen, model bahasa protein bersyarat dengan 1.2 bilion parameter.
Khususnya, ProGen berdasarkan seni bina Transformer mensimulasikan interaksi sisa melalui mekanisme perhatian kendiri, dan boleh menjana jujukan protein buatan yang berbeza merentas keluarga protein berdasarkan tag kawalan input.
Menghasilkan protein buatan menggunakan model bahasa bersyarat
Untuk mencipta model ini , para penyelidik memberi makan urutan asid amino 280 juta protein yang berbeza dan membiarkan mereka "mencerna" selama beberapa minggu.
Kemudian mereka memperhalusi model menggunakan 56,000 jujukan daripada lima keluarga lisozim dan maklumat tentang protein ini.
Algoritma Progen adalah serupa dengan GPT3.5, model di sebalik ChatGPT Ia mempelajari peraturan susunan asid amino dalam protein dan hubungannya dengan struktur dan fungsi protein.
Tidak lama kemudian, model itu menghasilkan sejuta jujukan.
Berdasarkan tahap persamaan dengan jujukan protein semula jadi dan keaslian "sintaks" dan "semantik" asid amino, para penyelidik memilih 100 untuk ujian.
Daripada jumlah ini, 66 menghasilkan tindak balas kimia yang serupa dengan protein semulajadi yang memusnahkan bakteria dalam putih telur dan air liur.
Dengan kata lain, protein baharu yang dihasilkan oleh AI ini juga boleh membunuh bakteria.
Protein tiruan yang dihasilkan adalah pelbagai dan dinyatakan dengan baik dalam sistem eksperimen
Melangkah lebih jauh, para penyelidik memilih lima protein yang bertindak balas paling kuat dan menambahkannya kepada sampel E. coli.
Antaranya, terdapat dua enzim tiruan yang boleh memecahkan dinding sel bakteria.
Dengan membandingkan dengan lisozim putih telur ayam (HEWL), boleh didapati bahawa aktiviti mereka adalah setanding dengan HEWL.
Para penyelidik kemudian menggunakan X-ray untuk pengimejan.
Walaupun urutan asid amino enzim tiruan adalah sehingga 30% berbeza daripada protein sedia ada, dan hanya 18% yang sama di antara mereka, bentuknya adalah serupa dengan Protein tidak begitu berbeza dan mempunyai fungsi yang setanding.
Kebolehgunaan pemodelan bahasa bersyarat kepada sistem protein lain
Selain itu, untuk protein semula jadi yang sangat berkembang, ia mungkin hanya memerlukan mutasi kecil untuk membuatnya berhenti berfungsi.
Tetapi dalam satu lagi pusingan saringan, para penyelidik mendapati bahawa antara enzim yang dihasilkan oleh AI, walaupun hanya 31.4% daripada jujukan adalah sama dengan protein yang diketahui, mereka masih menunjukkan aktiviti yang cukup besar dan Struktur yang serupa.
Seperti yang anda lihat, cara ProGen berfungsi ialah sangat serupa dengan ChatGPT serupa.
ChatGPT boleh mengambil MBA dan peperiksaan bar dan menulis kertas kolej dengan mengkaji data besar-besaran.
Dan ProGen belajar cara menjana protein baharu dengan mempelajari sintaks cara asid amino digabungkan ke dalam 280 juta protein sedia ada.
Dalam temu bual itu, Madani berkata, “Sama seperti ChatGPT mempelajari bahasa manusia seperti bahasa Inggeris, kami sedang mempelajari bahasa biologi dan protein . "
"Protein yang direka bentuk secara buatan berfungsi jauh lebih baik daripada protein yang diilhamkan oleh proses evolusi," kata James, pengarang bersama kertas kerja dan profesor sains biokejuruteraan dan terapeutik di UCSF School of Farmasi kata Fraser.
"Model bahasa mempelajari aspek evolusi, tetapi ia berbeza daripada proses evolusi biasa. Kini kami mempunyai keupayaan untuk melaraskan penghasilan ciri ini untuk mendapatkan kesan khusus. Contohnya , biarkan a Sesetengah enzim adalah sangat stabil haba, lebih suka persekitaran berasid, atau tidak berinteraksi dengan protein lain Pada tahun 2020, Salesforce Research membangunkan ProGen. Ia berdasarkan pengaturcaraan bahasa semula jadi dan pada asalnya digunakan untuk menghasilkan teks bahasa Inggeris.
Daripada kerja terdahulu, penyelidik mengetahui bahawa sistem AI boleh mengajar diri mereka sendiri makna tatabahasa dan perkataan, serta peraturan asas lain yang menjadikan penulisan teratur.
“Apabila anda melatih model berasaskan jujukan dengan jumlah data yang besar, mereka sangat berkuasa dalam mempelajari struktur dan peraturan,” Nikhil, pengarah penyelidikan kecerdasan buatan di Salesforce Research dan pengarang kanan daripada kertas kerja Dr. Naik berkata, "Mereka akan memahami perkataan mana yang boleh muncul bersama-sama dan bagaimana untuk menggabungkannya." dan menjadikannya awam Dikeluarkan, semua orang boleh belajar atas dasar kami 》
Lisozim sebagai protein adalah sangat kecil, dengan sehingga kira-kira 300 asid amino.
Tetapi dengan 20 kemungkinan asid amino, terdapat 20^300 kemungkinan gabungan.
Ini adalah lebih daripada semua manusia dari semua zaman berkali ganda bilangan butir pasir di bumi kali ganda bilangan atom di alam semesta.
Memandangkan kemungkinan yang hampir tidak terhingga, adalah benar-benar luar biasa bahawa Progen dapat mereka bentuk enzim yang berkesan dengan begitu mudah. "Jana dari awal terus dari kotak," kata Dr. Keupayaan protein berfungsi menunjukkan bahawa kita sedang memasuki era baru reka bentuk protein. "Ini adalah alat baharu serba boleh yang tersedia untuk semua jurutera protein, dan kami tidak sabar untuk melihatnya digunakan dalam rawatan." pada masa yang sama, penyelidik terus menambah baik ProGen dan cuba menerobos lebih banyak batasan dan cabaran.
Salah satunya ialah ia sangat bergantung pada data.
"Kami telah meneroka penambahbaikan reka bentuk jujukan dengan menambah maklumat berasaskan struktur," kata Naik "Kami juga melihat apabila anda tidak mempunyai banyak maklumat tentang keluarga protein tertentu atau Bagaimana untuk meningkatkan keupayaan penjanaan model apabila menggunakan data di lapangan 》
Perlu diingat bahawa beberapa syarikat pemula juga mencuba teknologi yang serupa, seperti Cradle dan Inkubator Bioteknologi Hasilkan Bioperubatan, tetapi kajian ini belum lagi dikaji semula.
Atas ialah kandungan terperinci Melampaui Hadiah Nobel? 'ChatGPT' dalam dunia biologi telah mencapai sintesis protein baharu dari awal buat kali pertama, dan ia telah diterbitkan dalam sub-jurnal Nature!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!