Editor |.
Para penyelidik dari Akademi Sains China baru-baru ini mencadangkan UniKP, rangka kerja bersatu berdasarkan model bahasa pra-latihan yang boleh digunakan untuk meramal parameter kinetik enzim, termasuk nombor pusing ganti enzim (kcat), pemalar Michaelis-Menten (Km) dan pemangkin kecekapan ( kcat/Km), parameter ini diperoleh daripada jujukan protein dan struktur substrat.
Rangka kerja dua lapisan berdasarkan UniKP (EF-UniKP) juga dicadangkan, yang boleh meramalkan nilai kcat secara stabil dengan mengambil kira faktor persekitaran seperti pH dan suhu. Pada masa yang sama, pasukan penyelidik juga secara sistematik meneroka empat kaedah wajaran semula yang mewakili, berjaya mengurangkan ralat ramalan dalam tugas ramalan bernilai tinggi.
Kajian itu bertajuk "UniKP: rangka kerja bersatu untuk ramalan parameter kinetik enzim" dan diterbitkan dalam jurnal "Nature Communications" pada 11 Disember 2023.
Mengkaji kecekapan pemangkin enzim pada substrat tertentu adalah isu penting dalam biologi dan mempunyai kesan mendalam terhadap evolusi enzim, kejuruteraan metabolik dan biologi sintetik. Data eksperimen in vitro yang mengukur kcat dan Km, serta kadar pusing ganti maksimum dan pemalar Michaelis-Menten, boleh digunakan sebagai penunjuk untuk mengukur kecekapan enzim dalam memangkin tindak balas tertentu dan untuk membandingkan aktiviti pemangkin relatif enzim yang berbeza.
Pada masa ini, pengukuran parameter kinetik enzim bergantung terutamanya pada pengukuran eksperimen, yang memakan masa, mahal dan intensif buruh, menghasilkan pangkalan data kecil nilai parameter kinetik yang diukur secara eksperimen. Sebagai contoh, pangkalan data jujukan UniProt mengandungi lebih 230 juta jujukan enzim, manakala pangkalan data enzim BRENDA dan SABIO-RK mengandungi puluhan ribu nilai kcat yang diukur secara eksperimen. Penyepaduan pengecam Uniprot dalam pangkalan data enzim ini memudahkan hubungan antara parameter yang diukur dan jujukan protein. Walau bagaimanapun, skala sambungan ini masih jauh lebih kecil berbanding bilangan jujukan enzim, mengehadkan kemajuan dalam aplikasi hiliran seperti evolusi terarah dan kejuruteraan metabolik. Rangka kerja ramalan parameter kinetik enzim
Dalam kajian ini, penyelidik dari Akademi Sains China mencadangkan rangka kerja baharu yang dipanggil UniKP, yang berdasarkan model bahasa yang telah dilatih dan bertujuan untuk meningkatkan ketepatan parameter kinetik enzim . Parameter ini termasuk kcat, Km dan kcat/Km, yang boleh diramalkan berdasarkan urutan enzim dan struktur substrat. Para penyelidik menjalankan perbandingan komprehensif 16 model pembelajaran mesin yang berbeza dan 2 model pembelajaran mendalam dan mendapati UniKP menunjukkan prestasi yang baik dari segi ketepatan ramalan. Penyelidikan ini diharapkan dapat menyediakan alat dan kaedah baru untuk penyelidikan dan aplikasi dalam bidang kinetik enzim.
Ilustrasi: Gambaran keseluruhan UniKP. (Sumber: kertas)
Berbanding model terkini DLKcat, UniKP menunjukkan prestasi unggul dalam tugas ramalan kcat, dengan purata pekali penentuan 0.68, peningkatan sebanyak 20%. Para penyelidik membuat spekulasi bahawa model pralatihan menyumbang dengan ketara kepada prestasi UniKP dengan menggunakan maklumat yang tidak diselia daripada keseluruhan pangkalan data untuk mencipta perwakilan yang mudah dipelajari bagi jujukan enzim dan struktur substrat.
Analisis pembelajaran model menunjukkan bahawa maklumat protein mempunyai peranan yang dominan, mungkin disebabkan oleh kerumitan struktur enzim berbanding dengan struktur substrat. Tambahan pula, UniKP boleh menangkap secara berkesan perbezaan kecil dalam nilai kcat antara enzim dan mutannya, termasuk kes yang diukur secara eksperimen, yang penting untuk reka bentuk dan pengubahsuaian enzim. Perbezaan antara R^2 nilai ramalan UniKP dan R^2 kaedah gmean untuk kawasan beridentiti tinggi dan rendah menunjukkan keupayaan UniKP untuk mengekstrak maklumat saling berkaitan yang lebih mendalam dan dengan itu berfungsi dengan baik dalam tugasan ini dengan ketepatan ramalan yang lebih tinggi.
Rangka kerja dua lapisan EF-UniKP
Kebanyakan model semasa tidak mengambil kira faktor persekitaran, yang merupakan had utama dalam mensimulasikan keadaan percubaan sebenar. Untuk menyelesaikan masalah ini, penyelidik mencadangkan rangka kerja dua lapisan EF-UniKP, yang mengambil kira faktor persekitaran. Berdasarkan dua set data yang baru dibina dengan maklumat pH dan suhu masing-masing, EF-UniKP menunjukkan prestasi yang lebih baik berbanding UniKP awal. Ini ialah ramalan kcat yang tepat, berkemampuan tinggi, bebas organisma dan bergantung kepada konteks. Di samping itu, pendekatan ini berpotensi untuk dikembangkan untuk memasukkan faktor lain seperti substrat bersama dan kepekatan NaCl.
Ilustrasi: Rangka kerja dua lapisan mengambil kira faktor persekitaran. (Sumber: Kertas)
Walau bagaimanapun, model sedia ada tidak mengambil kira interaksi antara faktor ini kerana kekurangan data yang komprehensif. Apabila teknik eksperimen semakin maju, termasuk automasi makmal biocast dan kaedah evolusi berterusan, penyelidik menjangkakan percambahan data kinetik enzim. Kemasukan ini bukan sahaja memperkayakan bidang tetapi juga meningkatkan ketepatan model ramalan.
Disebabkan ketidakseimbangan tinggi set data kcat, mengakibatkan ralat yang lebih tinggi dalam ramalan nilai kcat tinggi, pasukan secara sistematik meneroka empat kaedah wajaran semula yang mewakili untuk mengurangkan masalah ini. Keputusan menunjukkan bahawa tetapan hiperparameter bagi setiap kaedah adalah penting untuk meningkatkan ramalan nilai kcat tinggi.
Pasukan mengesahkan keluasan kukuh rangka kerja semasa dalam ramalan pemalar Michaelis (Km) dan ramalan kcat/Km. UniKP mencapai prestasi terkini dalam meramalkan nilai Km dan, lebih mengagumkan, mengatasi hasil gabungan model terkini semasa dalam meramalkan nilai kcat/Km. Tambahan pula, penyelidik mengesahkan rangka kerja UniKP berdasarkan nilai kcat/Km yang diukur secara eksperimen dan nilai kcat/Km yang dikira menggunakan model ramalan kcat dan Km pada dataset kcat/Km.
Perlu diperhatikan bahawa korelasi yang diperhatikan antara nilai yang diperolehi daripada UniKP kcat / UniKP Km dan kcat / Km eksperimen adalah agak rendah (PCC = −0.01). Perbezaan ini mungkin disebabkan oleh set data berbeza yang digunakan dalam membina model masing-masing, justeru memerlukan pembangunan model berbeza untuk meramalkan nilai kcat/Km. Pada masa hadapan, dengan kemunculan set data bersatu yang mengandungi nilai kcat dan Km, diharapkan output pengiraan model kcat dan Km akan selaras rapat dengan output yang dijana oleh model khusus kcat/Km.
Aplikasi Konkrit dalam Perlombongan dan Evolusi Enzim
Aplikasi UniKP dalam perlombongan enzim tyrosine ammonia lyase (TAL) dan evolusi terarah menunjukkan potensinya untuk merevolusikan penyelidikan biologi sintetik dan biokimia. Kajian ini menunjukkan bahawa UniKP secara berkesan mengiktiraf TAL yang sangat aktif dan dengan cepat meningkatkan kecekapan pemangkin TAL sedia ada, dengan RgTAL-489T mempunyai nilai kcat/Km 3.5 kali lebih tinggi daripada enzim jenis liar.
Selain itu, rangka kerja terbitan EF-UniKP sentiasa dapat mengenal pasti enzim TAL yang sangat aktif dengan ketepatan yang sangat tinggi, dengan nilai kcat/Km TrTAL daripada Tephrocybe rancida adalah 2.6 kali lebih tinggi daripada enzim jenis liar. Keputusan menunjukkan bahawa nilai kcat dan kcat/Km daripada lima jujukan melebihi nilai enzim jenis liar.
Dengan mempercepatkan proses penemuan dan pengoptimuman enzim, UniKP dijangka menjadi alat yang berkuasa untuk memajukan biopemangkinan, penemuan ubat, kejuruteraan metabolik dan bidang lain yang bergantung pada proses pemangkinan enzim.
Limitation and Outlook
Walau bagaimanapun, versi semasa UniKP masih mempunyai beberapa had. Sebagai contoh, sementara UniKP dapat membezakan antara nilai kcat yang diukur secara eksperimen bagi enzim dan variannya, nilai kcat yang diramalkan tidak cukup tepat. Ini mungkin disebabkan set data yang tidak mencukupi berbanding bilangan jujukan protein dan struktur substrat yang diketahui.
Walaupun kaedah wajaran semula boleh mengurangkan bias ramalan yang disebabkan oleh set data kcat yang tidak seimbang sedikit sebanyak (~6.5% peningkatan), peningkatan yang lebih ketara boleh dicapai melalui teknik pensampelan berlebihan minoriti sintetik dan kaedah sintesis sampel yang lain.
Matlamat utama biologi sintetik ialah pembangunan sel digital yang akan merevolusikan cara saintis mengkaji biologi. Prasyarat utama untuk kajian ini ialah penentuan parameter enzim dengan teliti untuk semua enzim dalam laluan. Alat yang dibantu kecerdasan buatan menjelaskan cabaran ini, menyediakan kaedah pemprosesan tinggi untuk meramal kinetik enzim.
Walaupun ralat peramal UniKP dikurangkan berbanding model terdahulu, ketidaktepatan kekal sebagai halangan penting untuk membina model metabolik yang tepat. Menggabungkan peningkatan bilangan nilai kcat dan Km yang ditentukan secara eksperimen boleh meningkatkan ketepatan model.
Seterusnya, penyelidik merancang untuk menggabungkan algoritma terkini seperti pembelajaran pemindahan, pembelajaran pengukuhan dan algoritma pembelajaran kecil lain untuk mengendalikan set data tidak seimbang dengan berkesan. Dan, pasukan itu bertujuan untuk meneroka aplikasi tambahan, termasuk evolusi enzim dan analisis global organisma.
Pautan kertas: https://www.nature.com/articles/s41467-023-44113-1
Atas ialah kandungan terperinci Pasukan Akademi Sains China mencipta rangka kerja bersatu untuk meningkatkan ketepatan ramalan parameter kinetik enzim. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!