


Model pembelajaran mesin mengklasifikasikan mekanisme tindak balas organik dengan ketepatan yang luar biasa
Penemuan tindak balas kimia dipengaruhi bukan sahaja oleh seberapa cepat data eksperimen boleh diperoleh, tetapi juga oleh betapa mudahnya ahli kimia memahami data tersebut. Mendedahkan asas mekanistik tindak balas pemangkin baharu ialah masalah yang sangat kompleks yang sering memerlukan kepakaran dalam kimia organik pengiraan dan fizikal. Walau bagaimanapun, adalah penting untuk mengkaji tindak balas pemangkin kerana ia mewakili proses kimia yang paling cekap.
Baru-baru ini, Burés dan Larrosa dari Jabatan Kimia, Universiti Manchester (UoM), UK, melaporkan model pembelajaran mesin yang menunjukkan bahawa model rangkaian saraf dalam boleh dilatih untuk menganalisis dinamik biasa mempelajari data dan secara automatik menjelaskan kategori mekanistik yang sepadan tanpa sebarang input pengguna tambahan. Model ini mengenal pasti pelbagai jenis mekanisme dengan ketepatan yang sangat baik.
Penemuan menunjukkan bahawa klasifikasi mekanisme berpandukan AI ialah alat baharu yang berkuasa yang boleh memudahkan dan mengautomasikan penjelasan mekanisme. Kerja ini dijangka memajukan lagi penemuan dan pembangunan tindak balas organik automatik sepenuhnya.
Penyelidikan yang bertajuk "Klasifikasi mekanisme tindak balas organik menggunakan pembelajaran mesin", diterbitkan dalam "Nature pada 25 Januari 2023 "superior .
Pautan kertas: https://www.nature.com/articles/s41586 -022-05639-4
Cara tradisional untuk menjelaskan mekanisme tindak balas kimia
Tentukan penukaran substrat kepada Urutan tepat langkah-langkah asas yang terlibat dalam menghasilkan produk adalah penting untuk menambah baik kaedah sintesis secara rasional, mereka bentuk pemangkin baharu dan meningkatkan proses perindustrian dengan selamat. Untuk menjelaskan mekanisme tindak balas, pelbagai lengkung kinetik perlu dikumpulkan, dan pakar manusia mesti melakukan analisis kinetik pada data. Walaupun teknologi pemantauan tindak balas telah bertambah baik dengan ketara sejak beberapa dekad yang lalu hingga ke tahap pengumpulan data kinetik boleh diautomatikkan sepenuhnya, rangka kerja teori yang mendasari penjelasan mekanistik tidak berkembang pada kadar yang sama.
Saluran paip analisis kinetik semasa terdiri daripada tiga langkah utama: mengekstrak sifat kinetik daripada data eksperimen, meramalkan sifat kinetik untuk semua mekanisme yang mungkin dan menggabungkan sifat yang diekstrak secara eksperimen dengan ciri ramalan untuk perbandingan.
Selama lebih satu abad, ahli kimia telah mengekstrak maklumat mekanistik daripada kadar tindak balas. Satu kaedah yang masih digunakan hari ini adalah untuk menilai kadar awal tindak balas, memberi tumpuan kepada penggunaan beberapa peratus pertama bahan permulaan. Kaedah ini popular kerana dalam kebanyakan kes perubahan dalam kepekatan bahan tindak balas dari semasa ke semasa adalah linear pada permulaan tindak balas dan oleh itu mudah untuk dianalisis. Walaupun berwawasan, teknik ini mengabaikan perubahan dalam kadar tindak balas dan kepekatan yang berlaku sepanjang tempoh masa.
Sejak beberapa dekad yang lalu, kaedah yang lebih maju telah dibangunkan untuk menilai kepekatan komponen tindak balas sepanjang proses tindak balas. Kaedah ini dipermudahkan lagi oleh teknik matematik yang mendedahkan bilangan komponen yang mengambil bahagian dalam langkah tindak balas (juga dikenali sebagai susunan komponen tindak balas) daripada gambar rajah kinetik tindak balas. Teknik-teknik ini pastinya akan terus memberikan pandangan tentang kereaktifan kimia, tetapi ia terhad kepada menganalisis susunan komponen tindak balas daripada menyediakan hipotesis mekanistik yang lebih komprehensif yang menerangkan kelakuan kinetik sistem pemangkin.
Rajah 1: Perkaitan dan teknik terkini untuk analisis kinetik. (Sumber: kertas)
AI mengubah bidang analisis kinetik
Pembelajaran mesin merevolusikan cara ahli kimia menyelesaikan masalah, Daripada mereka bentuk molekul dan laluan untuk mensintesis molekul untuk memahami mekanisme tindak balas. Burés dan Larrosa kini membawa revolusi ini kepada analisis kinetik dengan menggunakan model pembelajaran mesin untuk mengklasifikasikan tindak balas berdasarkan ciri kinetik simulasi mereka.
Di sini, penyelidik menunjukkan bahawa model pembelajaran mendalam yang dilatih pada data kinetik simulasi dapat menerangkan dengan betul pelbagai mekanisme daripada taburan kepekatan temporal. Model pembelajaran mesin memudahkan analisis kinetik dengan menghapuskan keperluan untuk terbitan undang-undang kadar dan pengekstrakan dan ramalan sifat kinetik, sangat memudahkan penjelasan mekanisme tindak balas dalam semua makmal sintesis.
Disebabkan analisis holistik semua data kinetik yang tersedia, kaedah ini meningkatkan keupayaan untuk menyoal keluk tindak balas, menghapuskan kemungkinan ralat manusia semasa analisis kinetik dan mengembangkan julat kinetik yang tersedia. analisis termasuk keadaan tidak mantap (termasuk proses pengaktifan dan penyahaktifan) dan tindak balas boleh balik. Pendekatan ini akan melengkapkan kaedah analisis kinetik yang ada pada masa ini dan amat berguna dalam situasi yang paling mencabar.
Kajian khusus
Para penyelidik mentakrifkan 20 kategori mekanisme tindak balas dan membangunkan undang-undang kadar untuk setiap kategori. Setiap mekanisme terdiri daripada satu set pemalar kinetik (k1, … kn ) dan kepekatan kimia digambarkan secara matematik sebagai fungsi persamaan pembezaan biasa (ODE). Mereka kemudian menyelesaikan persamaan ini, menghasilkan berjuta-juta simulasi yang menerangkan pereputan bahan tindak balas dan penghasilan produk. Data kinetik simulasi ini digunakan untuk melatih algoritma pembelajaran untuk mengenal pasti tandatangan ciri bagi setiap kelas mekanistik. Model pengelasan yang terhasil menggunakan lengkung kinetik sebagai input, termasuk data kepekatan awal dan masa, dan mengeluarkan kelas mekanistik tindak balas.
Rajah 2: Skop mekanikal dan komposisi data. (Sumber: kertas)
Latihan model pembelajaran mendalam selalunya memerlukan sejumlah besar data, yang boleh menimbulkan cabaran besar apabila data ini mesti dikumpul secara eksperimen.
Pendekatan Burés dan Larrosa untuk melatih algoritma mengelakkan kesesakan menjana sejumlah besar data kinetik eksperimen. Dalam kes ini, penyelidik dapat menyelesaikan satu set ODE secara berangka untuk menjana 5 juta sampel dinamik untuk latihan model dan pengesahan tanpa menggunakan anggaran keadaan mantap.
Model ini mengandungi 576,000 parameter boleh dilatih dan menggunakan gabungan dua jenis rangkaian saraf: (1) rangkaian saraf memori jangka pendek jangka panjang, yang digunakan untuk memproses siri data temporal ( iaitu, data kepekatan masa); (2) rangkaian neural yang disambungkan sepenuhnya untuk memproses data bukan temporal (iaitu, kepekatan awal pemangkin dalam setiap larian kinetik dan ciri yang diekstrak daripada ingatan jangka pendek yang panjang). Model mengeluarkan kebarangkalian untuk setiap mekanisme yang berjumlah 1.
Para penyelidik menilai model terlatih menggunakan set ujian lengkung kinetik simulasi dan menunjukkan bahawa ia menetapkan lengkung ini dengan betul kepada kelas mekanisme dengan ketepatan 92.6%.
Rajah 3: Prestasi model pembelajaran mesin pada set ujian, setiap lengkung kinetik mempunyai enam mata dalam masa. (Sumber: kertas)
Model berprestasi baik walaupun apabila data "bising" sengaja diperkenalkan, bermakna ia boleh digunakan untuk mengelaskan data percubaan.
Rajah 4: Kesan ralat dan bilangan titik data pada prestasi model pembelajaran mesin. (Sumber: kertas)
Akhir sekali, para penyelidik menanda aras model mereka menggunakan beberapa lengkung kinetik eksperimen yang dilaporkan sebelum ini. Mekanisme yang diramalkan adalah sesuai dengan kesimpulan kajian kinetik terdahulu. Dalam sesetengah kes, model juga mengenal pasti butiran mekanistik yang tidak dikesan dalam kerja asal. Untuk reaksi yang mencabar, model ini mencadangkan tiga kategori mekanistik yang hampir sama. Walau bagaimanapun, penulis dengan betul menyatakan bahawa keputusan ini bukan pepijat tetapi ciri model mereka, kerana ia menunjukkan bahawa eksperimen khusus lanjut diperlukan untuk meneroka mekanisme.
Rajah 5: Kajian kes dengan data kinetik eksperimen. (Sumber: kertas)
Ringkasnya, Burés dan Larrosa telah membangunkan kaedah yang bukan sahaja mengautomasikan proses yang panjang untuk mendapatkan hipotesis mekanistik daripada kajian kinetik; mekanisme tindak balas. Seperti mana-mana kemajuan teknologi dalam analisis data, klasifikasi mekanistik yang terhasil harus dilihat sebagai hipotesis yang memerlukan sokongan eksperimen selanjutnya. Selalu ada risiko salah tafsir data kinetik, tetapi keupayaan algoritma untuk mengenal pasti laluan tindak balas yang betul dengan ketepatan yang tinggi berdasarkan sebilangan kecil eksperimen boleh meyakinkan lebih ramai penyelidik untuk mencuba analisis kinetik.
Oleh itu, pendekatan ini boleh mempopularkan dan memacu penggabungan analisis kinetik ke dalam saluran paip pembangunan tindak balas, terutamanya apabila ahli kimia menjadi lebih biasa dengan algoritma pembelajaran mesin.
Atas ialah kandungan terperinci Model pembelajaran mesin mengklasifikasikan mekanisme tindak balas organik dengan ketepatan yang luar biasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Dalam bidang pembelajaran mesin dan sains data, kebolehtafsiran model sentiasa menjadi tumpuan penyelidik dan pengamal. Dengan aplikasi meluas model yang kompleks seperti kaedah pembelajaran mendalam dan ensemble, memahami proses membuat keputusan model menjadi sangat penting. AI|XAI yang boleh dijelaskan membantu membina kepercayaan dan keyakinan dalam model pembelajaran mesin dengan meningkatkan ketelusan model. Meningkatkan ketelusan model boleh dicapai melalui kaedah seperti penggunaan meluas pelbagai model yang kompleks, serta proses membuat keputusan yang digunakan untuk menerangkan model. Kaedah ini termasuk analisis kepentingan ciri, anggaran selang ramalan model, algoritma kebolehtafsiran tempatan, dsb. Analisis kepentingan ciri boleh menerangkan proses membuat keputusan model dengan menilai tahap pengaruh model ke atas ciri input. Anggaran selang ramalan model

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Untuk menyelaraskan model bahasa besar (LLM) dengan nilai dan niat manusia, adalah penting untuk mempelajari maklum balas manusia untuk memastikan bahawa ia berguna, jujur dan tidak berbahaya. Dari segi penjajaran LLM, kaedah yang berkesan ialah pembelajaran pengukuhan berdasarkan maklum balas manusia (RLHF). Walaupun keputusan kaedah RLHF adalah cemerlang, terdapat beberapa cabaran pengoptimuman yang terlibat. Ini melibatkan latihan model ganjaran dan kemudian mengoptimumkan model dasar untuk memaksimumkan ganjaran tersebut. Baru-baru ini, beberapa penyelidik telah meneroka algoritma luar talian yang lebih mudah, salah satunya ialah pengoptimuman keutamaan langsung (DPO). DPO mempelajari model dasar secara langsung berdasarkan data keutamaan dengan meparameterkan fungsi ganjaran dalam RLHF, sekali gus menghapuskan keperluan untuk model ganjaran yang jelas. Kaedah ini mudah dan stabil

Pembelajaran mesin ialah cabang penting kecerdasan buatan yang memberikan komputer keupayaan untuk belajar daripada data dan meningkatkan keupayaan mereka tanpa diprogramkan secara eksplisit. Pembelajaran mesin mempunyai pelbagai aplikasi dalam pelbagai bidang, daripada pengecaman imej dan pemprosesan bahasa semula jadi kepada sistem pengesyoran dan pengesanan penipuan, dan ia mengubah cara hidup kita. Terdapat banyak kaedah dan teori yang berbeza dalam bidang pembelajaran mesin, antaranya lima kaedah yang paling berpengaruh dipanggil "Lima Sekolah Pembelajaran Mesin". Lima sekolah utama ialah sekolah simbolik, sekolah sambungan, sekolah evolusi, sekolah Bayesian dan sekolah analogi. 1. Simbolisme, juga dikenali sebagai simbolisme, menekankan penggunaan simbol untuk penaakulan logik dan ekspresi pengetahuan. Aliran pemikiran ini percaya bahawa pembelajaran adalah proses penolakan terbalik, melalui sedia ada

Penterjemah |. Disemak oleh Li Rui |. Chonglou Model kecerdasan buatan (AI) dan pembelajaran mesin (ML) semakin kompleks hari ini, dan output yang dihasilkan oleh model ini adalah kotak hitam – tidak dapat dijelaskan kepada pihak berkepentingan. AI Boleh Dijelaskan (XAI) bertujuan untuk menyelesaikan masalah ini dengan membolehkan pihak berkepentingan memahami cara model ini berfungsi, memastikan mereka memahami cara model ini sebenarnya membuat keputusan, dan memastikan ketelusan dalam sistem AI, Amanah dan akauntabiliti untuk menyelesaikan masalah ini. Artikel ini meneroka pelbagai teknik kecerdasan buatan (XAI) yang boleh dijelaskan untuk menggambarkan prinsip asasnya. Beberapa sebab mengapa AI boleh dijelaskan adalah penting Kepercayaan dan ketelusan: Untuk sistem AI diterima secara meluas dan dipercayai, pengguna perlu memahami cara keputusan dibuat

Di barisan hadapan teknologi perisian, kumpulan UIUC Zhang Lingming, bersama penyelidik dari organisasi BigCode, baru-baru ini mengumumkan model kod besar StarCoder2-15B-Instruct. Pencapaian inovatif ini mencapai kejayaan ketara dalam tugas penjanaan kod, berjaya mengatasi CodeLlama-70B-Instruct dan mencapai bahagian atas senarai prestasi penjanaan kod. Keunikan StarCoder2-15B-Instruct terletak pada strategi penjajaran diri yang tulen Keseluruhan proses latihan adalah terbuka, telus, dan sepenuhnya autonomi dan boleh dikawal. Model ini menjana beribu-ribu arahan melalui StarCoder2-15B sebagai tindak balas kepada penalaan halus model asas StarCoder-15B tanpa bergantung pada anotasi manual yang mahal.

MetaFAIR bekerjasama dengan Harvard untuk menyediakan rangka kerja penyelidikan baharu untuk mengoptimumkan bias data yang dijana apabila pembelajaran mesin berskala besar dilakukan. Adalah diketahui bahawa latihan model bahasa besar sering mengambil masa berbulan-bulan dan menggunakan ratusan atau bahkan ribuan GPU. Mengambil model LLaMA270B sebagai contoh, latihannya memerlukan sejumlah 1,720,320 jam GPU. Melatih model besar memberikan cabaran sistemik yang unik disebabkan oleh skala dan kerumitan beban kerja ini. Baru-baru ini, banyak institusi telah melaporkan ketidakstabilan dalam proses latihan apabila melatih model AI generatif SOTA Mereka biasanya muncul dalam bentuk lonjakan kerugian Contohnya, model PaLM Google mengalami sehingga 20 lonjakan kerugian semasa proses latihan. Bias berangka adalah punca ketidaktepatan latihan ini,
