Penyelidik di University of Windsor di Kanada membandingkan prestasi model pra-latihan pada GPT dan Llama dengan SMILES untuk membenamkan rentetan SMILES dalam tugas hiliran, memfokuskan pada dua aplikasi utama: ramalan harta molekul dan ramalan Interaksi ubat-ubatan.
Kajian itu bertajuk "Bolehkah model bahasa besar memahami molekul dan diterbitkan dalam "BMC Bioinformatics" pada 25 Jun 2024.
1. Aplikasi pembenaman molekul dalam penemuan ubat
Pembenaman molekul ialah tugas penting dalam penemuan ubat dan digunakan secara meluas dalam ramalan sifat molekul, ramalan interaksi sasaran dadah (DTI) dan Fungsi interaksi dadah-ubat (DDI ) ramalan dan tugasan lain yang berkaitan. 2. Teknologi benam molekulTeknologi benam molekul boleh mempelajari ciri daripada graf molekul yang mengekod maklumat sambungan struktur molekul atau anotasi garis strukturnya, seperti perwakilan SMILES yang popular.
3. Pembenaman molekul dalam rentetan SMILESPembenaman molekul melalui rentetan SMILES telah berkembang seiring dengan kemajuan dalam pemodelan bahasa, daripada pembenaman perkataan statik kepada model pra-latihan berkonteks. Teknik benam ini bertujuan untuk menangkap maklumat struktur dan kimia yang berkaitan dalam perwakilan berangka padat.
Ilustrasi: Perwakilan kimia perubatan. (Sumber: Kertas)
Andaian asasnya ialah molekul dengan struktur yang serupa berkelakuan dengan cara yang serupa. Ini membolehkan algoritma pembelajaran mesin memproses dan menganalisis struktur molekul untuk ramalan harta dan tugas penemuan ubat.Dengan penemuan dalam LLM, persoalan yang menonjol ialah sama ada LLM boleh memahami molekul dan membuat inferens berdasarkan data molekul?
Secara lebih khusus, bolehkah LLM menghasilkan perwakilan semantik berkualiti tinggi?
Shaghayegh Sadeghi, Alioune Ngom Jianguo Lu dan yang lain di Universiti Windsor meneroka lebih lanjut keupayaan model ini untuk membenamkan SENYUMAN dengan berkesan. Pada masa ini, keupayaan ini kurang diterokai, mungkin sebahagiannya disebabkan oleh kos panggilan API.
Penyelidik mendapati bahawa benam SMILES yang dijana menggunakan Llama berprestasi lebih baik daripada benam SMILES yang dijana menggunakan GPT dalam kedua-dua sifat molekul dan tugas ramalan DDI.
Ilustrasi: Keputusan tugasan pengelasan dan regresi. (Sumber: kertas) Terutamanya, pembenaman SMILES berasaskan Llama menunjukkan hasil yang setanding dengan model pra-latihan pada SMILES dalam tugas ramalan molekul dan mengatasi prestasi model pra-latihan dalam tugas ramalan DDI.
Menurut ini, pasukan membuat kesimpulan seperti berikut:Ilustrasi: Perbandingan prestasi Llama dan Llama2. (Sumber: Kertas) Secara keseluruhan, kajian ini menonjolkan potensi LLM seperti GPT dan Llama untuk pembenaman molekul. Pasukan secara khusus mengesyorkan model Llama berbanding GPT kerana prestasi unggul mereka dalam menjana benam molekul daripada rentetan SMILES. Penemuan ini menunjukkan bahawa Llama mungkin sangat berkesan untuk meramalkan sifat molekul dan interaksi ubat.
Walaupun model seperti Llama dan GPT tidak direka khusus untuk pembenaman rentetan SMILES (tidak seperti model khusus seperti ChemBERTa dan MolFormer-XL), mereka masih menunjukkan daya saing. Kerja ini meletakkan asas untuk penambahbaikan masa depan dalam pembenaman molekul LLM.Atas ialah kandungan terperinci Penyematan molekul Llama lebih baik daripada GPT, bolehkah LLM memahami molekul? Meta mengalahkan OpenAI dalam pusingan ini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!