Model Bahasa Berskala Besar (LLM) membolehkan pengguna membina sistem pemprosesan bahasa semula jadi yang berkuasa melalui pembayang dan pembelajaran kontekstual. Walau bagaimanapun, dari perspektif lain, LLM menunjukkan regresi tertentu dalam beberapa tugas pemprosesan bahasa semula jadi yang khusus: penggunaan model ini memerlukan banyak sumber pengkomputeran dan berinteraksi dengan model melalui API mungkin menimbulkan isu privasi yang berpotensi
menangani masalah ini, penyelidik dari Carnegie Mellon University (CMU) dan Universiti Tsinghua bersama-sama melancarkan rangka kerja Prompt2Model. Matlamat rangka kerja ini adalah untuk menggabungkan penjanaan data berasaskan LLM dan kaedah mendapatkan semula untuk mengatasi cabaran di atas. Menggunakan rangka kerja Prompt2Model, pengguna hanya perlu memberikan gesaan yang sama seperti LLM untuk mengumpul data secara automatik dan cekap melatih model khusus kecil yang sesuai untuk tugasan tertentu
Para penyelidik menjalankan eksperimen ke atas tiga tugasan subsistem pemprosesan bahasa semula jadi telah dikaji. Mereka menggunakan sebilangan kecil gesaan sampel sebagai input dan membelanjakan hanya $5 untuk mengumpul data dan 20 minit latihan. Prestasi model yang dijana melalui rangka kerja Prompt2Model adalah 20% lebih tinggi daripada model LLM berkuasa gpt-3.5-turbo. Pada masa yang sama, saiz model dikurangkan dengan faktor 700. Para penyelidik selanjutnya mengesahkan kesan data ini pada prestasi model dalam senario kehidupan sebenar, membolehkan pembangun model menganggarkan kebolehpercayaan model sebelum penggunaan. Rangka kerja telah disediakan dalam bentuk sumber terbuka:
untuk pemprosesan sistem yang biasanya agak rumit. Pembina sistem perlu mentakrifkan dengan jelas skop tugas, mendapatkan set data khusus, memilih seni bina model yang sesuai, melatih dan menilai model, dan kemudian menggunakan ia untuk aplikasi praktikal
Model Bahasa Skala Besar ( LLM) seperti GPT-3 menyediakan penyelesaian yang lebih mudah untuk proses ini. Pengguna hanya perlu menyediakan arahan tugasan dan beberapa contoh, dan LLM boleh menjana output teks yang sepadan. Walau bagaimanapun, menjana teks daripada pembayang boleh menjadi intensif dari segi pengiraan, dan menggunakan pembayang adalah kurang stabil daripada model yang dilatih khas. Selain itu, kebolehgunaan LLM juga dihadkan oleh kos, kelajuan dan privasi Untuk menyelesaikan masalah ini, penyelidik membangunkan rangka kerja Prompt2Model. Rangka kerja ini menggabungkan penjanaan data berasaskan LLM dan teknik mendapatkan semula untuk mengatasi batasan di atas. Sistem mula-mula mengekstrak maklumat penting daripada maklumat segera, kemudian menjana dan mendapatkan semula data latihan, dan akhirnya menjana model khusus yang sedia untuk digunakan
Rangka kerja Prompt2Model secara automatik melaksanakan langkah teras berikut: 1. Prapemprosesan data: Bersihkan dan piawaikan data input untuk memastikan ia sesuai untuk latihan model. 2. Pemilihan model: Pilih seni bina model dan parameter yang sesuai mengikut keperluan tugasan. 3. Latihan model: Gunakan data praproses untuk melatih model yang dipilih untuk mengoptimumkan prestasi model. 4. Penilaian model: Penilaian prestasi model terlatih melalui penunjuk penilaian untuk menentukan prestasinya pada tugas tertentu. 5. Penalaan model: Berdasarkan keputusan penilaian, tala model untuk meningkatkan lagi prestasinya. 6. Penetapan model: Gunakan model terlatih ke persekitaran aplikasi sebenar untuk mencapai fungsi ramalan atau inferens. Dengan mengautomasikan langkah teras ini, rangka kerja Prompt2Model boleh membantu pengguna membina dan menggunakan model pemprosesan bahasa semula jadi berprestasi tinggi dengan pantas
Set data dan perolehan model: Kumpul set data yang berkaitan dan model pra-latihan.
Ciri teras rangka kerja Prompt2Model ialah tahap automasi yang tinggi. Prosesnya termasuk pengumpulan data, latihan model, penilaian dan penggunaan, seperti yang ditunjukkan dalam rajah di atas. Antaranya, sistem pengumpulan data automatik memainkan peranan utama dengan mendapatkan data yang berkait rapat dengan keperluan pengguna melalui pengambilan set data dan penjanaan data berasaskan LLM. Seterusnya, model pra-latihan diambil dan diperhalusi pada set data yang diperoleh. Akhir sekali, model terlatih dinilai pada set ujian dan antara muka pengguna web (UI) dicipta untuk berinteraksi dengan model
Prompt2Model Ciri utama rangka kerja termasuk:
Rangka kerja Prompt2Model mempunyai ciri-ciri berikut, menjadikannya alat berkuasa yang boleh melengkapkan proses pembinaan sistem pemprosesan bahasa semula jadi dengan cekap, dan menyediakan fungsi lanjutan, seperti pengumpulan data automatik, penilaian model dan antara muka interaksi pengguna Cipta .
Penormalan Ungkapan Temporal: Gunakan set data Temporal sebagai set data penilaian sebenar.
Set data ujian yang dijana oleh penjana data dengan berkesan boleh membezakan prestasi model berbeza pada set data sebenar. Ini menunjukkan bahawa data yang dihasilkan adalah berkualiti tinggi dan mempunyai keberkesanan yang mencukupi dalam latihan model.
Ringkasan
Rangka kerja Prompt2Model ialah teknologi inovatif yang dibangunkan oleh pasukan penyelidik melalui model gesaan bahasa semulajadi secara automatik Pengenalan teknologi ini sangat mengurangkan kesukaran membina model pemprosesan bahasa semula jadi yang disesuaikan dan mengembangkan lagi skop aplikasi teknologi NLP
Hasil percubaan pengesahan menunjukkan bahawa saiz model yang dijana oleh rangka kerja Prompt2Model dikurangkan dengan ketara berbanding model bahasa yang lebih besar, dan ia berprestasi lebih baik daripada GPT-3.5-turbo dan model lain pada pelbagai tugas. Pada masa yang sama, set data penilaian yang dihasilkan oleh rangka kerja ini juga telah terbukti berkesan dalam menilai prestasi model yang berbeza pada set data sebenar. Ini memberikan nilai penting dalam membimbing penggunaan terakhir model
Rangka kerja Prompt2Model menyediakan industri dan pelbagai pengguna dengan kos rendah, cara yang mudah digunakan untuk mendapatkan model NLP yang memenuhi keperluan khusus. Ini amat penting dalam mempromosikan aplikasi meluas teknologi NLP. Kerja masa depan akan terus didedikasikan untuk mengoptimumkan lagi prestasi rangka kerja
Mengikut susunan artikel, pengarang artikel ini adalah seperti berikut: Kandungan yang ditulis semula: Mengikut susunan artikel, pengarang artikel ini adalah seperti berikut:
Vijay Viswanathan: http://www.cs.cmu.edu/~vijayv/
Zhao Chenyang: https ://zhaochenyang20.github.io/Eren_Chenyang_Zhao/
Amanda Bertsch: https://www.cs.cmu.edu/~abertsch/ Amanda Belch: https://www.cs.cmu.edu/~abertsch/
Wu Tongshuang: https://www.cs.cmu.edu/~sherryw/
Graham · Newbig: http: //www.phontron.com/
Atas ialah kandungan terperinci Latih model profesional kecil dengan pantas: Hanya 1 arahan, $5 dan 20 minit, cuba Prompt2Model!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!