Sejak Meta mengeluarkan dan menggunakan sumber terbuka siri model LLaMA, penyelidik dari Universiti Stanford, UC Berkeley dan institusi lain telah menjalankan "penciptaan kedua" berdasarkan LLaMA, dan melancarkan Alpaca, Vicuna dan lain-lain " secara berturut-turut Alpaca" model besar.
Alpaca telah menjadi pemimpin baharu dalam komuniti sumber terbuka. Disebabkan oleh banyaknya "ciptaan sekunder", perkataan bahasa Inggeris untuk genus alpaca biologi hampir tidak digunakan, tetapi ia juga mungkin untuk menamakan model besar selepas haiwan lain.
Baru-baru ini, Institut Kepintaran Buatan Berkeley (BAIR) di UC Berkeley mengeluarkan model perbualan Koala (diterjemahkan secara literal sebagai koala) yang boleh dijalankan pada GPU gred pengguna. Koala memperhalusi model LLaMA menggunakan data perbualan yang dikumpul daripada web.
Alamat projek: https://bair.berkeley.edu/blog/2023/04/03/koala/
Koala telah melancarkan demo ujian dalam talian:
Sama seperti Vicuna, Koala juga menggunakan data perbualan yang dikumpul daripada rangkaian untuk memperhalusi model LLaMA, dengan fokus pada ChatGPT Data awam bagi dialog model besar sumber tertutup.
Pasukan penyelidik menyatakan bahawa model Koala dilaksanakan dalam EasyLM menggunakan JAX/Flax dan model Koala dilatih pada pelayan Nvidia DGX tunggal yang dilengkapi dengan 8 GPU A100. Ia mengambil masa 6 jam untuk menyelesaikan 2 zaman latihan. Kos latihan sedemikian biasanya kurang daripada $100 pada platform pengkomputeran awan awam.
Pasukan penyelidik secara eksperimen membandingkan Koala dengan ChatGPT dan Alpaca Universiti Stanford Hasilnya menunjukkan bahawa Koala-13B dengan 13 bilion parameter boleh bertindak balas dengan berkesan kepada pelbagai pertanyaan pengguna dan menjana Respons pada umumnya lebih baik daripada. Alpaca dan setanding dengan prestasi ChatGPT dalam lebih separuh daripada kes.
Kepentingan Koala yang paling penting ialah ia menunjukkan bahawa apabila dilatih pada set data berkualiti tinggi, model yang cukup kecil untuk dijalankan secara tempatan juga boleh mencapai prestasi cemerlang yang serupa dengan model besar. Ini bermakna komuniti sumber terbuka harus bekerja lebih keras untuk menyusun set data berkualiti tinggi, kerana ini boleh membawa kepada model yang lebih selamat, realistik dan berkuasa daripada hanya meningkatkan saiz sistem sedia ada. Dari perspektif ini, Koala ialah alternatif yang kecil tetapi halus kepada ChatGPT.
Walau bagaimanapun, Koala hanyalah prototaip penyelidikan dan masih mempunyai kelemahan ketara dalam kandungan, keselamatan dan kebolehpercayaan, dan tidak boleh digunakan untuk sebarang tujuan selain daripada penyelidikan.
Halangan utama dalam membina model perbualan ialah mengurus data latihan. Model perbualan besar seperti ChatGPT, Bard, Bing Chat dan Claude semuanya menggunakan set data proprietari dengan anotasi manusia yang luas. Untuk membina set data latihan Koala, pasukan penyelidik mengumpul dan memilih data perbualan daripada web dan set data awam, yang mengandungi data yang dikongsi secara terbuka oleh pengguna yang bercakap dengan model bahasa besar seperti ChatGPT.
Tidak seperti model lain yang merangkak sebanyak mungkin data web untuk memaksimumkan set data, Koala menumpukan pada pengumpulan set data berkualiti tinggi yang kecil, termasuk bahagian soal jawab set data awam, Maklum Balas manusia (positif dan negatif) dan dialog dengan model bahasa sedia ada. Khususnya, set data latihan Koala termasuk bahagian berikut:
Data penyulingan ChatGPT:
Data sumber terbuka:
Secara keseluruhannya, model Koala mencukupi untuk menunjukkan banyak ciri LLM semasa cukup kecil untuk memudahkan penalaan halus atau dalam situasi di mana sumber pengkomputeran terhad. Pasukan penyelidik berharap model Koala akan menjadi platform yang berguna untuk penyelidikan akademik masa hadapan tentang model bahasa berskala besar Arah permohonan penyelidikan yang berpotensi mungkin termasuk:
Keselamatan dan penjajaran: Koala membenarkan penyelidikan lanjut tentang keselamatan model bahasa dan penjajaran yang lebih baik dengan niat manusia.
Atas ialah kandungan terperinci 13 bilion parameter, 8 latihan A100, UC Berkeley mengeluarkan model dialog Koala. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!