Jumlah data teks yang digunakan untuk melatih Google PaLM 2 adalah hampir 5 kali ganda daripada generasi asal-AI-php.cn

Jumlah data teks yang digunakan untuk melatih Google PaLM 2 adalah hampir 5 kali ganda daripada generasi asal

PHPz

Lepaskan： 2023-05-21 18:49:07

ke hadapan

1060 orang telah melayarinya

谷歌 PaLM 2训练所用文本数据量是初代的近5倍

Menurut berita pada 17 Mei, Google melancarkan model bahasa berskala besar terbarunya PaLM 2 pada Persidangan Pembangun I/O 2023 minggu lepas. Dokumen dalaman syarikat menunjukkan bahawa jumlah data teks yang digunakan untuk melatih model baharu bermula pada 2022 hampir lima kali ganda berbanding generasi sebelumnya.

Dilaporkan bahawa PaLM 2 yang baru dikeluarkan Google boleh melaksanakan tugas pengaturcaraan, pengkomputeran dan penulisan kreatif yang lebih maju. Dokumen dalaman mendedahkan bahawa bilangan token yang digunakan untuk melatih PaLM 2 ialah 3.6 trilion.

Token yang dipanggil ialah rentetan Orang akan membahagikan ayat dan perenggan dalam teks yang digunakan untuk melatih model. Setiap rentetan biasanya dipanggil token. Ini adalah bahagian penting dalam melatih model bahasa yang besar, mengajar mereka untuk meramalkan perkataan yang akan datang seterusnya dalam urutan.

Generasi model bahasa besar PaLM yang dikeluarkan oleh Google pada tahun 2022 menggunakan 780 bilion token dalam latihan.

Walaupun Google berminat untuk menunjukkan kehebatannya dalam teknologi kecerdasan buatan, menggambarkan cara ia boleh dibenamkan ke dalam enjin carian, e-mel, pemprosesan perkataan dan hamparan, ia enggan mendedahkan saiz data latihannya. atau butiran lain. OpenAI yang disokong Microsoft juga merahsiakan butiran model bahasa berskala besar GPT-4 yang baru dikeluarkan.

Kedua-dua syarikat menyatakan bahawa sebab untuk tidak mendedahkan maklumat ini adalah persaingan sengit dalam industri kecerdasan buatan. Kedua-dua Google dan OpenAI mahu menarik pengguna yang ingin menggunakan chatbot dan bukannya enjin carian tradisional untuk mencari maklumat.

Tetapi apabila persaingan dalam kecerdasan buatan semakin panas, komuniti penyelidikan menuntut lebih ketelusan.

Sejak pelancaran PaLM 2, Google telah mengatakan bahawa model baharu itu lebih kecil daripada model bahasa besar sebelumnya, yang bermaksud teknologi syarikat boleh menjadi lebih cekap dalam menyelesaikan tugasan yang lebih kompleks. Parameter sering digunakan untuk menerangkan kerumitan model bahasa. Menurut dokumen dalaman, PaLM 2 telah dilatih dengan 340 bilion parameter, dan PaLM asal telah dilatih dengan 540 bilion parameter.

Google tidak mempunyai ulasan segera.

Google berkata dalam catatan blog tentang PaLM 2 bahawa model baharu itu menggunakan "teknologi baharu" yang dipanggil "penskalaan optimum pengiraan" untuk menjadikan PaLM 2 " Lebih cekap, prestasi keseluruhan yang lebih baik, seperti inferens yang lebih pantas, lebih sedikit parameter perkhidmatan dan kos perkhidmatan yang lebih rendah.”

Ketika mengeluarkan PaLM 2, Google mendedahkan bahawa model baharu itu dilatih dalam 100 bahasa dan Mampu melaksanakan pelbagai tugas. PaLM 2 digunakan dalam 25 ciri dan produk, termasuk bot sembang percubaan Google Bard. PaLM 2 mempunyai empat versi berbeza mengikut skala parameter Dari kecil hingga besar, ia adalah Gecko, Otter, Bison dan Unicorn.

Menurut maklumat yang didedahkan secara terbuka oleh Google, PaLM 2 lebih berkuasa daripada mana-mana model sedia ada. Facebook mengumumkan pelancaran model bahasa besar yang dipanggil LLaMA pada Februari tahun ini, yang menggunakan 1.4 trilion token dalam latihan. OpenAI mendedahkan skala latihan yang berkaitan apabila ia mengeluarkan GPT-3 Pada masa itu, syarikat itu menyatakan bahawa model itu telah dilatih pada 300 bilion token. Pada Mac tahun ini, OpenAI mengeluarkan model baharu, GPT-4, dan berkata ia berprestasi pada "peringkat manusia" dalam banyak ujian profesional.

Menurut dokumen terkini, model bahasa yang dilancarkan oleh Google dua tahun lalu telah dilatih menggunakan 1.5 trilion token.

Memandangkan aplikasi AI generatif baharu dengan cepat menjadi arus perdana dalam industri teknologi, kontroversi yang mengelilingi teknologi asas menjadi semakin sengit.

Pada Februari tahun ini, El Mahdi El Mhamdi, seorang saintis kanan di jabatan penyelidikan Google, meletak jawatan kerana kekurangan ketelusan syarikat. Pada hari Selasa, Ketua Pegawai Eksekutif OpenAI Sam Altman memberi keterangan pada pendengaran Jawatankuasa Kecil Badan Kehakiman Senat A.S. mengenai privasi dan teknologi dan bersetuju dengan sistem baharu untuk menangani kecerdasan buatan.

“Untuk teknologi yang sangat baharu, kami memerlukan rangka kerja baharu,” kata Altman “Sudah tentu, syarikat seperti kami mempunyai banyak tanggungjawab untuk alatan yang mereka keluarkan.”

Atas ialah kandungan terperinci Jumlah data teks yang digunakan untuk melatih Google PaLM 2 adalah hampir 5 kali ganda daripada generasi asal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!