Bercakap tentang AI berpusatkan data di sebalik model GPT
Kecerdasan buatan (AI) membuat kemajuan besar dalam mengubah cara kita hidup, bekerja dan berinteraksi dengan teknologi. Baru-baru ini, bidang di mana kemajuan ketara telah dicapai ialah pembangunan model bahasa besar (LLM) seperti GPT-3, ChatGPT dan GPT-4. Model ini boleh melaksanakan tugas dengan tepat seperti terjemahan bahasa, ringkasan teks dan menjawab soalan.
Walaupun sukar untuk mengabaikan saiz model LLM yang semakin meningkat, adalah sama penting untuk menyedari bahawa kejayaan mereka sebahagian besarnya disebabkan oleh jumlah data yang besar yang digunakan untuk melatih mereka data berkualiti tinggi.
Dalam artikel ini, kami akan memberikan gambaran keseluruhan kemajuan terkini dalam LLM daripada perspektif AI yang mengutamakan data. Kami akan memeriksa model GPT melalui lensa AI berpusatkan data, konsep yang semakin berkembang dalam komuniti sains data. Kami mendedahkan konsep AI tertumpu data di sebalik model GPT dengan membincangkan tiga matlamat AI tertumpu data: pembangunan data latihan, pembangunan data inferens dan penyelenggaraan data.
Model Bahasa Besar (LLM) dan Model GPT
LLM ialah model pemprosesan bahasa semula jadi yang dilatih untuk membuat kesimpulan perkataan dalam konteks. Sebagai contoh, fungsi paling asas LLM adalah untuk meramalkan penanda yang hilang berdasarkan konteks. Untuk tujuan ini, LLM dilatih untuk meramalkan kebarangkalian setiap perkataan calon daripada jumlah data yang besar. Rajah di bawah ialah contoh ilustrasi menggunakan LLM dalam konteks untuk meramalkan kebarangkalian penanda hilang.
Model GPT merujuk kepada siri LLM yang dicipta oleh OpenAI, seperti GPT-1, GPT-2, GPT-3, InstructGPT, ChatGPT/GPT-4, dsb. . Seperti LLM lain, seni bina model GPT terutamanya berdasarkan Transformers, yang menggunakan pembenaman teks dan lokasi sebagai input dan menggunakan lapisan perhatian untuk memodelkan hubungan token.
Seni bina model GPT-1
Model GPT kemudiannya menggunakan seni bina yang serupa dengan GPT-1, kecuali mereka menggunakan lebih banyak parameter model dan lebih banyak lapisan panjang konteks, saiz lapisan tersembunyi, dsb.
Apakah itu kecerdasan buatan berpusatkan data
AI berpusatkan data ialah cara pemikiran baharu yang muncul tentang cara membina sistem AI. AI berpusatkan data ialah disiplin mereka bentuk data secara sistematik yang digunakan untuk membina sistem kecerdasan buatan.
Pada masa lalu, kami telah memberi tumpuan terutamanya pada mencipta model yang lebih baik sambil mengekalkan data yang sebahagian besarnya tidak berubah (AI berpusatkan model). Walau bagaimanapun, pendekatan ini boleh menyebabkan masalah di dunia nyata kerana ia tidak mengambil kira isu berbeza yang boleh timbul dalam data, seperti ketidaktepatan label, pertindihan dan berat sebelah. Oleh itu, "overfitting" set data tidak semestinya membawa kepada tingkah laku model yang lebih baik.
Sebaliknya, AI berpusatkan data memfokuskan pada meningkatkan kualiti dan kuantiti data yang digunakan untuk membina sistem AI. Ini bermakna perhatian adalah pada data itu sendiri, dan modelnya secara relatifnya lebih tetap. Menggunakan pendekatan berpusatkan data untuk membangunkan sistem AI mempunyai potensi yang lebih besar dalam senario dunia sebenar, kerana data yang digunakan untuk latihan akhirnya menentukan keupayaan maksimum model.
Perlu diambil perhatian bahawa terdapat perbezaan asas antara "berpusatkan data" dan "berpandukan data". bukannya data.
Perbandingan antara kecerdasan buatan tertumpu data dan kecerdasan buatan tertumpu model
Rangka kerja AI tertumpu data mengandungi tiga Sasaran:
- Melatih pembangunan data ialah pengumpulan dan pengeluaran data yang kaya dan berkualiti tinggi untuk menyokong latihan model pembelajaran mesin.
- Pembangunan data inferens adalah untuk mencipta set penilaian baharu yang boleh memberikan cerapan yang lebih terperinci tentang model atau mencetuskan ciri khusus model melalui input data.
- Penyelenggaraan data adalah untuk memastikan kualiti dan kebolehpercayaan data dalam persekitaran yang dinamik. Penyelenggaraan data adalah penting kerana data dunia sebenar tidak dibuat sekali tetapi memerlukan penyelenggaraan berterusan.
Rangka kerja AI mengutamakan data
Mengapa AI mengutamakan data menjadikan model GPT berjaya
Beberapa bulan yang lalu , Yann LeCun tweet bahawa ChatGPT bukanlah perkara baru. Sebenarnya, semua teknik yang digunakan dalam ChatGPT dan GPT-4 (transformer, pembelajaran pengukuhan daripada maklum balas manusia, dll.) bukanlah baru sama sekali. Walau bagaimanapun, mereka mencapai keputusan yang tidak mungkin dengan model sebelumnya. Jadi, apakah sebab kejayaan mereka?
Melatih pembangunan data. Kuantiti dan kualiti data yang digunakan untuk melatih model GPT telah meningkat dengan ketara melalui pengumpulan data, pelabelan data dan strategi penyediaan data yang lebih baik.
-
GPT-1: Data data BooksCorpus digunakan untuk latihan. Set data mengandungi 4629.00 MB teks mentah yang meliputi pelbagai genre buku seperti pengembaraan, fantasi dan percintaan.
-Strategi AI mengutamakan data: Tiada.
- Keputusan: Menggunakan GPT-1 pada set data ini meningkatkan prestasi tugasan hiliran melalui penalaan halus. -
GPT-2: Gunakan WebText dalam latihan. Ini ialah set data dalaman dalam OpenAI yang dibuat dengan mengikis pautan keluar daripada Reddit.
- Strategi AI Berpusatkan Data: (1) Hanya gunakan pautan keluar daripada Reddit untuk memilih/menapis data yang memperoleh sekurang-kurangnya 3 karma. (2) Gunakan alatan Dragnet dan Newspaper untuk mengekstrak kandungan bersih. (3) Gunakan deduplikasi dan beberapa pembersihan berasaskan heuristik lain.
- Hasil: 40 GB teks selepas penapisan. GPT-2 mencapai hasil tangkapan sifar yang mantap tanpa penalaan halus. -
GPT-3: Latihan GPT-3 terutamanya berdasarkan Common Crawl.
-Strategi AI mengutamakan data: (1) Latih pengelas untuk menapis dokumen berkualiti rendah berdasarkan persamaan setiap dokumen dengan WebText (dokumen berkualiti tinggi). (2) Gunakan MinHashLSH Spark untuk mengaburkan dan menyahduplikasi dokumen. (3) Penambahan data menggunakan WebText, korpus buku dan Wikipedia.
- Keputusan: 570GB teks diperoleh selepas menapis 45TB plaintext (hanya 1.27% daripada data dipilih untuk penapisan kualiti ini). GPT-3 dengan ketara mengatasi GPT-2 dalam tetapan sampel sifar. -
ArahanGPT: Biarkan penilaian manusia melaraskan jawapan GPT-3 agar lebih sepadan dengan jangkaan manusia. Mereka mereka bentuk ujian untuk anotasi dan hanya mereka yang lulus ujian itu layak untuk anotasi. Mereka juga mereka bentuk tinjauan untuk memastikan pencatat terlibat sepenuhnya dalam proses anotasi.
-Strategi AI mengutamakan data: (1) Gunakan jawapan yang disediakan manusia untuk gesaan untuk menala model melalui latihan yang diselia. (2) Kumpul data perbandingan untuk melatih model ganjaran, dan kemudian gunakan model ganjaran ini untuk menala GPT-3 melalui pembelajaran pengukuhan dengan maklum balas manusia (RLHF).
- Keputusan: InstructGPT menunjukkan realisme yang lebih baik dan kurang berat sebelah, iaitu penjajaran yang lebih baik. - ChatGPT/GPT-4: OpenAI tidak mendedahkan butiran. Tetapi seperti yang kita semua tahu, ChatGPT/GPT-4 sebahagian besarnya mengikut reka bentuk model GPT sebelumnya, dan mereka masih menggunakan RLHF untuk menala model (mungkin dengan data/label yang lebih berkualiti dan lebih tinggi). Secara amnya diterima bahawa GPT-4 menggunakan set data yang lebih besar apabila berat model meningkat.
Pembangunan data inferens. Memandangkan model GPT terbaharu cukup berkuasa, kami boleh mencapai pelbagai matlamat dengan melaraskan pembayang atau melaraskan data inferens semasa model dibetulkan. Sebagai contoh, kita boleh melakukan ringkasan teks dengan menyediakan teks untuk diringkaskan dan arahan seperti "ringkaskan" atau "TL;DR" untuk membimbing proses penaakulan.
Laraskan dalam masa
Merancang gesaan penaakulan yang betul ialah tugas yang mencabar. Ia sangat bergantung pada heuristik. Tinjauan yang baik meringkaskan kaedah promosi yang berbeza. Kadangkala, isyarat yang serupa secara semantik pun boleh mempunyai output yang sangat berbeza. Dalam kes ini, penentukuran berasaskan kiu lembut mungkin diperlukan untuk mengurangkan varians.
Penyelidikan mengenai pembangunan data inferens LLM masih di peringkat awal. Dalam masa terdekat, lebih banyak teknik pembangunan data inferensi yang telah digunakan untuk tugasan lain boleh digunakan dalam LLM.
Penyelenggaraan data. Sebagai produk komersial, ChatGPT/GPT-4 bukan sahaja dilatih sekali, tetapi juga dikemas kini dan diselenggara secara berterusan. Jelas sekali, kami tidak mempunyai cara untuk mengetahui cara penyelenggaraan data dilakukan di luar OpenAI. Oleh itu, kami membincangkan beberapa strategi AI berpusatkan data umum yang telah atau mungkin akan digunakan untuk model GPT:
- Pengumpulan data berterusan: Apabila kami menggunakan ChatGPT/GPT-4 Petua/maklum balas kami mungkin seterusnya digunakan oleh OpenAI untuk memajukan lagi model mereka. Metrik kualiti dan strategi jaminan mungkin telah direka dan dilaksanakan untuk mengumpul data berkualiti tinggi semasa proses.
- Alat Memahami Data: Pelbagai alat boleh dibangunkan untuk menggambarkan dan memahami data pengguna, menggalakkan pemahaman yang lebih baik tentang keperluan pengguna dan membimbing arah penambahbaikan masa hadapan.
- Pemprosesan data yang cekap: Dengan pertumbuhan pesat bilangan pengguna ChatGPT/GPT-4, sistem pengurusan data yang cekap diperlukan untuk mencapai pengumpulan data yang pantas.
Gambar di atas adalah contoh ChatGPT/GPT-4 mengumpul maklum balas pengguna melalui "suka" dan "tidak suka".
Apa yang boleh dipelajari oleh komuniti sains data daripada gelombang LLM ini
Kejayaan LLM telah merevolusikan kecerdasan buatan. Melangkah ke hadapan, LLM boleh merevolusikan lagi kitaran hayat sains data. Kami membuat dua ramalan:
- Kepintaran buatan tertumpu data menjadi lebih penting. Selepas bertahun-tahun penyelidikan, reka bentuk model telah menjadi sangat matang, terutamanya selepas Transformer. Data menjadi cara utama untuk menambah baik sistem AI pada masa hadapan. Selain itu, apabila model menjadi cukup berkuasa, kita tidak perlu melatih model itu dalam kerja harian kita. Sebaliknya, kita hanya perlu mereka bentuk data inferens yang sesuai untuk meneroka pengetahuan daripada model. Oleh itu, penyelidikan dan pembangunan AI berpusatkan data akan memacu kemajuan masa depan.
- LLM akan membolehkan penyelesaian kecerdasan buatan berpusatkan data yang lebih baik
Banyak tugas sains data yang membosankan boleh menjadi lebih berkesan dengan bantuan LLM yang dijalankan. Contohnya, ChaGPT/GPT-4 sudah memungkinkan untuk menulis kod kerja untuk memproses dan membersihkan data. Tambahan pula, LLM juga boleh digunakan untuk mencipta data latihan. Contohnya, menggunakan LLM untuk menjana data sintetik boleh meningkatkan prestasi model dalam perlombongan teks.
Atas ialah kandungan terperinci Bercakap tentang AI berpusatkan data di sebalik model GPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Tingkatkan produktiviti, kecekapan dan ketepatan pembangun dengan menggabungkan penjanaan dipertingkatkan semula dan memori semantik ke dalam pembantu pengekodan AI. Diterjemah daripada EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, pengarang JanakiramMSV. Walaupun pembantu pengaturcaraan AI asas secara semulajadi membantu, mereka sering gagal memberikan cadangan kod yang paling relevan dan betul kerana mereka bergantung pada pemahaman umum bahasa perisian dan corak penulisan perisian yang paling biasa. Kod yang dijana oleh pembantu pengekodan ini sesuai untuk menyelesaikan masalah yang mereka bertanggungjawab untuk menyelesaikannya, tetapi selalunya tidak mematuhi piawaian pengekodan, konvensyen dan gaya pasukan individu. Ini selalunya menghasilkan cadangan yang perlu diubah suai atau diperhalusi agar kod itu diterima ke dalam aplikasi

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Pembelajaran mesin ialah cabang penting kecerdasan buatan yang memberikan komputer keupayaan untuk belajar daripada data dan meningkatkan keupayaan mereka tanpa diprogramkan secara eksplisit. Pembelajaran mesin mempunyai pelbagai aplikasi dalam pelbagai bidang, daripada pengecaman imej dan pemprosesan bahasa semula jadi kepada sistem pengesyoran dan pengesanan penipuan, dan ia mengubah cara hidup kita. Terdapat banyak kaedah dan teori yang berbeza dalam bidang pembelajaran mesin, antaranya lima kaedah yang paling berpengaruh dipanggil "Lima Sekolah Pembelajaran Mesin". Lima sekolah utama ialah sekolah simbolik, sekolah sambungan, sekolah evolusi, sekolah Bayesian dan sekolah analogi. 1. Simbolisme, juga dikenali sebagai simbolisme, menekankan penggunaan simbol untuk penaakulan logik dan ekspresi pengetahuan. Aliran pemikiran ini percaya bahawa pembelajaran adalah proses penolakan terbalik, melalui sedia ada

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S

Menurut berita dari laman web ini pada 1 Ogos, SK Hynix mengeluarkan catatan blog hari ini (1 Ogos), mengumumkan bahawa ia akan menghadiri Global Semiconductor Memory Summit FMS2024 yang akan diadakan di Santa Clara, California, Amerika Syarikat dari 6 hingga 8 Ogos, mempamerkan banyak produk penjanaan teknologi baru. Pengenalan kepada Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage), dahulunya Sidang Kemuncak Memori Flash (FlashMemorySummit) terutamanya untuk pembekal NAND, dalam konteks peningkatan perhatian kepada teknologi kecerdasan buatan, tahun ini dinamakan semula sebagai Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage) kepada jemput vendor DRAM dan storan serta ramai lagi pemain. Produk baharu SK hynix dilancarkan tahun lepas
