AI Generatif dan Agenik: menyelam mendalam ke dataset sumber terbuka
Bidang generatif AI (genai) dan agentik AI merevolusi segala-galanya dari penjanaan kandungan kreatif kepada pengambilan keputusan autonomi. Kemajuan ini didorong oleh dataset yang boleh diakses secara umum untuk latihan, ujian, dan penempatan model. Artikel ini membentangkan pemilihan kumpulan data sumber terbuka yang terkemuka untuk kedua-dua AI generatif dan agenik, yang merangkumi pelbagai jenis data-dari koleksi teks dan imej yang luas kepada sumber khusus untuk membina ejen pintar dan menangani masalah penaakulan yang kompleks.
Sesuai untuk: Latihan model bahasa yang besar, membangunkan sistem pemahaman bahasa semulajadi yang canggih, dan model penalaan halus untuk tugas penjanaan teks tertentu.
pautan: Eleutherai - The Pile
Sesuai untuk: Membina model bahasa skala web, meningkatkan keupayaan pengambilan maklumat dan enjin carian, dan menganalisis trend kandungan dalam talian dan tingkah laku pengguna.
pautan: Crawl biasa Wikitext memanfaatkan artikel Wikipedia berkualiti tinggi untuk membuat dataset pemodelan bahasa. Kandungan berstruktur dan kerumitan linguistiknya menunjukkan persekitaran pembelajaran yang mencabar untuk model, terutamanya untuk menguasai ketergantungan jarak jauh. Pelbagai versi wujud, dengan Wikitext-103 jauh lebih besar daripada pendahulunya. Sesuai untuk: Model bahasa latihan yang difokuskan pada konteks jarak jauh, penanda aras ramalan kata-kata dan penjanaan teks, dan model penalaan halus untuk ringkasan dan terjemahan.
pautan: wikitext pada muka pelukan
Sesuai untuk: model bahasa skala web latihan menggunakan teks dalam talian yang pelbagai, model penalaan halus untuk penjanaan teks dan ringkasan, dan meneliti pemahaman bahasa semulajadi menggunakan data web semasa.
OpenWebtext pada GitHub
Model generatif teks-ke-imej, membangunkan sistem sintesis kandungan multimodal, dan mewujudkan aplikasi imej lanjutan dan aplikasi bercerita visual.
laion-5b
Membangunkan model pengesanan dan segmentasi objek yang mantap, model latihan untuk keterangan imej dan penerangan visual, dan mewujudkan sistem sintesis imej yang menyedari konteks.
Pautan:
Ideal untuk: Latihan sistem penjanaan imej tujuan umum, meningkatkan model pengesanan objek dan segmentasi, dan membina kerangka pengiktirafan imej yang mantap. pautan: Buka dataset imej Redpajama-1T adalah pembiakan sumber terbuka dataset pretraining Llama, sementara Redpajama-V2 menyempurnakannya dengan memberi tumpuan kepada data web berkualiti tinggi dan sokongan berbilang bahasa. Kedua -duanya menawarkan sumber yang berharga untuk pretraining model bahasa yang besar dan kurasi dataset. Sesuai untuk: Menghasilkan semula data latihan Llama, pretraining LLM sumber terbuka, dan pengkhususan dataset berbilang domain/berbilang bahasa. Pautan: redpajama-1t, redpajama-v2 Dataset WebGPT OpenAI memberi tumpuan kepada latihan ejen AI yang berinteraksi secara dinamik dengan web. Ia mengandungi data annotasi manusia bagi interaksi pelayaran web dunia nyata, penting untuk membangunkan sistem penjanaan pengambilan pengambilan semula. Sesuai untuk: latihan web-penyembuhan dan ejen pengambilan maklumat, membangunkan sistem pemprosesan bahasa semula jadi yang diperolehi semula, dan meningkatkan keupayaan AI untuk berinteraksi dengan dan memahami kandungan web. Pautan: Dataset WebGPT OpenAI Dataset Ejen Obsidian menggunakan data sintetik untuk mensimulasikan persekitaran untuk membuat keputusan autonomi, menguji perancangan kompleks dan kemahiran membuat keputusan dalam ejen AI. Sesuai untuk: Latihan model membuat keputusan autonomi, meniru penalaran berasaskan ejen dalam persekitaran terkawal, dan bereksperimen dengan data sintetik untuk tugas perancangan AI yang kompleks. pautan: dataset ejen obsidian Dataset WebShop mensimulasikan persekitaran e-dagang, yang menampilkan penerangan produk, log interaksi pengguna, dan corak pelayaran. Ini sesuai untuk membangunkan ejen pintar untuk penyelidikan produk, cadangan, dan pembelian automatik. Sesuai untuk: Membina ejen AI untuk navigasi e-dagang dan penyelidikan produk, membangunkan sistem cadangan untuk pembeli dalam talian, dan mengautomasikan perbandingan produk dan proses pembelian.
pautan: Dataset webshop
Ideal untuk: Ejen robotik interaktif untuk tugas-tugas dunia nyata, mensimulasikan perancangan tugas dan pelaksanaan isi rumah, dan membangunkan aplikasi AI yang terkandung dalam persekitaran maya. pautan: Meta Eai dataset Mujoco adalah enjin fizik untuk mewujudkan simulasi yang realistik, terutamanya untuk robotik. Ia membolehkan model AI mempelajari tugas gerakan dan kawalan yang kompleks dalam persekitaran berasaskan fizik. Ideal untuk: Model latihan untuk simulasi robot yang realistik, membangunkan sistem kawalan lanjutan dalam persekitaran simulasi, dan penanda aras algoritma AI pada tugas-tugas berasaskan fizik. Pautan: Mujoco dataset robotik menangkap data sensor dunia sebenar dan interaksi robot, memberikan maklumat kontekstual yang kaya untuk penyelidikan AI yang terkandung. Ideal untuk: Latihan AI untuk interaksi robot dunia sebenar, membangunkan sistem pembuatan keputusan berasaskan sensor, dan penanda aras prestasi AI yang terkandung dalam persekitaran dinamik. pautan: dataset robotik Atari Games menyediakan penanda aras klasik untuk algoritma pembelajaran tetulang, menawarkan suite persekitaran permainan untuk tugas membuat keputusan berurutan. Sesuai untuk: Strategi Pembelajaran Pengukuhan Penandaarasan, menguji prestasi AI dalam persekitaran permainan yang berbeza-beza, dan membangunkan algoritma untuk membuat keputusan berurutan. pautan: Atari Games Interaksi Web-Crawled menangkap data tingkah laku pengguna berskala besar dari platform dalam talian, menawarkan pandangan untuk melatih ejen interaktif dan memahami tingkah laku pengguna dunia sebenar. Sesuai untuk: Ejen interaktif latihan berdasarkan tingkah laku pengguna sebenar, meningkatkan sistem cadangan dengan data interaksi dinamik, dan menganalisis trend penglibatan untuk AI perbualan.
Pautan: Interaksi Web-Crawled
Ideal untuk: Penandaarasan Keupayaan Penalaran akal sehat, model latihan untuk mengendalikan soalan ujian piawai, dan meningkatkan masalah penyelesaian masalah dan logik dalam sistem AI.
pautan: dataset arka ai2 MS Marco adalah dataset berskala besar untuk ranking laluan, menjawab soalan, dan pengambilan maklumat, latihan dan pengujian sistem penjanaan pengambilan semula. Ideal untuk: Model Generasi Pengambilan-Agen (RAG), membangunkan peringkat lanjutan dan sistem soal jawab, dan meningkatkan saluran paip pengambilan maklumat dengan data dunia sebenar.
Pautan: ms marco
Sesuai untuk: algoritma pembelajaran penanda aras penanda aras, membangunkan persekitaran latihan simulasi untuk ejen, dan prototaip cepat tingkah laku agentik dalam senario terkawal.
pautan: Openai Gym
wikitext: data wikipedia berkualiti tinggi
OpenWebtext adalah rekreasi sumber terbuka dataset Webtext OpenAI, yang disusun dari laman web yang berkaitan dengan Reddit. Koleksi teks dalam talian berkualiti tinggi ini sangat berharga untuk model latihan yang memerlukan pelbagai gaya bahasa dan wacana dalam talian kontemporari.
laion-5b: gergasi multimodal
MS COCO: Imej beransur -ansur yang kaya
Dataset Imej Terbuka adalah koleksi imej yang didorong oleh komuniti dengan label, kotak sempadan, dan topeng segmentasi. Liputannya yang luas dan kandungan yang pelbagai sangat sesuai untuk melatih generasi imej dan model pengiktirafan umum.
Redpajama-1T dan Redpajama-V2: Menghasilkan dan Menapis Data Llama
Dataset WebGPT OpenAI: Data Interaksi Web
dataset ejen obsidian: membuat keputusan simulasi
Dataset WebShop: Interaksi e-dagang
Dataset Meta EAI menyokong latihan ejen AI yang berinteraksi dengan persekitaran maya dan dunia nyata, terutamanya untuk robotik dan perancangan tugas isi rumah.
Mujoco: Simulasi Fizik Realistik
dataset robotik: data robot dunia sebenar
permainan atari: penanda aras pembelajaran tetulang
Interaksi Web-Crawled: Data Perilaku Pengguna Sebenar
Dataset AI2 ARC mengandungi soalan pelbagai pilihan yang mencabar untuk menilai kebolehan dan kemampuan penyelesaian masalah AI.
MS Marco: Pengambilan maklumat dan soalan menjawab
Openai Gym adalah toolkit standard dengan persekitaran simulasi untuk membangun dan menanda aras algoritma pembelajaran tetulang.
(jadual yang meringkaskan dataset, sama dengan yang asal, akan dimasukkan di sini.)
Dataset sumber terbuka yang dibincangkan menyediakan asas yang kukuh untuk membangunkan AI generatif dan agenik yang maju. Mereka menawarkan skala dan kepelbagaian yang diperlukan untuk memacu inovasi di pelbagai domain AI.
(bahagian FAQ, serupa dengan yang asal, akan dimasukkan di sini.)
Atas ialah kandungan terperinci 20 dataset sumber terbuka untuk AI generatif dan agentik AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!