


2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini
Sejak kebelakangan ini, pembantu dialog AI telah mencapai kemajuan yang besar dalam tugas bahasa. Peningkatan ketara ini bukan sahaja berdasarkan keupayaan generalisasi LLM yang kukuh, tetapi juga harus dikaitkan dengan penalaan arahan. Ini melibatkan penalaan halus LLM pada pelbagai tugas melalui pengajaran yang pelbagai dan berkualiti tinggi.
Satu sebab yang berpotensi untuk mencapai prestasi tangkapan sifar dengan penalaan arahan ialah ia menghayati konteks. Ini penting terutamanya apabila input pengguna melangkau konteks akal. Dengan menggabungkan penalaan arahan, LLM memperoleh tahap pemahaman yang tinggi tentang niat pengguna dan mempamerkan keupayaan sifar pukulan yang lebih baik walaupun dalam tugas yang tidak kelihatan sebelum ini.
Walau bagaimanapun, pembantu perbualan AI yang ideal seharusnya dapat menyelesaikan tugasan yang melibatkan pelbagai modaliti. Ini memerlukan mendapatkan arahan multimodal yang pelbagai dan berkualiti tinggi berikutan set data. Contohnya, set data LLaVAInstruct-150K (juga dikenali sebagai LLaVA) ialah arahan visual-verbal yang biasa digunakan berikut set data, yang menggunakan imej COCO, arahan dan respons berdasarkan kapsyen imej dan kotak sempadan sasaran yang diperoleh daripada GPT-4 Constructed. Walau bagaimanapun, LLaVA-Instruct-150K mempunyai tiga had: kepelbagaian visual terhad;
Untuk mempromosikan pembantu dialog AI untuk menembusi batasan ini, sarjana dari Universiti Teknologi Nanyang di Singapura dan Microsoft Research Redmond mencadangkan set data penalaan arahan kontekstual pelbagai mod MIMIC-IT , set data yang mengandungi 2.8 juta pasangan arahan-tindak balas konteks pelbagai mod, meliputi pelbagai senario kehidupan sebenar.
Alamat kertas: https://arxiv.org/pdf/2306.05425.pdf
Di samping itu, untuk menjana pasangan tindak balas arahan dengan cekap, para penyelidik juga memperkenalkan "Sythus", saluran paip automatik bagi anotasi arahan-tindak balas yang diilhamkan oleh kaedah arahan kendiri. Sythus menggunakan maklumat sistem, anotasi visual dan contoh dalam konteks untuk membimbing model bahasa (GPT-4 atau ChatGPT) untuk menjana pasangan arahan-tindak balas berdasarkan konteks visual, menyasarkan tiga keupayaan asas model bahasa visual: persepsi, penaakulan dan perancangan. Selain itu, arahan dan respons bahasa Inggeris diterjemahkan ke dalam tujuh bahasa untuk menyokong penggunaan berbilang bahasa.
Adalah wajar diberi perhatian bahawa para penyelidik melatih model berbilang mod "Otter" berdasarkan OpenFlamingo pada MIMIC-IT. Dinilai pada kedua-dua ChatGPT dan manusia, keupayaan multimodal Otter mengatasi model bahasa visual terkini yang lain.
Dalam satu siri demo, penyelidik menunjukkan keupayaan soalan dan jawapan pelbagai mod Otter:
S: Kad manakah yang akan dimainkan seterusnya? ?
J: Lapan tiub. Dengan cara ini anda boleh mengekalkan empat dan lima menunggu lurus.
S: Saya mahu mendarat, apa yang perlu saya lakukan?
J: Tekan butang kiri bawah sekali untuk membelok ke kiri, dan tarik brek tangan di sebelah kanan apabila anda ingin mendarat.
S: Apa seterusnya?
J: Hantar bola ke tengah, lari ke gawang, dan cari peluang menjaringkan gol.
Seterusnya, mari lihat butiran kajian.
Set Data MIMIC-IT
Set Data MIMIC-IT merangkumi 2.8 juta pasangan arahan-tindak balas pelbagai mod meliputi keupayaan asas: persepsi, penaakulan dan perancangan. Setiap arahan disertakan dengan konteks perbualan pelbagai mod, membolehkan VLM dilatih pada MIMIC-IT untuk menunjukkan kecekapan yang baik dalam arahan interaktif dan melakukan generalisasi sifar pukulan.
Berbanding dengan LLaVA, ciri-ciri MIMIC-IT termasuk:
(1) Pemandangan visual yang pelbagai, termasuk imej dan video daripada set data yang berbeza seperti adegan umum, adegan egosentrik dan imej RGB-D dalaman
(2) Lagi Satu imej (atau; video) sebagai data visual;
(3) Maklumat kontekstual berbilang modal, termasuk berbilang pasangan tindak balas arahan dan berbilang imej atau video
(4) Menyokong lapan bahasa, termasuk Inggeris, Cina, Sepanyol, Jepun, Perancis, Jerman, Korea dan Arab.
Rajah berikut menunjukkan lagi perbandingan arahan-tindak balas kedua-duanya (kotak kuning ialah LLaVA):
Seperti yang ditunjukkan dalam Jadual 1, sumber data MIMIC-IT datang daripada tujuh set data: COCO, Spot-the-diff (SD), ScanNetV2 (SN), VisualStorytelling (VIST), DenseCaption /Kapsyen aktiviti (DC), TVCaption (TVC) dan Ego4D (E4D). "lang." dalam lajur "Konteks" mewakili bahasa, dan "vis."
Sythus: Talian penjanaan pasangan arahan-tindak balas automatik
Pada masa yang sama, penyelidik mencadangkan Sythus (Rajah 3), iaitu Saluran paip automatik untuk menjana pasangan tindak balas arahan berkualiti tinggi dalam berbilang bahasa. Berdasarkan rangka kerja yang dicadangkan oleh LLaVA, penyelidik menggunakan ChatGPT untuk menjana pasangan arahan-tindak balas berdasarkan kandungan visual. Untuk memastikan kualiti pasangan arahan-tindak balas yang dijana, saluran paip menggunakan maklumat sistem, anotasi visual dan sampel dalam konteks sebagai gesaan untuk ChatGPT. Maklumat sistem mentakrifkan nada dan gaya yang dijangkakan bagi pasangan arahan-tindak balas yang dijana, manakala anotasi visual menyediakan maklumat imej asas seperti kotak sempadan dan penerangan imej. Contoh dalam konteks membantu ChatGPT belajar dalam konteks.
Memandangkan kualiti set teras akan mempengaruhi proses pengumpulan data seterusnya, para penyelidik menggunakan strategi permulaan yang dingin untuk mengukuhkan sampel dalam konteks sebelum pertanyaan berskala besar. Semasa fasa permulaan sejuk, pendekatan heuristik digunakan untuk menggesa ChatGPT mengumpul sampel dalam konteks hanya melalui maklumat sistem dan anotasi visual. Fasa ini tamat hanya selepas sampel dalam konteks yang memuaskan telah dikenal pasti. Dalam langkah keempat, setelah pasangan arahan-tindak balas diperoleh, saluran paip mengembangkannya ke dalam bahasa Cina (zh), Jepun (ja), Sepanyol (es), Jerman (de), Perancis (fr), Korea (ko) dan Arab (ar). Butiran lanjut boleh didapati dalam Lampiran C, dan gesaan tugas khusus boleh didapati dalam Lampiran D.
Kemudian, penyelidik menunjukkan pelbagai aplikasi dan keupayaan potensi model bahasa visual (VLM) dilatih untuk mereka. Pertama, penyelidik memperkenalkan Otter, model penalaan arahan kontekstual yang dibangunkan menggunakan dataset MIMIC-IT. Para penyelidik kemudian meneroka pelbagai kaedah melatih Otter pada dataset MIMIC-IT dan membincangkan pelbagai senario di mana Otter boleh digunakan dengan berkesan.
Rajah 5 ialah contoh tindak balas Otter dalam senario yang berbeza. Terima kasih kepada latihan mengenai set data MIMIC-IT, Otter mampu menyampaikan pemahaman dan penaakulan situasi, pembelajaran sampel kontekstual dan pembantu visual yang egosentrik.
Akhir sekali, penyelidik menjalankan analisis perbandingan prestasi Otter dengan VLM lain dalam satu siri ujian penanda aras.
Penilaian ChatGPT
Jadual 2 di bawah menunjukkan penilaian penyelidik terhadap model bahasa visual menggunakan rangka kerja MMAGIBench [43 ] Kebolehan persepsi dan penaakulan dinilai secara meluas.
Penilaian Manusia
Multi-Modaliti Arena [32] menggunakan sistem penilaian Elo untuk menilai kegunaan dan ketekalan respons VLM. Rajah 6(b) menunjukkan bahawa Otter menunjukkan kepraktisan dan konsistensi yang unggul, mencapai penarafan Elo tertinggi dalam VLM terkini.
Penilaian tanda aras pembelajaran kontekstual beberapa pukulan
Berang-berang diperhalusi berdasarkan OpenFlamingo, alat yang direka untuk multi-modal Seni bina yang direka untuk pembelajaran konteks dinamik. Selepas penalaan halus menggunakan set data MIMIC-IT, Otter mengungguli OpenFlamingo dengan ketara pada penilaian COCO Captioning (CIDEr) [27] (lihat Rajah 6 (c)). Seperti yang dijangkakan, penalaan halus juga membawa keuntungan prestasi kecil pada penilaian sampel sifar.
Rajah 6: Penilaian pemahaman video ChatGPT.
Bincangkan
kelemahan. Walaupun penyelidik telah menambah baik mesej sistem dan contoh tindak balas perintah secara berulang, ChatGPT terdedah kepada halusinasi bahasa, jadi ia mungkin menghasilkan respons yang salah. Selalunya, model bahasa yang lebih dipercayai memerlukan penjanaan data arahan sendiri.
Masa depan kerja. Pada masa hadapan, penyelidik merancang untuk menyokong set data AI yang lebih khusus, seperti LanguageTable dan SayCan. Penyelidik juga sedang mempertimbangkan untuk menggunakan model bahasa atau teknik penjanaan yang lebih boleh dipercayai untuk menambah baik set arahan.
Atas ialah kandungan terperinci 2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bagaimana untuk mendapatkan item menggunakan arahan dalam Terraria? 1. Apakah arahan untuk memberikan item dalam Terraria Dalam permainan Terraria, memberi arahan kepada item adalah fungsi yang sangat praktikal. Melalui arahan ini, pemain boleh terus mendapatkan barangan yang mereka perlukan tanpa perlu melawan raksasa atau teleport ke lokasi tertentu. Ini boleh menjimatkan masa dengan banyak, meningkatkan kecekapan permainan dan membolehkan pemain memberi lebih tumpuan kepada meneroka dan membina dunia. Secara keseluruhan, ciri ini menjadikan pengalaman permainan lebih lancar dan menyeronokkan. 2. Cara menggunakan Terraria untuk memberikan arahan item 1. Buka permainan dan masukkan antara muka permainan. 2. Tekan kekunci "Enter" pada papan kekunci untuk membuka tetingkap sembang. 3. Masukkan format arahan dalam tetingkap sembang: "/berikan [nama pemain][ID item][kuantiti item]".

Dalam beberapa tahun kebelakangan ini, model berasaskan pembelajaran mendalam telah menunjukkan prestasi yang baik dalam tugas seperti pengesanan objek dan pengecaman imej. Mengenai set data klasifikasi imej yang mencabar seperti ImageNet, yang mengandungi 1,000 klasifikasi objek berbeza, sesetengah model kini melebihi tahap manusia. Tetapi model ini bergantung pada proses latihan yang diawasi, mereka dipengaruhi dengan ketara oleh ketersediaan data latihan berlabel, dan kelas yang model dapat mengesan adalah terhad kepada kelas yang dilatih. Memandangkan imej berlabel tidak mencukupi untuk semua kelas semasa latihan, model ini mungkin kurang berguna dalam tetapan dunia sebenar. Dan kami mahu model itu dapat mengenali kelas yang tidak pernah dilihat semasa latihan, kerana hampir mustahil untuk melatih imej semua objek berpotensi. Kami akan belajar daripada beberapa sampel

Artikel ini bertujuan untuk membantu pemula memulakan dengan cepat dengan Vue.js3 dan mencapai kesan penukaran tab yang mudah. Vue.js ialah rangka kerja JavaScript popular yang boleh digunakan untuk membina komponen boleh guna semula, mengurus keadaan aplikasi anda dengan mudah dan mengendalikan interaksi antara muka pengguna. Vue.js3 ialah versi terkini rangka kerja Berbanding dengan versi sebelumnya, ia telah mengalami perubahan besar, tetapi prinsip asas tidak berubah. Dalam artikel ini, kami akan menggunakan arahan Vue.js untuk melaksanakan kesan penukaran tab, dengan tujuan membiasakan pembaca dengan Vue.js

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Pada Januari 2021, OpenAI mengumumkan dua model baharu: DALL-E dan CLIP. Kedua-dua model ialah model multimodal yang menyambungkan teks dan imej dalam beberapa cara. Nama penuh CLIP ialah Pra-latihan Bahasa-Imej Kontrastif (ContrastiveLanguage-Image-Pre-training), yang merupakan kaedah pra-latihan berdasarkan pasangan imej teks yang berbeza. Mengapa memperkenalkan CLIP? Kerana StableDiffusion yang popular pada masa ini bukanlah satu model, tetapi terdiri daripada berbilang model. Salah satu komponen utama ialah pengekod teks, yang digunakan untuk mengekod input teks pengguna ini ialah pengekod teks CL dalam model CLIP.

Mengurai set data menjadi set latihan membantu kami memahami model, yang penting untuk cara model membuat generalisasi kepada data baharu yang tidak kelihatan. Sesuatu model mungkin tidak digeneralisasikan dengan baik kepada data baru yang tidak kelihatan jika ia terlalu dipasang. Oleh itu ramalan yang baik tidak boleh dibuat. Mempunyai strategi pengesahan yang sesuai ialah langkah pertama untuk berjaya mencipta ramalan yang baik dan menggunakan nilai perniagaan model AI Artikel ini telah menyusun beberapa strategi pemisahan data biasa. Pembahagian kereta api dan ujian mudah membahagikan set data kepada bahagian latihan dan pengesahan, dengan 80% latihan dan 20% pengesahan. Anda boleh melakukan ini menggunakan pensampelan rawak Scikit. Pertama, benih rawak perlu diperbaiki, jika tidak, pemisahan data yang sama tidak boleh dibandingkan dan hasilnya tidak boleh dihasilkan semula semasa penyahpepijatan. Jika set data

Selepas model video AI Sora menjadi popular, syarikat utama seperti Meta dan Google telah mengetepikan untuk melakukan penyelidikan dan mengejar OpenAI. Baru-baru ini, penyelidik dari pasukan Google mencadangkan pengekod video universal - VideoPrism. Ia boleh mengendalikan pelbagai tugas pemahaman video melalui satu model beku. Alamat kertas imej: https://arxiv.org/pdf/2402.13217.pdf Contohnya, VideoPrism boleh mengelaskan dan mengesan orang yang meniup lilin dalam video di bawah. Pengambilan teks video imej, berdasarkan kandungan teks, kandungan yang sepadan dalam video boleh diambil semula. Untuk contoh lain, huraikan video di bawah - seorang gadis kecil sedang bermain dengan blok bangunan. Soalan dan jawapan QA juga tersedia.

Masalah melatih rangkaian neural dalam yang besar (DNN) menggunakan set data yang besar merupakan cabaran utama dalam bidang pembelajaran mendalam. Apabila saiz DNN dan set data meningkat, begitu juga keperluan pengiraan dan memori untuk melatih model ini. Ini menjadikannya sukar atau bahkan mustahil untuk melatih model ini pada satu mesin dengan sumber pengkomputeran yang terhad. Beberapa cabaran utama dalam melatih DNN besar menggunakan set data besar termasuk: Masa latihan yang panjang: Proses latihan boleh mengambil masa beberapa minggu atau bahkan beberapa bulan untuk disiapkan, bergantung pada kerumitan model dan saiz set data. Had memori: DNN yang besar mungkin memerlukan jumlah memori yang besar untuk menyimpan semua parameter model, kecerunan dan pengaktifan perantaraan semasa latihan. Ini boleh menyebabkan kesilapan ingatan dan mengehadkan apa yang boleh dilatih pada satu mesin.
