Jadual Kandungan
1.2 Motivasi" >1.2 Motivasi
1.3 Sumbangan" >1.3 Sumbangan
2. Penyelesaian pemindahan VPG berkecekapan tinggi: VPGTrans
2.1 Eksperimen Penerokaan" >2.1 Eksperimen Penerokaan
3. Keputusan percubaan
3.1 Nisbah kelajuan" >3.1 Nisbah kelajuan
3.2 Penemuan yang menarik" >3.2 Penemuan yang menarik
3.3 Eksperimen Berskala Besar" >3.3 Eksperimen Berskala Besar
4. Sesuaikan VL-LLM anda
5 . Ringkasan
Rumah Peranti teknologi AI Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

May 21, 2023 am 08:22 AM
chatgpt Model

Tahun ini adalah tahun perkembangan pesat teknologi AI, dengan model bahasa besar (LLM) yang diwakili oleh ChatGPT menjadi popular.

Selain menunjukkan potensi besar dalam bidang bahasa semula jadi, model bahasa juga telah mula memancar secara beransur-ansur kepada modaliti lain Contohnya, model graf Vincent Stable Diffusion juga memerlukan bahasa model.

Melatih model bahasa visual (VL-LLM) dari awal selalunya memerlukan banyak sumber, jadi penyelesaian sedia ada menggabungkan model bahasa dan model penjanaan isyarat visual (Visual Prompt Generator, VPG ), tetapi walaupun begitu, meneruskan untuk menala VPG masih memerlukan beribu-ribu jam GPU dan berjuta-juta data latihan.

Baru-baru ini, penyelidik dari Universiti Nasional Singapura dan Universiti Tsinghua mencadangkan penyelesaian, VPGTrans, untuk memindahkan VPG sedia ada kepada model VL-LLM yang sedia ada cara kos rendah.

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Pautan kertas: https://arxiv.org/abs/2305.01278

Pautan kod: https://github.com/VPGTrans/VPGTrans

Demo model dialog pelbagai mod : https ://vpgtrans.github.io/

Pengarang: Zhang Ao, Fei Hao, Yao Yuan, Ji Wei, Li Li, Liu Zhiyuan, Chua Tat- Seng

Unit: Universiti Kebangsaan Singapura, Universiti Tsinghua

Inovasi utama artikel termasuk :

1 Kos latihan yang sangat rendah:

Melalui kaedah VPGTrans kami yang dicadangkan, ia boleh Dengan cepat (kurang daripada 10% masa latihan)Memindahkan modul visual model dialog pelbagai mod sedia ada kepada model bahasa baharu dan mencapai hasil yang serupa atau lebih baik.

Sebagai contoh, berbanding melatih modul penglihatan dari awal, kami boleh mengurangkan overhed latihan BLIP-2 FlanT5-XXL daripada 19,000+ RMB kepada kurang daripada 1,000 RMB :

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 1: Perbandingan pengurangan overhed latihan BLIP-2 berdasarkan kaedah VPGTrans kami

2.Penyesuaian model besar berbilang mod:

Melalui modul Visual rangka kerja VPGTrans kami boleh ditambah secara fleksibel kepada pelbagai model bahasa besar baharu mengikut keperluan. Sebagai contoh, kami menghasilkan VL-LLaMA dan VL-Vicuna berdasarkan LLaMA-7B dan Vicuna-7B.

3 Model dialog pelbagai mod sumber terbuka:

Kami mempunyai VL-Vicuna sumber terbuka, model dialog multimodal seperti GPT-4 yang boleh mencapai dialog multimodal berkualiti tinggi:

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 2: Contoh interaksi VL-Vicuna

1.1 Pengenalan kepada motivasi

1.1 Latar Belakang

LLM telah mencetuskan revolusi dalam bidang pemahaman pelbagai mod daripada model bahasa visual pra-latihan tradisional (VLM) kepada model bahasa visual berdasarkan model bahasa besar (VL-LLM) ).

Dengan menyambungkan modul visual kepada LLM, VL-LLM boleh mewarisi pengetahuan, kebolehan generalisasi sampel sifar, keupayaan penaakulan dan keupayaan merancang LLM sedia ada. Model berkaitan termasuk BLIP-2[1], Flamingo[2], PALM-E, dsb.

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 3: Seni bina VL-LLM yang biasa digunakan

VL-LLM sedia ada yang biasa digunakan pada asasnya menggunakan seni bina yang ditunjukkan dalam Rajah 3: modul penjanaan gesaan lembut visual (Visual Prompt Generator, VPG) dilatih pada LLM asas, dan modul linear linear untuk Lapisan transformasi dimensi ( Projektor).

Dari segi skala parameter, LLM secara amnya merangkumi bahagian utama (seperti 11B) , akaun VPG untuk bahagian kecil (seperti 1.2B), dan Projektor adalah yang paling kecil (4M).

Semasa proses latihan, Parameter LLM biasanya tidak dikemas kini , atau hanya sebilangan kecil parameter yang dikemas kini. Parameter boleh dilatih terutamanya datang daripada VPG dan projektor.

1.2 Motivasi

Malah, walaupun parameter LLM asas dibekukan dan tidak dilatih, disebabkan bilangan parameter yang banyak LLM, melatih VL -Atas kekunci LLM masih memuatkan LLM asas.

Oleh itu, latihan VL-LLM masih tidak dapat mengelakkan kos pengiraan yang besar. Sebagai contoh, untuk mendapatkan BLIP-2 (LLM asas ialah FlanT5-XXL), lebih daripada 600 jam masa latihan A100 diperlukan. Jika anda menyewa mesin A100-40G Amazon, ia akan menelan kos hampir 20,000 yuan.

Memandangkan melatih VPG dari awal sangat mahal, kami mula memikirkan sama ada kami boleh memindahkan VPG sedia ada ke LLM baharu untuk menjimatkan kos.

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 4: Penghijrahan VPG: penghijrahan saiz LLM silang dan penghijrahan jenis silang-LLM

Seperti yang ditunjukkan dalam Rajah 4, kami terutamanya meneroka penghijrahan dua jenis VPG:

(1) Penghijrahan saiz LLM silang ( TaS): Contohnya, daripada OPT-2.7B hingga OPT-6.7B.

(2) Penghijrahan jenis Cross-LLM (TaT): seperti dari OPT ke FlanT5.

Kepentingan TaS ialah: dalam penyelidikan saintifik berkaitan LLM, kita biasanya perlu melaraskan parameter pada LLM kecil dan kemudian mengembangkan kepada LLM yang besar. Dengan TaS, kami boleh terus memindahkan VPG yang telah dilatih pada LLM kecil kepada LLM besar selepas melaraskan parameter.

Kepentingan TaT ialah LLM dengan jenis fungsi yang berbeza muncul tanpa henti, seperti LLaMA hari ini, Alpaca dan Vicuna esok. TaT membolehkan kami menggunakan VPG sedia ada untuk menambah keupayaan persepsi visual dengan cepat kepada model bahasa baharu.

1.3 Sumbangan

(1) Cadangkan kaedah yang cekap:

Kami mula-mula meneroka faktor utama yang mempengaruhi kecekapan penghijrahan VPG melalui satu siri eksperimen penyelidikan. Berdasarkan penemuan eksperimen penerokaan, kami mencadangkan rangka kerja migrasi cekap dua peringkat VPGTrans. Rangka kerja ini boleh mengurangkan dengan ketara overhed pengiraan dan data latihan yang diperlukan yang diperlukan untuk melatih VL-LLM.

Sebagai contoh, berbanding dengan latihan dari awal, kita boleh hanya menggunakan kira-kira 10% daripada data dan masa pengkomputeran dengan memindahkan BLIP-2 OPT-2.7B kepada 6.7B VPG Mencapai hasil yang serupa atau lebih baik untuk setiap set data (Rajah 1) . Kos latihan adalah antara 17,901 yuan hingga 1,673 yuan.

(2) Dapatkan penemuan menarik:

Kami menyediakan beberapa hasil yang menarik dalam kedua-dua senario TaS dan TaT Discover dan cuba terangkan:

a) Dalam senario TaS, menggunakan VPGTrans untuk berhijrah dari kecil ke besar tidak akan menjejaskan kesan model akhir.

b) Dalam senario TaS, lebih kecil VPG yang dilatih pada model bahasa, lebih tinggi kecekapan apabila berhijrah ke model besar dan lebih baik kesan akhir .

c) Dalam senario TaT, semakin besar jurang migrasi antara model yang lebih kecil. Dalam percubaan pengesahan kami, penghijrahan bersama antara OPT350M dan FlanT5-base menggunakan VPGTrans hampir sama lambatnya dengan latihan dari awal.

(3) Sumber terbuka:

Kami mendapat dua yang baharu menggunakan VPGTrans VL -LLM: VL-LLaMA dan VL-Vicuna, dan adalah sumber terbuka dalam komuniti. Antaranya, VL-Vicuna melaksanakan dialog multi-modal berkualiti tinggi yang serupa dengan GPT4.

2. Penyelesaian pemindahan VPG berkecekapan tinggi: VPGTrans

Pertama, kami menjalankan satu siri eksperimen penerokaan dan pengesahan untuk menganalisis cara memaksimumkan kecekapan penghijrahan VPG. Kami kemudian mencadangkan penyelesaian berdasarkan pemerhatian penting ini.

2.1 Eksperimen Penerokaan

Kami memilih seni bina BLIP-2 sebagai model asas kami, dan korpus pra-latihan menggunakan COCO dan SBU, sejumlah 1.4M pasangan Gambar dan teks.

Tugas hiliran dinilai menggunakan tetapan tangkapan sifar COCO Caption, NoCaps, VQAv2, GQA dan OK-VQA (tugas kapsyen bukan tangkapan sifar sepenuhnya). Berikut ialah penemuan utama kami:

(1) Mewarisi VPG terlatih secara langsung boleh mempercepatkan penumpuan, tetapi kesannya terhad:

Kami mendapati bahawa memindahkan VPG yang dilatih secara langsung pada LLM kepada LLM yang besar boleh mempercepatkan penumpuan model, tetapi kesan pecutan adalah terhad dan kesan model selepas penumpuan adalah berbanding dengan melatih VPG dari awal Mata akan jatuh (titik tertinggi garis biru VQAv2 dan GQA dalam Rajah 5 kedua-duanya lebih rendah daripada garis oren) .

Kami membuat spekulasi bahawa penurunan ini disebabkan oleh fakta bahawa projektor yang dimulakan secara rawak akan merosakkan keupayaan persepsi visual sedia ada dalam VPG pada permulaan latihan.

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah berikut menunjukkan keputusan yang diperoleh dengan mewarisi secara langsung VPG (lengkung biru) yang dilaksanakan. Latih semula VPG (garisan oren): Latih semula VPG dari awal. Satu-satunya latihan yang dijalankan adalah pada projektor linear, tanpa latihan mengenai VPG..

(2) Latihan memanaskan badan projektor terlebih dahulu boleh menghalang mata daripada jatuh dan mempercepatkan penumpuan:

Jadi, kami membetulkan VPG dan LLM, mula-mula memanaskan badan melatih projektor selama 3 zaman, dan kemudian menyahbekukan VPG untuk langkah latihan seterusnya.

Kami mendapati bahawa ini bukan sahaja dapat mengelakkan penurunan mata, tetapi juga mempercepatkan penumpuan VPG (Rajah 6).

Tetapi perlu ditekankan bahawa memandangkan kos utama latihan ialah LLM (parameter besar), kos hanya melatih projektor tidak akan Ia jauh lebih murah daripada melatih VPG dan projektor pada masa yang sama .

Jadi, kami mula meneroka teknologi utama untuk mempercepatkan pemanasan projektor.

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 6: Latihan memanaskan badan projektor terlebih dahulu boleh mengelakkan titik jatuh + mempercepatkan penumpuan

(3) Inisialisasi penukar vektor perkataan boleh mempercepatkan pemanasan projektor:

Pertama sekali, VPG menghasilkan kesan dengan menukar imej kepada gesaan lembut yang LLM boleh faham. Penggunaan soft prompt dan vektor perkataan sebenarnya sangat serupa dengan , semua secara langsung memasukkan model bahasa untuk menggesa model menjana kandungan yang sepadan.

Jadi, kami menggunakan vektor perkataan sebagai proksi untuk gesaan lembut dan melatih

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

hingga

Word penukar vektor (lapisan linear) untuk Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

.


Kemudian, kami menggabungkan perkataan vektor penukar dan projektor pada

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

sebagai permulaan bagi projektor .

Melalui pemula ini, kami boleh mengurangkan latihan memanaskan badan projektor daripada 3 zaman kepada 2 zaman.

(4) Projektor boleh menumpu dengan cepat pada kadar pembelajaran yang sangat besar:

Kami terus mencuba dan mendapati bahawa projektor kerana Ia mempunyai bilangan parameter yang kecil dan boleh dilatih menggunakan 5 kali kadar pembelajaran biasa tanpa terhempas.

Melalui latihan dengan kadar pembelajaran 5 kali ganda, pemanasan projektor boleh dipendekkan lagi kepada 1 zaman.

(5) Penemuan tambahan:

Walaupun pemanasan projektor penting, melatih projektor sahaja tidak mencukupi. Terutama untuk tugasan kapsyen, kesan latihan hanya projektor adalah lebih teruk daripada kesan latihan VPG pada masa yang sama (garisan hijau dalam Rajah 5 adalah jauh lebih rendah daripada garisan biru dalam COCO Caption dan NoCaps).

Ini juga bermakna semata-mata melatih projektor akan membawa kepada kekurangan, iaitu, tidak boleh diselaraskan sepenuhnya dengan data latihan.

2.2 Kaedah cadangan kami

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 7: Rangka kerja VPGTrans: (1) Fasa satu: pemanasan projektor (2) Fasa dua: penalaan halus keseluruhan

Seperti yang ditunjukkan dalam Rajah 7, Kami kaedah dibahagikan kepada dua peringkat:

(1) Peringkat pertama: Kami mula-mula menggunakan penukar vektor perkataan untuk bergabung dengan projektor asal sebagai permulaan projektor baharu, dan kemudian gunakan Projektor baharu dilatih dengan 5 kali kadar pembelajaran untuk satu zaman.

(2) Peringkat kedua: latih terus VPG dan projektor secara normal.

3. Keputusan percubaan

3.1 Nisbah kelajuan

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Jadual 1: Nisbah kelajuan VPGTrans kami berbanding latihan dari awal pada pelbagai set data

Seperti yang ditunjukkan dalam Jadual 1, kami menguji jenis migrasi yang berbeza, nisbah kelajuan VPGTrans pada set data yang berbeza.

Nisbah kelajuan VPGTrans pada set data tertentu A diperoleh dengan membahagikan bilangan pusingan latihan dari awal untuk mencapai kesan terbaik a pada A dengan bilangan pusingan latihan minimum di mana kesan VPGTrans pada A melebihi a.

Sebagai contoh, melatih VPG pada OPT-2.7B dari awal memerlukan 10 zaman untuk mencapai hasil terbaik dalam kapsyen COCO, tetapi memindahkan VPG daripada OPT-125M kepada OPT-2.7B hanya memerlukan Ia mengambil masa 1 zaman untuk mencapai kesan optimum ini. Nisbah pecutan ialah 10/1=10 kali.

Kami dapat melihat bahawa VPGTrans kami boleh mencapai pecutan yang stabil dalam kedua-dua senario TaS dan TaT.

3.2 Penemuan yang menarik

Kami telah memilih satu daripada penemuan yang lebih menarik untuk diterangkan Untuk penemuan yang lebih menarik, sila rujuk tesis kami.

Dalam senario TaS, lebih kecil VPG yang dilatih pada model bahasa, lebih cekap penghijrahan dan lebih baik kesan model akhir akan menjadi . Merujuk kepada Jadual 1, kita dapati bahawa nisbah pecutan daripada OPT-1.3B kepada OPT-2.7B adalah jauh lebih kecil daripada nisbah pecutan daripada OPT-125M dan OPT-350M kepada OPT-2.7b.

Kami cuba memberikan penjelasan: Secara amnya, semakin besar model bahasa , disebabkan dimensi ruang teksnya yang lebih tinggi, akan lebih berkemungkinan untuk merosakkan VPG (VPG secara amnya adalah model pra-latihan serupa dengan CLIP) Keupayaan persepsi visualnya sendiri . Kami mengesahkannya dengan cara yang serupa dengan probing linear:

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 8: Hanya latih lapisan projektor linear Penghijrahan saiz Cross-LLM (mensimulasikan probing linear)

Seperti yang ditunjukkan dalam Rajah 8, kami melakukan cross-LLM antara saiz OPT-125M, 350M, 1.3B dan 2.7B penghijrahan.

Dalam percubaan, untuk membandingkan secara adil keupayaan persepsi visual VPG yang dilatih di bawah saiz model yang berbeza, kami menetapkan parameter VPG dan hanya melatih linear lapisan projektor. Kami memilih penunjuk SPICE pada COCO Caption sebagai ukuran keupayaan persepsi visual.

Tidak sukar untuk mencari bahawa bagi setiap Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah, hampir konsisten bahawa semakin kecil Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah, lebih baik SPICE akhir Fenomena yang tinggi.

3.3 Eksperimen Berskala Besar

Eksperimen sebelumnya adalah terutamanya untuk mengesahkan andaian dalam senario berskala kecil. Untuk membuktikan keberkesanan kaedah kami, kami mensimulasikan proses pra-latihan BLIP-2 dan menjalankan eksperimen berskala besar:

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Jadual 2: Keputusan percubaan berskala besar dalam senario sebenar

Seperti yang ditunjukkan dalam Jadual 2, VPGTrans kami masih berkesan dalam senario berskala besar . Dengan berhijrah daripada OPT-2.7B ke OPT-6.7B, kami hanya menggunakan 10.8% daripada data dan kurang daripada 10% masa latihan untuk mencapai hasil yang serupa atau lebih baik.

Khususnya, kaedah kami mencapai kawalan kos latihan 4.7% dalam BLIP-2 VL-LLM berdasarkan FlanT5-XXL.

4. Sesuaikan VL-LLM anda

VPGTrans kami dengan cepat boleh menambah modul persepsi visual pada mana-mana LLM baharu untuk mendapatkan VL- LLM baharu yang berkualiti tinggi. Dalam kerja ini, kami juga melatih VL-LLaMA dan VL-Vicuna. Kesan VL-LLaMA adalah seperti berikut:

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Jadual 3: Paparan kesan VL-LLaMA

Di pada masa yang sama, VL-Vicuna kami boleh menjalankan perbualan berbilang modal seperti GPT-4. Kami membuat perbandingan mudah dengan MiniGPT-4:

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

5 . Ringkasan

Dalam kerja ini, kami menjalankan siasatan menyeluruh tentang isu kebolehpindahan VPG antara LLM. Kami mula-mula meneroka faktor utama yang memaksimumkan kecekapan penghijrahan.

Berdasarkan pemerhatian utama, kami mencadangkan rangka kerja migrasi dua peringkat novel, iaitu VPGTrans. Ia boleh mencapai prestasi yang setara atau lebih baik sambil mengurangkan kos latihan dengan ketara.

Melalui VPGTrans, kami mencapai pemindahan VPG daripada BLIP-2 OPT 2.7B kepada BLIP-2 OPT 6.7B. Berbanding dengan menyambungkan VPG ke OPT 6.7B dari awal, VPGTrans hanya memerlukan 10.7% data latihan dan kurang daripada 10% masa latihan.

Selain itu, kami membentangkan dan membincangkan beberapa siri penemuan menarik dan kemungkinan sebab di sebaliknya. Akhir sekali, kami menunjukkan nilai praktikal VPGTrans kami dalam menyesuaikan VL-LLM baharu dengan melatih VL-LLaMA dan LL-Vicuna.

Atas ialah kandungan terperinci Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

ChatGPT kini membenarkan pengguna percuma menjana imej dengan menggunakan DALL-E 3 dengan had harian ChatGPT kini membenarkan pengguna percuma menjana imej dengan menggunakan DALL-E 3 dengan had harian Aug 09, 2024 pm 09:37 PM

DALL-E 3 telah diperkenalkan secara rasmi pada September 2023 sebagai model yang jauh lebih baik daripada pendahulunya. Ia dianggap sebagai salah satu penjana imej AI terbaik setakat ini, mampu mencipta imej dengan perincian yang rumit. Walau bagaimanapun, semasa pelancaran, ia adalah tidak termasuk

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24) Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Pautan projek ditulis di hadapan: https://nianticlabs.github.io/mickey/ Memandangkan dua gambar, pose kamera di antara mereka boleh dianggarkan dengan mewujudkan kesesuaian antara gambar. Biasanya, surat-menyurat ini adalah 2D hingga 2D, dan anggaran pose kami adalah skala-tak tentu. Sesetengah aplikasi, seperti realiti tambahan segera pada bila-bila masa, di mana-mana sahaja, memerlukan anggaran pose metrik skala, jadi mereka bergantung pada penganggar kedalaman luaran untuk memulihkan skala. Makalah ini mencadangkan MicKey, proses pemadanan titik utama yang mampu meramalkan korespondensi metrik dalam ruang kamera 3D. Dengan mempelajari padanan koordinat 3D merentas imej, kami dapat membuat kesimpulan relatif metrik

Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 | Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 | Apr 29, 2024 pm 04:55 PM

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed ​​​​memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu

See all articles