Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model-AI-php.cn

Jadual Kandungan

Rumah

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

王林

Apr 09, 2023 pm 01:31 PM

parameter Model

Sejak kemunculan GPT-3, yang menunjukkan kuasa ratusan bilion model, tugasan NLP telah menghadapi segi tiga yang mustahil dalam skala, sampel dan prestasi penalaan halus. Bagaimanakah model bahasa dengan kurang daripada 1 bilion parameter boleh mencapai prestasi Sedikit Tangkapan (atau bahkan Tangkapan Sifar) dan Penalaan Halus SOTA? Adakah kita perlu mempunyai ratusan bilion parameter dan menahan gesaan yang tidak stabil untuk menyelesaikan senario sifar pukulan? Dalam artikel ini, pasukan Fengshenbang Institut Penyelidikan IDEA memperkenalkan UniMC "fenomenologi" baharu, yang boleh mencapai SOTA pukulan sifar dengan hanya 200 juta parameter. Kerja berkaitan telah diterima oleh EMNLP 2022.

menegaskan dalam artikel tahun ini [1] bahawa sejak teknologi pra-latihan dicadangkan, terdapat segitiga mustahil dalam dunia NLP (Rajah 1 di bawah), iaitu, model tidak boleh pada masa yang sama memuaskan :

Saiz model sederhana (di bawah 1 bilion); prestasi ;
Prestasi Penalaan Halus SOTA.

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model Rajah 1

Sebab mengapa segitiga mustahil wujud Ya, bilangan parameter model pra-latihan semasa hanya mencapai susunan magnitud tertentu, dan hanya apabila pembelajaran pembayang digunakan boleh menunjukkan prestasi beberapa/sifar pukulan yang kuat.

Kertas kerja baru-baru ini diterbitkan oleh pasukan Fengshenbang kami dan disertakan dalam EMNLP 2022: "Pelajar Sifar untuk Pemahaman Bahasa Semulajadi melalui Perspektif Pelbagai Pilihan Bersatu" memecahkan "sumpahan" ini dan menyediakan A penyelesaian yang fleksibel dan cekap. UniMC yang dicadangkan dalam kertas kerja

kami mempunyai sebilangan kecil parameter model (hanya ratusan juta) dan keupayaan Penalaan Halus SOTA, di samping mempunyai prestasi SOTA (setanding dengan 540 bilion PaLM) Sedikit/Sifar Tangkapan.

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Alamat kertas: https://arxiv.org/abs/2210.08590

Alamat sumber terbuka model: https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/main/fengshen/examples/unimc/
Latar Belakang Teknikal

Pengenalan BERT pada tahun 2018 menandakan bahawa keseluruhan bidang NLP telah memasuki era pra-latihan, dan NLP akhirnya telah membuat lebih jauh melangkah ke hadapan. Model sedia ada seperti DeBERTa dan model bahasa bertopeng pra-terlatih (PMLM) lain sudah boleh mencapai SOTA penalaan halus dengan parameter di bawah 1 bilion, tetapi ia lemah apabila menghadapi tugasan NLU dalam senario sifar tangkapan.

Sebabnya apabila menggunakan PMLM, kita perlu menambah lapisan MLP di atas untuk tugasan tertentu, seperti yang ditunjukkan dalam Rajah 2(c). Selain itu, lapisan MLP ini akan menambah parameter tambahan, yang menjadikan kaedah ini hanya memilih pemulaan rawak apabila menghadapi senario tangkapan sifar, dan tidak ada cara untuk mendapatkan output yang munasabah. Selain itu, dalam senario penalaan halus, menambah lapisan MLP juga akan menjadikannya mustahil untuk memindahkan antara tugas yang berbeza (contohnya, adalah mustahil untuk memindahkan antara tugas 2-klasifikasi dan 3-klasifikasi).

Untuk senario Zero-shot, pendekatan arus perdana dalam beberapa tahun kebelakangan ini ialah menggunakan berpuluh malah ratusan bilion model bahasa pra-latihan (PLM) untuk menukar tugas NLU secara seragam kepada penjanaan teks tugasan, supaya model Besar boleh digunakan pada tugasan pukulan sifar dengan membina gesaan secara manual atau mereka bentuk verbalizer secara manual, seperti yang ditunjukkan dalam Rajah 2(a). Tambahan pula, dalam kertas FLAN, sebilangan besar templat yang dibina secara buatan digunakan untuk menyatukan tugasan yang berbeza, supaya pengetahuan tentang tugasan lain boleh dipindahkan ke tugasan tertentu, seperti yang ditunjukkan dalam Rajah 2(b). Walau bagaimanapun, model generatif sedemikian mempunyai kelemahan berikut:

Menjana model memerlukan penghasilan verbalizer (perihalan label), dan verbalizer biasanya ditulis secara manual yang berbeza akan membawa kepada perbezaan prestasi yang besar; juga memerlukan reka bentuk manual, dan gesaan yang berbeza akan sangat mempengaruhi prestasi tugas hiliran; Dan ia biasanya sehala dan tidak boleh mendapatkan maklumat dua hala seperti BERT
Untuk memastikan prestasi beberapa/sifar tangkapan, jumlah parameter model yang dijana selalunya besar, mencapai GPT-3 175 bilion atau 540 bilion PaLM
Walaupun penalaan Arahan FLAN boleh memindahkan pengetahuan daripada tugasan lain kepada tugasan tertentu, latihan baharu diperlukan untuk menghadapi tugasan yang berbeza. Sebagai contoh, semasa menilai A, anda perlu berlatih pada BCDE semasa menilai B, anda perlu berlatih menggunakan ACDE.
Kami mencadangkan kaedah UniMC dalam Rajah 2(d), yang mengelakkan masalah di atas dan mencapai SOTA atau setanding dengan teknologi terkini dalam beberapa bahasa Cina. dan tugasan bahasa Inggeris.

Rajah 2

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model UniMC (fenotip model baharu)

Idea model

Kebanyakan tugas NLU adalah berdasarkan label, dan model generatif perlu menjana label Ini sudah pasti meningkatkan kesukaran tugas dan kos pembelajaran model. Untuk kebanyakan tugas berasaskan label, biasanya hanya perlu memberikan teks input dan kebarangkalian bahawa teks output adalah milik setiap label. Berdasarkan idea ini, kami mengubah tugasan NLU menjadi tugasan aneka pilihan (Multiple-Choice). Iaitu, teks yang diberikan, soalan dan pilihan, mengeluarkan kebarangkalian setiap pilihan tanpa menghasilkan pilihan.

Berdasarkan perkara ini, kami mencadangkan konsep baharu:

Fenotip model

. Ungkapan model sedia ada sentiasa menambah lapisan tertentu kemudian, seperti lapisan pengelasan. Sebagai alternatif, fenotip model GPT yang dijana adalah untuk melombong pengetahuan model melalui Prompt.

Skim UniMC yang kami cadangkan tidak memerlukan pengenalan sebarang lapisan tambahan dalam PMLM dan mengetik satu lagi fenotip PMLM . Dalam kertas kerja ini, kami memilih ALBERT sebagai rangkaian PMLM tulang belakang kami. Format pilihan berganda seragam

Seperti yang ditunjukkan dalam Rajah 3, kami berharap dapat menukar semua tugas NLU berasaskan label ke dalam format MC (Multiple-Choice) bersatu. Falsafah kami adalah untuk menambah sedikit maklumat manusia yang mungkin.

Rajah 3

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Secara khusus, kami melakukan dua Langkah berikut:

Tukar label menjadi pilihan; ).

Kelebihan:

Hanya satu gesaan pilihan direka bentuk dan satu atau tiada gesaan soalan direka.

Struktur UniMC ditunjukkan dalam Rajah 4 di bawah, yang menggunakan pengekodan automatik yang serupa kepada struktur BERT. Proses utama ialah kami mula-mula menyatukan input tugasan yang berbeza dan mengehadkan aliran maklumat input Selepas PMLM, kami menggunakan O-MLM, OP dan MLM untuk latihan MC, dan akhirnya menggunakan O-MLM dan OP untuk ramalan sifar. . Seterusnya saya akan memecahkan penyelesaian kami langkah demi langkah.

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Rajah 4

Input

Seperti yang ditunjukkan dalam Rajah 5, kandungan kawasan kotak garis pepejal merah. Sebelum memasukkan ke UniMC, ia perlu diproses dan diubah menjadi format token unik UniMC. Untuk meningkatkan kecekapan pengiraan, kami terus menyambung semua pilihan dengan soalan dan teks, iaitu, [Pilihan, Soalan, Petikan]. Dan kami memasukkan token khas di hadapan setiap pilihan, [O-MASK], untuk menunjukkan ya atau tidak (pilih pilihan ini atau tidak). (Perhatikan, untuk meningkatkan kebolehgunaan semula, kami menggunakan semula token [MASK].

Seperti yang ditunjukkan dalam Rajah 5, kandungan kawasan kotak bertitik hijau. Kita perlu mempertimbangkan bahawa terdapat terlalu banyak sumber maklumat input dan terdapat pilihan Maklumat, maklumat soalan dan maklumat segmen teks Maklumat antara mereka akan mempengaruhi satu sama lain, jadi kami berharap untuk mengasingkan maklumat yang berbeza, jika kita dapat melihat pilihan lain apabila menaip, maka kesukaran ini. soalan akan dikurangkan. (soalan, petikan) maklumat adalah berbeza; Matriks Topeng Perhatian Pengubahsuaian menghalang model daripada melihat maklumat pilihan yang berbeza, menyebabkan model menjadi lengai

Bagaimana model melakukan soalan berbilang pilihan? dan OP)

Seperti yang ditunjukkan dalam Rajah 6, kami menggunakan tugasan O -MLM dan OP untuk membolehkan model "memilih" jawapan diwarisi sepenuhnya daripada MASK token (khususnya, untuk tidak menambah parameter tambahan dan menggunakan sepenuhnya pengetahuan yang dipelajari oleh model dalam peringkat pra-latihan tanpa pengawasan, kami Parameter kepala MaskLM digunakan semula. Satu-satunya perbezaan ialah ia adalah 100%). bertopeng. Matlamat tugas O-MLM adalah untuk menyahkod O-MASK kepada 'ya' atau 'tidak', yang digunakan untuk meramalkan sama ada pilihan itu dipilih >Peranan tugas OP adalah untuk meramalkan jawapan daripada 'ya' setiap pilihan Secara khusus, kami mengambil 'ya' setiap keluaran [O-MASK] Gunakan logit untuk melakukan softmax untuk mendapatkan kebarangkalian setiap pilihan , dan pilih pilihan dengan kebarangkalian tertinggi sebagai jawapan yang diramalkan 6
Memproses berbilang tugasan MC dalam satu Kelompok

Seperti yang ditunjukkan dalam Rajah 7, kami ingin memproses berbilang tugasan MC dalam satu kelompok Meletakkan berbilang set data MC ke dalamnya boleh meningkatkan keupayaan model dan menjadikannya lebih bersatu Apabila kami membina kumpulan, kami mendapati masalah: Bagaimana jika terdapat sampel dengan pilihan yang berbeza dalam satu kelompok 🎜> Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Jadi kami mereka kaedah topeng logit di hadapan output. Dengan memberikan nilai ramalan infiniti negatif secara langsung kepada token yang tidak berkaitan, dan menambahkannya, kami boleh menghapuskan kesan token lain pada O-MASK apabila mengira softmax. Selain itu, bilangan soalan aneka pilihan yang berbeza boleh diproses secara seragam dalam satu kelompok.

Rajah 7

Latihan dan ramalan model

Latihan MC

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Berbeza daripada Penalaan Arahan FLAN, kami hanya melatih set data MC Ini terutamanya untuk membolehkan model mempelajari cara membuat soalan berbilang pilihan, dan set data MC mempunyai kepelbagaian tertentu, seperti berbeza. Set data mungkin terdiri daripada bilangan tag yang berbeza-beza.

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Rajah 8

Inferens Pukulan Sifar

Menariknya, kita dapati bahawa kedua-dua tugasan ini boleh konsisten dalam dua peringkat latihan dan inferens pukulan sifar. Ini kerana kami menggunakan dua tugasan, O-MLM dan OP, untuk membenarkan model membuat soalan aneka pilihan. Dan kerana kami meninggalkan lapisan klasifikasi, semua parameter boleh digunakan semula, sekali gus mengaktifkan keupayaan Zero-shot PMLM.

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Rajah 9

Prestasi UniMC

Adegan Bahasa Inggeris

Kami mengumpul 14 tugasan aneka pilihan untuk pra-latihan, dan kemudian melaksanakan tugas NLU lain untuk ujian prestasi sifar tangkapan. Dalam 4 tugasan NLI, UniMC mencapai SOTA dan melepasi 540 bilion parameter model PaLM.

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Rajah 10

Dan kamiTewaskan rangkaian dengan GPT-2 dan GPT-3 sebagai tulang belakang pada tugas pengelasan. Untuk tugasan Dbpedia yang sangat sukar, sehingga 13 kategori, ketepatan ultra tinggi 88.9% boleh dicapai.

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Rajah 11

Untuk meneroka generalisasi UNIMC, kami Perbandingan dibuat dengan FLAN. Seperti yang dapat dilihat, UniMC kami boleh mengatasi atau mendekati FLAN dalam hampir semua tugas.

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Gambar 12

Adegan Cina

UniMC telah mencapai tempat pertama dalam kedua-dua senarai FewCLUE dan ZeroCLUE

(Erlangshen dalam gambar - UnifiedMC ialah UniMC).

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model Rajah 13

Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model

Rajah 14Ringkasan

Kami mencadangkan penyelesaian baru kepada tugas NLU dalam senario sifar pukulan , menggunakan hanya ratusan juta parameter, ia mengalahkan model besar yang kompleks dengan seribu kali ganda bilangan parameter.

Selain itu, kami memperkenalkan hampir tiada maklumat tiruan. Dan ia mengatasi masalah ketidakkonsistenan antara pra-latihan dan penalaan halus model jenis BERT, dan latihan serta ramalan kami adalah konsisten. Kita juga boleh melakukan satu latihan dan berbilang ramalan sifar pukulan, yang sangat menjimatkan kos kuasa pengkomputeran. Pada masa ini, pasukan IDEA Fengshenban telah melancarkan lebih daripada 70 model besar yang telah dilatih.

Model: https://huggingface.co/IDEA-CCNL
Tuhan Senaraikan tesis Keseluruhan (dwibahasa dalam bahasa Cina dan Inggeris): https://arxiv.org/abs/2209.02970
Laman utama Fengshenbang: https://github.com /IDEA- CCNL/Fengshenbang-LM

Petikan

[1]Impossible Triangle : Apakah Seterusnya untuk Model Bahasa Pra-latihan?https://readpaper.com/paper/4612531641570566145

Atas ialah kandungan terperinci Memecahkan segitiga mustahil dan bersaing dengan 540 bilion model, pasukan Senarai Fengshen IDEA hanya mencapai SOTA pembelajaran sampel sifar dengan 200 juta model. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7445

Tutorial CakePHP

1371

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 | Apr 29, 2024 pm 04:55 PM

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu

See all articles