Pembelajaran pelbagai tugasan berskala besar Jeff Dean SOTA telah dikritik, dan memerlukan kos sebanyak AS$60,000 untuk menghasilkan semula-AI-php.cn

Rumah

Pembelajaran pelbagai tugasan berskala besar Jeff Dean SOTA telah dikritik, dan memerlukan kos sebanyak AS$60,000 untuk menghasilkan semula

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 am 10:31 AM

Google data Model

Pada Oktober 2021, Jeff Dean secara peribadi menulis artikel yang memperkenalkan seni bina pembelajaran mesin baharu-Pathways.

Tujuannya sangat mudah, iaitu untuk membolehkan AI menjangkau puluhan ribu tugas, memahami pelbagai jenis data dan mencapainya dengan kecekapan yang sangat tinggi pada masa yang sama:

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Lebih daripada setengah tahun kemudian, pada Mac 2022, Jeff Dean akhirnya mengeluarkan kertas Pathways.

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Pautan kertas: https://arxiv.org/abs/2203.12533

Antaranya, banyak maklumat teknikal adalah tambah Butiran, seperti seni bina sistem yang paling asas, dsb.

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Pada April 2022, Google menggunakan model bahasa Pathways untuk muncul, secara berturut-turut memecahkan SOTA beberapa tugas pemprosesan bahasa semula jadi ini mempunyai 540 bilion parameter sekali lagi membuktikan bahawa "kuasa boleh melakukan keajaiban".

Selain menggunakan sistem Pathways yang berkuasa, kertas kerja memperkenalkan bahawa latihan PaLM menggunakan 6144 TPU v4 dan set data berkualiti tinggi sebanyak 780 bilion token, dan bahagian tertentu mereka korpus berbilang bahasa bukan Inggeris.

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Alamat kertas: https://arxiv.org/abs/2204.02311

Baru-baru ini, karya baharu Jeff Dean menyebabkan satu lagi kekecohan Tekaan semua orang tentang Pathways.

Satu lagi kepingan teka-teki Pathways telah disatukan?

Hanya terdapat dua pengarang kertas ini: Jeff Dean yang terkenal dan jurutera Itali Andrea Gesmundo.

Apa yang menarik ialah Gesmundo bukan sahaja sangat rendah diri, tetapi Jeff Dean, yang baru sahaja meletupkan Imagennya sendiri dua hari lalu, langsung tidak menyebutnya di Twitter.

Selepas membacanya, beberapa netizen membuat spekulasi bahawa ini mungkin merupakan komponen Laluan seni bina AI generasi akan datang.

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Alamat kertas: https://arxiv.org/abs/2205.12755

Idea artikel ini adalah sebagai berikut:

Dengan menggabungkan tugas baharu secara dinamik ke dalam sistem berjalan yang besar, serpihan model pembelajaran mesin berbilang tugas yang jarang boleh digunakan untuk meningkatkan kualiti tugas baharu dan boleh dikongsi secara automatik di kalangan tugas berkaitan Serpihan model.

Pendekatan ini boleh meningkatkan kualiti setiap tugas dan meningkatkan kecekapan model dari segi masa penumpuan, bilangan contoh latihan, penggunaan tenaga, dsb. Rangka kerja masalah pembelajaran mesin yang dicadangkan dalam artikel ini boleh dianggap sebagai generalisasi dan sintesis pemformalisasi pembelajaran berbilang tugas standard dan berterusan.

Di bawah rangka kerja ini, tidak kira betapa besarnya set tugasan, ia boleh diselesaikan bersama.

Selain itu, dari semasa ke semasa, set tugasan boleh dikembangkan dengan menambah aliran tugas baharu yang berterusan. Perbezaan antara tugas pra-latihan dan tugas hiliran juga hilang.

Oleh kerana, apabila tugasan baharu ditambah, sistem akan mencari cara untuk menggabungkan pengetahuan dan perwakilan sedia ada dengan keupayaan model baharu untuk mencapai tahap kualiti tinggi bagi setiap tugasan baharu . Pengetahuan dan perwakilan yang dipelajari semasa menyelesaikan tugasan baharu juga boleh digunakan dalam mana-mana tugasan masa hadapan, atau untuk meneruskan pembelajaran tentang tugasan sedia ada.

Kaedah ini dipanggil "Mutation Multi-Task Network" atau µ2Net. (μ=Mutasi)

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Dua jenis model mutasi untuk eksperimen pembelajaran berterusan berskala besar

Ringkasnya, ia adalah untuk menjana rangkaian berbilang tugas berskala besar untuk bersama-sama menyelesaikan pelbagai tugas. Bukan sahaja kualiti dan kecekapan setiap tugasan dipertingkatkan, tetapi model ini juga boleh dikembangkan dengan menambah tugasan baharu secara dinamik.

Semakin banyak pengetahuan yang tertanam dalam sistem terkumpul melalui pembelajaran tugasan sebelumnya, semakin tinggi kualiti penyelesaian untuk tugasan seterusnya.

Selain itu, dari segi mengurangkan parameter yang baru ditambah bagi setiap tugasan, kecekapan menyelesaikan tugasan baharu boleh dipertingkatkan secara berterusan. Model berbilang tugas yang dijana jarang diaktifkan, dan model itu menyepadukan mekanisme penghalaan berasaskan tugas Apabila model berkembang, peningkatan dalam kos pengiraan setiap tugasan dijamin terhad.

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Parameter diaktifkan dan meningkat mengikut setiap tugasan mengambil kira peratusan daripada jumlah parameter sistem berbilang tugas

Dipelajari daripada setiap tugasan Pengetahuan dibahagikan kepada bahagian yang boleh digunakan semula oleh pelbagai tugas. Eksperimen telah menunjukkan bahawa teknik chunking ini mengelakkan masalah biasa model pembelajaran berbilang tugas dan berterusan, seperti pelupaan bencana, gangguan kecerunan dan pemindahan negatif.

Penerokaan ruang laluan tugas dan pengenalpastian subset pengetahuan sedia ada yang paling relevan untuk setiap tugasan dipandu oleh algoritma evolusi yang direka untuk melaraskan keseimbangan penerokaan/ Eksploitasi secara dinamik tanpa perlu melaraskan meta-parameter secara manual. Logik evolusi yang sama digunakan untuk melaraskan komponen model berbilang tugas hiperparameter secara dinamik.

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Memandangkan ia dipanggil "rangkaian mutasi", bagaimana anda menerangkan mutasi ini?

Rangkaian saraf dalam sering ditakrifkan oleh seni bina dan hiperparameter. Seni bina dalam artikel ini terdiri daripada satu siri lapisan rangkaian saraf. Setiap lapisan memetakan vektor input kepada vektor keluaran dimensi pembolehubah, dan butiran instantiasi rangkaian, seperti konfigurasi pengoptimum atau prapemprosesan data, ditentukan oleh hiperparameter.

Jadi mutasi yang disebutkan di sini juga terbahagi kepada dua kategori, mutasi klon lapisan dan mutasi hiperparameter.

Mutasi klon lapisan mencipta salinan mana-mana lapisan model induk yang boleh dilatih oleh model kanak-kanak. Jika lapisan model induk tidak dipilih untuk pengklonan, keadaan semasa dibekukan dan dikongsi dengan model anak untuk memastikan invarian model sedia ada.

Mutasi hiperparameter digunakan untuk mengubah suai konfigurasi yang diwarisi oleh lapisan anak daripada lapisan induk. Nilai baharu untuk setiap hiperparameter boleh diambil daripada set nilai yang sah. Untuk hiperparameter berangka, set nilai yang sah diisih sebagai senarai, dan pensampelan dihadkan kepada nilai bersebelahan untuk menggunakan kekangan perubahan tambahan.

Mari kita lihat kesan sebenar:

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Pada tiga set data ImageNet 2012, cifar100 dan cifar10, µ2Net adalah dalam 5 Prestasi selepas lelaran tugas dan 10 lelaran tugasan melebihi model penalaan halus terlatih ViT yang paling serba boleh dan berprestasi terbaik semasa.

Dari segi pengembangan tugas, selepas menambah VTAB penuh dan tugas pembelajaran berterusan VDD, prestasi µ2Net telah dipertingkatkan lagi, dan prestasi tugas pembelajaran berterusan VDD pada set data cifar10 telah mencapai 99.43 % daripada keputusan terbaik.

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Pada tugasan penanda aras klasifikasi aksara berbilang tugas, selepas dua lelaran tugas, µ2Net menyegarkan semula tahap SOTA pada kebanyakan set data, dengan saiz set data antara 2.5k hingga 240k saiz sampel berbeza-beza.

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Ringkasnya, di bawah seni bina ini, lebih banyak tugasan model belajar, lebih banyak pengetahuan yang dipelajari sistem dan lebih mudah untuk menyelesaikan tugasan baharu.

Sebagai contoh, seni bina ViT-L (307 juta parameter) boleh berkembang menjadi sistem berbilang tugas dengan 130.87 bilion parameter dan menyelesaikan 69 tugasan.

Selain itu, kesederhanaan pengaktifan parameter mengekalkan usaha pengiraan dan penggunaan memori bagi setiap tugasan yang berterusan apabila sistem berkembang. Eksperimen menunjukkan bahawa purata bilangan parameter tambahan untuk setiap tugasan dikurangkan sebanyak 38%, manakala sistem berbilang tugas hanya mengaktifkan 2.3% daripada jumlah parameter untuk setiap tugas.

Sudah tentu, pada ketika ini, ia hanyalah seni bina dan percubaan awal.

Netizen: Kertas itu sangat bagus, tetapi...

Walaupun kertas itu hebat, sesetengah orang nampaknya tidak membeli ia.

Sesetengah netizen yang suka mendedahkan pakaian baharu maharaja disiarkan di reddit, mengatakan bahawa mereka tidak lagi percaya pada cinta... Oh tidak, kertas AI yang dihasilkan oleh "makmal/institusi penyelidikan terkemuka " .

Netizen dengan ID "Mr. Acurite" berkata bahawa dia secara semula jadi percaya pada keputusan operasi data dan model dalam kertas ini.

Walau bagaimanapun, ambil kertas kerja ini oleh guru Jeff Dean sebagai contoh Kertas 18 halaman membincangkan tentang evolusi yang rumit dan algoritma pembelajaran berbilang tugas. menangkap sangat.

Walau bagaimanapun, terdapat dua perkara yang perlu dibuat:

Pertama, apa yang dicadangkan oleh Jeff Dean dalam kertas itu membuktikan bahawa dia lebih baik daripada pertandingan. Keputusan skor larian ialah ketepatan ujian penanda aras CIFAR-10 ialah 99.43, yang lebih baik daripada SOTA semasa 99.40...

Saya tidak boleh mengatakan ini penipuan, tetapi sangat sukar untuk diterangkan dengan kata-kata.

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Kedua, pada penghujung kertas, terdapat jadual penggunaan masa bagi algoritma larian TPU untuk mendapatkan hasil akhir, yang berjumlah 17810 jam.

Dengan mengandaikan seseorang yang tidak bekerja di Google mahu mengeluarkan semula hasil kertas tersebut dan menyewa TPU pada harga pasaran AS$3.22 sejam untuk menjalankannya semula, kosnya ialah AS$57,348.

Apakah maksudnya? Adakah anda perlu menetapkan ambang kecekapan walaupun untuk kertas harian?

Sudah tentu pendekatan ini kini menjadi trend dalam industri, termasuk tetapi tidak terhad kepada pemain besar seperti Google dan OpenAI. Semua orang mencurahkan beberapa idea kepada model untuk menambah baik status quo, dan banyak data dan penanda aras yang telah diproses.

Kemudian, selagi keputusan larian secara berangka lebih tinggi daripada lawan dengan genap dua tempat perpuluhan selepas mata peratusan, penyelidik dengan yakin boleh menambah baris tajuk tesis baharu ke resume!

Bagaimanakah ini benar-benar akan menggalakkan kalangan akademik dan industri? Pelajar siswazah biasa tidak mampu membelanjakan wang untuk mengesahkan kesimpulan anda, dan syarikat biasa tidak boleh menggunakan penanda aras yang membosankan dalam projek.

Ayat yang sama, apa maksudnya?

Adakah ini zon selesa yang boleh diterima di dunia AI? Sekumpulan kecil syarikat besar, dan kadangkala sekolah tinggi, menunjukkan setiap hari bahawa saya mempunyai wang dan boleh melakukan apa sahaja yang saya mahu, tetapi anda tidak mempunyai wang dan terpaksa ketinggalan?

Sekiranya kita terus seperti ini, sebaiknya kita membuka jurnal sains komputer lain untuk mengumpul kertas yang hasilnya boleh diterbitkan semula pada kad grafik tersendiri gred pengguna dalam masa lapan jam.

Dalam thread, pelajar siswazah dengan tugasan tesis mengeluh satu demi satu.

Seorang netizen yang IDnya ialah "Mesin Vektor Sokongan" berkata bahawa dia adalah seorang pengamal di makmal kecil Kerana momentum ini, dia hampir hilang motivasi untuk terus terlibat pembelajaran yang mendalam.

Kerana dengan bajet makmal saya sendiri, saya tidak dapat bersaing dengan gergasi ini, dan saya tidak dapat menghasilkan hasil penanda aras yang menunjukkan prestasi bahagian bawah.

Walaupun anda mempunyai idea teori baru, sukar untuk menulis kertas yang boleh lulus semakan. Ini kerana penyemak kertas semasa telah membangunkan "bias gambar yang indah" kerana keupayaan pengeluar utama Imej yang digunakan untuk ujian dalam kertas itu tidak kelihatan baik, dan semuanya sia-sia.

Itu tidak bermakna pengeluar gergasi tidak berguna Projek seperti GPT dan DALL-E benar-benar hebat. Tetapi jika mesin saya sendiri tidak boleh berjalan, mengapa saya perlu teruja?

Seorang lagi netizen yang merupakan pelajar kedoktoran muncul dan mengulas siaran itu untuk menyokong "mesin vektor sokongan".

Pelajar kedoktoran menyerahkan kertas mengenai model aliran dua tahun lalu, yang tertumpu terutamanya pada penemuan ruang potensi data yang boleh dijadikan sampel, dan tidak memberi kesan kepada kualiti penjanaan imej model.

Akibatnya, komen kritikal yang diberikan oleh penggred kertas ialah: "Imej yang dijana tidak kelihatan sebaik yang dijana oleh GAN."

Seorang lagi pelajar siswazah dengan nama ID "Uday" juga berkata bahawa pengkritik yang menilai kertas yang diserahkannya untuk persidangan pada tahun 2021 ialah: "Data tidak cukup mewah."

Jeff Dean大规模多任务学习SOTA遭吐槽，复现一遍要6万美元

Nampaknya tenaga manusia tidak sekuat wang Ia benar-benar trend di seluruh dunia bahawa psikologi Timur dan Barat tidak sama, dan Taoisme antara China dan negara luar tidak rosak.

Hanya dalam tempoh tiga puluh tahun di Hedong dan tiga puluh tahun di Hexi, mungkin pelaksanaan akar umbi algoritma dan permodalan sejagat akan membawa keajaiban kedua pemula garaj mengalahkan IBM.

Atas ialah kandungan terperinci Pembelajaran pelbagai tugasan berskala besar Jeff Dean SOTA telah dikritik, dan memerlukan kos sebanyak AS$60,000 untuk menghasilkan semula. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7321

Tutorial Java

1625

Tutorial CakePHP

1349

Tutorial Laravel

1261

Tutorial PHP

1209

Tunjukkan Lagi

Related knowledge

Cara Mengulas DeepSeek Feb 19, 2025 pm 05:42 PM

DeepSeek adalah alat pengambilan maklumat yang kuat. .

Cara Mencari DeepSeek Feb 19, 2025 pm 05:39 PM

DeepSeek adalah enjin carian proprietari yang hanya mencari dalam pangkalan data atau sistem tertentu, lebih cepat dan lebih tepat. Apabila menggunakannya, pengguna dinasihatkan untuk membaca dokumen itu, cuba strategi carian yang berbeza, dapatkan bantuan dan maklum balas mengenai pengalaman pengguna untuk memanfaatkan kelebihan mereka.

Sesame Open Door Exchange Web Pautan Pautan Gerbang Perdagangan Laman Web Pendaftaran Terkini Feb 28, 2025 am 11:06 AM

Artikel ini memperkenalkan proses pendaftaran versi web Web Open Exchange (GATE.IO) dan aplikasi Perdagangan Gate secara terperinci. Sama ada pendaftaran web atau pendaftaran aplikasi, anda perlu melawat laman web rasmi atau App Store untuk memuat turun aplikasi tulen, kemudian isi nama pengguna, kata laluan, e -mel, nombor telefon bimbit dan maklumat lain, dan lengkap e -mel atau pengesahan telefon bimbit.

Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Feb 21, 2025 pm 10:57 PM

Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Bybit adalah pertukaran cryptocurrency yang menyediakan perkhidmatan perdagangan kepada pengguna. Aplikasi mudah alih Exchange tidak boleh dimuat turun terus melalui AppStore atau GooglePlay untuk sebab -sebab berikut: 1. Aplikasi pertukaran cryptocurrency sering tidak memenuhi keperluan ini kerana ia melibatkan perkhidmatan kewangan dan memerlukan peraturan dan standard keselamatan tertentu. 2. Undang -undang dan Peraturan Pematuhan di banyak negara, aktiviti yang berkaitan dengan urus niaga cryptocurrency dikawal atau terhad. Untuk mematuhi peraturan ini, aplikasi bybit hanya boleh digunakan melalui laman web rasmi atau saluran yang diberi kuasa lain

Platform Perdagangan Pintu Terbuka Sesame Muat turun Versi Mudah Alih Platform Perdagangan Platform Perdagangan Alamat Muat Turun Feb 28, 2025 am 10:51 AM

Adalah penting untuk memilih saluran rasmi untuk memuat turun aplikasi dan memastikan keselamatan akaun anda.

Portal Pendaftaran Rasmi Exchange Gate.io Feb 20, 2025 pm 04:27 PM

Gate.io adalah pertukaran cryptocurrency terkemuka yang menawarkan pelbagai aset crypto dan pasangan perdagangan. Mendaftar Gate.io sangat mudah. Lengkapkan pendaftaran. Dengan Gate.io, pengguna dapat menikmati pengalaman perdagangan cryptocurrency yang selamat dan mudah.

Portal Log Masuk Versi Rasmi Binance Binance Feb 21, 2025 pm 05:42 PM

Untuk mengakses versi Login Laman Web Binance yang terkini, ikuti langkah mudah ini. Pergi ke laman web rasmi dan klik butang "Login" di sudut kanan atas. Pilih kaedah log masuk anda yang sedia ada. Masukkan nombor mudah alih berdaftar atau e -mel dan kata laluan anda dan pengesahan lengkap (seperti kod pengesahan mudah alih atau Google Authenticator). Selepas pengesahan yang berjaya, anda boleh mengakses Portal Log masuk laman web rasmi Binance.

Alamat muat turun terbaru Bitget pada tahun 2025: Langkah -langkah untuk mendapatkan aplikasi rasmi Feb 25, 2025 pm 02:54 PM

Panduan ini menyediakan langkah muat turun dan pemasangan terperinci untuk aplikasi Bitget Exchange rasmi, sesuai untuk sistem Android dan iOS. Panduan ini mengintegrasikan maklumat dari pelbagai sumber yang berwibawa, termasuk laman web rasmi, App Store, dan Google Play, dan menekankan pertimbangan semasa muat turun dan pengurusan akaun. Pengguna boleh memuat turun aplikasinya dari saluran rasmi, termasuk App Store, muat turun APK laman web rasmi dan melompat laman web rasmi, dan lengkap pendaftaran, pengesahan identiti dan tetapan keselamatan. Di samping itu, panduan itu merangkumi soalan dan pertimbangan yang sering ditanya, seperti

See all articles