Jadual Kandungan
Penemuan Simbolik Algoritma
Derivasi dan analisis Lion
Hasil penilaian Lion
Rumah Peranti teknologi AI Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Apr 11, 2023 pm 05:19 PM
Model kereta api

Pengoptimum ialah algoritma pengoptimuman dan memainkan peranan penting dalam latihan rangkaian saraf. Dalam beberapa tahun kebelakangan ini, penyelidik telah memperkenalkan sejumlah besar pengoptimum manual, kebanyakannya adalah pengoptimum penyesuaian. Pengoptimum Adam dan Adafactor masih menduduki aliran utama rangkaian neural latihan, terutamanya dalam bidang bahasa, penglihatan dan pelbagai mod.

Selain memperkenalkan pengoptimum secara manual, hala tuju lain ialah program menemui algoritma pengoptimuman secara automatik. Seseorang sebelum ini telah mencadangkan L2O (belajar untuk mengoptimumkan), yang menemui pengoptimum dengan melatih rangkaian saraf. Walau bagaimanapun, pengoptimum kotak hitam ini biasanya dilatih dalam bilangan tugas kecil yang terhad dan menghadapi kesukaran untuk membuat generalisasi kepada model besar.

Orang lain telah mencuba pendekatan lain, menggunakan pembelajaran pengukuhan atau pensampelan Monte Carlo untuk menemui pengoptimum baharu. Walau bagaimanapun, untuk memudahkan carian, kaedah ini biasanya menyekat ruang carian dan dengan itu mengehadkan kemungkinan menemui pengoptimum lain. Oleh itu, kaedah semasa masih belum mencapai tahap SOTA.

Dalam beberapa tahun kebelakangan ini, patut disebut AutoML-Zero, yang cuba mencari setiap komponen saluran pembelajaran mesin semasa menilai tugasan, yang sangat berguna untuk penemuan pengoptimum. ​

Dalam artikel ini, Penyelidik dari Google dan UCLA mencadangkan kaedah untuk menemui algoritma pengoptimuman untuk latihan rangkaian saraf dalam melalui carian program, dan kemudian menemui Lion(Evo Lved Sign Mosayantum) pengoptimum. Mencapai matlamat ini menghadapi dua cabaran: pertama, mencari algoritma berkualiti tinggi dalam ruang program yang sangat jarang, dan kedua, memilih algoritma yang boleh membuat generalisasi daripada tugas kecil kepada tugas SOTA yang lebih besar. Untuk menangani cabaran ini, penyelidikan menggunakan pelbagai teknik, termasuk carian evolusi dengan permulaan panas dan dimulakan semula, pelaksanaan abstrak, pemilihan corong dan pemudahan program.

  • Alamat kertas: https://arxiv.org/pdf/2302.06675.pdf
  • Alamat projek: https://github.com/google/automl/tree/master/lion

Berbanding dengan AdamW dan pelbagai pengoptimum penyesuaian (yang perlu menyimpan kedua-dua detik tertib pertama dan kedua), Lion hanya memerlukan momentum dan menggunakan operasi simbolik untuk mengira kemas kini, dan mengurangkan separuh jejak memori tambahan. Ini berguna apabila melatih model besar atau kumpulan besar. Sebagai contoh, AdamW memerlukan sekurang-kurangnya 16 TPU V4 untuk melatih ViT-B/16 dengan saiz imej 224 dan saiz kelompok 4096, manakala Lion hanya memerlukan 8. Satu lagi faedah praktikal ialah kerana kesederhanaannya, Lion mempunyai masa jalan yang lebih pantas (langkah/saat) dalam eksperimen, biasanya 2-15% lebih pantas daripada AdamW dan Adafactor, bergantung pada tugas, pangkalan kod dan perkakasan.

Xiangning Chen, pengarang pertama kertas kerja, berkata: Carian program simbolik kami menemui pengoptimum berkesan yang hanya menjejaki momentum - Lion. Berbanding dengan Adam, ia mencapai 88.3% sampel sifar dan 91.1% ketepatan ImageNet yang diperhalusi, serta latihan sehingga 5x (berbanding ViT), 2.3x (berbanding model resapan) dan 2x (berbanding LM). kecekapan.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Lion berprestasi baik pada pelbagai model (Transformer, MLP, ResNet, U-Net dan Hibrid) dan tugasan (klasifikasi imej, visual- pembelajaran kontrastif linguistik, resapan, pemodelan bahasa dan penalaan halus). Perlu diingat bahawa dengan menggantikan Adafactor dengan Lion dalam BASIC, kajian ini mencapai 88.3% sifar pukulan dan 91.1% ketepatan penalaan halus pada ImageNet (Pham et al., 2021), melebihi keputusan SOTA sebelumnya masing-masing sebanyak 2% dan 0.1 .

Selain itu, Lion mengurangkan pengiraan pra-latihan pada JFT sehingga 5 kali, meningkatkan kecekapan latihan model resapan sebanyak 2.3 kali, dan mencapai skor FID yang lebih baik, Ia juga menyediakan prestasi yang serupa atau lebih baik dalam pemodelan bahasa, menjimatkan sehingga 2 kali ganda usaha pengiraan.

Ruh pengguna Twitter berkata: Dia menggunakan pengoptimum Lion Google untuk melatih model GPT2 parameter 124M dan mendapati bahawa bilangan langkah yang diperlukan untuk mencapai kerugian yang sama seperti Adam telah dikurangkan sebanyak 37.5%.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Sumber imej: https://twitter.com/aicrumb/status/1626053855329898496

Penemuan Simbolik Algoritma

Kertas ini menggunakan perwakilan simbolik dalam bentuk atur cara mempunyai kelebihan berikut: (1) Ia menepati hakikat bahawa algoritma mesti dilaksanakan sebagai fakta program; (2) berbanding model parametrik seperti rangkaian saraf, perwakilan simbolik seperti program lebih mudah untuk dianalisis, difahami, dan dipindahkan ke tugasan baru boleh digunakan untuk menganggarkan kerumitan program yang berbeza, menjadikannya lebih mudah untuk memilih prosedur yang lebih Mudah, selalunya lebih serba boleh. Kerja ini memfokuskan pada pengoptimum untuk latihan rangkaian saraf dalam, tetapi pendekatan ini biasanya digunakan untuk tugas lain .

Dalam rajah di bawah, Program 2 Coretan kod yang dipermudahkan ini menggunakan tandatangan yang sama seperti AdamW untuk memastikan bahawa algoritma yang ditemui mempunyai jejak memori yang lebih kecil atau sama Program 3 diberikan Contoh perwakilan AdamW.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Penyelidikan ini menggunakan teknik berikut untuk menangani cabaran yang ditimbulkan oleh ruang carian yang tidak terhingga dan jarang. Pertama, regularisasi digunakan kerana ia mudah, berskala dan berjaya dalam banyak tugas carian AutoML, kedua, ia adalah untuk memudahkan redundansi dalam ruang program akhirnya, untuk mengurangkan kos carian, kajian ini mengurangkan saiz model dan bilangannya; contoh latihan mengikut dan menjauhi tugas sasaran untuk mengurangkan kos.

Kiri: Cara dan ralat standard lima eksperimen carian evolusi ditunjukkan. Kanan: Kedua-dua peratusan penyata berlebihan dan kadar hit cache meningkat apabila carian berjalan.

Derivasi dan analisis Lion

Penyelidik menyatakan bahawa pengoptimum Lion mempunyai kesederhanaan, kecekapan memori yang tinggi dan prestasi yang berkuasa dalam carian dan pengesahan meta .

Terbitan

Proses pencarian dan pemilihan corong membawa kepada Program 4, yang diperoleh daripada asal Program 8 (Lampiran ) diperoleh dengan memadam secara automatik penyata berlebihan. Pengkaji selanjutnya memudahkan dan memperoleh algoritma akhir (Lion) dalam Program 1. Beberapa elemen yang tidak perlu telah dialih keluar daripada Program 4 semasa proses pemudahan. di mana fungsi cosh dialih keluar kerana m akan diperuntukkan semula dalam lelaran seterusnya (baris 3). Kenyataan menggunakan arcsin dan klip juga telah dikeluarkan, kerana para penyelidik mendapati tiada kehilangan kualiti tanpanya. Tiga penyataan merah ditukar kepada fungsi simbolik.

Walaupun m dan v digunakan bersama dalam Program 4, v hanya mengubah cara momentum dikemas kini (dua fungsi interpolasi dengan pemalar ∼0.9 dan ∼1.1 adalah bersamaan dengan satu dengan ∼ 0.99 fungsi) dan tidak perlu dijejaki secara berasingan. Ambil perhatian bahawa pembetulan berat sebelah tidak lagi diperlukan kerana ia tidak mengubah arah.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Algoritma 2 di bawah menunjukkan kod pseudo.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Analisis

Kemas kini dan penyelarasan tandatangan. Algoritma Lion menghasilkan kemas kini dengan magnitud seragam dalam semua dimensi melalui operasi simbolik, yang berbeza pada prinsipnya daripada pelbagai pengoptimum penyesuaian. Secara intuitif, operasi simbolik menambah hingar pada kemas kini, bertindak sebagai satu bentuk penyelarasan dan membantu generalisasi. Rajah 11 di bawah (kanan) menunjukkan satu bukti.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Penjejakan momentum. Faktor EMA lalai untuk menjejak momentum dalam Lion ialah 0.99 (β_2) berbanding 0.9 yang biasa digunakan dalam AdamW dan momentum SGD. Pilihan faktor EMA dan interpolasi ini membolehkan Lion mencapai keseimbangan antara mengingat 10 kali sejarah kecerunan momentum dan meletakkan lebih berat pada kecerunan semasa dalam kemas kini.

Hiperparameter dan pemilihan saiz kelompok. Berbanding dengan AdamW dan Adafactor, Lion adalah lebih mudah dan mempunyai lebih sedikit hiperparameter kerana ia tidak memerlukan ϵ dan parameter berkaitan pemfaktoran. Singa memerlukan kadar pembelajaran yang lebih kecil, dan dengan itu pereputan berat terurai yang lebih besar, untuk mencapai kekuatan pereputan berat berkesan yang serupa (lr * λ).

Memori dan kelebihan masa jalan. Lion hanya menjimatkan momentum dan mempunyai jejak memori yang lebih kecil daripada pengoptimum penyesuaian popular seperti AdamW, yang berguna apabila melatih model besar dan/atau bekerja dengan saiz kelompok besar. Sebagai contoh, AdamW memerlukan sekurang-kurangnya 16 cip TPU V4 untuk melatih ViT-B/16 dengan resolusi imej 224 dan saiz kelompok 4,096, manakala Lion hanya memerlukan 8 (kedua-duanya dengan momentum bfloat16).

Hasil penilaian Lion

Dalam bahagian eksperimen, penyelidik menilai Lion pada pelbagai penanda aras, terutamanya membandingkannya dengan AdamW yang popular (atau apabila memori menjadi Adafactor pada kesesakan ) untuk perbandingan.

Klasifikasi Imej

Penyelidik melakukan eksperimen yang meliputi pelbagai set data dan seni bina pada tugas pengelasan imej . Sebagai tambahan kepada latihan dari awal pada ImageNet, mereka juga melakukan pra-latihan pada dua set data matang yang lebih besar, ImageNet-21K dan JFT. Saiz imej lalai kepada 224. ​

Kereta api pertama dari awal di ImageNet. Para penyelidik melatih ResNet-50 untuk 90 zaman dengan saiz kelompok 1,024, dan model lain untuk 300 zaman dengan saiz kelompok 4,096. Seperti yang ditunjukkan dalam Jadual 2 di bawah, Lion dengan ketara mengatasi AdamW dalam pelbagai seni bina.

Kedua, pralatih pada ImageNet-21K. Para penyelidik telah melatih ViT-B/16 dan ViT-L/16 pada ImageNet-21K selama 90 zaman dengan saiz kelompok 4,096. Jadual 2 di bawah menunjukkan bahawa Lion masih mengatasi AdamW walaupun set latihan dibesarkan 10 kali ganda.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Akhirnya pra-latihan di JFT. Untuk menolak had, penyelidik menjalankan sejumlah besar eksperimen pada JFT. Rajah 4 di bawah menunjukkan ketepatan tiga model ViT (ViT-B/16, ViT-L/16 dan ViT-H/14) di bawah belanjawan pra-latihan yang berbeza pada JFT-300M. Lion membolehkan ViT-L/16 menyamai prestasi ViT-H/14 AdamW yang dilatih pada ImageNet dan ImageNet V2, tetapi pada kos pra-latihan 3x lebih rendah.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Jadual 3 di bawah menunjukkan hasil penalaan halus, dengan resolusi yang lebih tinggi dan purata Polyak . ViT-L/16 yang digunakan oleh penyelidik sepadan dengan keputusan ViT-H/14 yang sebelum ini dilatih oleh AdamW, sambil mempunyai 2x lebih sedikit parameter. Selepas melanjutkan set data pra-latihan kepada JFT-3B, ViT-g/14 yang dilatih Lion mengatasi hasil ViT-G/14 sebelumnya dengan 1.8x parameter yang lebih sedikit.

Pembelajaran kontrastif bahasa visual

Bahagian ini memfokuskan pada latihan kontrastif bahasa visual gaya CLIP. Daripada mempelajari semua parameter dari awal, para penyelidik memulakan pengekod imej menggunakan model pra-latihan yang berkuasa.

Untuk Penalaan Teks Imej Berkunci (LiT), para penyelidik membandingkan Lion dan AdamW pada LiT dengan melatih pengekod teks secara perbandingan menggunakan ViT pra-latihan beku yang sama. Jadual 4 di bawah menunjukkan keputusan klasifikasi imej tangkapan sifar pada 3 skala model, dengan Lion menunjukkan peningkatan berterusan ke atas AdamW.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Rajah 5 (kiri) di bawah menunjukkan contoh keluk pembelajaran sifar pukulan LiT-B/16-B, dan Keputusan yang sama diperoleh pada dua set data yang lain.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Model Penyebaran

Baru-baru ini, model resapan telah mencapai kejayaan besar dalam penjanaan imej. Memandangkan potensinya yang besar, kami menguji prestasi Lion dalam sintesis imej tanpa syarat dan penjanaan teks ke imej berbilang mod.

Untuk sintesis imej pada ImageNet, penyelidik menggunakan seni bina U-Net yang dipertingkatkan yang diperkenalkan dalam makalah 2021 "Model resapan mengalahkan gans pada sintesis imej" untuk melaksanakan 64×64 pada ImageNet , 128 ×128 dan 256×256 penjanaan imej. Seperti yang ditunjukkan dalam Rajah 5 di atas (tengah dan kanan), Lion boleh mencapai kualiti yang lebih baik dan penumpuan yang lebih cepat pada skor FID.

Untuk penjanaan teks-ke-imej, Rajah 6 di bawah menunjukkan keluk pembelajaran. Walaupun tiada peningkatan ketara pada model asas 64 × 64, Lion mengatasi AdamW pada model resolusi super bersyarat teks. Lion mencapai skor CLIP yang lebih tinggi dan mempunyai metrik FID bising yang lebih kecil berbanding dengan AdamW.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Pemodelan bahasa dan penalaan halus

Bahagian ini memfokuskan pada pemodelan bahasa dan penalaan halus. Mengenai tugas bahasa tulen, penyelidik mendapati bahawa pelarasan β_1 dan β_2 boleh meningkatkan kualiti AdamW dan Lion.

Untuk pemodelan bahasa autoregresif, Rajah 7 di bawah menunjukkan kebingungan peringkat token Wiki-40B dan kebingungan peringkat perkataan PG-19. Lion secara konsisten mencapai kekeliruan pengesahan yang lebih rendah daripada AdamW. Ia mencapai kelajuan 1.6x dan 1.5x apabila masing-masing melatih model bersaiz sederhana pada Wiki-40B dan PG-19. PG-19 seterusnya mencapai kelajuan 2x apabila model meningkat kepada saiz besar.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Untuk pemodelan bahasa bertopeng, penyelidik juga melakukan latihan BERT pada set data C4 , antaranya Lion berprestasi lebih baik sedikit daripada AdamW dari segi kebingungan pengesahan. Keluk pembelajaran yang berkaitan ditunjukkan dalam Rajah 11 di bawah (kiri).

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Untuk penalaan halus, penyelidik memperhalusi Pangkalan (220M), Besar ( 770M) dan model 11B T5 terbesar. Jadual 6 di bawah menunjukkan keputusan pada set pembangun GLUE, di mana secara purata Lion mengalahkan AdamW pada semua 3 saiz model.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Perbandingan dengan pengoptimum popular lain

Kajian ini juga menggunakan empat pengoptimum popular RAdam, NAdam, AdaBelief dan AMSGrad untuk melatih ViT-S/16 dan ViT-B/16 pada ImageNet (menggunakan RandAug dan Mixup). Seperti yang ditunjukkan dalam Jadual 7 di bawah, Lion kekal sebagai pemain terbaik.

Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas

Sila rujuk kertas asal untuk butiran lanjut teknikal.

Atas ialah kandungan terperinci Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Jun 11, 2024 am 09:51 AM

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

See all articles