Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan-AI-php.cn

Rumah

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 08, 2023 pm 11:13 PM

data Penyelidikan

Selama bertahun-tahun, kami tidak dapat memahami cara kecerdasan buatan membuat keputusan dan menjana output

Pembangun model hanya boleh memutuskan algoritma, data dan akhirnya mendapatkan output model, dan bahagian tengah - bagaimana model adalah berdasarkan Algoritma ini dan hasil output data menjadi "kotak hitam" yang tidak kelihatan.

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan

Jadi ada jenaka seperti "latihan model seperti alkimia".

Tetapi kini, kotak hitam model akhirnya boleh ditafsirkan!

Pasukan penyelidik dari Anthropic mengekstrak ciri yang boleh ditafsirkan bagi neuron unit paling asas dalam rangkaian saraf model.

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan

Ini akan menjadi langkah penting bagi manusia untuk mendedahkan kotak hitam AI.

Anthropic meluahkan rasa teruja:

"Jika kita dapat memahami cara rangkaian saraf dalam model berfungsi, maka kita boleh mendiagnosis mod kegagalan model, pembetulan reka bentuk dan menjadikan model itu selamat diterima pakai oleh perusahaan dan masyarakat. Ia akan menjadi realiti dalam jangkauan! daripada 4000 ciri yang boleh ditafsir

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan

Alamat laporan penyelidikan: https://transformer-circuits.pub/2023/monosemantic-features/index.html

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan Ciri-ciri ini mewakili permintaan DNA, bahasa undang-undang, Teks Ibrani, dan kenyataan fakta pemakanan, dsb.

Kita tidak dapat melihat kebanyakan sifat model ini apabila kita melihat pengaktifan neuron tunggal secara berasingan

Kebanyakan neuron adalah "polisemantik," yang bermaksud di sana. tiada surat-menyurat yang konsisten antara neuron individu dan tingkah laku rangkaian

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan Sebagai contoh, dalam model bahasa kecil, satu neuron Meta aktif dalam banyak konteks yang tidak berkaitan, termasuk: petikan akademik, perbualan bahasa Inggeris, permintaan HTTP dan teks Korea.

Dan dalam model penglihatan klasik, neuron tunggal akan bertindak balas kepada muka kucing dan hadapan kereta.

Dalam konteks yang berbeza, banyak kajian telah membuktikan bahawa pengaktifan neuron boleh mempunyai makna yang berbeza

Salah satu sebab yang berpotensi ialah sifat polisemantik neuron adalah disebabkan oleh kesan superposisi. Ini adalah fenomena hipotesis bahawa rangkaian saraf mewakili ciri bebas data dengan memberikan setiap ciri gabungan linear neuronnya sendiri, dan bilangan ciri tersebut melebihi bilangan neuron

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan Jika setiap ciri ditetapkan Jika ciri itu dianggap sebagai vektor pada neuron, maka set ciri membentuk asas linear yang terlalu lengkap untuk pengaktifan neuron rangkaian.

Dalam kertas Model Mainan Superposisi ("Model Mainan Superposisi") Anthropic sebelum ini, telah terbukti bahawa kesederhanaan boleh menghapuskan kekaburan dalam latihan rangkaian saraf, membantu model lebih memahami hubungan antara ciri, dengan itu mengurangkan pengaktifan Ketidakpastian ciri sumber vektor menjadikan ramalan dan keputusan model lebih dipercayai.

Konsep ini sama dengan idea dalam penderiaan termampat, di mana keterlanjuran isyarat membolehkan isyarat lengkap dipulihkan daripada pemerhatian terhad.

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan

Tetapi antara tiga strategi yang dicadangkan dalam Toy Models of Superposition:

(1) mencipta model tanpa superposisi, mungkin menggalakkan pengaktifan sparsity

pembelajaran, model dalam keadaan superposisi (2) digunakan untuk mencari ciri yang terlalu lengkap

(3) bergantung pada kaedah hibrid yang menggabungkan kedua-duanya.

Apa yang perlu ditulis semula ialah: kaedah (1) tidak dapat menyelesaikan masalah kekaburan, manakala kaedah (2) terdedah kepada overfitting teruk

Oleh itu, kali ini penyelidik Anthropic menggunakan Algoritma pembelajaran kamus yang lemah dipanggil jarang. autoencoder menjana ciri yang dipelajari daripada model terlatih yang menyediakan satu unit analisis semantik daripada neuron model itu sendiri.

Secara khusus, penyelidik menggunakan pengubah satu lapisan MLP dengan 512 neuron, dan akhirnya menguraikan pengaktifan MLP kepada yang agak boleh ditafsir dengan melatih pengekod automatik yang jarang pada pengaktifan MLP daripada 8 bilion ciri titik data, faktor pengembangan berjulat daripada 1 × (512 ciri) hingga 256× (131,072 ciri).

Untuk mengesahkan bahawa ciri-ciri yang terdapat dalam kajian ini lebih boleh ditafsirkan daripada neuron model, kami menjalankan penilaian semakan buta dan mempunyai penilai manusia menilai kebolehtafsirannya

boleh dilihat, ciri (merah) mempunyai lebih tinggi. skor daripada neuron (cyan).

Telah terbukti bahawa ciri-ciri yang ditemui oleh penyelidik lebih mudah difahami berbanding dengan neuron di dalam model

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan

Selain itu, penyelidik juga menggunakan kaedah "automatic interpretability" dengan menggunakan The large model bahasa menjana penerangan ringkas tentang ciri model kecil dan membolehkan model lain menjaringkan huraian itu berdasarkan keupayaannya untuk meramalkan pengaktifan ciri.

Begitu juga, ciri skor lebih tinggi daripada neuron, menunjukkan tafsiran yang konsisten tentang pengaktifan ciri dan kesan hilirannya pada tingkah laku model.

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan

Selain itu, ciri yang diekstrak ini juga menyediakan kaedah yang disasarkan untuk membimbing model.

Seperti yang ditunjukkan dalam rajah di bawah, ciri pengaktifan buatan boleh menyebabkan tingkah laku model berubah dalam cara yang boleh diramal.

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan

Berikut ialah visualisasi ciri kebolehtafsiran yang diekstrak:

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan

Klik pada senarai ciri di sebelah kiri dan anda boleh meneroka secara interaktif ruang ciri dalam rangkaian saraf

Ringkasan Laporan

Laporan penyelidikan daripada Anthropic, Towards Monosemanticity: Decomposing Language Models With Dictionary Learning ini, boleh dibahagikan kepada empat bahagian.

Tetapan masalah, penyelidik memperkenalkan motivasi penyelidikan dan menghuraikan transfomer terlatih dan pengekod auto jarang.

Penyiasatan terperinci tentang ciri-ciri individu, membuktikan bahawa beberapa ciri yang ditemui dalam kajian adalah unit kausa yang khusus berfungsi.

Melalui analisis global, kami menyimpulkan bahawa ciri tipikal boleh ditafsir, dan ia dapat menerangkan komponen penting lapisan MLP

Analisis fenomena, menerangkan beberapa sifat ciri, termasuk pembahagian ciri, sifat kesejagatan dan bagaimana mereka membentuk sistem yang serupa dengan "automata keadaan terhingga" untuk mencapai tingkah laku yang kompleks.

Kesimpulannya termasuk 7 berikut:

Pengekod auto jarang mempunyai keupayaan untuk mengekstrak ciri semantik yang agak tunggal

Pengekod auto jarang boleh menjana ciri yang boleh ditafsirkan yang sebenarnya tidak kelihatan dalam asas neuron

3. Pengekod auto jarang boleh digunakan untuk campur tangan dan membimbing penjanaan transformer.

4. Pengekod auto jarang boleh menjana ciri yang agak umum.

Apabila saiz pengekod auto bertambah, ciri cenderung untuk "berpecah". Selepas menulis semula: Apabila saiz autoenkoder bertambah, ciri menunjukkan trend "pemisahan"

6 Hanya 512 neuron boleh mewakili beribu-ribu ciri

7 "automaton keadaan terhingga" mencapai gelagat yang kompleks, seperti yang ditunjukkan dalam rajah di bawah

Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan

Untuk butiran khusus, sila lihat laporan.

Anthropic percaya bahawa untuk meniru kejayaan model kecil dalam laporan penyelidikan ini kepada model yang lebih besar, cabaran yang kita hadapi pada masa hadapan bukan lagi masalah saintifik, tetapi masalah kejuruteraan

Untuk mencapai matlamat ini pada model yang besar Kebolehtafsiran memerlukan lebih banyak usaha dan sumber dalam bidang kejuruteraan untuk mengatasi cabaran yang ditimbulkan oleh kerumitan dan skala model

Termasuk pembangunan alat, teknik dan kaedah baharu untuk menghadapi cabaran kerumitan model dan skala data ; juga termasuk membina rangka kerja tafsiran berskala dan alatan untuk menampung keperluan model berskala besar.

Ini akan menjadi trend terkini dalam bidang kecerdasan buatan tafsiran dan penyelidikan pembelajaran mendalam berskala besar

Atas ialah kandungan terperinci Pecahkan kotak hitam model besar dan reput neuron sepenuhnya! Saingan OpenAI, Anthropic memecahkan halangan AI yang tidak dapat dijelaskan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7486

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Gunakan ddrescue untuk memulihkan data pada Linux Mar 20, 2024 pm 01:37 PM

DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Cara menggunakan fungsi penapis Excel dengan berbilang syarat Feb 26, 2024 am 10:19 AM

Jika anda perlu tahu cara menggunakan penapisan dengan berbilang kriteria dalam Excel, tutorial berikut akan membimbing anda melalui langkah-langkah untuk memastikan anda boleh menapis dan mengisih data anda dengan berkesan. Fungsi penapisan Excel sangat berkuasa dan boleh membantu anda mengekstrak maklumat yang anda perlukan daripada sejumlah besar data. Fungsi ini boleh menapis data mengikut syarat yang anda tetapkan dan memaparkan hanya bahagian yang memenuhi syarat, menjadikan pengurusan data lebih cekap. Dengan menggunakan fungsi penapis, anda boleh mencari data sasaran dengan cepat, menjimatkan masa dalam mencari dan menyusun data. Fungsi ini bukan sahaja boleh digunakan pada senarai data ringkas, tetapi juga boleh ditapis berdasarkan berbilang syarat untuk membantu anda mencari maklumat yang anda perlukan dengan lebih tepat. Secara keseluruhan, fungsi penapisan Excel adalah sangat berguna

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Robot pertama yang menyelesaikan tugas manusia secara autonomi muncul, dengan lima jari fleksibel dan kelajuan manusia luar biasa, dan model besar menyokong latihan angkasa maya Mar 11, 2024 pm 12:10 PM

Minggu ini, FigureAI, sebuah syarikat robotik yang dilaburkan oleh OpenAI, Microsoft, Bezos, dan Nvidia, mengumumkan bahawa ia telah menerima hampir $700 juta dalam pembiayaan dan merancang untuk membangunkan robot humanoid yang boleh berjalan secara bebas dalam tahun hadapan. Dan Optimus Prime Tesla telah berulang kali menerima berita baik. Tiada siapa yang meragui bahawa tahun ini akan menjadi tahun apabila robot humanoid meletup. SanctuaryAI, sebuah syarikat robotik yang berpangkalan di Kanada, baru-baru ini mengeluarkan robot humanoid baharu, Phoenix. Pegawai mendakwa bahawa ia boleh menyelesaikan banyak tugas secara autonomi pada kelajuan yang sama seperti manusia. Pheonix, robot pertama di dunia yang boleh menyelesaikan tugas secara autonomi pada kelajuan manusia, boleh mencengkam, menggerakkan dan meletakkan setiap objek secara elegan di sisi kiri dan kanannya dengan perlahan. Ia boleh mengenal pasti objek secara autonomi

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

See all articles