


Siswazah kelas Tsinghua Yao menerbitkan dua karya berturut-turut, peningkatan terbesar dalam sepuluh tahun: pendaraban matriks hampir dengan teori optimum
Dengan menghapuskan "ketidakcekapan tersembunyi", saintis komputer telah menghasilkan cara baharu untuk mendarab matriks besar lebih cepat berbanding sebelum ini.
Sebagai operasi asas banyak pengendali GPU, pendaraban matriks memainkan peranan penting dalam pengkomputeran berprestasi tinggi dan juga merupakan komponen utama aplikasi seperti AI. Walaupun algoritma itu sendiri agak mudah, usaha telah dilakukan untuk mengoptimumkannya selama bertahun-tahun untuk mencapai kelajuan yang lebih tinggi. Walau bagaimanapun, tahap pengoptimuman agak terhad.
Dalam keluaran terbaru Majalah Kuantum, kami menemui dua kertas kerja yang boleh mempercepatkan pendaraban matriks. Dalam penulisan kedua-dua kertas kerja ini, seorang pelajar sarjana kanan dari Kelas Yao di Universiti Tsinghua mengambil bahagian secara aktif, yang membawa prospek baharu untuk penambahbaikan algoritma dalam bidang ini.

Satu "singulariti" baharu muncul dalam penambahbaikan pendaraban matriks
Saintis komputer adalah kumpulan manusia yang sangat menuntut. Apa yang mereka kejar bukan sahaja menyelesaikan masalah, tetapi juga mencapai matlamat dengan cara yang paling berkesan.
Ambil contoh mendarab matriks atau tatasusunan nombor Pada tahun 1812, ahli matematik Perancis Jacques Philippe Marie Binet mencadangkan satu set peraturan asas yang masih diajar kepada pelajar hari ini. Set peraturan ini digunakan secara meluas, tetapi dalam beberapa tahun kebelakangan ini beberapa ahli matematik telah menemui cara untuk memudahkan dan mempercepatkan proses. Ahli matematik Perancis Jacques Philippe Marie Binet.

Ran Duan dan Renfei Zhou dari Universiti Tsinghua dan Hongxun Wu dari University of California, Berkeley, untuk menyelesaikan masalah yang telah lama wujud ini dibuat, dan hasil penyelidikan mereka dibentangkan secara terperinci dalam kertas setebal 87 muka surat. Le Gall memuji kerja ketiga-tiga penyelidik ini. Kertas kerja ini telah diterima oleh FOCS 2023, persidangan teratas dalam bidang sains komputer.
Paper v1 akan dikeluarkan pada Oktober 2022, v5 pada November 2023. Alamat kertas: https://arxiv.org/abs/2210.10173
Antaranya, Duan Ran ialah profesor bersekutu di Institut Maklumat Silang di Universiti Tsinghua Arah penyelidikan utamanya ialah algoritma teori graf, struktur data dan pengkomputeran teori. Hongxun Wu ialah pelajar kedoktoran tahun kedua di University of California, Berkeley, dan lulusan Kelas Yao Universiti Tsinghua.

Kerja oleh tiga penyelidik mendedahkan sumber potensi penambahbaikan yang tidak diketahui sebelum ini dan belum diterokai yang sudah membuahkan hasil. Kertas kerja kedua yang diterbitkan pada Januari 2024 (juga dikarang bersama oleh Renfei Zhou) membina ini dan menunjukkan cara pendaraban matriks boleh dipertingkatkan lagi.

William Kuszmaul, seorang saintis komputer teoritis di Universiti Harvard, lebih banyak mengatakan bahawa ini adalah kejayaan besar di Universiti Harvard. Peningkatan terbesar yang telah kami lihat dalam beberapa tahun untuk pendaraban matriks.

Pendaraban matriks mungkin kelihatan seperti masalah yang tidak jelas, tetapi ia adalah operasi pengiraan asas. Ia digabungkan ke dalam kebanyakan algoritma yang digunakan orang setiap hari untuk pelbagai tugas, daripada memaparkan grafik komputer yang lebih jelas kepada menyelesaikan masalah logistik dalam teori rangkaian. Sama seperti dalam bidang pengkomputeran lain, kelajuan adalah penting. Malah penambahbaikan kecil akhirnya boleh mengurangkan masa, kuasa pengkomputeran dan wang yang diperlukan dengan ketara. Tetapi buat masa ini, ahli teori terutamanya berminat untuk memikirkan betapa pantas proses itu boleh berjalan.
Kaedah tradisional untuk mendarab dua n×n matriks—iaitu, mendarab nombor dalam setiap baris matriks pertama dengan nombor dalam setiap lajur matriks kedua—memerlukan n³ operasi pendaraban bebas. Untuk matriks 2 dengan 2, ini bermakna 2³, atau 8 pendaraban.

Pada tahun 1969, ahli matematik Volker Strassen menemui kaedah yang lebih elegan yang boleh melengkapkan pendaraban 2×2 matriks hanya dalam 7 langkah pendaraban dan 18 langkah penambahan. Dua tahun kemudian, saintis komputer Shmuel Winograd menunjukkan bahawa pendaraban 7 langkah sememangnya minimum mutlak untuk matriks 2 × 2.

Strassen menggunakan idea yang sama untuk menunjukkan bahawa semua matriks n×n yang lebih besar juga boleh didarab dalam kurang daripada n3 langkah. Elemen utama dalam strategi ini melibatkan prosedur yang dipanggil penguraian: menguraikan matriks besar kepada submatriks yang lebih kecil, yang mungkin menjadi sekecil 2×2 atau 1×1 (hanya satu nombor).
Alasan untuk memecahkan tatasusunan gergasi kepada kepingan kecil adalah agak mudah, seorang saintis komputer di MIT, Virginia Vassilevska Williams, berkata: "Untuk matriks yang besar (seperti matriks 100×100), sukar untuk manusia memikirkannya. algoritma terbaik ” Malah matriks 3 dengan 3 belum diselesaikan sepenuhnya. "Walau bagaimanapun, seseorang boleh menggunakan algoritma pantas yang telah dibangunkan untuk matriks kecil untuk mendapatkan algoritma pantas untuk matriks yang lebih besar
Para penyelidik menentukan bahawa kunci kepada kelajuan adalah untuk mengurangkan bilangan langkah pendaraban, memindahkan eksponen dari n3 sebanyak." mungkin (kaedah tradisional) kurangkan. Nilai n² yang mungkin paling rendah pada asasnya ialah masa yang diperlukan untuk menulis jawapan. Para saintis komputer memanggil eksponen ini Ω, atau ω. nω ialah bilangan langkah minimum yang diperlukan untuk berjaya mendarab dua n×n matriks apabila n semakin besar. Zhou Renfei, yang juga pengarang bersama kertas kerja Januari 2024, berkata: "Tumpuan kerja ini adalah untuk melihat sejauh mana anda boleh mencapai 2 dan sama ada ia boleh dicapai secara teori
Kaedah laser
Pada tahun 1986, Strassen memperoleh Dalam satu lagi kejayaan besar, beliau memperkenalkan kaedah laser pendaraban matriks. Strassen menggunakan ini untuk menentukan nilai sempadan atas untuk ω sebanyak 2.48. Walaupun kaedah itu hanya satu langkah dalam pendaraban matriks besar, ia adalah salah satu yang paling penting kerana penyelidik sentiasa memperbaikinya.
Setahun kemudian, Winograd dan Don Coppersmith memperkenalkan algoritma baharu yang melengkapkan kaedah laser dengan sempurna. Gabungan alat ini digunakan dalam hampir semua penyelidikan seterusnya mengenai mempercepatkan pendaraban matriks.
Berikut ialah cara ringkas untuk melihat cara elemen berbeza ini sesuai bersama. Mari kita mulakan dengan dua matriks besar A dan B dan darabkannya. Mula-mula, anda memecahkannya kepada banyak submatriks yang lebih kecil, kadangkala dipanggil blok. Seterusnya, anda boleh menggunakan algoritma Coppersmith dan Winograd sebagai panduan untuk memproses dan akhirnya memasang blok ini. "Ia memberitahu saya apa yang perlu didarabkan, apa yang perlu ditambah, dan elemen mana yang berada dalam matriks produk C," kata Vassilevska Williams "Ia hanya 'resipi' untuk membina C daripada A dan B."
Walau bagaimanapun, terdapat masalah: kadangkala anda mendapat blok dengan unsur biasa. Mengekalkan elemen biasa ini adalah sama dengan mengira elemen ini dua kali, jadi pada satu ketika, pertindihan ini perlu dihapuskan. Para penyelidik menyelesaikan masalah ini dengan "membunuh" blok yang mereka ada - menetapkan komponen mereka kepada sifar untuk mengeluarkannya daripada pengiraan.

pasukan ahli yang menambah baik kaedah pendaraban matriks baharu, dan dia menghasilkan kaedah terpantas pada masa ini.
Di sinilah kaedah laser Strassen akhirnya dimainkan. "Kaedah laser biasanya sangat berkesan dan sering mencari cara yang baik untuk menghapuskan sub-blok yang bertindih, " kata Le Gall. Selepas laser telah menghapuskan semua pertindihan, anda boleh membina matriks produk akhir C.
Menggabungkan pelbagai teknik ini menghasilkan algoritma yang mendarab dua matriks dengan jumlah pendaraban sesedikit mungkin, sekurang-kurangnya secara teori. Kaedah laser tidak bertujuan untuk aplikasi praktikal; ia hanyalah cara pemikiran yang ideal tentang pendaraban matriks. Zhou Renfei berkata, "Kami tidak pernah menjalankan kaedah ini pada komputer, kami menganalisisnya." Analisis inilah yang telah membawa kepada peningkatan terbesar ω dalam lebih sepuluh tahun.
"Kehilangan tersembunyi" ditemuiDalam kertas pertama "Pendaraban Matriks Lebih Cepat melalui Pencapaian Asymmetric" oleh Duan Ran, Zhou Renfei dan Hongxun Wu, mereka menunjukkan bahawa proses algoritma Strassen boleh dipercepatkan dengan sangat baik. Ini semua berkat konsep yang mereka panggil "kerugian tersembunyi." Zhou Renfei berkata bahawa konsep itu sangat tersembunyi dalam analisis sebelum ini dan merupakan hasil daripada menghapuskan terlalu banyak blok secara tidak sengaja.
Kaedah laser berfungsi dengan menandakan blok bertindih sebagai sampah dan menjadualkannya untuk diproses, manakala blok lain dianggap berharga dan akan disimpan. Walau bagaimanapun, proses pemilihan agak rawak. Malah, blok yang ditandakan sebagai sampah mungkin berguna.
Ini tidak mengejutkan sepenuhnya, tetapi dengan memeriksa banyak pilihan rawak, pasukan Duan Ran menentukan bahawa kaedah laser secara sistematik meremehkan nilai blok, jadi lebih banyak blok harus disimpan dan kurang dibuang. Dan, seperti yang sering berlaku, kurang sisa diterjemahkan kepada kecekapan yang lebih besar.
Mengenai pendekatan pasukan Duan Ran, Le Gall percaya bahawa "lebih banyak blok boleh dikekalkan tanpa bertindih pendekatan ini mencapai algoritma pendaraban matriks yang lebih pantas
Selepas membuktikan kewujudan kehilangan ini, Duan Ran The pasukan mengubah suai cara laser. kaedah menandakan blok, dengan ketara mengurangkan sisa. Mereka menetapkan had baharu pada ω sekitar 2.371866, iaitu peningkatan berbanding had 2.3728596 yang ditetapkan oleh Josh Alman dan Vassilevska Williams pada tahun 2020.
Ini mungkin kelihatan seperti perubahan kecil,
menurunkan had atas sebanyak kira-kira 0.001, tetapi ia merupakan peningkatan terbesar yang pernah dilihat saintis sejak 2010. Sebagai perbandingan, keputusan Vassilevska Williams dan Alman 2020 meningkat hanya 0.00001 daripada keputusan sebelumnya.

Menurut Le Gall, semua orang telah bergantung pada kaedah laser yang sama selama hampir empat dekad. Dengan kemunculan kertas kerja oleh tiga penyelidik termasuk Duan Ran, kami boleh melakukan yang lebih baik.
Oleh itu, kertas kerja Januari 2024 yang dikarang bersama oleh Zhou Renfei telah menambah baik kaedah baharu ini dan seterusnya mengurangkan kerugian tersembunyi. Mereka meningkatkan lagi had atas ω, menurunkannya kepada 2.371552
.

Pautan asal:
https://www.quantamagazine.org/new-breakthrough-brings-matrix-multiplication-closer-to-ideal-20240307/
Atas ialah kandungan terperinci Siswazah kelas Tsinghua Yao menerbitkan dua karya berturut-turut, peningkatan terbesar dalam sepuluh tahun: pendaraban matriks hampir dengan teori optimum. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi
