Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.-AI-php.cn

Rumah

Peranti teknologi

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 29, 2024 pm 06:41 PM

projek Sony AI

Mit nur 1890 US-Dollar und 37 Millionen Bildern kann man ein ziemlich gutes Diffusionsmodell trainieren.

Derzeit sind visuelle generative Modelle gut darin, realistische visuelle Inhalte zu erstellen, allerdings sind die Kosten und der Aufwand, diese Modelle von Grund auf zu trainieren, immer noch hoch. Stable Diffusion 2.1 benötigte beispielsweise 200.000 A100-GPU-Stunden. Selbst wenn Forscher die fortschrittlichste Methode verwenden, dauert das Training auf einer 8×H100-GPU immer noch mehr als einen Monat.

Darüber hinaus stellt das Training großer Modelle auch Herausforderungen für Datensätze dar. Diese Daten liegen grundsätzlich in Einheiten von Hunderten von Millionen vor, was auch Herausforderungen für das Training von Modellen mit sich bringt.

Hohe Schulungskosten und Anforderungen an den Datensatz schaffen unüberwindbare Hindernisse für die Entwicklung groß angelegter Diffusionsmodelle.

Jetzt haben Forscher von Sony AI und anderen Institutionen nur 1.890 US-Dollar ausgegeben, um ein gutes Diffusionsmodell zu trainieren, einen spärlichen Transformator mit 1,16 Milliarden Parametern.

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

Papieradresse: https://arxiv.org/pdf/2407.15811
Papiertitel: Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
Projekt (in Vorbereitung): https://github.com/SonyResearch/micro_diffusion

Konkret entwickelt der Autor in dieser Arbeit eine kostengünstige End-to-End-Pipeline für das Text-zu-Bild-Diffusionsmodell, wodurch die Schulungskosten niedriger sind als bei SOTA Das Modell ist um mehr als eine Größenordnung schneller und erfordert keinen Zugriff auf Milliarden von Trainingsbildern oder proprietären Datensätzen.

Der Autor betrachtete ein latentes Diffusionsmodell, das auf einem visuellen Transformator für die Bildgenerierung basiert. Der Hauptgrund dafür ist, dass diese Methode einfach zu entwerfen und weit verbreitet ist. Um den Rechenaufwand zu reduzieren, nutzen die Autoren die starke Abhängigkeit des Transformator-Rechenaufwands von der Größe der Eingabesequenz (d. h. der Anzahl der Patches pro Bild).

Das Hauptziel dieses Artikels besteht darin, die Anzahl effektiver Patches zu reduzieren, die der Transformator verwendet, um jedes Bild während des Trainingsprozesses zu verarbeiten. Dies kann leicht erreicht werden, indem einige Token in der Eingabeschicht des Transformators zufällig ausgeblendet werden.

Bestehende Maskierungsmethoden sind jedoch nicht in der Lage, die Maskierungsrate auf über 50 % zu erhöhen, ohne die Leistung erheblich zu verringern, insbesondere bei hohen Maskierungsraten, bei denen ein großer Teil des Eingangsfelds vom Diffusionstransformator überhaupt nicht beobachtet wird.

Um den durch Maskierung verursachten erheblichen Leistungsabfall zu mildern, schlägt der Autor eine verzögerte Maskierungsstrategie vor, bei der alle Patches von einem leichten Patch-Mixer vorverarbeitet und dann an den Diffusionstransformator übertragen werden. Patch-Mischer enthalten nur einen Bruchteil der Anzahl an Parametern, die in Diffusionstransformatoren zu finden sind.

Im Vergleich zu naiven Maskierungsmethoden ermöglicht die Maskierung nach dem Patch-Mischen, dass unmaskierte Patches semantische Informationen über das gesamte Bild behalten und ermöglicht ein zuverlässiges Training von Diffusionstransformatoren bei sehr hohen Maskierungsraten, während im Vergleich zu den besten vorhandenen Methoden kein zusätzlicher Rechenaufwand anfällt bis zur erweiterten Maskierung.

Die Autoren zeigen außerdem, dass die verzögerte Maskierungsstrategie bei gleichem Rechenbudget eine bessere Leistung erzielt als Downsizing (d. h. Reduzierung der Modellgröße). Schließlich integrieren die Autoren die jüngsten Fortschritte in der Transformer-Architektur, wie z. B. die schichtweise Skalierung und den Sparse-Transformer mithilfe von MoE, um die Leistung groß angelegter Schulungen zu verbessern.

Die vom Autor vorgeschlagene kostengünstige Trainingspipeline reduziert den experimentellen Aufwand. Neben der Verwendung realer Bilder erwogen die Autoren auch die Kombination anderer synthetischer Bilder im Trainingsdatensatz. Der kombinierte Datensatz enthält nur 37 Millionen Bilder, viel weniger Daten, als die meisten bestehenden Großmodelle benötigen.

Auf diesem kombinierten Datensatz trainierte der Autor einen spärlichen Transformator mit 1,16 Milliarden Parametern zu einem Preis von 1890 US-Dollar und erreichte 12,7 FID bei der Zero-Shot-Generierung auf dem COCO-Datensatz.

Es ist erwähnenswert, dass das in diesem Artikel trainierte Modell einen wettbewerbsfähigen FID und eine qualitativ hochwertige Erzeugung erreicht und dabei nur 1/118 des stabilen Diffusionsmodells und 1/1 der aktuellen Methode nach dem neuesten Stand der Technik (Kosten) kostet 28.400 $) 15.

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

Einführung in die Methode

Um den Rechenaufwand erheblich zu reduzieren, müssen bei der Patch-Maskierung die meisten Eingabe-Patches verworfen werden, bevor sie in den Backbone-Transformator eingegeben werden, sodass der Transformator die Informationen des maskierten Patches nicht erhalten kann . Hohe Maskierungsraten (z. B. 75 % Maskierungsrate) können die Gesamtleistung des Transformators erheblich verringern. Selbst mit MaskDiT ist nur eine schwache Verbesserung gegenüber der naiven Maskierung zu beobachten, da diese Methode auch die meisten Bildfelder in der Eingabeebene selbst verwirft.

Verzögerte Maskierung, Beibehaltung der semantischen Informationen aller Patches

Memandangkan kadar masking yang tinggi akan mengalih keluar kebanyakan isyarat pembelajaran yang berharga dalam imej, penulis tidak boleh tidak bertanya, adakah perlu untuk mask dalam lapisan input? Selagi kos pengiraan kekal malar, ini hanyalah pilihan reka bentuk dan bukan batasan asas. Malah, penulis menemui strategi penyamaran yang jauh lebih baik yang kosnya hampir sama dengan kaedah MaskDiT sedia ada. Memandangkan patch datang daripada kawasan imej yang tidak bertindih dalam Transformer resapan, setiap pembenaman patch tidak membenamkan sebarang maklumat daripada patch lain dalam imej. Oleh itu, matlamat pengarang adalah untuk memproses prabenam tampalan sebelum menyamar supaya tampung yang tidak bertopeng boleh membenamkan maklumat daripada keseluruhan imej. Mereka memanggil pengadun tampalan modul prapemprosesan.

Gunakan pembancuh tampalan untuk melatih pengubah resapan

Pengarang percaya bahawa pengadun tampalan ialah sebarang seni bina saraf yang boleh menggabungkan benam tampalan individu. Dalam model pengubah, matlamat ini secara semula jadi boleh dicapai melalui gabungan perhatian dan lapisan suapan ke hadapan. Oleh itu, penulis menggunakan pengubah ringan yang terdiri daripada beberapa lapisan sahaja sebagai pembancuh tampalan. Selepas token jujukan input diproses oleh pembancuh tampalan, ia menutupnya (Rajah 2e).

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

^{Rajah 2: Mampatkan urutan tampalan untuk mengurangkan kos pengiraan. Memandangkan kos latihan pengubah resapan adalah berkadar dengan saiz jujukan (iaitu bilangan tampalan), adalah lebih baik untuk mengurangkan saiz jujukan tanpa merendahkan prestasi. Ini boleh dicapai dengan: b) menggunakan tampalan yang lebih besar; c) menutup sebahagian tampalan secara rawak atau d) menggunakan MaskDiT, yang menggabungkan penyamaran naif dengan objektif pengekodan auto tambahan. Penulis mendapati bahawa ketiga-tiga kaedah membawa kepada kemerosotan yang ketara dalam prestasi penjanaan imej, terutamanya pada kadar penyamaran yang tinggi. Untuk mengurangkan masalah ini, mereka mencadangkan strategi penyamaran tertunda yang langsung menutup tampalan selepas ia diproses oleh pembancuh tampalan. Pendekatan mereka adalah serupa dengan penyamaran naif dalam semua aspek kecuali menggunakan patch-mixer. Berbanding dengan MaskDiT, kaedah mereka tidak memerlukan pengoptimuman sebarang objektif pengganti dan mempunyai kos pengiraan yang hampir sama.}

Dengan mengandaikan topeng adalah topeng binari m, penulis menggunakan fungsi kehilangan berikut untuk melatih model:

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

di mana, M_ϕ ialah model patch-mixer dan F_θ ialah pengubah tulang belakang. Ambil perhatian bahawa berbanding dengan MaskDiT, kaedah yang dicadangkan juga memudahkan reka bentuk keseluruhan dan tidak memerlukan fungsi kehilangan tambahan atau penalaan hiperparameter yang sepadan antara dua kerugian semasa latihan. Semasa inferens, kaedah ini tidak menutup sebarang tompok.

Penalaan halus tanpa topeng

Memandangkan kadar penyamaran yang sangat tinggi akan mengurangkan keupayaan model resapan untuk mempelajari struktur global imej dan memperkenalkan anjakan pengedaran ujian kereta api pada saiz jujukan, penulis mempertimbangkan untuk melakukan sejumlah kecil selepas latihan pra-latihan bertopeng bagi penalaan halus yang tidak bertopeng. Penalaan halus juga boleh mengurangkan sebarang artifak generasi yang disebabkan oleh penggunaan pelekat tampalan. Oleh itu, dalam kerja sebelumnya, adalah penting untuk memulihkan prestasi yang menurun secara mendadak akibat penyamaran, terutamanya apabila menggunakan bootstrap tanpa pengelas dalam pensampelan. Walau bagaimanapun, penulis berpendapat bahawa ini tidak diperlukan sepenuhnya, kerana kaedah mereka mencapai prestasi yang setanding dengan latihan pra-latihan asas tanpa topeng walaupun dengan pra-latihan bertopeng. Pengarang hanya menggunakan pendekatan ini dalam latihan berskala besar untuk mengurangkan sebarang artifak generasi yang tidak diketahui kerana pelekat tampalan yang tinggi.

Menggunakan KPM dan penskalaan mengikut lapisan untuk menambah baik seni bina pengubah tulang belakang

Pengarang juga memanfaatkan inovasi dalam reka bentuk seni bina transformer untuk meningkatkan prestasi model di bawah kekangan pengiraan.

Mereka menggunakan lapisan pakar hibrid kerana ia meningkatkan parameter dan ekspresif model tanpa meningkatkan kos latihan dengan ketara. Mereka menggunakan lapisan MoE yang dipermudahkan berdasarkan penghalaan pemilihan pakar, dengan setiap pakar memutuskan token yang hendak dihalakan ke sana, kerana ia tidak memerlukan sebarang fungsi kehilangan tambahan tambahan untuk mengimbangi beban di kalangan pakar. Mereka juga menganggap penskalaan dari segi lapisan, yang baru-baru ini telah ditunjukkan mengatasi prestasi transformer biasa dalam model bahasa besar. Kaedah ini secara linear meningkatkan lebar blok pengubah, iaitu dimensi lapisan tersembunyi perhatian dan lapisan suapan. Oleh itu, lapisan yang lebih dalam dalam rangkaian diberikan lebih banyak parameter daripada lapisan sebelumnya. Penulis percaya bahawa oleh kerana lapisan yang lebih dalam dalam model visual cenderung untuk mempelajari ciri yang lebih kompleks, menggunakan parameter yang lebih tinggi dalam lapisan yang lebih dalam akan membawa kepada prestasi yang lebih baik. Penulis menerangkan seni bina keseluruhan Transformer penyebaran yang dicadangkan dalam Rajah 3.

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

^{Rajah 3: Seni bina keseluruhan pengubah resapan yang dicadangkan dalam artikel ini. Pengarang menambah pengadun tampalan ringan pada model pengubah tulang belakang, yang memproses semua tampalan dalam imej input sebelum ia bertopeng. Mengikuti kerja semasa, pengarang menggunakan lapisan perhatian untuk memproses pembenaman kapsyen, yang kemudiannya digunakan untuk pelaziman. Mereka menggunakan pembenaman sinusoidal untuk mewakili langkah masa. Model mereka hanya menafikan patch yang tidak bertopeng, jadi kehilangan resapan (Persamaan 3 dalam kertas) hanya dikira untuk patch ini. Mereka mengubah suai pengubah tulang belakang untuk menggunakan penskalaan mengikut lapisan pada lapisan individu dan lapisan pakar campuran dalam blok pengubah berselang-seli.}

Eksperimen

Percubaan menggunakan dua varian Transformer resapan (DiT), DiT-Tiny/2 dan DiT-Xl/2.

Seperti yang ditunjukkan dalam Rajah 4, kaedah penyamaran kelewatan mencapai prestasi yang lebih baik dalam berbilang metrik. Tambahan pula, apabila kadar penyamaran meningkat, jurang prestasi semakin melebar. Sebagai contoh, pada kadar masking 75%, masking naif mengurangkan skor FID kepada 16.5 (lebih rendah adalah lebih baik), manakala kaedah kami boleh mencapai 5.03, iaitu lebih dekat dengan skor FID 3.79 tanpa masking.

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

Jadual 1 menunjukkan bahawa kaedah penskalaan mengikut lapisan mempunyai kesan pemasangan yang lebih baik dalam latihan penutupan pengubah resapan.

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

Bandingkan strategi penyamaran yang berbeza. Pengarang mula-mula membandingkan kaedah kami dengan strategi menggunakan patch yang lebih besar. Meningkatkan saiz tampalan daripada 2 kepada 4 bersamaan dengan 75% pelekat tampalan. Berbanding dengan penyamaran tertunda, kaedah lain berprestasi buruk, masing-masing mencapai hanya 9.38, 6.31 dan 26.70 FID, Clip-FID dan Clip-score. Sebagai perbandingan, penutupan kependaman masing-masing mencapai 7.09, 4.10 dan 28.24 FID, Clip-FID dan Skor Klip.

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

Gambar di bawah menunjukkan perbandingan topeng tertunda vs pengecutan model untuk mengurangkan kos latihan. Sehingga kadar penutupan mencapai 75%, pengarang mendapati bahawa penutupan tertunda mengatasi pengurangan rangkaian dalam sekurang-kurangnya dua daripada tiga metrik. Walau bagaimanapun, pada kadar penyamaran yang sangat tinggi, penyamaran yang tertunda cenderung untuk mencapai prestasi yang lebih rendah. Ini mungkin disebabkan oleh kehilangan maklumat bertopeng yang terlalu tinggi pada nisbah ini.

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

Jadual 5 memberikan butiran tentang hiperparameter latihan model. Proses latihan dibahagikan kepada dua peringkat.

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

Kira kos. Jadual 2 menyediakan pecahan kos pengiraan untuk setiap peringkat latihan, termasuk FLOP latihan dan kos ekonomi. Latihan Fasa 1 dan 2 menggunakan 56% dan 44% daripada jumlah kos pengiraan, masing-masing. Jumlah masa latihan jam model pada kluster GPU 8×H100 ialah 2.6 hari, yang bersamaan dengan 6.6 hari pada kluster GPU 8×A100.

Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.

Untuk keputusan lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Untuk $1,890, anda boleh melatih model penyebaran parameter 1.2 bilion yang baik dari awal.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang lalu By DDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang lalu By DDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7864

Tutorial Java

1649

Tutorial CakePHP

1404

Tutorial Laravel

1300

Tutorial PHP

1242

Tunjukkan Lagi

Related knowledge

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

See all articles