Rumah Peranti teknologi AI Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?

Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?

Jul 24, 2024 pm 08:38 PM
projek Model besar multimodal

Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Diese Arbeit wurde vom Grundlagentheorie-Innovationsteam unter der Leitung von Professor Zhu Jun von der Tsinghua-Universität initiiert. Das Team beschäftigt sich seit langem mit den aktuellen Engpassproblemen in der Entwicklung künstlicher Intelligenz, erforscht ursprüngliche Theorien und Schlüsseltechnologien der künstlichen Intelligenz und ist international führend in der Forschung zu kontradiktorischen Sicherheitstheorien und Methoden intelligenter Algorithmen. Es wurden auch eingehende Untersuchungen zur kontradiktorischen Robustheit und Wirksamkeit von Deep Learning durchgeführt. Grundlegende häufige Probleme wie die Effizienz der Datennutzung. Relevante Arbeiten gewannen den ersten Preis des Wu Wenjun Artificial Intelligence Natural Science Award, veröffentlichten mehr als 100 CCF-Klasse-A-Artikel und entwickelten die Open-Source-Plattform für Gegenangriffsangriffe und Verteidigungsalgorithmen ARES (https://github.com/thu-ml/ares). und einige patentierte Produkte realisiert. Lernen und Forschung in die praktische Anwendung umsetzen.

Multimodale große Sprachmodelle (MLLMs), die durch GPT-4o repräsentiert werden, haben aufgrund ihrer hervorragenden Leistung in mehreren Modalitäten wie Sprache und Bildern viel Aufmerksamkeit erregt. Sie sind nicht nur zu den rechten Assistenten des Anwenders bei der täglichen Arbeit geworden, sondern sind auch nach und nach in wichtige Anwendungsbereiche wie autonomes Fahren und medizinische Diagnose vorgedrungen und haben eine technologische Revolution ausgelöst.
Sind multimodale Großmodelle jedoch sicher und zuverlässig?

Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?

                                                                                                                                                               Wie in Abbildung 1 gezeigt, wird GPT-4o durch die Änderung der Bildpixel durch gegnerische Angriffe die Löwenstatue mit dem Schwanz fälschlicherweise als Eiffelturm in Paris oder Big Ben in London identifizieren . Der Inhalt solcher Fehlerziele kann beliebig angepasst werden, auch über die sicheren Grenzen der Modellanwendung hinaus.                                                                                                                                                                
Obwohl Claude im Jailbreak-Angriffsszenario die böswillige Anfrage in Textform erfolgreich zurückwies, gab das Modell falsche Nachrichten entsprechend der Anfrage des Benutzers aus, wenn der Benutzer ein zusätzliches einfarbiges, nicht zusammenhängendes Bild eingab. Das bedeutet, dass große multimodale Modelle mehr Risiken und Herausforderungen bergen als große Sprachmodelle.

Zusätzlich zu diesen beiden Beispielen weisen multimodale große Modelle auch verschiedene Sicherheitsbedrohungen oder soziale Risiken wie Illusion, Voreingenommenheit und Datenschutzverlust auf, die ihre Zuverlässigkeit und Glaubwürdigkeit in praktischen Anwendungen ernsthaft beeinträchtigen. Treten diese Sicherheitslücken zufällig auf oder sind sie weit verbreitet? Welche Unterschiede gibt es in der Glaubwürdigkeit verschiedener multimodaler Großmodelle und woher kommen sie?

Kürzlich haben Forscher der Tsinghua-Universität, der Beihang-Universität, der Shanghai Jiao Tong-Universität und Ruilai Intelligence gemeinsam einen hundertseitigen Artikel geschrieben und einen umfassenden Benchmark namens MultiTrust veröffentlicht, der erstmals die gängigen multimodalen Modi umfassend bewertete Mehrere Dimensionen und Perspektiven Die Glaubwürdigkeit des großen Modells zeigt mehrere potenzielle Sicherheitsrisiken und inspiriert die nächste Entwicklung multimodaler großer Modelle.
Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?
  • Titel des Papiers: Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
  • Link zum Papier: https://arxiv.org/pdf/2406.07057
  • Homepage des Projekts: https:// multi-trust.github.io/
  • Code-Repository: https://github.com/thu-ml/MMTrustEval In seiner groß angelegten Modellbewertungsarbeit hat MultiTrust fünf Glaubwürdigkeitsbewertungsdimensionen verfeinert – Wahrhaftigkeit, Sicherheit, Robustheit, Es wird eine Sekundärklassifizierung durchgeführt und Aufgaben, Indikatoren und Datensätze gezielt aufgebaut, um eine umfassende Bewertung zu ermöglichen.

                                                                                                                                                                      Aufgabenszenarien umfassen Diskriminierungs- und Generierungsaufgaben und umfassen reine Textaufgaben und multimodale Aufgaben. Die den Aufgaben entsprechenden Datensätze werden nicht nur auf der Grundlage öffentlicher Text- oder Bilddatensätze transformiert und angepasst, sondern es werden auch einige komplexere und anspruchsvollere Daten durch manuelle Sammlung oder Algorithmussynthese erstellt.

                                                                                                                                                                        Abbildung 5 MultiTrust-Aufgabenliste
 

Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?

Anders als die vertrauenswürdige Bewertung großer Sprachmodelle (LLMs) bringt ML die multimodalen Funktionen von LM vielfältigere und komplexere Risikoszenarien mit sich Möglichkeiten. Um eine systematische Bewertung besser durchführen zu können, geht der MultiTrust-Benchmark nicht nur von der traditionellen Dimension der Verhaltensbewertung aus, sondern führt auch auf innovative Weise die beiden Bewertungsperspektiven des multimodalen Risikos und der modalübergreifenden Auswirkungen ein und deckt so umfassend die neuen Probleme ab, die die neuen Modalitäten mit sich bringen . neue Herausforderung.险 Abbildung 6 Das Risiko des Multi-Mode-Risikos und der modulübergreifenden Auswirkungen

Insbesondere bezieht sich das Multi-Mode-Risiko auf die neuen Risiken, die durch Multi-Mode-Szenen entstehen, wie z. B. mögliche falsche Antworten, wenn das Modell visuelle Prozesse verarbeitet irreführende Informationen sowie Fehleinschätzungen beim multimodalen Denken im Zusammenhang mit Sicherheitsfragen. Obwohl das Modell den Alkohol auf dem Bild korrekt identifizieren kann, sind sich einige Modelle darüber hinaus nicht des potenziellen Risikos bewusst, das mit der gemeinsamen Nutzung von Alkohol mit Cephalosporin-Medikamenten verbunden ist.
Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?
涉 Rajah 7 Model dalam alasan yang melibatkan isu keselamatan mempunyai salah penilaian
Kesan silang modal merujuk kepada kesan penambahan mod baharu terhadap kredibiliti mod asal, seperti input imej yang tidak berkaitan Ia mungkin berubah gelagat dipercayai rangkaian tulang belakang model bahasa besar dalam senario teks biasa, yang membawa kepada lebih banyak risiko keselamatan yang tidak dapat diramalkan. Dalam serangan jailbreaking dan tugas kebocoran privasi kontekstual yang biasa digunakan untuk penilaian kredibiliti model bahasa yang besar, jika model disediakan dengan gambar yang tiada kaitan dengan teks, tingkah laku keselamatan asal mungkin dimusnahkan (Rajah 2).
analisis analisis dan kesimpulan utama
Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?
-to
----- kemas kini masa nyata senarai kredibiliti (bahagian)

mengekalkan pangkalan data berbilang mod yang dikemas kini secara kerap Model terkini seperti GPT-4o dan Claude3.5 telah ditambahkan pada senarai kredibiliti model Secara keseluruhannya, model komersial sumber tertutup adalah lebih selamat dan lebih dipercayai daripada model sumber terbuka arus perdana. Antaranya, OpenAI's GPT-4 dan Anthropic's Claude menduduki tempat yang paling tinggi dalam kredibiliti, manakala Microsoft Phi-3, yang menambah penjajaran keselamatan, menduduki tempat tertinggi dalam kalangan model sumber terbuka, tetapi masih terdapat jurang tertentu dengan model sumber tertutup.

Model komersial seperti GPT-4, Claude dan Gemini telah melaksanakan banyak teknologi pengukuhan untuk keselamatan dan kebolehpercayaan, tetapi masih terdapat beberapa risiko keselamatan dan kebolehpercayaan. Contohnya, mereka masih menunjukkan kerentanan kepada serangan musuh, serangan jailbreak berbilang mod, dsb., yang sangat mengganggu pengalaman dan kepercayaan pengguna.
Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?
                                                                                                                                                                  senarai adalah bersamaan atau lebih baik daripada GPT-4, Dalam ujian peringkat amanah, model ini masih menunjukkan kelemahan dan kelemahan dalam aspek yang berbeza. Sebagai contoh, penekanan pada keupayaan umum (seperti OCR) semasa fasa latihan menjadikan penyisipan teks jailbreak dan maklumat sensitif ke dalam input imej sebagai sumber risiko yang lebih mengancam.

Berdasarkan keputusan eksperimen kesan silang modal, penulis mendapati bahawa latihan dan inferens pelbagai mod akan melemahkan mekanisme penjajaran selamat model bahasa besar. Banyak model besar berbilang modal akan menggunakan model bahasa besar yang dijajarkan sebagai rangkaian tulang belakang dan memperhalusi semasa proses latihan berbilang modal. Keputusan menunjukkan bahawa model ini masih mempamerkan kelemahan keselamatan yang besar dan risiko yang boleh dipercayai. Pada masa yang sama, dalam berbilang tugas penilaian kebolehpercayaan teks tulen, memperkenalkan imej semasa penaakulan juga akan memberi kesan dan gangguan pada tingkah laku model yang boleh dipercayai.
后 Nachdem das Bild in Abbildung 10 eingeführt wurde, neigt das Modell eher dazu, den Datenschutzinhalt im Text durchsickern zu lassen. Experimente haben gezeigt, dass die Glaubwürdigkeit des Multi-Mode- und des großen Modells mit seiner universellen Fähigkeit zusammenhängt, aber es gibt immer noch Unterschiede in der Modellleistung in verschiedenen Glaubwürdigkeitsbewertungsdimensionen. Derzeit gängige multimodale, große modellbezogene Algorithmen, wie z. B. die Feinabstimmung von Datensätzen, die mit Hilfe von GPT-4V, RLHF für Halluzinationen usw. generiert wurden, reichen nicht aus, um die Glaubwürdigkeit des Modells vollständig zu verbessern. Die vorliegenden Schlussfolgerungen zeigen auch, dass multimodale große Modelle einzigartige Herausforderungen haben, die sich von großen Sprachmodellen unterscheiden, und dass für weitere Verbesserungen innovative und effiziente Algorithmen erforderlich sind.
Detaillierte Ergebnisse und Analysen finden Sie im Papier.

Zukünftige Richtungen

Die Forschungsergebnisse zeigen, dass die Verbesserung der Glaubwürdigkeit multimodaler großer Modelle besondere Aufmerksamkeit von Forschern erfordert. Durch die Nutzung umfangreicher Sprachmodellausrichtungslösungen, diversifizierter Trainingsdaten und -szenarien sowie Paradigmen wie Retrieval Enhanced Generation (RAG) und Constitutional AI (Constitutional AI) können bis zu einem gewissen Grad Verbesserungen erzielt werden. Die Glaubwürdigkeitsverbesserung multimodaler Großmodelle geht jedoch darüber hinaus. Auch die Abstimmung zwischen den Modalitäten und die Robustheit visueller Encoder sind wichtige Einflussfaktoren. Darüber hinaus ist die Verbesserung der Leistung von Modellen in praktischen Anwendungen durch kontinuierliche Bewertung und Optimierung in dynamischen Umgebungen auch eine wichtige Richtung für die Zukunft.
Mit der Veröffentlichung des MultiTrust-Benchmarks hat das Forschungsteam auch das Toolkit zur Bewertung der Vertrauenswürdigkeit multimodaler großer Modelle veröffentlicht. Seine Modellintegrations- und Bewertungsmodularitätsmerkmale liefern wichtige Informationen für die Glaubwürdigkeitsforschung multimodaler großer Modelle . Basierend auf dieser Arbeit und diesem Toolkit organisierte das Team einen multimodalen Wettbewerb für sicherheitsrelevante Daten und Algorithmen für große Modelle [1,2], um vertrauenswürdige Forschung an großen Modellen zu fördern. Mit der kontinuierlichen Weiterentwicklung der Technologie werden multimodale Großmodelle in Zukunft ihr Potenzial in mehr Bereichen zeigen, aber die Frage ihrer Glaubwürdigkeit erfordert weiterhin kontinuierliche Aufmerksamkeit und eingehende Forschung.

Referenzlink:

[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main
[2] Der 3. Pazhou-Algorithmus-Wettbewerb – Multimodaler Großmodellalgorithmus, Sicherheitsverstärkungstechnologie https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

Atas ialah kandungan terperinci Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Sistem Fusion, dijelaskan
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1667
14
Tutorial PHP
1273
29
Tutorial C#
1255
24
Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. Jul 15, 2024 pm 03:59 PM

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

See all articles