Heim Technologie-Peripheriegeräte KI Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Jun 10, 2024 pm 02:24 PM
工程 3D-GS

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

3D-Rekonstruktion und neue Ansichtssynthesetechnologie werden in den Bereichen Virtual Reality und Augmented Reality häufig eingesetzt. NeRF hat bemerkenswerte Erfolge bei der Ansichtssynthese erzielt, indem Szenen implizit als Strahlenszenen kodiert wurden. Seine Praktikabilität wird jedoch stark durch die Tatsache eingeschränkt, dass NeRF zum Rendern auf die zeitaufwändige Punkt-für-Punkt-Abfrage dichter Sammlungen angewiesen ist. Um dieses Problem zu lösen, sind einige verallgemeinerbare NeRF-Methoden entstanden, die darauf abzielen, Szenen aus mehreren Ansichten im Netzwerk-Feedforward-Verfahren zu rekonstruieren. NeRF-basierte Methoden sind jedoch geschwindigkeitsbeschränkt, da sie zum Rendern die Abfrage einer dichten Sammlung von Punkten auf Strahlen erfordern. Kürzlich verwendet 3D-Gaußsches Splatting (3D-GS) anisotrope 3D-Gaußsche Flächen zur Darstellung von Szenen und erreicht durch einen differenziellen Rasterer ein qualitativ hochwertiges Echtzeit-Rendering.

Allerdings setzt 3D-GS auch auf die Optimierung jeder einzelnen Szene, was Dutzende Minuten pro Szene in Anspruch nimmt. Um dieses Problem zu lösen, wurden später einige verallgemeinerte Gaußsche Rekonstruktionsarbeiten veröffentlicht, bei denen versucht wurde, 3D-GS auf unsichtbare Szenen zu verallgemeinern. Die Trainings- und Rendering-Effizienz dieser Methoden muss jedoch verbessert werden und beschränkt sich hauptsächlich auf die Rekonstruktion von Objekten oder menschlichen Körpern.

Auf dieser Grundlage schlugen Forscher der Huazhong University of Science and Technology, der Nanyang Technological University, der Greater Bay Area University und des Shanghai Artificial Intelligence Laboratory gemeinsam ein effizientes und verallgemeinerbares Gaußsches Rekonstruktionsmodell namens MVSGaussian für die zukünftige Verwendung vor Szenen gesehen. Dieses Modell funktioniert, indem es das Eingabebild in mehrere Ansichten aufteilt und einen Gaußschen Prozess verwendet, um Tiefen- und Texturinformationen zu schätzen. Anschließend verwendet es einen Multi-View-Stereo-Matching-Algorithmus, um die Ansichten zusammenzuführen und hochwertige Rekonstruktionsergebnisse zu generieren. Diese Methode erreicht ein gutes Gleichgewicht zwischen Rekonstruktionsqualität und Recheneffizienz und bietet eine neue Lösung für zukünftige visuelle Syntheseaufgaben. Titel des Papiers: Fast Generalizable Gaußian Splatting Reconstruction from Multi-View Stereo ://arxiv.org/abs/2405.12218

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Projekthomepage: https://mvsgaussian.github.io/
  • Code Open Source: https://github.com/ TQTQliu/MVSGaussian
  • Demo-Video: https://youtu.be/4TxMQ9RnHMA
  • Dieses Modell ist in der Lage, eine 3D-Gaußsche Darstellung einer Szene aus spärlichen Mehrfachansichtsbildern zu lernen. Durch die Kombination der Vorteile des geometrischen Denkens im Multi-View-Stereo-Anzeigeformat (MVS) und des Gaußschen Deep-Shot-Echtzeit-Renderings schneidet MVSGaussian gut im allgemeinen Denken ab und kann die beste Ansichtsrenderingqualität bei höchster Geschwindigkeit erzielen. Darüber hinaus bietet MVSGaussian auch erhebliche Vorteile bei der szenenweisen Optimierung und führt ein hochwertiges Echtzeit-Rendering in nur 45 Sekunden durch (etwa 1/10 von 3D-GS).泛 Abbildung 1 Unabhängig davon, ob es in der Argumentation oder Optimierung verallgemeinert wird, zeigt MVSGAUSSIAN offensichtliche Vorteile in Bezug auf Ansichtsqualität, Rendering-Geschwindigkeit und Optimierungszeit.
  • Abbildung 2 Vergleich der Änderungen der Rendering-Ansichtsqualität mit der Optimierungszeit (Anzahl der Iterationen). Da das verallgemeinerbare Modell eine gute Initialisierung bietet, kann MVSGaussian eine qualitativ hochwertige Ansichtssynthese mit kürzerer Optimierungszeit (weniger Iterationen) erreichen.

Grundprinzip

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Um ein effizientes und verallgemeinerbares Gaußsches Sputter-Framework zu entwerfen, stehen wir vor den folgenden zentralen Herausforderungen:

1) Im Gegensatz zu NeRF, das eine implizite Darstellung verwendet, drückt 3D-GS die Szene explizit mit Millionen von 3D-Gaußschen aus Kugeln. Bei der Anwendung von vorab trainiertem 3D-GS auf unsichtbare Szenen unterscheiden sich die Parameter der 3D-Gaußschen Kugel, wie Position und Farbe, erheblich. Der Entwurf einer allgemeinen Darstellung zur Anpassung an 3D-GS ist keine triviale Aufgabe.

2) Die verallgemeinerbare NeRF-Methode erzielt beeindruckende Ansichtssyntheseeffekte durch Volumenrendering. Allerdings ist die Verallgemeinerungsfähigkeit des Gaußschen Sputterns noch nicht vollständig erforscht. Während des Sputterprozesses trägt jede Gaußsche Kugel zu mehreren Pixeln in einem bestimmten Bereich des Bildes bei, und die Farbe jedes Pixels wird aus den Beiträgen mehrerer Gaußscher Kugeln akkumuliert. Die Farbkorrespondenz zwischen Gaußschen Kugeln und Pixeln ist eine komplexere Viele-zu-Viele-Beziehung, die eine Herausforderung für die Generalisierungsfähigkeit des Modells darstellt.

3) Die verallgemeinerbare NeRF-Methode zeigt, dass eine weitere Feinabstimmung für bestimmte Szenarien die Qualität der synthetisierten Ansichten erheblich verbessern kann, dies erfordert jedoch viel zeitaufwändige Optimierung. Obwohl 3D-GS schneller als NeRF ist, dauert es dennoch länger. Daher ist die Entwicklung einer Methode zur schnellen szenenweisen Optimierung auf der Grundlage verallgemeinerbarer Modelle eine vielversprechende Forschungsrichtung.

Als Antwort auf die oben genannten Herausforderungen haben wir uns unsere Lösungen gegeben.

1) Da die Positionsverteilung der Gaußschen Kugel, die jeder Szene entspricht, unterschiedlich ist, verwenden wir Multi-View-Stereo (MVS), um die Geometrie der Szene explizit zu modellieren und auf die Tiefe zu schließen. Als Nächstes kodieren wir Merkmale für die 3D-Punkte, die der geschätzten Tiefe entsprechen, um eine pixelausgerichtete Gaußsche Darstellung zu erstellen.

2) Basierend auf den codierten Merkmalen können wir sie über MLP in Gaußsche Parameter dekodieren, um die Ansicht mithilfe der Sputtertechnologie zu rendern. Wir haben jedoch festgestellt, dass dieser Ansatz nur eine begrenzte Verallgemeinerungsfähigkeit aufweist. Unsere Einsicht ist, dass die Sputter-Modalität eine komplexe Viele-zu-Viele-Beziehung hinsichtlich des Farbbeitrags einführt, d. h. zwischen Gaußschen Kugeln und Pixeln, was eine Herausforderung für die Verallgemeinerung darstellt. Daher schlagen wir eine einfache und effektive Methode zur Volumenwiedergabe mit Tiefenerkennung vor, um die Generalisierungsfähigkeit zu verbessern, d. h. die Verwendung einer Methode zur Volumenwiedergabe mit einem einzigen Abtastpunkt. Die endgültige gerenderte Ansicht wird durch Mittelung der durch die Sputtertechnik und die Volumenrendering-Technik gerenderten Ansichten erhalten.

3) Das vorab trainierte verallgemeinerbare Modell kann eine große Anzahl von 3D-Gaußschen aus mehreren Perspektiven generieren, und diese Gaußschen Punktwolken können als Initialisierung für die anschließende szenenweise Optimierung verwendet werden. Aufgrund der inhärenten Einschränkungen der MVS-Methode ist die vom verallgemeinerbaren Modell vorhergesagte Tiefe jedoch möglicherweise nicht ganz genau, was zu Rauschen in der generierten Gaußschen Punktwolke führt. Das direkte Zusammenfügen dieser Gaußschen Punktwolken erzeugt viel Rauschen. Darüber hinaus verlangsamt eine große Anzahl von Punkten die nachfolgende Optimierung und das Rendern. Eine intuitive Lösung besteht darin, die zusammengefügte Punktwolke herunterzurechnen. Allerdings verringert sich dadurch nicht nur das Rauschen, sondern auch die Anzahl der gültigen Punkte. Unsere Einsicht ist, dass eine gute Aggregationsstrategie Rauschpunkte reduzieren und gültige Punkte so weit wie möglich beibehalten sollte, während gleichzeitig sichergestellt werden sollte, dass die Gesamtzahl der Punkte nicht zu groß ist. Zu diesem Zweck führen wir eine Aggregationsstrategie ein, die auf der geometrischen Konsistenz mehrerer Ansichten basiert. Insbesondere folgen wir dem Prinzip, dass die vorhergesagte Tiefe desselben 3D-Punkts unter verschiedenen Betrachtungswinkeln konsistent sein sollte, und filtern Rauschpunkte heraus, indem wir den Reprojektionsfehler der Gaußschen Tiefen aus verschiedenen Betrachtungswinkeln berechnen.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Abbildung 3 Verallgemeinerbares Gaußsches Sputter-Framework. Features werden zunächst mithilfe eines Feature Pyramid Network (FPN) aus der Eingabeansicht extrahiert, in die Zielperspektive verzerrt, ein Kostenvolumen erstellt und dann durch 3D-CNNs reguliert, um Tiefe zu erzeugen. Als nächstes erstellen wir für tiefenentsprechende 3D-Punkte pixelausgerichtete Gaußsche Darstellungen, indem wir Multi-View- und räumliche Informationskodierungsmerkmale aggregieren. Diese Merkmale werden dann in Gaußsche Parameter und Volumen-Rendering-Parameter dekodiert, die zwei Ansichten rendern, und das Endergebnis ist der Durchschnitt der beiden Ansichten.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Abbildung 4 Konsistente Aggregation. Mithilfe eines verallgemeinerbaren Modells zur Generierung von Tiefenkarten und Gaußschen Punktwolken führen wir zunächst eine geometrische Konsistenzprüfung mit mehreren Ansichten für die Tiefenkarte durch, um eine Maske zum Filtern unzuverlässiger Punkte zu erhalten. Anschließend werden die gefilterten Punktwolken als Initialisierung für die szenenweise Optimierung zu einer Punktwolke zusammengefügt.

Ergebnisvergleich

Dieses Papier führt eine Bewertung der weit verbreiteten DTU-, Real Forward-facing-, NeRF Synthetic- und Tanks and Temples-Datensätze durch und berichtet über Metriken wie PSNR, SSIM, LPIPS und FPS. In Bezug auf die Generalisierungsinferenz (Tabellen 1 und 2) zeigt MVSGaussian eine überlegene Leistung und erreicht eine bessere Leistung bei höchster Geschwindigkeit und minimalem Speicheraufwand. In Bezug auf die szenenweise Optimierung (Tabelle 3) ist MVSGaussian in der Lage, den besten Ansichtssyntheseeffekt in der kürzesten Optimierungszeit (etwa 1/10 von 3D-GS) zu erzielen und eine mit 3D vergleichbare Echtzeit-Rendering-Geschwindigkeit beizubehalten -GS. Qualitative Ansichts- und Videovergleiche zeigen auch die Fähigkeit von MVSGaussian, qualitativ hochwertige Ansichten mit mehr Szenendetails und weniger Artefakten zu synthetisieren. Weitere Videoergebnisse finden Sie auf der Projekthomepage.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

                                                                                                                                                                                            Tabelle 1 Quantitative Ergebnisse auf Verallgemeinerung des DTU-Testsatzes. Tabelle 2: Ergebnisse der quantitativen Verallgemeinerung der Datensätze „Real Forward-Facing“, „NeRF Synthetic“ und „Tanks and Temples“. Tabelle 3 Quantitative Ergebnisse nach Szene-für-Szenario-Optimierung. Abbildung 5 Vergleich der Ergebnisse des Generalisierungsschlusses.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

                                                                   ​ ​ ​ ​ ​ ​ ​ Abbildung 7 Vergleich der Ergebnisse nach szenenweiser Optimierung.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

                                                                                                                                                        verglichen werden.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

FazitIn diesem Artikel haben wir MVSGaussian vorgeschlagen, eine neuartige generalisierbare Gaußsche Sputtermethode zur Szenenrekonstruktion aus mehreren Ansichten. Insbesondere nutzen wir MVS, um über die Geometrie nachzudenken und eine pixelausgerichtete Gaußsche Darstellung zu erstellen. Darüber hinaus schlagen wir eine hybride Gaußsche Rendering-Methode vor, die effizientes tiefenbewusstes Volumen-Rendering kombiniert, um die Generalisierungsfähigkeiten zu verbessern. Zusätzlich zur direkten Verallgemeinerung von Schlussfolgerungen kann unser Modell schnell auf bestimmte Szenarien abgestimmt werden. Um eine schnelle Optimierung zu erreichen, führen wir eine geometriekonsistente Aggregationsstrategie mit mehreren Ansichten ein, um eine qualitativ hochwertige Initialisierung zu ermöglichen. Im Vergleich zu generalisierbarem NeRF, das typischerweise mehrere zehn Minuten Feinabstimmung und Sekunden zum Rendern jedes Bildes erfordert, ermöglicht MVSGaussian ein Echtzeit-Rendering mit höherer Synthesequalität.

Darüber hinaus erzielt MVSGaussian im Vergleich zu 3D-GS bessere Ansichtssyntheseeffekte und reduziert gleichzeitig die Trainingsrechenkosten. Umfangreiche Experimente bestätigen, dass MVSGaussian in Bezug auf Generalisierungsleistung, Echtzeit-Rendering-Geschwindigkeit und schnelle Szene-für-Szene-Optimierung den neuesten Stand der Technik erreicht. Da MVSGaussian jedoch für die Tiefenschätzung auf Multi-View-Stereo (MVS) angewiesen ist, weist es die Einschränkungen von MVS auf, wie z. B. eine verringerte Tiefengenauigkeit in Bereichen mit schwachen Texturen oder Spiegelreflexionen, was zu einer verschlechterten Ansichtsqualität führt. Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Das obige ist der detaillierte Inhalt vonEin effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1673
14
PHP-Tutorial
1278
29
C#-Tutorial
1257
24
Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit. LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit. Jul 15, 2024 pm 03:59 PM

Können Sprachmodelle wirklich zur Zeitreihenvorhersage verwendet werden? Gemäß Betteridges Gesetz der Schlagzeilen (jede Schlagzeile, die mit einem Fragezeichen endet, kann mit „Nein“ beantwortet werden) sollte die Antwort „Nein“ lauten. Die Tatsache scheint wahr zu sein: Ein so leistungsstarkes LLM kann mit Zeitreihendaten nicht gut umgehen. Zeitreihen, also Zeitreihen, beziehen sich, wie der Name schon sagt, auf eine Reihe von Datenpunktsequenzen, die in der Reihenfolge ihres Auftretens angeordnet sind. Die Zeitreihenanalyse ist in vielen Bereichen von entscheidender Bedeutung, einschließlich der Vorhersage der Ausbreitung von Krankheiten, Einzelhandelsanalysen, Gesundheitswesen und Finanzen. Im Bereich der Zeitreihenanalyse haben viele Forscher in letzter Zeit untersucht, wie man mithilfe großer Sprachmodelle (LLM) Anomalien in Zeitreihen klassifizieren, vorhersagen und erkennen kann. Diese Arbeiten gehen davon aus, dass Sprachmodelle, die gut mit sequentiellen Abhängigkeiten in Texten umgehen können, auch auf Zeitreihen verallgemeinert werden können.

Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Jul 17, 2024 am 02:46 AM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Einleitung In den letzten Jahren hat die Anwendung multimodaler großer Sprachmodelle (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Als Grundmodell für viele nachgelagerte Aufgaben besteht aktuelles MLLM jedoch aus dem bekannten Transformer-Netzwerk, das

See all articles