Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell-KI-php.cn

Inhaltsverzeichnis

Heim

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 01, 2024 pm 04:41 PM

模型训练

Um große Sprachmodelle (LLMs) mit menschlichen Werten und Absichten in Einklang zu bringen, ist es entscheidend, menschliches Feedback zu lernen, um sicherzustellen, dass sie nützlich, ehrlich und harmlos sind. Im Hinblick auf die Ausrichtung von LLMs ist Reinforcement Learning basierend auf menschlichem Feedback (RLHF) ein effektiver Ansatz. Obwohl die Ergebnisse der RLHF-Methode ausgezeichnet sind, gibt es einige Herausforderungen bei der Optimierung. Dazu gehört das Training eines Belohnungsmodells und die anschließende Optimierung eines Richtlinienmodells, um diese Belohnung zu maximieren.

Einige Forscher haben kürzlich einfachere Offline-Algorithmen untersucht, darunter die direkte Präferenzoptimierung (DPO). DPO erlernt ein Richtlinienmodell direkt auf der Grundlage von Präferenzdaten, indem es die Belohnungsfunktion in RLHF parametrisiert, wodurch die Notwendigkeit eines expliziten Belohnungsmodells entfällt. Diese Methode ist einfach und stabil und hat in der Praxis breite Anwendung gefunden.

Bei der Verwendung von DPO besteht die Möglichkeit, implizite Belohnungen zu erhalten, darin, den Logarithmus des Antwortwahrscheinlichkeitsverhältnisses zwischen dem aktuellen Richtlinienmodell und dem überwachten Feinabstimmungsmodell (SFT) zu verwenden. Diese Art der Strukturierung der Belohnung stimmt jedoch nicht direkt mit der vom Bootstrap generierten Metrik überein, die ungefähr dem mittleren Logarithmus der vom Richtlinienmodell generierten Antwort entspricht. Dieser Unterschied zwischen Training und Inferenz kann zu einer schlechten Leistung führen.

Zu diesem Zweck schlugen Meng Rui, Assistenzprofessorin an der University of Virginia, Xia Mengzhou, Doktorandin an der Princeton University, und Chen Danqi, Assistenzprofessorin, gemeinsam SimPO vor – einen einfachen und effektiven Algorithmus zur Offline-Präferenzoptimierung . Der Entwurf von SimPO basiert auf der Modellierung des Optimierungsproblems als Minimierungsproblem einer kontinuierlichen Black-Box-Funktion. Durch kontinuierliche Iteration ist SimPO in der Lage, die beste Optimierungsstrategie zu finden und eine effiziente Konvergenz zu erreichen. Im Vergleich zu herkömmlichen Optimierungsalgorithmen

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Papiertitel: SimPO: Simple Preference Optimization with a Reference-Free Reward
Papieradresse: https://arxiv.org /pdf /2405.14734
Code & Modell: https://github.com/princeton-nlp/SimPO

Der Kern des Algorithmus besteht darin, die Belohnungsfunktion im Präferenzoptimierungsziel mit zu kombinieren die Ausrichtung der Generationsindikatoren. SimPO besteht aus zwei Hauptkomponenten: (1) einer in der Länge normalisierten Belohnung, berechnet als durchschnittliche logarithmische Wahrscheinlichkeit aller Token in der Belohnung unter Verwendung des Richtlinienmodells (2) einer Ziel-Belohnungsdifferenz, um Gewinne und Verluste sicherzustellen. Die Belohnungsdifferenz zwischen den Antworten übersteigt diesen Unterschied.

Zusammenfassend weist SimPO die folgenden Eigenschaften auf:

Einfach: SimPO erfordert kein Referenzmodell und ist daher leichter und einfacher zu implementieren als andere Methoden wie DPO, die auf Referenzmodellen basieren.
Offensichtliche Leistungsvorteile: Obwohl SimPO einfach ist, ist seine Leistung deutlich besser als DPO und seine neuesten Varianten (wie das aktuelle referenzfreie Ziel ORPO). Wie in Abbildung 1 dargestellt. Und SimPO bietet stabile Vorteile über verschiedene Trainingseinstellungen und mehrere Befehlscompliance-Benchmarks hinweg (einschließlich AlpacaEval 2 und dem schwierigen Arena-Hard-Benchmark).
Minimale Längenausnutzung: Im Vergleich zu SFT- oder DPO-Modellen erhöht SimPO die Antwortlänge nicht wesentlich (siehe Tabelle 1), was bedeutet, dass seine Längenausnutzung minimal ist.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Das Team führte eine umfangreiche Analyse durch und die Ergebnisse zeigten, dass SimPO Präferenzdaten effektiver nutzen kann, um die Wahrscheinlichkeit von Antworten mit hoher und niedriger Qualität im Validierungssatz genauer einzustufen, was eine bessere Strategie ermöglicht Modelle.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Wie in Tabelle 1 gezeigt, baute das Team ein Modell mit Spitzenleistung auf Basis von Llama3-8B-instruct, das auf AlpacaEval 2 eine längenkontrollierte Gewinnrate von 44,7 erreichte und damit die Bestenliste Claude 3 Opus übertraf; Darüber hinaus beträgt seine Win-Rate auf Arena-Hard 33,8, was es zum derzeit leistungsstärksten 8B-Open-Source-Modell macht.

SimPO: Einfache Präferenzoptimierung

Um das Verständnis zu erleichtern, wird im Folgenden zunächst der Hintergrund von DPO vorgestellt, dann der Unterschied zwischen der Belohnung von DPO und dem für die Generierung verwendeten Wahrscheinlichkeitsmaß erläutert und ein referenzfreies Verfahren vorgeschlagen alternative Belohnungsformel, um dieses Problem zu lindern. Schließlich wird das SimPO-Ziel abgeleitet, indem der Ziel-Belohnungsmargen-Term in das Bradley-Terry-Modell integriert wird.

Hintergrund: Direct Preference Optimization (DPO)

DPO ist eine der am häufigsten verwendeten Methoden zur Offline-Präferenzoptimierung. DPO lernt kein explizites Belohnungsmodell, sondern verwendet einen geschlossenen Ausdruck mit einer optimalen Richtlinie, um die Belohnungsfunktion r neu zu parametrisieren:

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

wobei π_θ das Richtlinienmodell und π_ref die Referenz ist Richtlinie (normalerweise das SFT-Modell) und Z (x) ist die Partitionsfunktion. Durch die Integration dieser Art der Belohnungsbildung in das Ranking-Ziel von Bradley-Terry (BT), Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell , kann DPO ein Richtlinienmodell anstelle eines Belohnungsmodells verwenden, um die Wahrscheinlichkeit der Bevorzugung von Daten darzustellen, was zu folgendem Ziel führt:

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

wobei (x, y_w, y_l) das Präferenzpaar bestehend aus Prompt, gewinnender Antwort und verlierender Antwort aus dem Präferenzdatensatz D ist.

Eine einfache, referenzfreie Belohnung, abgestimmt auf die generierten Ergebnisse

Der Unterschied zwischen den Belohnungen des DPO und den generierten. Die Verwendung von Gleichung (1) als impliziter Belohnungsausdruck hat die folgenden Nachteile: (1) Die Trainingsphase erfordert ein Referenzmodell π_ref, was zusätzliche Speicher- und Rechenkosten mit sich bringt. (2) Die in der Trainingsphase optimierte Belohnung und die verwendete Generation zur Schlussfolgerung Es gibt Unterschiede zwischen den Indikatoren. Insbesondere wird in der Generierungsphase das Richtlinienmodell π_θ verwendet, um eine Sequenz zu generieren, die die durchschnittliche Log-Likelihood annähernd maximieren kann, die wie folgt definiert ist:

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Es ist sehr schwierig, diesen Indikator während der Dekodierung direkt zu maximieren Für diesen Prozess können verschiedene Dekodierungsstrategien verwendet werden, wie zum Beispiel Greedy Decoding, Beam Search, Kernel Sampling und Top-K Sampling. Darüber hinaus wird diese Metrik häufig zur Einstufung von Optionen verwendet, wenn Sprachmodelle Mehrfachauswahlaufgaben ausführen. In DPO bedeutet das Erfüllen des Belohnungsrankings r (x, y_w) > r (x, y_l) für jedes Triplett (x, y_w, y_l) nicht unbedingt das Erfüllen des Wahrscheinlichkeitsrankings Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell . Tatsächlich erfüllen beim Training mit DPO nur etwa 50 % der Triples im Holdout-Set diese Bedingung (siehe Abbildung 4b).

Construct-Belohnungen in der Länge normalisiert. Natürlich würden wir erwägen, p_θ in (3) zu verwenden, um die Belohnungskonstruktion in DPO zu ersetzen, damit sie mit der vom Bootstrap generierten Wahrscheinlichkeitsmetrik übereinstimmt. Dies führt zu einer in der Länge normalisierten Belohnung:

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

wobei β eine Konstante ist, die die Größe der Belohnungsdifferenz steuert. Das Team stellte fest, dass die Normalisierung von Belohnungen auf der Grundlage der Antwortlänge von entscheidender Bedeutung ist; die Entfernung des Längennormalisierungsterms aus der Belohnungsformel führte dazu, dass das Modell tendenziell längere, aber qualitativ schlechtere Sequenzen generierte. Dadurch entfällt die Notwendigkeit eines Referenzmodells beim Erstellen von Belohnungen, was zu einem höheren Speicher und einer höheren Recheneffizienz führt als Algorithmen, die auf Referenzmodellen basieren.

SimPO Target

Target Reward Difference. Darüber hinaus führte das Team einen Ziel-Belohnungsdifferenzterm γ > 0 für das Bradley-Terry-Ziel ein, um sicherzustellen, dass die Belohnung r (x, y_w) der erfolgreichen Antwort die Belohnung r (x, y_l) der fehlgeschlagenen Antwort übersteigt um mindestens γ:

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Der Unterschied zwischen zwei Klassen beeinflusst bekanntermaßen die Generalisierungsfähigkeit des Klassifikators. In Standard-Trainingseinstellungen mit zufälliger Modellinitialisierung verbessert die Erhöhung der Zielspanne normalerweise die Generalisierungsleistung. Bei der Präferenzoptimierung gewinnen oder verlieren diese beiden Kategorien Antworten auf eine einzelne Eingabe.

In der Praxis beobachtete das Team, dass sich mit zunehmender Ziellücke zunächst die Generierungsqualität verbessert, wenn die Lücke jedoch zu groß wird, sinkt die Generierungsqualität. Eine Variante des DPO, der IPO, baut ebenfalls eine Zielprämienmarge ähnlich wie SimPO auf, sein Gesamtziel ist jedoch weniger effektiv als SimPO.

Ziele. Schließlich kann durch Einsetzen von Gleichung (4) in Gleichung (5) das SimPO-Ziel erhalten werden: Bedarf an Referenzmodellanforderungen. Darüber hinaus wird eine Zielbelohnungsdifferenz γ eingeführt, um Gewinn- und Verliererreaktionen zu trennen.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell Versuchsaufbau

Modell- und Trainingsaufbau. Die Experimente des Teams verwendeten zwei Modelltypen, Llama3-8B und Mistral-7B, sowohl in der Basis- als auch in der Instruct-Einstellung.

Bewertungsbenchmark. Das Team verwendete drei der am häufigsten verwendeten offenen Compliance-Benchmarks: MT-Bench, AlpacaEval 2 und Arena-Hard v0.1. Diese Benchmarks bewerten die vielfältigen Konversationsfähigkeiten eines Modells bei verschiedenen Abfragen und wurden von der Community weitgehend übernommen. Tabelle 2 enthält einige Details.

Baseline-Methode. Tabelle 3 listet andere Methoden zur Offline-Präferenzoptimierung im Vergleich zu SimPO auf.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Experimentelle Ergebnisse

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Hauptergebnisse und Ablationsstudien

SimPO schneidet immer deutlich besser ab als bisher existierende Präferenzoptimierungsmethoden. Wie in Tabelle 4 gezeigt, erzielen alle Präferenzoptimierungsalgorithmen zwar eine bessere Leistung als das SFT-Modell, einfaches SimPO erzielt jedoch bei allen Benchmarks und Einstellungen die beste Leistung. Ein so großer Vorsprung auf ganzer Linie zeigt die Robustheit und Wirksamkeit von SimPO.

Benchmark-Qualität variiert. Es ist zu beobachten, dass die Siegesrate bei Arena-Hard deutlich niedriger ist als die Siegesrate bei AlpacaEval 2, was darauf hindeutet, dass Arena-Hard ein schwierigerer Benchmark ist.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell Instruct-Einstellungen bringen erhebliche Leistungssteigerungen. Wie man sehen kann, übertrifft das Instruct-Setup das Base-Setup in allen Benchmarks auf ganzer Linie. Dies kann auf die Verwendung qualitativ hochwertigerer SFT-Modelle zur Initialisierung durch diese Modelle und auf die höhere Qualität der von diesen Modellen generierten Präferenzdaten zurückzuführen sein.

Zwei Schlüsseldesigns von SimPO sind wichtig. Tabelle 5 zeigt die Ergebnisse von Ablationsexperimenten für jedes Schlüsseldesign von SimPO. (1) Entfernen Sie die Längennormalisierung in (4) (d. h. ohne LN); (2) Setzen Sie die Zielbelohnungsdifferenz in (6) auf 0 (d. h. γ = 0).

Das Entfernen der Längennormalisierung hat den größten Einfluss auf die Ergebnisse. Die Untersuchungen des Teams ergaben, dass dies dazu führte, dass das Modell lange und sich wiederholende Muster erzeugte, was die Gesamtqualität der Ausgabe erheblich beeinträchtigte. Das Setzen von γ auf 0 führt auch zu einer Leistungsverschlechterung von SimPO, was darauf hindeutet, dass 0 nicht die optimale Zielbelohnungsspanne ist.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Eine ausführlichere Analyse dieser beiden Designoptionen finden Sie im Originalpapier.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Eingehender Vergleich von DPO und SimPO

Abschließend verglich das Team DPO und SimPO auch umfassend aus vier Perspektiven: (1) Wahrscheinlichkeits-Längen-Korrelation, (2) Belohnungskonstruktion, (3 ) Belohnungsgenauigkeit, (4) algorithmische Effizienz. Die Ergebnisse zeigen, dass SimPO DPO in Bezug auf Genauigkeit und Effizienz übertrifft.

DPO-Belohnungen fördern implizit die Längennormalisierung.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Obwohl dem DPO-Belohnungsausdruck Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell (ohne die Partitionsfunktion) ein expliziter Begriff für die Längennormalisierung fehlt, kann das Protokollverhältnis zwischen dem Richtlinienmodell und dem Referenzmodell implizit zum Ausgleich der Längenverzerrung beitragen. Wie in Tabelle 6 und Abbildung 4a gezeigt, verringert die Verwendung von DPO den Spearman-Korrelationskoeffizienten zwischen der durchschnittlichen Log-Likelihood und der Antwortlänge im Vergleich zur Methode ohne Längennormalisierung (bezeichnet als SimPO ohne LN). Allerdings zeigt es im Vergleich zu SimPO immer noch eine stärkere positive Korrelation.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

DPO-Belohnung entspricht nicht der generierten Wahrscheinlichkeit.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Es gibt einen Unterschied zwischen der Belohnung des DPO und der durchschnittlichen Log-Likelihood-Metrik, die sich direkt auf die Generierung auswirkt. Wie in Abbildung 4b dargestellt, haben im Beispiel des UltraFeedback-Trainingssatzes, bei dem Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell , fast die Hälfte der Datenpaare . Im Gegensatz dazu verwendet SimPO direkt die durchschnittliche Log-Likelihood (skaliert mit β) als Belohnungsausdruck, wodurch der Unterschied vollständig beseitigt wird.

DPO ist in Bezug auf die Belohnungsgenauigkeit nicht so gut wie SimPO.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Abbildung 4c vergleicht die Belohnungsgenauigkeit von SimPO und DPO und bewertet, wie gut ihre endgültig erlernten Belohnungen mit den Präferenzbezeichnungen auf dem Holdout-Set übereinstimmen. Es ist zu beobachten, dass die Belohnungsgenauigkeit von SimPO höher ist als die von DPO, was darauf hindeutet, dass das Belohnungsdesign von SimPO dazu beiträgt, eine effektivere Generalisierung und eine höhere Qualitätsgenerierung zu erreichen.

SimPO ist speichereffizienter und recheneffizienter als DPO.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Ein weiterer großer Vorteil von SimPO ist die Effizienz, schließlich wird kein Referenzmodell verwendet. Abbildung 4d zeigt die Gesamtlaufzeit und Spitzenspeichernutzung pro GPU für SimPO und DPO bei Verwendung des Llama3-Base-Setups auf einer 8×H100-GPU. SimPO reduziert die Laufzeit um etwa 20 % und die GPU-Speichernutzung um etwa 10 % im Vergleich zur ursprünglichen DPO-Implementierung, dank der Eliminierung von Vorwärtsdurchläufen beim Referenzmodell.

Für weitere Details lesen Sie bitte den Originalartikel.

Das obige ist der detaillierte Inhalt vonÜbertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055523 in Windows 11 nicht installieren?

4 Wochen vor By DDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

2 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1663

CakePHP-Tutorial

1420

Laravel-Tutorial

1313

PHP-Tutorial

1266

C#-Tutorial

1239

Related knowledge

Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Apr 03, 2024 pm 12:04 PM

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

$Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24)$ Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen

Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Jun 11, 2024 am 09:51 AM

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt? Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt. Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen. Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos von bis zu 2 Minuten mit 30 Bildern pro Sekunde, mit Auflösungen von bis zu 1080p und unterstützt mehrere Seitenverhältnisse. Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine vom Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, gestartet wurde. Darüber hinaus liegt das Hauptaugenmerk darauf, pragmatisch zu sein, keine Blankoschecks auszustellen und sofort nach der Veröffentlichung online zu gehen. Das große Modell von Ke Ling wurde bereits in Kuaiying veröffentlicht.

See all articles