Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR-KI-php.cn

Heim

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

王林

Sep 02, 2024 pm 03:07 PM

工程 DR4SR KDD2024

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Die AIxiv-Kolumne ist eine Kolumne zur Veröffentlichung akademischer und technischer Inhalte auf dieser Website. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Diese Arbeit wurde vom IEEE Fellow des National Key Laboratory gesponsert of Cognitive Intelligence Abgeschlossen vom Team von Chen Enhong und dem Noah's Ark Laboratory von Huawei. Das Team von Professor Chen Enhong beschäftigt sich intensiv mit den Bereichen Data Mining und maschinelles Lernen und hat zahlreiche Artikel in führenden Fachzeitschriften und Konferenzen veröffentlicht, die mehr als 20.000 Mal zitiert wurden. Das Noah's Ark Laboratory ist das Huawei-Labor, das sich mit Grundlagenforschung zu künstlicher Intelligenz beschäftigt. Es verfolgt das Konzept, theoretische Forschung und Anwendungsinnovation gleichermaßen in den Vordergrund zu stellen, und setzt sich für die Förderung technologischer Innovationen und Entwicklungen im Bereich der künstlichen Intelligenz ein.

Auf der 30. ACM-Konferenz zu Knowledge Discovery und Data Mining (KDD2024), die vom 25. bis 29. August in Barcelona, Spanien, stattfand, hielt Professor Chen Enhong vom National Key Laboratory of Cognitive Intelligence der Universität of Science and Technology of China, IEEE Fellow, gewann das gemeinsam mit Huawei Noah veröffentlichte Papier „Dataset Regeneration for Sequential Recommendation“ den einzigen Preis für die beste studentische Arbeit im Research Track der Konferenz 2024. Die ersten Autoren des Papiers sind Professor Chen Enhong und Professor Lian Defu vom National Key Laboratory of Cognitive Intelligence, USTC, sowie der Doktorand Yin Mingjia, der von Wang Haote als assoziierter Forscher Noah Liu Yong und dem Forscher Guo gemeinsam betreut wird Wei war auch an der entsprechenden Arbeit der Arbeit beteiligt. Dies ist das zweite Mal, dass Studenten aus dem Team von Professor Chen Enhong diesen Preis gewonnen haben, seit KDD ihn im Jahr 2004 ins Leben gerufen hat.

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Papier-Link: https://arxiv.org/abs/2405.17795
Code-Link: https://github.com/USTC -StarTeam/DR4SR

Forschungsmotivation

Sequenzempfehlung System (Sequential Recommender, SR) ist ein wichtiger Bestandteil moderner Empfehlungssysteme, da es darauf abzielt, sich ändernde Präferenzen der Benutzer zu erfassen. In den letzten Jahren haben Forscher große Anstrengungen unternommen, um die Fähigkeiten von Sequenzempfehlungssystemen zu verbessern. Diese Methoden folgen in der Regel einem modellzentrierten Paradigma, das darin besteht, effektive Modelle auf der Grundlage fester Datensätze zu entwickeln. Bei diesem Ansatz werden jedoch häufig potenzielle Qualitätsprobleme und Fehler in den Daten übersehen. Um diese Probleme zu lösen, haben akademische Kreise ein datenzentriertes Paradigma vorgeschlagen, das sich auf die Verwendung fester Modelle zur Generierung hochwertiger Datensätze konzentriert. Wir bezeichnen dies als das Problem der „Datensatzrekonstruktion“.

Um die besten Trainingsdaten zu erhalten, besteht die Schlüsselidee des Forschungsteams darin, einen neuen Datensatz zu erlernen, der explizit Artikelübertragungsmuster enthält. Konkret unterteilten sie den Modellierungsprozess des Empfehlungssystems in zwei Phasen: Extrahieren von Übertragungsmustern 〈🎜〉 aus dem ursprünglichen Datensatz und Lernen von Benutzerpräferenzen 〈🎜〉 basierend auf 〈🎜〉. Dieser Prozess ist eine Herausforderung, da das Erlernen einer Zuordnung von Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

zwei implizite Zuordnungen umfasst: Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

. Zu diesem Zweck untersuchte das Forschungsteam die Möglichkeit, einen Datensatz zu entwickeln, der die Item-Transfermuster in Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

explizit darstellt, was es uns ermöglicht, den Lernprozess explizit in zwei Phasen zu unterteilen, in denen Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

relativ einfacher zu erlernen ist. Daher liegt ihr Hauptaugenmerk darauf, eine effiziente Zuordnungsfunktion für Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

zu erlernen, bei der es sich um eine Eins-zu-viele-Zuordnung handelt. Das Forschungsteam definiert diesen Lernprozess als das Datensatz-Regenerationsparadigma, wie in Abbildung 1 dargestellt, wobei „Regeneration“ bedeutet, dass keine zusätzlichen Informationen eingeführt werden und sich nur auf den Originaldatensatz verlässt. Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

^{Abbildung. 1 Das zentrale Paradigma, Dataset Regeneration for Sequence Recommendation (DR4SR)}, zielt darauf ab, den ursprünglichen Datensatz in einen informativen und verallgemeinerbaren Datensatz zu rekonstruieren. Konkret erstellte das Forschungsteam zunächst eine Vortrainingsaufgabe, um die Neugenerierung des Datensatzes zu ermöglichen. Als nächstes schlugen sie einen durch Diversität verbesserten Regenerator vor, um Eins-zu-viele-Beziehungen zwischen Sequenzen und Mustern während des Regenerationsprozesses zu modellieren. Schließlich schlagen sie eine hybride Inferenzstrategie vor, um ein Gleichgewicht zwischen Exploration und Nutzung zu finden und so neue Datensätze zu generieren.

Der Prozess der Datensatzrekonstruktion ist allgemein, eignet sich jedoch möglicherweise nicht vollständig für ein bestimmtes Zielmodell. Um dieses Problem zu lösen, schlug das Forschungsteam DR4SR+ vor, einen modellbewussten Regenerationsprozess, der den Datensatz entsprechend den Eigenschaften des Zielmodells anpasst. DR4SR+ personalisiert die Bewertung und optimiert die Muster im rekonstruierten Datensatz durch ein zweischichtiges Optimierungsproblem und implizite Differenzierungstechniken, um den Datensatzeffekt zu verbessern.

Forschungsmethoden

In dieser Studie schlug das Forschungsteam eine A-Daten- Das zentrale Framework namens „Data Regeneration for Sequence Recommendation“ (DR4SR) zielt darauf ab, den ursprünglichen Datensatz in einen informativen und verallgemeinerbaren Datensatz zu rekonstruieren, wie in Abbildung 2 dargestellt. Da der Datenregenerierungsprozess unabhängig vom Zielmodell ist, erfüllt der regenerierte Datensatz möglicherweise nicht unbedingt die Anforderungen des Zielmodells. Daher erweiterte das Forschungsteam DR4SR zu einer modellbewussten Version, nämlich DR4SR+, um den regenerierten Datensatz an das spezifische Zielmodell anzupassen.

Modellagnostische Datensatzrekonstruktion

Abbildung 2. Regenerator um die automatische Neugenerierung von Datensätzen zu erleichtern. Allerdings fehlen im Originaldatensatz Überwachungsinformationen zum Erlernen des Datensatzregenerators. Daher müssen sie dies durch selbstüberwachtes Lernen erreichen. Zu diesem Zweck führen sie eine Vortrainingsaufgabe ein, um das Erlernen des durch Diversität verbesserten Regenerators zu steuern. Nach Abschluss des Vortrainings nutzte das Forschungsteam außerdem eine hybride Inferenzstrategie, um einen neuen Datensatz zu regenerieren.

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Aufgabe zur Datenrekonstruktion vor dem Training:‍

^{Abbildung 3 Dann ist der Regenerator} erforderlich, um in das entsprechende Muster

regenerieren zu können. Das Forschungsteam bezeichnet den gesamten Datensatz vor dem Training als

Regenerator, der Vielfalt fördert: Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Mit Mithilfe von Vorschulungsaufgaben können Forschungsteams jetzt einen Datensatz-Regenerator vorab trainieren. In diesem Artikel übernehmen sie das Transformer-Modell als Hauptarchitektur des Regenerators, und seine Erzeugungsfähigkeit wurde umfassend überprüft. Der Datensatz-Regenerator besteht aus drei Modulen: einem Encoder zum Erhalten von Sequenzdarstellungen im Originaldatensatz, einem Decoder zum Regenerieren von Mustern und einem Diversity-Enhancement-Modul zum Erfassen von Eins-zu-vielen-Zuordnungsbeziehungen. Als nächstes wird das Forschungsteam diese Module separat vorstellen.

Der Encoder besteht aus mehreren gestapelten Multi-Head-Selbstaufmerksamkeitsschichten (MHSA) und Feed-Forward-Netzwerkschichten (FFN). Der Decoder reproduziert die Muster im Datensatz X' als Eingabe. Das Ziel des Decoders besteht darin, das Muster

anhand der vom Encoder erzeugten Sequenzdarstellung zu rekonstruieren. Aus einer Sequenz können jedoch mehrere Muster extrahiert werden . Modus, der während des Trainings zu Herausforderungen führen kann. Um dieses Eins-zu-Viele-Zuordnungsproblem zu lösen, schlug das Forschungsteam außerdem ein Modul zur Diversitätsverbesserung vor.

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Konkret moduliert das Forschungsteam den Einfluss der Originalsequenz adaptiv, indem es Informationen aus dem Zielmuster in die Dekodierungsphase integriert. Zunächst projizieren sie den vom Encoder generierten Speicher

verschiedene Vektorräume, also

. Im Idealfall sollten unterschiedliche Zielmuster zu unterschiedlichen Erinnerungen passen. Zu diesem Zweck führten sie auch einen Transformer-Encoder ein, um das Zielmuster zu kodieren und
zu erhalten. Sie komprimierten

in einen Wahrscheinlichkeitsvektor:

wobei

die Wahrscheinlichkeiten der Auswahl des k-ten Speichers sind. Um sicherzustellen, dass jeder Speicherbereich vollständig trainiert ist, führen wir keine harte Auswahl durch, sondern ermitteln den endgültigen Speicher durch eine gewichtete Summe:

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Letztendlich kann das erworbene Gedächtnis genutzt werden, um den Dekodierungsprozess zu erleichtern und komplexe Eins-zu-viele-Beziehungen zwischen Sequenzen und Mustern effektiv zu erfassen.

Modellbewusste Datensatzregeneration

Aufgrund des vorherigen Regenerationsprozesses und des Zielmodells agnostisch, daher ist der rekonstruierte Datensatz möglicherweise nicht optimal für ein bestimmtes Zielmodell. Daher erweitern sie den modellunabhängigen Datensatzrekonstruktionsprozess zu einem modellbewussten Rekonstruktionsprozess. Zu diesem Zweck führen sie basierend auf dem Datensatzregenerator einen Datensatzpersonalisierer ein, der die Bewertung jeder Datenstichprobe im neu generierten Datensatz auswertet. Anschließend optimierte das Forschungsteam den Datensatzpersonalisierer durch implizite Differenzierung weiter effizient.

Datensatz-Personalisierung:

Ziel des Forschungsteams ist es, einen Parameter basierend auf dem implementierten Datensatz-Personalisierungstool zu trainieren von MLP, um die Bewertung jeder Datenprobe Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

für das Zielmodell auszuwerten. Um die Allgemeingültigkeit des Frameworks sicherzustellen, nutzte das Forschungsteam die berechneten Ergebnisse, um die Gewichte der Trainingsverluste anzupassen, was keine zusätzlichen Änderungen am Zielmodell erforderte. Sie beginnen mit der Definition des ursprünglichen Vorhersageverlusts für das nächste Element:

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Anschließend kann die Trainingsverlustfunktion für den personalisierten Datensatz wie folgt definiert werden:

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Experimenteller Abschluss

Hauptexperiment

Das Forschungsteam verglich die Leistung jedes Zielmodells mit den Varianten „DR4SR“ und „DR4SR+“, um die Wirksamkeit des vorgeschlagenen Frameworks zu überprüfen. Abbildung 4

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Aus dem in Abbildung 4 dargestellten Gesamtbild lassen sich folgende Schlussfolgerungen ziehen:

DR4SR ist in der Lage, einen informativen und allgemeingültigen Datensatz zu rekonstruieren

Unterschiedliche Zielmodelle bevorzugen unterschiedliche Datensätze

Rauschunterdrückung ist nur ein Teilbereich des Datenrekonstruktionsproblems

Das obige ist der detaillierte Inhalt vonInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vor By DDD

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Fusionssystem, erklärt

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1667

CakePHP-Tutorial

1426

Laravel-Tutorial

1328

PHP-Tutorial

1273

C#-Tutorial

1255

Related knowledge

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit. Jul 15, 2024 pm 03:59 PM

Können Sprachmodelle wirklich zur Zeitreihenvorhersage verwendet werden? Gemäß Betteridges Gesetz der Schlagzeilen (jede Schlagzeile, die mit einem Fragezeichen endet, kann mit „Nein“ beantwortet werden) sollte die Antwort „Nein“ lauten. Die Tatsache scheint wahr zu sein: Ein so leistungsstarkes LLM kann mit Zeitreihendaten nicht gut umgehen. Zeitreihen, also Zeitreihen, beziehen sich, wie der Name schon sagt, auf eine Reihe von Datenpunktsequenzen, die in der Reihenfolge ihres Auftretens angeordnet sind. Die Zeitreihenanalyse ist in vielen Bereichen von entscheidender Bedeutung, einschließlich der Vorhersage der Ausbreitung von Krankheiten, Einzelhandelsanalysen, Gesundheitswesen und Finanzen. Im Bereich der Zeitreihenanalyse haben viele Forscher in letzter Zeit untersucht, wie man mithilfe großer Sprachmodelle (LLM) Anomalien in Zeitreihen klassifizieren, vorhersagen und erkennen kann. Diese Arbeiten gehen davon aus, dass Sprachmodelle, die gut mit sequentiellen Abhängigkeiten in Texten umgehen können, auch auf Zeitreihen verallgemeinert werden können.

Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Jul 17, 2024 am 02:46 AM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Einleitung In den letzten Jahren hat die Anwendung multimodaler großer Sprachmodelle (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Als Grundmodell für viele nachgelagerte Aufgaben besteht aktuelles MLLM jedoch aus dem bekannten Transformer-Netzwerk, das

See all articles