Die AIxiv-Kolumne ist eine Kolumne zur Veröffentlichung akademischer und technischer Inhalte auf dieser Website. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Diese Arbeit wurde vom IEEE Fellow des National Key Laboratory gesponsert of Cognitive Intelligence Abgeschlossen vom Team von Chen Enhong und dem Noah's Ark Laboratory von Huawei. Das Team von Professor Chen Enhong beschäftigt sich intensiv mit den Bereichen Data Mining und maschinelles Lernen und hat zahlreiche Artikel in führenden Fachzeitschriften und Konferenzen veröffentlicht, die mehr als 20.000 Mal zitiert wurden. Das Noah's Ark Laboratory ist das Huawei-Labor, das sich mit Grundlagenforschung zu künstlicher Intelligenz beschäftigt. Es verfolgt das Konzept, theoretische Forschung und Anwendungsinnovation gleichermaßen in den Vordergrund zu stellen, und setzt sich für die Förderung technologischer Innovationen und Entwicklungen im Bereich der künstlichen Intelligenz ein. Auf der 30. ACM-Konferenz zu Knowledge Discovery und Data Mining (KDD2024), die vom 25. bis 29. August in Barcelona, Spanien, stattfand, hielt Professor Chen Enhong vom National Key Laboratory of Cognitive Intelligence der Universität of Science and Technology of China, IEEE Fellow, gewann das gemeinsam mit Huawei Noah veröffentlichte Papier „Dataset Regeneration for Sequential Recommendation“ den einzigen Preis für die beste studentische Arbeit im Research Track der Konferenz 2024. Die ersten Autoren des Papiers sind Professor Chen Enhong und Professor Lian Defu vom National Key Laboratory of Cognitive Intelligence, USTC, sowie der Doktorand Yin Mingjia, der von Wang Haote als assoziierter Forscher Noah Liu Yong und dem Forscher Guo gemeinsam betreut wird Wei war auch an der entsprechenden Arbeit der Arbeit beteiligt. Dies ist das zweite Mal, dass Studenten aus dem Team von Professor Chen Enhong diesen Preis gewonnen haben, seit KDD ihn im Jahr 2004 ins Leben gerufen hat.
- Papier-Link: https://arxiv.org/abs/2405.17795
- Code-Link: https://github.com/USTC -StarTeam/DR4SR
Sequenzempfehlung System (Sequential Recommender, SR) ist ein wichtiger Bestandteil moderner Empfehlungssysteme, da es darauf abzielt, sich ändernde Präferenzen der Benutzer zu erfassen. In den letzten Jahren haben Forscher große Anstrengungen unternommen, um die Fähigkeiten von Sequenzempfehlungssystemen zu verbessern. Diese Methoden folgen in der Regel einem modellzentrierten Paradigma, das darin besteht, effektive Modelle auf der Grundlage fester Datensätze zu entwickeln. Bei diesem Ansatz werden jedoch häufig potenzielle Qualitätsprobleme und Fehler in den Daten übersehen. Um diese Probleme zu lösen, haben akademische Kreise ein datenzentriertes Paradigma vorgeschlagen, das sich auf die Verwendung fester Modelle zur Generierung hochwertiger Datensätze konzentriert. Wir bezeichnen dies als das Problem der „Datensatzrekonstruktion“. Um die besten Trainingsdaten zu erhalten, besteht die Schlüsselidee des Forschungsteams darin, einen neuen Datensatz zu erlernen, der explizit Artikelübertragungsmuster enthält. Konkret unterteilten sie den Modellierungsprozess des Empfehlungssystems in zwei Phasen: Extrahieren von Übertragungsmustern 〈🎜〉 aus dem ursprünglichen Datensatz und Lernen von Benutzerpräferenzen 〈🎜〉 basierend auf 〈🎜〉. Dieser Prozess ist eine Herausforderung, da das Erlernen einer Zuordnung von zwei implizite Zuordnungen umfasst: . Zu diesem Zweck untersuchte das Forschungsteam die Möglichkeit, einen Datensatz zu entwickeln, der die Item-Transfermuster in explizit darstellt, was es uns ermöglicht, den Lernprozess explizit in zwei Phasen zu unterteilen, in denen relativ einfacher zu erlernen ist. Daher liegt ihr Hauptaugenmerk darauf, eine effiziente Zuordnungsfunktion für zu erlernen, bei der es sich um eine Eins-zu-viele-Zuordnung handelt. Das Forschungsteam definiert diesen Lernprozess als das Datensatz-Regenerationsparadigma, wie in Abbildung 1 dargestellt, wobei „Regeneration“ bedeutet, dass keine zusätzlichen Informationen eingeführt werden und sich nur auf den Originaldatensatz verlässt. Abbildung. 1 Das zentrale Paradigma, Dataset Regeneration for Sequence Recommendation (DR4SR) , zielt darauf ab, den ursprünglichen Datensatz in einen informativen und verallgemeinerbaren Datensatz zu rekonstruieren. Konkret erstellte das Forschungsteam zunächst eine Vortrainingsaufgabe, um die Neugenerierung des Datensatzes zu ermöglichen. Als nächstes schlugen sie einen durch Diversität verbesserten Regenerator vor, um Eins-zu-viele-Beziehungen zwischen Sequenzen und Mustern während des Regenerationsprozesses zu modellieren. Schließlich schlagen sie eine hybride Inferenzstrategie vor, um ein Gleichgewicht zwischen Exploration und Nutzung zu finden und so neue Datensätze zu generieren. Der Prozess der Datensatzrekonstruktion ist allgemein, eignet sich jedoch möglicherweise nicht vollständig für ein bestimmtes Zielmodell. Um dieses Problem zu lösen, schlug das Forschungsteam DR4SR+ vor, einen modellbewussten Regenerationsprozess, der den Datensatz entsprechend den Eigenschaften des Zielmodells anpasst. DR4SR+ personalisiert die Bewertung und optimiert die Muster im rekonstruierten Datensatz durch ein zweischichtiges Optimierungsproblem und implizite Differenzierungstechniken, um den Datensatzeffekt zu verbessern.
In dieser Studie schlug das Forschungsteam eine A-Daten- Das zentrale Framework namens „Data Regeneration for Sequence Recommendation“ (DR4SR) zielt darauf ab, den ursprünglichen Datensatz in einen informativen und verallgemeinerbaren Datensatz zu rekonstruieren, wie in Abbildung 2 dargestellt. Da der Datenregenerierungsprozess unabhängig vom Zielmodell ist, erfüllt der regenerierte Datensatz möglicherweise nicht unbedingt die Anforderungen des Zielmodells. Daher erweiterte das Forschungsteam DR4SR zu einer modellbewussten Version, nämlich DR4SR+, um den regenerierten Datensatz an das spezifische Zielmodell anzupassen.
Modellagnostische Datensatzrekonstruktion Abbildung 2. Regenerator um die automatische Neugenerierung von Datensätzen zu erleichtern. Allerdings fehlen im Originaldatensatz Überwachungsinformationen zum Erlernen des Datensatzregenerators. Daher müssen sie dies durch selbstüberwachtes Lernen erreichen. Zu diesem Zweck führen sie eine Vortrainingsaufgabe ein, um das Erlernen des durch Diversität verbesserten Regenerators zu steuern. Nach Abschluss des Vortrainings nutzte das Forschungsteam außerdem eine hybride Inferenzstrategie, um einen neuen Datensatz zu regenerieren.
Aufgabe zur Datenrekonstruktion vor dem Training:
Abbildung 3 Dann ist der Regenerator erforderlich, um in das entsprechende Muster regenerieren zu können. Das Forschungsteam bezeichnet den gesamten Datensatz vor dem Training als
Regenerator, der Vielfalt fördert:
Mit Mithilfe von Vorschulungsaufgaben können Forschungsteams jetzt einen Datensatz-Regenerator vorab trainieren. In diesem Artikel übernehmen sie das Transformer-Modell als Hauptarchitektur des Regenerators, und seine Erzeugungsfähigkeit wurde umfassend überprüft. Der Datensatz-Regenerator besteht aus drei Modulen: einem Encoder zum Erhalten von Sequenzdarstellungen im Originaldatensatz, einem Decoder zum Regenerieren von Mustern und einem Diversity-Enhancement-Modul zum Erfassen von Eins-zu-vielen-Zuordnungsbeziehungen. Als nächstes wird das Forschungsteam diese Module separat vorstellen.
Der Encoder besteht aus mehreren gestapelten Multi-Head-Selbstaufmerksamkeitsschichten (MHSA) und Feed-Forward-Netzwerkschichten (FFN). Der Decoder reproduziert die Muster im Datensatz X' als Eingabe. Das Ziel des Decoders besteht darin, das Muster anhand der vom Encoder erzeugten Sequenzdarstellung zu rekonstruieren. Aus einer Sequenz können jedoch mehrere Muster extrahiert werden . Modus, der während des Trainings zu Herausforderungen führen kann. Um dieses Eins-zu-Viele-Zuordnungsproblem zu lösen, schlug das Forschungsteam außerdem ein Modul zur Diversitätsverbesserung vor. Konkret moduliert das Forschungsteam den Einfluss der Originalsequenz adaptiv, indem es Informationen aus dem Zielmuster in die Dekodierungsphase integriert. Zunächst projizieren sie den vom Encoder generierten Speicher in
verschiedene Vektorräume, also
. Im Idealfall sollten unterschiedliche Zielmuster zu unterschiedlichen Erinnerungen passen. Zu diesem Zweck führten sie auch einen Transformer-Encoder ein, um das Zielmuster zu kodieren und
zu erhalten. Sie komprimierten in einen Wahrscheinlichkeitsvektor:
,
die Wahrscheinlichkeiten der Auswahl des k-ten Speichers sind. Um sicherzustellen, dass jeder Speicherbereich vollständig trainiert ist, führen wir keine harte Auswahl durch, sondern ermitteln den endgültigen Speicher durch eine gewichtete Summe: Letztendlich kann das erworbene Gedächtnis genutzt werden, um den Dekodierungsprozess zu erleichtern und komplexe Eins-zu-viele-Beziehungen zwischen Sequenzen und Mustern effektiv zu erfassen. Modellbewusste DatensatzregenerationAufgrund des vorherigen Regenerationsprozesses und des Zielmodells agnostisch, daher ist der rekonstruierte Datensatz möglicherweise nicht optimal für ein bestimmtes Zielmodell. Daher erweitern sie den modellunabhängigen Datensatzrekonstruktionsprozess zu einem modellbewussten Rekonstruktionsprozess. Zu diesem Zweck führen sie basierend auf dem Datensatzregenerator einen Datensatzpersonalisierer ein, der die Bewertung jeder Datenstichprobe im neu generierten Datensatz auswertet. Anschließend optimierte das Forschungsteam den Datensatzpersonalisierer durch implizite Differenzierung weiter effizient. Datensatz-Personalisierung: Ziel des Forschungsteams ist es, einen Parameter basierend auf dem implementierten Datensatz-Personalisierungstool zu trainieren von MLP, um die Bewertung jeder Datenprobe W für das Zielmodell auszuwerten. Um die Allgemeingültigkeit des Frameworks sicherzustellen, nutzte das Forschungsteam die berechneten Ergebnisse, um die Gewichte der Trainingsverluste anzupassen, was keine zusätzlichen Änderungen am Zielmodell erforderte. Sie beginnen mit der Definition des ursprünglichen Vorhersageverlusts für das nächste Element: Anschließend kann die Trainingsverlustfunktion für den personalisierten Datensatz wie folgt definiert werden: Experimenteller Abschluss
Hauptexperiment
Das Forschungsteam verglich die Leistung jedes Zielmodells mit den Varianten „DR4SR“ und „DR4SR+“, um die Wirksamkeit des vorgeschlagenen Frameworks zu überprüfen. Abbildung 4Aus dem in Abbildung 4 dargestellten Gesamtbild lassen sich folgende Schlussfolgerungen ziehen:
DR4SR ist in der Lage, einen informativen und allgemeingültigen Datensatz zu rekonstruierenUnterschiedliche Zielmodelle bevorzugen unterschiedliche Datensätze
- Rauschunterdrückung ist nur ein Teilbereich des Datenrekonstruktionsproblems
Das obige ist der detaillierte Inhalt vonInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!