Üben und denken Sie über die domänenübergreifende Schätzung und Fusion von Baidu-Videoempfehlungen mit mehreren Zielen nach-KI-php.cn

1. Einführung in den Baidu-Videohintergrund interaktives Formular; Andererseits haben wir basierend auf dem einheitlichen großen Modell von Baidu die Daten- und Empfehlungserfahrung in allen Szenarien integriert. Die Vereinheitlichung von Interaktion und Daten kann eine bessere ökologische Win-Win-Situation erzielen und die langfristige Entwicklung von Baidu Video fördern.

Üben und denken Sie über die domänenübergreifende Schätzung und Fusion von Baidu-Videoempfehlungen mit mehreren Zielen nach

Um die Videokonsumgewohnheiten der Benutzer besser zu pflegen, haben wir außerdem einen Eingang auf der ersten Ebene für den Videokonsum erstellt (Eingang in der unteren Navigationsleiste). Wenn Sie interessiert sind, können Sie die Baidu-App herunterladen. Wenn Sie gute Vorschläge oder schlechte Fälle haben, können Sie uns jederzeit Feedback geben.

2. Suche + Push-Dual-Engines, um die Benutzeranforderungen zu erfüllen

Üben und denken Sie über die domänenübergreifende Schätzung und Fusion von Baidu-Videoempfehlungen mit mehreren Zielen nach

Es ist erwähnenswert, dass Baidu als Suchmaschine begann und die Suchnutzungsrate extrem hoch ist In Empfehlungsszenarien werden Daten verwendet, um Benutzeranforderungen durch die beiden Engines „Suche + Push“ zu erfüllen. Bei der Suche geht es hauptsächlich um „Personen, die nach Inhalten suchen“, Benutzer geben ihre Bedürfnisse klar ein, während es sich bei Empfehlungen um „Inhalte, die nach Personen suchen“ handelt. Auch die domänenübergreifende Integration von Suchsignalen und Empfehlungssignalen zur besseren Integration von Empfehlung und Suche ist einer der Vorteile von Baidu. 2. Überblick über das Empfehlungssystem Empfehlung Technologie ist es notwendig, kurz die Probleme vorzustellen, die durch die empfohlene Technologie gelöst werden sollen. Die empfohlene Plattform hat drei Player:

Benutzer: Entdecken Sie hier die Welt und entdecken Sie neue Wahrnehmungen.

Ersteller: Die Grundlage für Plattformempfehlungen und die Bereitstellung von Inhalten für die Plattform; die Plattform bietet ihnen einen breiten Raum, um ihre unbegrenzte Inspiration und Kreativität zu inspirieren.

Werbetreibende: Unterstützen Sie das Überleben der Plattform finanziell. Die meisten Plattformen leben von der Werbung.

Üben und denken Sie über die domänenübergreifende Schätzung und Fusion von Baidu-Videoempfehlungen mit mehreren Zielen nach

Die Empfehlungsplattform hofft, einen positiven Kreislauf aus Produktion, Konsum und Einkommen zu erreichen. Als Kernkomponente der Plattform löst das Empfehlungssystem hauptsächlich zwei Probleme:

Mechanismus zur Inhaltsauswahl für das Überleben the fittest (B-Seite): So erreichen Sie eine stärkere Verbreitung hochwertiger Inhalte und binden hochwertige Ersteller.

Üben und denken Sie über die domänenübergreifende Schätzung und Fusion von Baidu-Videoempfehlungen mit mehreren Zielen nach

Ultimatives Benutzererlebnis (C-Seite): Nur wenn Benutzeranforderungen erfüllt werden, kann eine kontinuierliche Verbesserung der Skalierung gefördert werden.

Beim Entwerfen von Zielen müssen wir die beiden Aufgaben des Empfehlungssystems umfassend berücksichtigen2. Überblick über das Empfehlungssystem
Der folgende Inhalt konzentriert sich hauptsächlich auf die Verschmelzung von genau angeordnetem Zieldesign und Modellen

3. Zunächst möchten wir Multi-Ziel-Design und -Modellierung vorstellen. objektive Designanwendung in Videoempfehlung
1. Gedanken zum Zieldesign

Überlegen Sie bitte zunächst, wie das Ziel des Empfehlungssystems im immersiven Videoszenario gestaltet werden soll.

In herkömmlichen Empfehlungssystemen konsumieren Nutzer Ressourcen, indem sie auf Inhalte oder Videos klicken und so ihre Präferenz für die Ressource deutlich zum Ausdruck bringen. Daher ist das Klickverhalten in herkömmlichen Empfehlungsszenarien ein sehr wichtiges Signal und eine klare und einfache Feedbackmethode. In immersiven Szenarien werden Benutzerpräferenzen aufgrund des Mangels an klarem Feedback jedoch häufig durch „versteckte“ Verhaltensweisen ausgedrückt. Zu diesem Zeitpunkt wird die Betrachtungszeit zu einem äußerst wichtigen Signal in immersiven Empfehlungsszenarien Das Obige Zusätzlich zur Verbrauchszeit muss auch das Verhalten der Benutzer berücksichtigt werden, die das System aktiv verlassen, z. B. Folgen, Kommentieren, Teilen und Liken. Im Vergleich zu Wiedergabedaten sind diese Verhaltensdaten jedoch sehr spärlich, vielleicht nur ein Tausendstel der Größenordnung. Zusätzlich zu diesen interaktiven Signalen gibt es auch einen sehr wichtigen Teil der Daten in den Baidu APP-Empfehlungen, nämlich 70 %. der Benutzer auf Baidu konsumieren sowohl empfohlene Informationsströme als auch Suchanfragen. Daher muss das Empfehlungssystem auch das Zufriedenheitssignal der Suchdomäne des Benutzers abbilden.

Ersteller auf der B-Seite benötigen einen Wettbewerbsmechanismus, um neben Konsumsignalen, mit denen Benutzer auf der C-Seite zufrieden sind, minderwertige Ersteller auszusortieren, das kreative Potenzial hochwertiger Ersteller zu stimulieren und dadurch einen positiven Produktions- und Produktionszyklus zu erreichen Verbrauch

2. Im Zieldesign berücksichtigte Dimensionen

Aus der Perspektive des Empfehlungssystems ist der Benutzer der Beispielannotator, und der Benutzer hat einige klare positive Ausdrücke, wie z. Liken, Sammeln, Kommentieren und andere Verhaltensweisen; Es gibt auch einige eindeutig negative Ausdrücke, wie z. B. Abneigung, negative Kommentare, Berichte usw. Zusätzlich zu den expliziten Ausdrücken haben Benutzer auch einige implizite Ausdrücke, wie z. B. „Gefällt mir“, ausgedrückt durch Abschluss der Wiedergabe, Wiedergabedauer, Seitenverbrauch des Autors, Leseempfehlungen usw., oder „Abneigung“, ausgedrückt durch kurze Wiedergabe, schnelles Popup usw . Daher müssen wir bei der Gestaltung von Zielen in allen Aspekten denken, explizite und implizite Signale ausbalancieren und vermeiden, ein „partielles“ Empfehlungssystem zu entwerfen.

3. Umfassende Zufriedenheitsmodellierung

Zusätzlich zu den oben genannten Grundzielen werden wir auch einige übergeordnete Ziele entwerfen und nicht mehr nur das Feedback der Benutzer verwenden. Wie auf der rechten Seite der Abbildung oben gezeigt, haben wir beispielsweise ein Modell eingeführt, das auf dem Feedback der Benutzerzufriedenheit basiert. In der ersten Phase werden durch dichte Signale wie Sendeabschluss und -dauer einfache Regeln oder Modelle verwendet, um das Feedback zur Benutzerzufriedenheit anzupassen und ein relativ dichtes Benutzerzufriedenheitsetikett zu erhalten. In der zweiten Phase wird ein Zufriedenheitsmodell basierend auf dieser Bezeichnung erstellt. Dabei werden die Einbettung verwendet, die durch das groß angelegte Push-Suchmodell generiert wird, die zugrunde liegende Einbettung von Wenxin sowie die Modellierung von Benutzerporträts und Verhaltenssequenzmerkmalen, um den Zufriedenheitsgewinn des empfohlenen Domänenrelativs zu bewerten zur Suchdomäne. Wenn ein Benutzer einen bestimmten Point of Interest in der Suche konsumiert hat, kann das Empfehlungssystem basierend auf dem Zufriedenheitsmodell qualitativ hochwertigere Inhalte empfehlen, was die Integration von Suche und Push reibungsloser gestalten und Suchinteressen besser in den Feed migrieren kann.

4. Langfristige Wertmodellierung (Long Term Value)

Im vorherigen Artikel haben wir vorgestellt, wie man die Spielzeit und Interaktion des aktuellen Inhalts abschätzt. Wir können das historische Konsumverhalten der Benutzer als Beispiele oder Merkmale verwenden, um vorherzusagen, ob der kommende Inhalt positives oder negatives Feedback erhalten wird und ob es zu zufriedenstellender Interaktion und Konsum kommen wird

Wir können weiter darüber nachdenken, ob es einen Zusammenhang zwischen dem zukünftigen Konsuminhalt des Benutzers und dem aktuellen Konsuminhalt gibt? Wenn Benutzer beispielsweise jetzt die Videos von Guo Degang ansehen und am nächsten Tag weiterhin die Videos von Yu Qian konsumieren, sind diese Videos von Yu Qian dann von den Videos von Guo Degang „inspiriert“? Kann der Konsum zukünftiger Points of Interest als „Fortsetzung“ aktueller Points of Interest betrachtet werden? Die Antwort ist ja. Daher haben wir das LTV-System in das System eingeführt, um den zukünftigen langfristigen Wertinhalt der Empfehlung des aktuellen Videos zuzuordnen , V
2
,... Vn
ist das Video, das der Benutzer in Zukunft konsumieren wird. Unter der Annahme, dass V
2 und V_n ein zufriedenstellender Konsum und eine Fortsetzung von V₀ sind, sind sie kann auf V₀ zurückgeführt werden. Es gibt viele Attributionsmethoden. Gemäß dem Geschäftsszenario von Baidu Feed umfasst die Attribution die folgenden drei Teile: Funktionale Attribution: Wenn Sie die bereitgestellten Ressourcen anhand verwandter Empfehlungen anzeigen, ist dieser Teil der Das Ressourcenverbrauchssignal kann V

0
zugeschrieben werden.
- Attribution der Rückrufassoziation: Beispielsweise wird die Rückrufphase implizit über itemCF usw. abgerufen. Korrelation: Beispielsweise kann die Korrelation zwischen Ressourcen durch multimodale Einbettung oder empfohlene Einbettung großer Modelle wie V
- n
- und V0_{If gemessen werden} hat einen relativ hohen Korrelationswert, der Wert von Vn kann V0 zugeschrieben werden. _{Natürlich wird diese Attribution gewichtet, wie z. B. das Zeitintervall von V0} und die Korrelation mit V0, um die Attributionsgewichtung des zukünftigen Videokonsums des Benutzers anzupassen aktuell Der langfristige Wert von Video V0. Nachdem Sie ein langfristiges Wertziel festgelegt haben, ist das Lernen relativ einfach. Der erste Schritt besteht darin, das Ziel zu normalisieren und es dann direkt zu modellieren.
_{Basierend auf der Abstraktion und Kombination der aktuellen Geschäftssituation gehen wir von den folgenden drei Richtungen aus, um bei der Gestaltung der Ziele des Empfehlungssystems eine einfache Zusammenfassung zu erstellen}

Multi-Ziel, erster Transport Als nächstes folgt die Modellierung einiger übergeordneter Ziele, um die Zufriedenheit der gesamten Szene zu beschreiben. Gleichzeitig ist es auch notwendig, die Ökologie zu regulieren.

Zukunftswert schaffen.
- Neben der Ressourcendimension können auch andere Dimensionen berücksichtigt werden, wie beispielsweise die Modellierung der Autorendimension.
- Um verschiedene Entwicklungsrichtungen umfassend zu berücksichtigen, müssen die Ziele des Empfehlungssystems aus mehreren Blickwinkeln betrachtet werden von Baidus aktuellen Empfehlungsszenarien Es wurde in drei Hauptszenarien unterteilt:
- „Empfohlener“ Informationsfluss: Es existiert seit vielen Jahren. „Discover“-Szene: Im Gegensatz dazu ist der Hauptfeed eher informationsorientiert, während „Discover“ lebendiger und lebensnaher ist.
"Immersive" Szene: reiner Videokonsumfluss.
Die Entwicklung und Weiterentwicklung der Baidu-Produkte hat zu einer allmählichen Änderung der Ranking-Ziele geführt. Ursprünglich hatte es nur das Hauptziel eines einzelnen Feldes und entwickelte sich dann zu mehreren Feldern und mehreren Zielen. Jetzt wurde eine umfassende Modellierung des gesamten Feldes erreicht, wobei Stichproben aus mehreren Feldern integriert wurden, um einen vollständigen Informationsaustausch zu erreichen. Im Folgenden werden die spezifischen Inhalte der umfassenden Modellierung in allen Bereichen vorgestellt
6
Lassen Sie uns zunächst einen Blick darauf werfen, was die Branche getan hat. Ob MMoE, PLE oder das STAR-Netzwerk, PEPNet und andere Strukturen, an denen Alibaba arbeitet, sowie Unternehmen wie Google und Tencent, sie scheuen keine Mühen, um verschiedene Netzwerkstrukturen basierend auf ihren eigenen Unternehmen zu entwerfen, in der Hoffnung, dies zu tun Teilen Sie sie in heterogenen Szenarien. Diese Arbeiten lösen hauptsächlich zwei Probleme:
- Das Migrationsproblem domänenübergreifender Signale und wie man besser zwischen zwei verschiedenen Domänen migrieren kann, um einen domänenübergreifenden Informationsaustausch zu erreichen.
- Das Problem der negativen Übertragung zwischen mehreren Zielen ist der Wippeffekt mehrerer Ziele.
In ähnlicher Weise ist auch das Baidu-Empfehlungssystem mit diesen beiden Problemen konfrontiert.

In Baidus Szenario gibt es viele verschiedene Subdomain-Ziele, und die Korrelation zwischen diesen Zielen ist gering, was zu einer negativen Migration zwischen mehreren Zielen führen kann. Um dieses Problem zu lösen, müssen die PNRs zwischen verschiedenen Zielen analysiert und die Korrelationsunterschiede zwischen ihnen ermittelt werden. Mit anderen Worten, die Beschreibung von Benutzerinformationen in heterogenen Szenarien und die Implementierung der Migration heterogener Informationen sind Probleme, die durch die Modellstruktur gelöst werden müssen

Entsprechend den Geschäftsanforderungen von Baidu haben wir eine domänenübergreifende Schichtung entworfen Die Netzwerkstruktur mit mehreren Zielen übernimmt die Gating-Struktur. Diese Struktur ist hauptsächlich in drei Schichten unterteilt: Die erste Schicht ist das personalisierte Sharing-Netzwerk als unterste Schicht; die zweite Schicht ist das GCG-Netzwerk zur domänenübergreifenden Informationsextraktion und die letzte Schicht ist das multiobjektive Netzwerk von Unterdomänen; Durch dieses Design können wir eine Multi-Ziel-Schätzung für jede Domäne durchführen und gleichzeitig Informationen austauschen.

Diese Lösung weist eine erhebliche Verbesserung im Vergleich zur Einzel-Domänen-Mehrziel-Schätzung auf. Die AUC des ersten Starts ist etwa 3.000 bis 9.000 Mal höher . Punkt. Wie in der unteren rechten Ecke der obigen Abbildung gezeigt, ist der Unterschied zwischen den beiden anderen Szenarien immer noch relativ, nachdem die Einbettung von Benutzermerkmalen in mehrere Domänen und die Reduzierung der TSNE-Dimensionalität erreicht wurden, mit der Ausnahme, dass Suche C und zweiter Hop relativ nahe beieinander liegen Offensichtlich, was darauf hinweist, dass das Modell die Unterschiede zwischen Szenen lernen kann. Es ist vernünftig, dass es keinen großen Unterschied zwischen dem Such-C-Szenario und dem Second-Hop-Szenario gibt. Bei beiden handelt es sich um Videoszenarien, und die Interaktion und das Interesse des Benutzers sind nicht sehr unterschiedlich.

Das Baidu-Geschäftsszenario verfügt über mehr als 40 physische Ziele, 4 große Subdomänen und 6 Formen, einschließlich Video, Grafik, Dynamik, kleine Programme usw. Wir hoffen, dass das Modell in vielen komplexen Unternehmen gute Ergebnisse erzielen kann. Lassen Sie uns kurz die Modellstruktur vorstellen. Die erste Schicht ist das gemeinsame Netzwerk, das als Basis für die Domänenaufteilung dient, um zufriedenstellende Stichproben mehrerer Ziele in jeder Szene zu überprüfen und eine personalisierte Einbettungszuordnung über das Gate-Netzwerk zu realisieren. Die zweite Ebene ist die Extraktion domänenübergreifender Informationen, die über das CGC-Netzwerk einzigartige Funktionen und personalisierte gemeinsame Funktionen innerhalb der Domäne implementiert. Die beiden konstruieren gemeinsam eine domänenübergreifende Informationsextraktion. Der Vorteil besteht darin, dass nicht nur der Informationsreichtum innerhalb der Domäne erhalten bleibt, sondern auch die gemeinsamen Informationen heterogener Szenen extrahiert werden. Die dritte Ebene ist die multiobjektive Modellierung von Subdomänen. Zu diesem Thema veröffentlichen wir auch einen entsprechenden Artikel. Freunde, die sich für die Details interessieren, können den Artikel lesen.

4. Multiobjektive Fusion

Der Entwicklungsprozess der Multiobjektive-Fusion von Baidu ähnelt dem der Branche. Die erste ist die Zusammenführung von Vorwissen, die zwar einfach und unkompliziert ist, aber viel Personal erfordert. Dann haben wir auf LTR umgestellt, und der Effekt war bemerkenswert. Der Nachteil bestand jedoch darin, dass häufige Anpassungen erforderlich waren, wenn sich das Geschäft änderte. Gleichzeitig änderte sich auch die Teilauftragsbeziehung mit Änderungen in der Geschäfts- und Benutzerschichtung. Anschließend haben wir ein Multi-Objective-Fusion-Value-Modell unter Verwendung eines sequentiellen optimalen Ansatzes eingeführt. Nach einer kurzen Nutzungsdauer haben wir ein Upgrade auf die Methode durchgeführt, die wir jetzt verwenden – ES (Evolution Strategy) evolutionäres Lernen

Um ES zu verwenden, müssen Sie zunächst eine Belohnung definieren, nämlich den Nordstern Indikator. Baidus Belohnungen sind Sitzungstiefe (Dauer + Schrittlänge) und Interaktion. Die Geschäftsindikatoren, die Dauer und Schrittlänge entsprechen, sind Dauer und Videowiedergabevolumen. Diese beiden Indikatoren spiegeln die Benutzerbindung wider. Darüber hinaus gibt es interaktive Informationen, die die Ansammlung von Vermögenswerten des Benutzers in der APP darstellen, z. B. die Aufmerksamkeit auf das Verhalten des Autors. Tatsächlich hofft er, den Autor nach der Aktualisierung finden zu können. Unabhängig davon, ob die Anzahl des Konsums oder der Interaktionen erhöht wird, hoffen wir, dass Benutzer diese APP über einen längeren Zeitraum nutzen können

Unsere erste Version ist ein einfaches heuristisches Modell, während das aktuelle Online-ES fortgeschrittenere Berechnungen durchführt, wie zum Beispiel die Einführung von Informationen über verschiedene Szenarien und Personengruppen

Das obige ist der detaillierte Inhalt vonÜben und denken Sie über die domänenübergreifende Schätzung und Fusion von Baidu-Videoempfehlungen mit mehreren Zielen nach. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!