Ces dernières années, avec l'évolution des besoins des annonceurs et le développement des technologies associées, la théorie de l'économie computationnelle, la théorie des jeux et la technologie de l'intelligence artificielle ont été de plus en plus appliquées aux mécanismes d'enchères publicitaires et aux stratégies de diffusion.
L'importance de l'intelligence décisionnelle dans les scénarios commerciaux devient progressivement de plus en plus importante. Chaque affichage de produit vu par les utilisateurs, chaque offre publicitaire des commerçants et chaque allocation de trafic sur la plate-forme s'appuie sur une intelligence décisionnelle énorme et complexe.
L'objectif de ces actions est d'optimiser l'expérience d'achat des utilisateurs, de rendre le processus décisionnel publicitaire plus intelligent et en même temps de permettre aux annonceurs et aux médias d'atteindre une prospérité à long terme sur la plateforme. Les annonceurs espèrent maximiser les effets marketing avec un investissement en ressources limité, et les plateformes espèrent construire un meilleur écosystème. Cependant, la complexité de l'environnement du trafic, l'environnement concurrentiel formé par d'autres publicités concurrentes et l'énorme complexité de la combinaison de variables telles que les offres, les groupes cibles, l'emplacement des ressources et les délais de livraison dans la stratégie publicitaire rendent le calcul et l'exécution de la stratégie publicitaire optimale pleine de défis.
Comment résoudre ces problèmes ? Comment se décompose l’objectif de maximiser les bénéfices ? Ces questions importantes liées à l’intelligence décisionnelle préoccupent également au plus haut point les chercheurs et les praticiens du domaine.
Afin d'explorer en profondeur le thème de « L'intelligence décisionnelle dans les scénarios d'affaires en matière d'intelligence numérique », l'Alimama Boxian Society et Heart of Machines ont récemment invité le professeur Deng Xiaotie de l'Université de Pékin, le chercheur Cai Shaowei de l'Académie chinoise des sciences et Alimama CTO Zheng Bo Trois universitaires et experts dans le domaine ont partagé une série de sujets.
Ce qui suit est le contenu de partage thématique du professeur Deng Xiaotie, du chercheur Cai Shaowei et du professeur Zheng Bo qui l'a compilé sans changer le sens original.
Aujourd'hui, je vais présenter brièvement l'économie computationnelle, qui est un domaine de recherche très historique qui remonte à 1930. Plus tard, l'économie informatique est partie d'une autre perspective et a transformé l'économie en calculs. L'économie informatique précédente consistait à faire de la recherche économique à travers des calculs.
Lorsque nous réfléchissons à l'économie d'un point de vue informatique, plusieurs problèmes clés se posent : Le premier est que l'apprentissage automatique est une optimisation, et de nombreux systèmes d'optimisation peuvent en découler. Après l'optimisation, il y a une autre question appelée équilibre. Dans le passé, quand on faisait de l'économie computationnelle, on le faisait dans la perspective de l'économie planifiée. Mais à cette époque, il y avait aussi une école qui travaillait sur le développement des pays en développement. Banque mondiale. Ils ont élaboré des plans pour les pays en développement. L'idée d'optimiser les intrants et les extrants est développée. Le calcul de l’équilibre d’un point de vue informatique peut être un problème très difficile, c’est pourquoi un concept appelé équilibre général calculable a émergé.
Récemment, nous pouvons voir des systèmes de plus en plus dynamiques, car beaucoup de choses dans ce monde ne sont pas en équilibre. La scène d'équilibre la plus importante se situe dans les activités économiques numériques, y compris au niveau économique, comme la tarification. Dans l’économie numérique, les données de transaction et les fluctuations de prix sont visibles chaque seconde. Nous pouvons clairement voir les changements dans les données, au lieu de simplement compter les données économiques après un an.
Il y a beaucoup plus dans le cadre de l'économie computationnelle. Chaque entité économique doit optimiser, et le point fixe de leur jeu commun est l’équilibre. Les plateformes joueront également un jeu d'équilibre, notamment les plateformes de publicité sur Internet qui viennent sur la plateforme et diffusent leurs publicités via la plateforme et les médias. Pour les médias, il est nécessaire de proposer des positions publicitaires et d'utiliser leur propre attirance auprès d'un certain type de personnes. Pour la plateforme, nous devons réfléchir à la manière de mieux répondre aux intérêts de chacun. En tant que plus grande plateforme publicitaire de Chine, Alimama est également confrontée au problème de l'équilibre du jeu. Elle doit concilier les intérêts de toutes les parties afin de maximiser les avantages sociaux et les avantages de la conception des mécanismes.
Nous pouvons parler d'optimisation sous trois angles.
La première est la question de la caractérisation de l’intelligence économique. De nombreux éléments d'apprentissage automatique sont écrits sous forme de problèmes d'optimisation, tels que la manière d'utiliser les méthodes d'apprentissage automatique pour calculer les contraintes, y compris les contraintes dans certains environnements.
En raison d'informations incomplètes, de nombreuses conditions sont inconnues. L'économie originale ne peut pas considérer des choses aussi complexes, telles que quelle est la fonction de bénéfice de l'adversaire du jeu, quel est l'espace stratégique de l'adversaire du jeu et qui sont les adversaires du jeu. . , les informations imparfaites sont également très importantes pour décrire les activités économiques.
De nombreuses hypothèses peuvent décrire des informations incomplètes, comme par exemple que l'homme économique connaisse la fonction bénéfice de l'adversaire, les contraintes et autres informations diverses. Il existe une connaissance commune des fonctions bénéfiques de chacun : nous connaissons la répartition. Mais d’où vient cette distribution ? Cela nous amène dans le domaine de l’apprentissage automatique : pourquoi le joueur se dit-il, ainsi qu’à nous, ce qu’il sait ? Compte tenu de cela, des questions très raisonnables se posent en termes d’angle de calcul.
La dynamique du jeu, c'est la troisième étape de l'économie computationnelle. Du point de vue de l’économie réelle, de nombreuses activités ont évolué et se sont développées sur 6 000 ans, et chacun joue lentement le jeu jusqu’à ce que l’équilibre soit atteint. Dans l’économie numérique, atteindre l’équilibre d’un seul coup constituera un défi de taille.
L'optimisation des plateformes publicitaires, c'est ce que fait Alimama. Nous avons parlé de tant de tâches informatiques difficiles, quand pourrons-nous les accomplir correctement ? Dans le cas de paramètres uniques, les théories existantes peuvent le soutenir, mais il n’existe pas de définition théorique toute faite sur la manière d’obtenir des paramètres multiples.
Un point très important est que l'ensemble du système économique a été établi, mais lorsque l'économie est utilisée sur Internet, il y a un gros défaut : il est statique. Tout le monde doit savoir que les choses dans l'industrie ne sont pas statiques. Par exemple, la promotion « Double Eleven » créera de nombreux défis. Comment concevoir le prix des enveloppes rouges et comment construire ces choses sur la base des modèles de marché connus sont devenus des questions importantes. l'économie computationnelle aujourd'hui. Défis : l'un est l'optimisation des solutions approximatives, l'autre la planification de l'équilibre et l'autre la dynamique de la concurrence entre les plates-formes.
Le calcul approximatif est très difficile. La solution d'équilibre que nous connaissons peut être calculée au tiers au maximum, avec un taux d'erreur de 33 % au maximum, ce qui est 33 % différent de l'optimal, donc le calcul de l'équilibre est en effet assez difficile. La méthodologie de conception automatique et l'apprentissage du modèle de l'adversaire caché sont les cadres dans ce domaine, et ils sont tous liés à la capacité d'information.
L'autre joue avec des adversaires inconnus sur le marché. Nous devons considérer au moins deux entreprises et construire un modèle pour concevoir le jeu entre elles. Tout est monotone et toutes les informations ne sont pas connues. Sur la base des informations connues, nous examinons les fluctuations du marché et les changements de conception des prix. Sur cette base, nous concevons un modèle d'optimisation des fonctions implicites et utilisons des méthodes d'apprentissage automatique pour l'analyse.
L'ordre de la cognition multi-parties nous apporte le niveau cognitif du jeu. Ces dernières années, plusieurs études ont examiné les nombreuses raisons pour lesquelles les enchères au premier prix sont meilleures que les enchères au deuxième prix. Myerson a développé une théorie des enchères optimales en supposant que tout le monde connaît la répartition de la valeur de chacun, mais que nous ne connaissons pas réellement la connaissance du public. Notre propre recherche est considérée sous un autre angle. Le point de départ est qu’il n’existe pas de connaissance commune a priori et l’hypothèse initiale consistant à établir la théorie des enchères optimales de Myerson à l’aide de la méthode probabiliste est abandonnée.
En l'absence de cet ensemble d'hypothèses de base sur l'équilibre des enchères, comment la solution optimale peut-elle atteindre l'équilibre ? On peut constater que les revenus généralisés des enchères à prix unique sont égaux à Myerson. Ici, nous devons traiter de la répartition de la valeur annoncée par l'acheteur avec comme objectif le bénéfice optimal. Le rendement optimal de Myerson conçu par le vendeur est équivalent au rendement attendu de l'enchère généralisée à prix unique.
La conclusion finale est que Myerson et GFP sont équivalents, ils sont meilleurs que VCG, mais ils sont équivalents dans le cas de l'IID, Symmetric BNE et GSP sont également équivalents.
Un autre concept utilisé en économie computationnelle est le jeu de Markov, un jeu dans un environnement dynamique, en particulier le problème de la résolution de séries infinies de jeux. Nous avons traité le problème dans trois directions : premièrement, simplifier rationnellement le calcul et limiter l'objectif à des solutions approximatives ; deuxièmement, utiliser le taux d'actualisation temporel pour assurer la convergence des rendements ronds infinis ; troisièmement, l'analyse mathématique de la sommation des étapes limite les changements dans la stratégie ; dans différents tours aux changements en un seul tour. De cette façon, la difficulté de la sommation infinie peut être surmontée.
Nous simplifions encore la difficulté de calcul dans l'application du jeu de Markov. Il existe une analyse claire des récompenses markoviennes pour la conception du mécanisme de consensus, et elle raconte une bonne histoire. Selon les règles de conception des mécanismes, il est normal que la plupart des gens le soutiennent. Mais on a découvert plus tard que le soutien de la majorité ne garantissait pas la sécurité économique.
En ce qui concerne les problèmes dans le processus de conception de l'économie numérique, nos derniers travaux peuvent être surmontés avec l'équilibre minier perspicace, utilisant des stratégies prévoyantes pour atteindre l'optimalité, et enfin la structure du jeu de Markov, formant la récompense de Markov Le processus ajoute un niveau de cognition, du pool honnête au pool égoïste, puis traverse un autre niveau pour atteindre le résultat du pool visionnaire.
De même, de nombreuses sociétés Internet doivent faire face à des choses dynamiques plutôt qu'à des choses statiques. L'économie mondiale d'aujourd'hui n'est plus l'économie du passé. De plus, la méthodologie d'apprentissage automatique et la théorie des jeux sont étroitement intégrées par le biais des mathématiques. Nous avons ainsi surmonté la situation où nous étions capables de traiter uniquement d’une économie statique et avons évolué vers la capacité de gérer des situations dynamiques.
Chercheur Cai Shaowei : Une méthode efficace pour résoudre des problèmes d'optimisation combinatoire clairsemée à grande échelle
Bonjour à tous, le sujet que je partage aujourd'hui est une méthode efficace pour l'optimisation combinatoire clairsemée à grande échelle. Le cœur de nombreux problèmes de prise de décision implique des problèmes d’optimisation combinatoire, et les gens sont très préoccupés par la manière de choisir une combinaison appropriée de solutions pour atteindre l’optimisation des objectifs.
Il existe deux méthodes principales pour résoudre l'optimisation combinatoire : l'une est la méthode heuristique, comprenant la recherche heuristique et la construction heuristique. Par exemple, l'algorithme glouton qui est souvent utilisé peut être considéré comme une sorte de construction heuristique. L'heuristique ; l'autre est un algorithme exact représenté par brand-and-bound.
L'avantage de la méthode heuristique est qu'elle n'est pas sensible à l'échelle, elle peut donc résoudre des problèmes à grande échelle avec approximation. L'inconvénient est qu'on ne sait souvent pas dans quelle mesure se trouve la solution de dissociation optimale, ni l'optimale. une solution a peut-être été trouvée. Oui, mais vous ne savez pas. Branch And Bound est terminé. Si vous lui donnez suffisamment de temps pour compter jusqu'à ce qu'il s'arrête, vous pouvez trouver la solution optimale et prouver que c'est la solution optimale. Cependant, cette méthode a un coût et est sensible à l’échelle, car ce type d’algorithme explose de façon exponentielle et n’est souvent pas adapté aux problèmes à grande échelle.
Qu'il s'agisse de recherche ou de construction, le cadre de l'algorithme heuristique est généralement très simple. Cela dépend principalement de la manière dont l'heuristique est conçue et des critères sur lesquels elle doit être basée. La méthode Branch and Bound se concentre principalement sur la façon de créer des « limites ». Si vous lisez les articles, vous constaterez que de nombreux articles Branch And Bound utilisent une technologie de délimitation permettant de mieux élaguer l'espace de solution.
Plus tard, j'ai pensé : pouvons-nous combiner ces deux ? En d’autres termes, il peut non seulement rester insensible à l’échelle, mais également ajouter une technologie limitante. Il est facile de penser que vous pouvez utiliser des méthodes de prétraitement, ou faire d'abord des heuristiques, puis Branch And Bound, et utiliser les résultats heuristiques comme solution initiale, etc. Nous proposons une nouvelle approche à cet égard : l'itération imbriquée dans Heuristics et Branch And Bound.
Pour faire simple, cette méthode effectue d'abord une résolution heuristique approximative pour trouver un résultat préliminaire. De manière générale, des limites supérieure et inférieure sont requises pour la délimitation. Les heuristiques obtiendront approximativement une limite inférieure, puis concevront une fonction pour la limite supérieure. En supposant que le problème est relativement important et comprend de nombreux éléments, nous pouvons en éliminer certains pour le réduire. Ensuite, soyez plus raffiné et continuez à effectuer une résolution heuristique, ce qui peut améliorer la limite inférieure. Sur cette base, l’algorithme peut effectuer davantage de limites et continuer à être imbriqué. Cet algorithme devient donc un algorithme semi-exact, et il est possible de prouver que c'est la solution optimale, car à une certaine étape, on constate que l'espace du problème est suffisamment petit, et il ne nécessite pas de résolution heuristique mais peut être résolu. directement et avec précision. De plus, si la solution optimale n’est pas trouvée, vous pouvez également savoir où se trouve l’intervalle de solution optimal.
Ensuite, nous donnerons deux exemples pour expliquer cette méthode.
Le premier est le "problème du groupe maximum". La clique est un concept très classique dans la théorie des graphes. Dans un graphe, il y a des sous-graphes reliés par des arêtes entre des points, ce qu'on appelle une clique. Le problème de la clique maximale consiste à trouver la plus grande clique. Si vous lui donnez un poids et attribuez un poids à chaque sommet, le problème de la clique pondérée maximale est de trouver la clique avec le poids total le plus élevé. Dans l'exemple ci-dessous, il y a respectivement quatre groupes et trois groupes. Le poids des trois groupes est plus grand, ce qui constitue le groupe pondéré le plus important dans cette image.
Pour faire cela selon ce cadre, nous avons besoin de deux sous-algorithmes, l'un est une solution heuristique, qui s'appelle FindClique dans le groupe, et l'autre est un algorithme de simplification, appelé ReductionGraph. Nous pouvons utiliser FindClique pour trouver une clique meilleure que celle que nous avons trouvée auparavant. Lorsque ce meilleur groupe atteint le graphique de réduction, ce que nous savons est que le plus grand groupe est au moins aussi grand. La simplification est également effectuée à cette étape. Si le graphique devient vide après la simplification, alors le cluster trouvé est la solution optimale ; s'il ne devient pas vide, alors vous pouvez réduire quelques points et revenir en arrière pour ajuster l'algorithme de recherche du cluster. L'algorithme ici n'est pas nécessairement un algorithme fixe et peut changer dynamiquement.
L'un de nos travaux a choisi la méthode "construire et couper", qui peut être comprise comme un algorithme glouton multiple.
L'effet de plusieurs gourmands est que chaque construction gourmande peut être très rapide et peut partir de différents points de départ, et s'il est calculé au cours d'un certain processus de construction, le groupe actuel ne peut pas être élargi, peu importe combien il est élargi. Nous pouvons arrêter le groupe que nous avons trouvé auparavant. Le but ultime est de trouver un groupe plus grand qu'auparavant. La question de savoir si l'heuristique doit être plus raffinée et comment ajuster l'ordre dépend de l'échelle du graphique. C'est comme éplucher un oignon jusqu'à une certaine couche. puis affinez-le pour vous concentrer davantage sur la recherche de meilleures équipes. Lorsque le graphe ne peut plus être simplifié, on peut utiliser des algorithmes précis tels que Branch And Bound. Après avoir trouvé un groupe, selon notre méthode, nous devons délimiter et supprimer certains points. La méthode consiste à estimer la taille du groupe que les points peuvent développer, et il peut y avoir différentes solutions pour le résoudre.
Ces deux technologies d'estimation des limites ne sont que des exemples, et vous pouvez utiliser différentes technologies pour le faire. En termes d'expériences, vous pouvez vous référer au tableau ci-dessous pour comparer des méthodes telles que FastWClq, LSCC+BMS et MaxWClq. Le temps nécessaire pour obtenir la même précision diffère de plus de dix, voire des centaines de fois.
Regardons la deuxième question : "Problème de coloration des graphiques". La soi-disant coloration consiste à appliquer une couleur à chaque point du graphique. Deux points adjacents ne peuvent pas être de la même couleur. Le problème de coloration du graphique traite du nombre minimum de couleurs pouvant être utilisées pour colorer un graphique. est appelé le numéro de couleur du graphique. Le problème de coloration des graphes a de nombreuses applications, notamment dans l’allocation de ressources sans conflits.
L'idée générale dece problème est la même : une solution heuristique plus une technologie limite. La différence est que le problème de coloration du graphique ne nécessite pas de sous-ensemble. Puisque le graphique entier doit être coloré, il n'y a pas de concept de "le jeter pour toujours". Chaque point doit être renvoyé à la fin, et ce point doit avoir un. couleur. La réduction ici consiste à décomposer le graphique en noyau et marge : toujours lié à l'indépendance Lié à l'ensemble, si je sais au moins combien de couleurs sont nécessaires pour cette image, qui est la limite inférieure de la couleur (notée ℓ), alors je peux trouver l'ensemble indépendant de la limite ℓ-degré. Les degrés des points de cet ensemble indépendant sont tous inférieurs à ℓ, c'est pourquoi on l'appelle limite de ℓ degrés. Si vous trouvez un tel ensemble indépendant, vous pouvez le déplacer en toute sécurité vers la marge. Si nous trouvons la solution du noyau, nous pouvons facilement incorporer la marge. Si le noyau est la solution optimale, la combinaison doit également être la solution optimale. Cette règle peut être utilisée de manière itérative.
Regardons un exemple. Les quatre points gris dans cet exemple sont des noyaux. Vous pouvez au moins le voir. 4 couleurs. Placez les trois points à côté sur le bord. Étant donné que les degrés des trois points sont inférieurs à 4, nous pouvons déplacer ces trois points sur le côté en toute sécurité et les ignorer pour l'instant. Ensuite, j'ai découvert que le sous-graphe restant ne peut pas être décomposé. Il est déjà très complexe et peut être résolu directement. Le noyau dur des graphes clairsemés n’est généralement pas volumineux, des algorithmes exacts peuvent donc être envisagés pour la solution. Si vous trouvez le noyau, on sait que le noyau utilise au moins quatre couleurs pour les points du bord, le degré de chaque point est inférieur à 4. Comment pouvez-vous lui laisser une couleur en le parcourant simplement en linéaire ? temps. .
Jusqu'à la fin, la marge de chaque peau doit être conservée, et la couche doit être clairement marquée. est légèrement différente de la première question. Nous devons utiliser des structures de données supplémentaires pour conserver ces cartes de bords. Une fois le dernier noyau inamovible résolu avec précision, nous pouvons utiliser la méthode de l'ordre inverse pour fusionner d'abord la dernière marge et conserver l'optimalité selon les règles précédentes si le noyau est optimal. , la fusion d'un bord sera toujours optimale. Si vous revenez en arrière, la solution à l'image originale doit également être optimale.
Lorsque ce problème devient un cadre, il ne reste plus qu'à réfléchir à la manière de trouver la limite inférieure et la limite supérieure. L'idée générale de l'algorithme est la suivante : au début, le noyau est l'image originale, et l'algorithme de clique maximale doit être utilisé pour trouver une limite inférieure après avoir décollé les bords, l'algorithme de coloration de graphe glouton peut être utilisé ; pour trouver une limite supérieure.
Il y a en fait trois algorithmes utilisés ici. En pratique, la méthode de poinçonnage combiné est plus courante, en particulier pour la coloration du noyau. Lorsque l'image est relativement grande, nous pouvons le faire via une méthode gourmande ou plus rapide, et finalement cela peut devenir un algorithme précis pour le faire. Tout au long du processus, la limite inférieure et la limite supérieure sont globales. Si ces deux sont égales, vous pouvez arrêter.
# 🎜 🎜#L'image ci-dessus est le résultat expérimental. On peut voir que l'effet est meilleur sur les grandes images clairsemées. 97 sur 144 peuvent prouver la solution optimale en une minute. Par rapport à des algorithmes similaires, le temps de comparaison de notre algorithme est également plus rapide. Il existe des méthodes spéciales sur de grands graphiques relativement clairsemés qui peuvent résoudre rapidement le problème. Les gens pensaient que les problèmes NP-difficiles avec des millions de sommets devaient prendre beaucoup de temps à résoudre. En fait, si ces graphiques sont grands mais présentent certaines caractéristiques, nous pouvons toujours les résoudre en quelques secondes et minutes.
Zheng Bo, CTO d'Alimama : Le système technologique d'intelligence décisionnelle d'Alimama est continuellement amélioré
Bonjour à tous, en tant que leader technique d'Alimama, je partagerai avec vous les progrès de la technologie d'intelligence décisionnelle d'Alimama au cours des dernières années de une perspective industrielle.
Fondée en 2007, Alimama est le principal département de commercialisation du groupe Alibaba, qui est le département de publicité en ligne. Après plus de dix ans de développement, Alimama a créé des produits influents tels que « Search Advertising Taobao Express ». En 2009, elle a lancé des plateformes d'échange de publicité display et Ad Exchange. En 2014, la plateforme de gestion de données Damopan est apparue et a lancé le marketing mondial. en 2016.
D'un point de vue technique, vers 2015 et 2016, Alimama a pleinement adopté l'apprentissage profond, du moteur de marketing intelligent OCPX au modèle MLR d'algorithme de base de prédiction CTR auto-développé, tous étaient basés sur l'apprentissage profond. les méthodes évoluent constamment. En 2018, le framework d'apprentissage profond X-Deep Learning était open source. En 2019, le cadre d'apprentissage des graphes d'Euler est devenu open source et des super recommandations pour les produits de flux d'informations ont également été lancées. « Les gens trouvent des biens » sont devenus « les biens trouvent des gens ». À partir de 2020, Alimama a lancé des publicités en streaming en direct et a également commencé à lancer des publicités incitatives interactives, telles que le jeu interactif « Double Eleven » Stacking Cat, qui est joué plus fréquemment. Le cadre d’apprentissage de l’espace de courbure était également open source cette année.
En 2022, Alimama a procédé à une mise à niveau majeure de l'ensemble du moteur publicitaire. La plateforme de moteur publicitaire EADS et la plateforme de production et de compréhension multimédia MDL sont toutes deux en ligne ; en termes de protection de la vie privée des consommateurs, les capacités technologiques informatiques de confidentialité d'Alimama ont été certifiées par l'Académie chinoise des technologies de l'information et des communications. En regardant le développement d'Alimama au cours des quinze dernières années, nous pouvons constater que nous sommes une société de publicité informatique avec « des racines et des racines ».
Quels sont les avantages d'Alimama ? Dans le domaine très professionnel du commerce électronique, nous avons une très bonne compréhension des utilisateurs et du commerce électronique, et les scénarios commerciaux sont également très riches. En plus de la recherche et de la recommandation traditionnelles, nous disposons également de scénarios commerciaux numériques tels que la diffusion en direct. promotion, interaction et nouvelles formes. De plus, notre clientèle est parmi les plus importantes au monde, avec des millions de commerçants étant annonceurs sur la plateforme Alimama. Ces clients ont de nombreux besoins. Outre les besoins opérationnels de l'entreprise, divers rôles écologiques sont également impliqués, tels que des présentateurs, des experts, des agents et des prestataires de services. Ils sont actifs sur cette plateforme dans différents rôles.
Nous avons également beaucoup de recherches en IA. Nous présentons ici les caractéristiques de la technologie des algorithmes de scène publicitaire. Comme indiqué ci-dessus, la structure de l'entonnoir inversé sur la gauche est très familière à de nombreux étudiants qui effectuent des recherches ou des recommandations. Cette partie de la publicité est très similaire à la recommandation de recherche, y compris le rappel publicitaire, le tri grossier, le tri fin et la notation des stratégies de mécanisme. impliquant une grande quantité d’IA telle que la technologie de récupération d’informations, en particulier les modèles de rappel tels que la correspondance TDM, utilisent tous la technologie d’apprentissage en profondeur.
Cela inclut l'intelligence décisionnelle. Puisque la plateforme contient de nombreux rôles, chacun avec sa propre relation de jeu, l'intelligence décisionnelle s'avère utile entre relations multipartites et équilibre optimisé. L'expérience utilisateur, le coût du trafic, les revenus attendus, le contrôle budgétaire et l'intégration inter-domaines doivent tous être équilibrés.
Ici, je vais parler de trois joueurs typiques. Les acteurs de la plateforme sont nombreux et on distingue trois catégories principales : les médias, les annonceurs et les plateformes publicitaires.
Les technologies de base de ces trois parties peuvent être résumées comme suit : du point de vue des médias, se concentrer sur la libération des ressources médiatiques qui peuvent le mieux équilibrer l'expérience utilisateur et les revenus commerciaux du point de vue de l'annonceur, ce qui doit être optimisé ; et comment l'utiliser. Atteignez vos objectifs marketing avec un minimum d'effort. Alors, quel est le principal objectif d’une plateforme publicitaire ? À long terme, l'objectif de niveau inférieur de la plate-forme publicitaire est de rendre l'ensemble de la plate-forme plus prospère. Gagner de l'argent n'est qu'une question à court terme, et rendre la plate-forme prospère à long terme est donc l'objectif ultime. La plateforme doit équilibrer les relations entre toutes les parties et permettre aux joueurs de toutes les parties de jouer sur la plateforme.
Les objectifs d'optimisation de la plateforme publicitaire impliquent beaucoup de conception de mécanismes. Aujourd'hui, je parlerai brièvement des trois directions de la conception du mécanisme d'enchères intelligent, de la stratégie d'enchères intelligente et de la stratégie de commercialisation intelligente. Je parlerai principalement du travail d'Alimama à cet égard au cours des dernières années d'une manière scientifique et vulgarisée pour que tout le monde puisse en discuter.
Conception intelligente du mécanisme d'enchères.
Parlons d'abord de la conception d'un mécanisme d'enchères intelligent. C'est un sujet très intéressant. De nombreux seniors et experts ont remporté le prix Nobel. Prix d'économie. Les mécanismes d'enchères classiques dont nous parlons sont tous apparus avant les années 1970. À cette époque, la publicité en ligne n'était pas encore apparue et tout le monde étudiait beaucoup sur l'optimisation des enchères uniques ou des enchères statiques. Ces mécanismes sont généralement mono-cibles et pour une seule enchère.
Qu'il s'agisse d'une plateforme publicitaire ou d'un média, il est nécessaire d'équilibrer l'expérience utilisateur et les revenus publicitaires. Le problème typique de l'industrie est l'optimisation multi-objectifs de la plateforme. implique plus d'entreprises, ce sera différent. Il peut y avoir des stratégies de plateforme et une volonté parmi les entreprises, ce qui est aussi une optimisation multi-objectifs.
Dès le début, la théorie classique des enchères a été utilisée, comme le GSP ou l'UGSP pour la répartition du trafic et la tarification. L'industrie a progressivement évolué vers l'apprentissage profond pour résoudre ce problème. Ces algorithmes classiques utilisent des formules pour calculer certains paramètres que la plateforme optimise pour un certain objectif. Avec les outils d'apprentissage profond, la conception du mécanisme d'enchères lui-même est également un problème de prise de décision. , mais l'algorithme de prise de décision en matière de production est également un problème de prise de décision.
Il y a trois ans, nous avons conçu un mécanisme d'enchères Deep GSP basé sur l'apprentissage profond, qui a été amélioré sur le principe de satisfaire les bonnes propriétés du mécanisme ; la plate-forme affamée, les soi-disant propriétés du mécanisme Le bien fait référence à la compatibilité des incitations. Les annonceurs n'ont pas besoin de réaliser des bénéfices en rognant ou en utilisant des méthodes en noir et blanc. Ils peuvent véritablement exprimer leurs souhaits et obtenir un trafic qui répond à l'offre. Deep GSP conserve la propriété de compatibilité incitative et remplace la formule statique d'origine par un réseau profond apprenable. Il s'agit de la première étape du travail.
Dans la deuxième étape, nous avons calculé de nombreux paramètres dans le réseau du mécanisme d'enchères grâce à la formation et à l'optimisation. Mais en fait, dans l'ensemble du processus, outre les processus de calcul des paramètres, de tri et de diffusion de la publicité, ils font partie intégrante de l'ensemble du système. Certains modules sont en fait non différenciables, comme le module de tri, il est donc difficile pour un réseau d'apprentissage profond de le simuler. Afin de concevoir le mécanisme d'enchères de bout en bout, nous modélisons la partie différenciable du processus d'enchères. Le réseau neuronal, de sorte que le gradient puisse être inversé, rend la formation du modèle plus pratique. Stratégie d'enchères intelligente.
Parlons ensuite de la stratégie d'enchères intelligentes, qui est l'outil le plus important utilisé par les annonceurs pour ajuster les effets ou le jeu. La distribution centralisée ne peut pas exprimer les demandes, mais il existe un moyen de les exprimer dans des scénarios publicitaires. Le produit des enchères est divisé en trois étapes de développement : La solution classique initiale est aussi la plus ancienne des enchères. J'espère que le budget sera dépensé plus facilement et que l'effet sera meilleur. être plus garanti. À cette époque, l'industrie utilisait un algorithme de contrôle similaire au PID, qui était un algorithme très simple et l'effet était relativement limité.
En 2014 et 2015, après qu'AlphaGo ait vaincu les humains, nous avons constaté le pouvoir de l'apprentissage par renforcement. Les enchères intelligentes sont un problème de prise de décision séquentielle très typique au cours du cycle budgétaire, que les dépenses précédentes soient bonnes ou non affecteront la décision d'appel d'offres suivante, et c'est là la force de l'apprentissage par renforcement. les enchères basées sur l'apprentissage par renforcement, via la modélisation MDP, utilisent directement l'apprentissage par renforcement pour ce faire.
La troisième étape a évolué vers la plateforme SORL, qui se caractérise par l'incohérence entre l'environnement de simulation hors ligne et l'environnement en ligne dans l'apprentissage par renforcement. Nous effectuons un apprentissage interactif directement dans un environnement en ligne, qui est un exemple d'union de la conception technique et de la conception d'algorithmes. Après le lancement de SORL, il a largement résolu le problème de la forte dépendance de l’apprentissage par renforcement à l’égard de la plateforme de simulation.
Les autres caractéristiques techniques incluent la partie infrastructure d'ingénierie, y compris le cadre de formation du modèle d'enchères intelligentes, le système intégré de contrôle des flux et des lots et le moteur graphique en ligne de livraison multicanal. Le système d'ingénierie et l'algorithme sont tout aussi importants. Plus il est proche et en temps réel du centre commercial, plus il peut obtenir de bons retours. Pour les enchères intelligentes, plus l'infrastructure d'ingénierie est avancée, mieux elle peut aider les annonceurs à obtenir de meilleurs résultats. résultats.
Stratégie de commercialisation intelligente.
Enfin, parlons de la stratégie de commercialisation intelligente liée aux médias. En termes d'optimisation de la stratégie de commercialisation, la première tentative a été d'intégrer de manière pondérée les résultats publicitaires et les résultats naturels, puis de les mélanger et de les sélectionner en fonction de différentes situations. Les mécanismes de commercialisation déraisonnables sont très préjudiciables à l’expérience utilisateur, et tout le monde commence à prendre conscience de ce problème. Au cours des deux dernières années, les stratégies d'affichage dynamique sont progressivement devenues populaires. Avec le développement de technologies telles que l'apprentissage profond, nous pouvons équilibrer l'expérience utilisateur et les revenus commerciaux en optimisant les algorithmes de prise de décision, et équilibrer l'expérience utilisateur avec le trafic mondial.
En général, dans ces trois aspects, Alimama a formé un diagramme de système de prise de décision intelligent, qui est divisé en trois niveaux. Le mécanisme d'enchères intelligent est le pont au milieu et les problèmes résolus par le. stratégie de commercialisation intelligente sont Quel type d'enchères de ressources est le plus efficace et peut mieux équilibrer l'expérience utilisateur et les revenus commerciaux ? La stratégie d'enchères intelligentes est un processus de prise de décision pour des enchères affinées basées sur le trafic grâce à l'optimisation des paramètres d'enchères et à l'optimisation du renforcement. apprendre des paramètres basés sur l'environnement réel, ou optimiser à l'aide de paradigmes de modélisation tels que Target CPX et Max Return.
Face aux enchères actuelles à plusieurs tours et aux enchères à haute fréquence, de nombreuses théories de base nécessitent de nouvelles percées. En ce qui concerne les avancées théoriques dans les mécanismes fondamentaux, le professeur Deng est un expert dans ce domaine, et nous sommes impatients de travailler avec lui pour mener des recherches de pointe dans ce domaine. Du point de vue des défis posés par les problèmes d'ingénierie pratiques, l'environnement réel nécessite que les résultats soient renvoyés en 200 millisecondes, il doit donc y avoir un certain équilibre entre efficacité et effet. J'en ai fait l'expérience après avoir longtemps travaillé dans l'industrie.
L'optimisation de l'écologie publicitaire est relativement indépendante. Le but ultime de la plateforme est que l'écologie prospère et se développe paisiblement. Si celles-ci sont bien faites, l'écologie peut-elle répondre aux attentes ? Je ne pense pas qu'il puisse y avoir une équation directe entre les deux. En ce qui concerne l'optimisation écologique, il reste encore de nombreux problèmes théoriques et pratiques à résoudre, dont j'espère que les amis de l'industrie pourront discuter et résoudre ensemble à l'avenir.
Au cours des trois dernières années, Alimama a publié près de 20 articles dans les plus grandes conférences internationales (NeurIPS, ICML, KDD, WWW, etc.) dans le domaine de l'intelligence décisionnelle, et a coopéré avec de nombreuses universités comme Pékin. L'Université Jiao Tong de Shanghai, l'Académie chinoise des sciences et l'Université du Zhejiang, en coopération avec des instituts de recherche, les résultats pertinents ont reçu une large attention et un suivi de la part de l'industrie et du monde universitaire, réalisant le développement technologique dans ce domaine du suivi à la direction progressive. industrie.
Par rapport au deep learning, l'intelligence décisionnelle n'a pas reçu autant d'attention dans l'industrie et le monde universitaire, j'aimerais donc profiter de cette occasion pour faire connaître à tout le monde ce domaine très intéressant et prometteur. Ce qui précède est la réflexion et le travail d'Alimama sur l'intelligence décisionnelle. J'espère le partager avec des amis de l'industrie et du monde universitaire. Nous pourrons en discuter davantage à l'avenir et nous efforcer de former des développements révolutionnaires dans la recherche théorique sur l'intelligence décisionnelle et. applications pratiques dans l'industrie.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!