Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains-IA-php.cn

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains

PHPz

Libérer： 2024-08-09 16:01:32

original

1528 Les gens l'ont consulté

Mais peut-être que vous ne pouvez pas battre le vieil homme dans le parc ?

Les Jeux Olympiques de Paris battent leur plein et le tennis de table attire beaucoup l'attention. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table.

Tout à l'heure, DeepMind a proposé le premier robot agent apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition.

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains

Adresse papier : https://arxiv.org/pdf/2408.03906

Dans quelle mesure ce robot DeepMind est-il bon pour jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains :

Coup droit et revers :

L'adversaire utilise une variété de styles de jeu, et le robot peut également y résister :

Recevoir des services avec différents tours :

Cependant, la compétition ne semble pas aussi intense que la bataille entre les vieillards dans le parc.

Pour les robots, le tennis de table nécessite la maîtrise de compétences complexes de bas niveau et d'un gameplay stratégique, et nécessite un entraînement à long terme. DeepMind estime que les stratégies sous-optimales mais capables d’exécuter efficacement des compétences de bas niveau peuvent constituer un meilleur choix. Cela distingue le tennis de table des jeux purement stratégiques comme les échecs et le Go.

Ainsi, le tennis de table est une référence précieuse pour améliorer les capacités des robots, notamment la locomotion à grande vitesse, la prise de décision précise et stratégique en temps réel, la conception de systèmes et la compétition directe avec des adversaires humains.

Pour cela, le scientifique en chef de Google DeepMind a fait l'éloge : "Le robot de tennis de table nous aidera à résoudre les problèmes de contrôle et de perception à grande vitesse." gagné 45% du temps (13/29). Tous les joueurs humains étaient des joueurs que le robot n’avait jamais vu auparavant, allant du débutant au joueur de tournoi.

Alors que le bot a perdu tous ses matchs contre des joueurs de plus haut niveau, il a remporté 100 % de ses matchs contre des débutants et 55 % de ses matchs contre des joueurs intermédiaires, démontrant la performance d'un amateur humain. Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains

Dans l'ensemble, les contributions de cette recherche comprennent :

Proposer une architecture politique hiérarchique et modulaire qui comprend :

des contrôleurs de bas niveau et leurs descripteurs de compétences détaillés qui sont utiles pour Les capacités de l'agent sont modélisées et aider à combler le fossé entre la simulation et la réalité ;
Choisissez des contrôleurs de haut niveau avec des compétences de bas niveau.
Technologie qui met en œuvre une simulation sans échantillon dans la réalité, notamment en définissant des méthodes itératives basées sur la répartition des tâches du monde réel et en définissant un programme automatique.
Adaptez-vous aux adversaires invisibles en temps réel.
Introduction à la méthode

L'agent se compose d'une bibliothèque de compétences de bas niveau et d'un contrôleur de haut niveau. Le pool de compétences de bas niveau se concentre sur un aspect spécifique du tennis de table, tel que le topspin en coup droit, la visée en revers ou le service en coup droit. En plus d'intégrer des stratégies de formation, l'étude collecte et stocke également des informations hors ligne et en ligne sur les forces, les faiblesses et les limites de chaque compétence de bas niveau. Le contrôleur de haut niveau chargé de coordonner les compétences de bas niveau sélectionnera les meilleures compétences en fonction des statistiques de jeu actuelles et des descriptions des compétences.

En outre, l'étude a également collecté une petite quantité de données de jeux d'entraînement humains et humains comme base pour les conditions initiales de la tâche. L'ensemble de données comprend des informations sur la position, la vitesse et la rotation. L'apprentissage par renforcement est ensuite utilisé pour former l'agent dans un environnement simulé, et certaines techniques existantes sont utilisées pour déployer de manière transparente la politique sur du matériel réel.

L'agent joue avec les humains pour générer plus de données d'entraînement. À mesure que le robot continue d'apprendre, les normes du jeu deviennent de plus en plus complexes, permettant à l'agent d'apprendre des actions de plus en plus complexes. Cette boucle hybride « simulation-réalité » crée un apprentissage automatisé qui permet aux compétences du robot de s’améliorer au fil du temps.

Contrôle en couches

Le contrôle en couches comprend principalement les parties suivantes :

Style de jeu au tennis de table : Le contrôleur de haut niveau (HLC, contrôleur de haut niveau) décide d'abord quel style de jeu utiliser (coup droit ou Revers);
Ajustement : maintenez la préférence de chaque HLC (valeur H) en ligne sur la base des statistiques des matchs contre les adversaires ;
Sélectionnez la compétence la plus efficace : les joueurs présélectionnés du HLC sont basés sur l'échantillonnage de la valeur H ajustée par LLC ;
Mises à jour : les valeurs H et les statistiques des adversaires sont mises à jour jusqu'à la fin de la partie.

Résultats

Les chercheurs ont comparé l'agent avec 29 joueurs de tennis de table de différents niveaux, dont débutants, intermédiaires, avancés et avancés +. Les joueurs humains ont joué trois parties contre le robot selon les règles standard du tennis de table, mais les règles ont été légèrement modifiées car le robot était incapable de servir.

Face à tous les adversaires, le robot a remporté 45% des matchs et 46% des parties. Ventilé par niveau de compétence, le bot a remporté tous ses matchs contre des joueurs débutants, a perdu tous ses matchs contre des joueurs avancés et avancés+ et a remporté 55 % de ses matchs contre des joueurs intermédiaires. Cela montre que l'agent atteint le niveau d'un joueur humain intermédiaire lors des rondes de tennis de table.

La raison pour laquelle les robots ne peuvent pas battre les joueurs avancés est due à des limitations physiques et techniques, notamment la vitesse de réaction, les capacités de détection de la caméra, le traitement de rotation, etc., qui sont difficiles à modéliser avec précision dans un environnement de simulation.

S'entraîner avec des robots est également très attrayant

Les participants à la recherche ont déclaré qu'ils aimaient beaucoup jouer avec des robots et ont attribué aux robots des notes élevées en termes d'"intéressant" et "d'attrayant". Ils ont également exprimé à l'unanimité qu'ils étaient "très disposés" à combattre à nouveau le robot. Pendant leur temps libre, ils ont joué avec le robot pendant en moyenne 4 minutes et 06 secondes sur 5 minutes.

Le robot n'est pas bon en backspin

Le participant avec les meilleures compétences a mentionné que le robot n'est pas doué pour gérer le backspin. Pour tester cette observation, les chercheurs ont comparé la vitesse d'atterrissage du robot en fonction de la rotation de la balle, et les résultats ont montré que la vitesse d'atterrissage du robot diminuait considérablement à mesure qu'il faisait face à davantage de balles en backspin. Ce défaut est dû en partie au fait que le robot essaie d'éviter d'entrer en collision avec la table lors de la manipulation de balles basses, et d'autre part au fait qu'il est très difficile de déterminer la rotation de la balle en temps réel.