Quand des robots jouent aux jeux vidéo en équipe contre des humains : qui communique le mieux ?

Le match entre l’humanité et l’intelligence artificielle ne cesse de se rejouer, notamment pour montrer l’étendue des avancées scientifiques en la matière. Ce mercredi 22 et jeudi 23 août, une équipe de cinq intelligence artificielle (IA) développées par OpenAI se sont mesurées à deux des meilleures équipes de joueurs professionnels au monde du jeu vidéo de coopération Dota2 lors de la compétition « The International ».

D’abord victorieuse lors des matches de préparations, l’équipe d’IA s’est finalement inclinée face aux meilleurs joueurs mondiaux. Les excellentes performances observées lors de ce tournoi marquent tout de même un pas significatif dans la recherche en intelligence artificielle, tout particulièrement dans la coopération entre plusieurs IA. Ces avancées, développées dans le contexte du jeu vidéo, pourraient bientôt s’appliquer à d’autres domaines et concerner d’autres pans de la société, notamment socio-économiques.

Une compétition portée par la recherche scientifique en IA

Le choix du terrain d’affrontement s’est porté sur le jeu vidéo Dota 2, dont le principe est relativement simple à comprendre mais très complexe à maîtriser. Au cours de chaque partie, deux équipes adverses de cinq personnes s’affrontent sur un terrain composé de deux camps séparés par une rivière. Pour gagner, chaque équipe doit détruire le bâtiment principal de l’équipe adverse. Les joueurs doivent donc se coordonner afin de décider quelle stratégie adopter, notamment entre l’attaque du camp adverse ou la défense de ses propres quartiers.

Une partie de Dota 2.

De nos jours, il existe d’excellentes IA jouant à des jeux de stratégie tels que les Échecs ou le Go. Cependant, il existe trois différences fondamentales entre ces jeux et Dota 2 : la coordination entre membres d’une équipe, le facteur temps réel (tout le monde joue en même temps et non au tour par tour), et enfin le facteur incertitude. Ce dernier point est critique, les informations concernant les actions de l’équipe adverse étant souvent incomplètes. Ici, les joueurs ne possèdent pas la vision complète du terrain de jeu à cause d’un brouillard de guerre, qui ne se dissipe qu’à proximité des personnages et infrastructure de votre équipe. Théorisé par par Carl von Clausewitz au début du XIX^e siècle, cette incertitude oblige constamment à inférer les positions et la stratégie de l’équipe adverse à partir de bribes d’information. Dota 2 est ainsi un jeu de coopération, de tactique, de stratégie et de réflexe.

OpenAI, une organisation privée à but non lucratif de recherche en intelligence artificielle, s’est donc attelée à développer une solution automatisée pouvant répondre efficacement aux différentes contraintes du jeu. Ils ont ainsi mis au point une équipe d’IA, OpenAI Five, qui a montré au cours de cette compétition une grande maîtrise du jeu. Lors de matchs préparatifs qui ont eu lieu le 5 août dernier, OpenAI Five a en effet battu 2 à 1 une équipe d’anciens professionnels classée dans le « top 99.95 percentile », c’est-à-dire une équipe remportant théoriquement ses matchs contre 99,95 % des joueurs existants au monde, que ceux-ci soient professionnels ou non. Cependant, lors deux matchs face aux meilleurs joueurs mondiaux, l’équipe d’IA s’est systématiquement inclinée. Si elle n’est pas encore à même de battre avec garantie la portion d’humains au top mondial, OpenAI Five a tout de même su montrer les muscles et ouvrir de nouvelles perspectives dans des domaines allant bien au-delà des jeux vidéo.

Des avancées importantes dans le domaine de l’IA

Le tour de force d’OpenAI Five provient en premier lieu du fait de faire apprendre à ces IA à jouer à ce jeu complexe uniquement en les faisant jouer contre elles-mêmes sans leur fournir de données de matchs joués par des humains. Cette approche n’est cependant pas nouvelle, Google Deepmind avait déjà démontré l’efficacité de cet apprentissage avec AlphaGo Zero, qui a rapidement surpassé AlphaGo, précédent vainqueur des matchs contre Ke Jie, réputé le meilleurs joueur humain de go, en jouant des millions parties simulées contre elle-même. La différence entre AlphaGo Zero et OpenAI Five réside dans le fait que le Go, aussi profond soit-il, reste un jeu beaucoup moins complexe que Dota 2. Le nombre et la nature des décisions à prendre sont également radicalement différents.

Au cours d’une partie de go, le joueur doit faire en moyenne 150 coups, ce qui implique autant de décisions à faire. Au cours d’une partie sur Dota 2, ce nombre s’élève plutôt aux alentours de 20 000 décisions. De plus, chaque décision d’un joueur au Go revient à choisir un coup parmi 250 possibles en moyenne. Sur Dota 2, un joueur a en moyenne 1 000 coups théoriques d’après une estimation des chercheurs d’OpenAI.

La prouesse peut également être saluée par la réussite d’une coopération efficace entre cinq IA sur un terrain complexe, ce que personne ne savait réellement faire depuis que la recherche scientifique en IA sur les jeux de stratégie en temps réel a démarré suite au travaux de Michael Buro en 2003. Ses travaux ont proposé six grands axes dans ce domaine de recherche, dont la coopération entre IA. Or depuis 2003, la coopération était le seul de ces six axes où aucune avancée significative n’a été proposée. Ici, OpenAI nous montre qu’il est possible de faire apprendre à plusieurs IA à jouer et collaborer dans un jeu profondément tactique, où il est parfois nécessaire de sacrifier les performances individuelles si cela permet d’optimiser la performance globale de l’équipe.

Sous le capot d’OpenAI Five

Avant cette compétition, la communauté scientifique s’accordait à dire que des algorithmes nouveaux et de nouvelles architectures d’apprentissage étaient nécessaires pour maîtriser un jeu tel que Dota 2. Cependant, l’équipe d’OpenAI n’a utilisé que des algorithmes et des méthodes bien rodés du domaine. Ils ont notamment eu recours à la méthode d’apprentissage profond (ou deep learning) sur un large réseau de neurones artificiels. L’architecture se révèle assez classique, quoique gigantesque. Le réseau de neurones a ainsi été dupliqué cinq fois, une fois par personnage actif de l’équipe afin qu’ils disposent chacun de leur propre apprentissage. Leur composante principale est un ensemble de neurones permettant de « se souvenir » des événements du jeu dans une fenêtre temporelle de quelques secondes afin de prendre de meilleures décisions stratégiques. Cette architecture, appelée Long Short Term Memory, n’a rien de nouveau non plus puisqu’elle a été développée en 1997.

Pour ce qui est de l’algorithme d’apprentissage utilisé, il s’agit d’un algorithme développé par les chercheurs d’OpenAI en 2017, « proximal policy optimisation », qui est une amélioration d’un algorithme développé en 2015 par des chercheurs de l’Université de Berkeley. Rien de fondamentalement nouveau non plus, ces algorithmes reposant sur des mécanismes bien connus.

Un tournoi pas vraiment équitable

Il est important de préciser qu’OpenAI Five ne joue pas encore à Dota 2 dans son entièreté mais seulement à une restriction du jeu. En effet, les IA ne maîtrisent actuellement que 18 personnages sur les 115 présents dans le jeu, et certains sorts ont tout bonnement été désactivés.

Un changement important avait également été permis lors des matchs de préparation. Dans le jeu, il existe ce que l’on appelle un courier, à savoir une mule transportant des objets (des bonus offensifs, des potions de vie, etc.) directement aux joueurs où qu’ils soient sur la carte. Selon les règles, chaque équipe n’a le droit qu’à un seul courier vulnérable aux attaques de l’équipe adverse. Pour les matchs du 5 août, chaque équipe disposait de 5 couriers invincibles, ce qui a changé radicalement la donne et favorisé grandement les stratégies offensives. OpenAI Five a ainsi pu se permettre d’appliquer un style de jeu outrancièrement agressif, se concentrant sur les combats sans trop se soucier des possibilités de ravitaillements.

Pour la compétition réelle, les fonctionnalités classiques ont été réactivées, mettant au grand jour certaines limites des stratégies des IA, l’agressivité se montrant moins systématiquement efficace. Ayant encore du mal à s’adapter et à prendre de meilleures décisions stratégiques, beaucoup s’accordent à dire que la dernière version d’OpenAI Five s’est montrée moins effrayante que lors des matchs préparatifs du 5 août.

Une autre critique récurrente formulée par certains chercheurs du domaine porte sur le fait que les IA avaient un accès instantané à toutes les informations qui étaient dans la zone visible de la carte du jeu. Ce point semble particulièrement défavorable aux joueurs humains, qui ont des méthodes bien différentes de traitement de l’information. Cependant, le but affiché d’OpenAI n’est pas de fabriquer une IA dont le comportement se rapprocherait de celui des joueurs humains, mais bien de développer une IA maîtrisant les rouages d’un jeu complexe en exploitant les avantages d’un ordinateur. Ce sont d’ailleurs précisément ces avantages qui permettront des applications inédites en IA et robotiques demain.

Les perspectives d’innovation pour la société et les entreprises

L’IA est un sujet de société brûlant et chaque nouveau cap franchi fait émerger autant de craintes que d’ambitions, mais c’est réellement l’usage décliné qui situera l’impact sur nos civilisations. Par exemple, le deep learning est déjà employé dans de nombreuses applications économiques, ou bien pour favoriser certains actes altruistes et en faveur de la société, ou encore dans un contexte de surveillance et de réduction des libertés individuelles. De plus, comme par opposition au spectre d’algorithmes qui signeraient la fin de l’humanité, de nombreuses voix s’élèvent aujourd’hui pour rappeler qu’actuellement, l’IA est très limitée, voire moins capable intellectuellement qu’un enfant de 6 ans. Bien que tout à fait exact, ce rappel passe trop souvent sous silence les potentiels de changement qu’ont les technologies déjà existantes. Après cette compétition, OpenAI prend la communauté de court en montrant que nous sommes déjà en capacité de dépasser certains obstacles relégués au futur. Et si demain la collaboration entre machines était possible, quels changements pourrions-nous voir apparaître ?

Faisons un petit exercice de prospective. D’ici quelques années, quasiment tous les experts s’attendent à un déploiement massif de l’automatisation intelligente : un raz de marée de « robots » et des algorithmes, qui prendront en charge tout ou une partie de nombreux processus au travail. Les humains resteront présents pour traiter les cas de figure difficilement automatisables, ainsi que s’affairer à la maintenance et au management des robots.

Seulement, ce scénario risque de présenter une limite importante si ces milliers de robots ne coordonnent pas leurs efforts et agissent aveuglément à la lumière de leur programmation ou leur apprentissage. Il y aurait bien plus de valeur à ce que ces unités puissent agir en équipe, favorisant ou taisant certaines actions individuelles pour atteindre des objectifs supérieurs. Ainsi, le niveau d’intelligence et d’application général de ce type de solution serait supérieur à la somme des intelligences isolées du réseau. Par exemple, un robot en charge de nos e-mails pourrait collecter des informations de celui en charge des absences du personnel et ainsi décider de signaler à vos interlocuteurs votre absence et proposer des dates de réunions appropriées. Les résultats montrés par OpenAI Five ce mois d’août 2018 pourraient-ils suggérer que cette projection soit plus proche de nous qu’anticipé ?

Quand des robots jouent aux jeux vidéo en équipe contre des humains : qui communique le mieux ?

Authors

Disclosure statement

Partners

Une compétition portée par la recherche scientifique en IA

Des avancées importantes dans le domaine de l’IA

Sous le capot d’OpenAI Five

Un tournoi pas vraiment équitable

Les perspectives d’innovation pour la société et les entreprises

Want to write?