Comment servir une tasse de thé à un humain ? Comment déplacer des œufs sans les casser ? Quels gestes faire pour passer l’aspirateur dans les coins ?… Voilà des questions qui ne nous ressemblent pas. Et pour cause, ce sont les robots qui se les posent. Car pour ces machines, toute action commandée par une personne est un casse-tête à peine compréhensible s’il n’a pas été entraîné spécifiquement pour l’accomplir. Aussi, des chercheurs de l’université de Stanford ont eu l’idée de bâtir un moteur de recherche à l’adresse des robots afin de les aider à comprendre les requêtes humaines et à planifier les actes qui en découlent. Son nom : RoboBrain.
C’est dans un article mis en ligne le 1er décembre dernier dans le site arXiv que l’équipe dirigée par Ashutosh Saxena du Département de sciences informatiques de Stanford (Etats-Unis) a dévoilé son projet : il vise à créer une base de données interactive et multimédia permettant à chaque robot de télécharger un ensemble d’instructions pour mener à bien une tâche qu’il n’a pas apprise. Une sorte de SIRI (le moteur de recherche vocal de l’iPhone) a usage robotique, en prévision de la diffusion massive de ces cerveaux électroniques sur pattes (ou roues) dans les années à venir.
COMMENT LE ROBOT VA-T-IL S’Y PRENDRE POUR SERVIR UNE TASSE DE THÉ ?
Et le défi n’est pas mince ! Car s’il nous est facile d’interpréter les réponses fournies par les moteurs de recherche sous forme multi-modale (textes, vidéos, animations, illustrations, sons) et d’en extraire le savoir recherché, il en va tout autrement pour les robots : la réponse à une requête doit contenir une série d’instructions extrêmement détaillées sur chaque type d’action qu’il doit accomplir, en prenant en compte la nature des objets à manipuler, le contexte physique où doit se dérouler l’action, et le type d’interaction qu’il convient d’avoir avec l’humain.
Les chercheurs donnent l’exemple d’une situation où l’on dit à un robot « sers-moi une tasse de thé du thermos ». Le robot pourrait alors communiquer cette expression orale à RoboBrain lequel ferait appel à un système en ligne de reconnaissance de la parole, puis à un système d’interprétation des mots clés de la phrase (préparer, tasse, thé, thermos).
Le système renverrait ensuite au robot des connaissances lui permettant d’élaborer un plan d’action dans le contexte particulier où il se trouve : se déplacer vers la cuisine, saisir une tasse vide, la mettre dans le bon sens, verser le thé du thermos sans dépasser le bord, rapporter la tasse pleine et la poser sur une surface de type « table » près de l’humain. Les chercheurs illustrent ce processus ainsi :
Le système fonctionne déjà mais pour des tâches simples, comme déplacer une barquette d’œufs sans en casser aucun. Pour cela, la structure de RoboBrain est conçue comme un graphe (illustration ci-dessous) liant des nœuds par des arrêtes. Chaque nœud contient sous forme visuelle ou descriptive ou encore symbolique une connaissance : par exemple, des image de tasses de thé, des instructions indiquant qu’il faut laisser une distance entre la surface du liquide et le bord du récipient, des images de tables, des instructions de déplacement, la symbolisation d’actes humains à prendre en compte, etc.
Il va sans dire que le projet RoboBrain est immensément complexe. Notamment à cause de l’hétérogénéité des bases de données connectées à Internet, des différences de conception entre les systèmes d’intelligence artificielle de chaque robot et les particularités matérielles de ceux-ci (jambes, roues, capteurs, effecteurs, etc.). Mais il est ouvert (en open source) afin d’inciter les autres chercheurs en robotique à venir le compléter et l’affiner.
Science & Vie – Román Ikonicoff