Une équipe composée de chercheurs de l’université d’Oxford et de DeepMind, la filiale de Google spécialisée dans l’intelligence artificielle (IA), a mis au point une application de lecture sur les lèvres présentée comme beaucoup plus performante que les humains. Ils ont entrainé leur réseau neuronal à partir de 5.000 heures de programmes télévisés de la BBC (Newsnight, Question Time, The World Today). L’échantillon contenait 118.000 phrases et 17.500 mots uniques.
Résultat, l’IA est parvenue à un taux de réussite de 46,8 %. Cela peut paraître faible, mais il faut savoir que des professionnels à qui l’on a demandé d’annoter les mêmes séquences vidéo en lisant sur les lèvres des personnages à l’écran n’ont atteint que 12,4 % de réussite. Il y a une quinzaine de jours de cela, une autre équipe de l’université d’Oxford avait fait l’actualité en présentant un autre programme de lecture sur les lèvres nommé LipNet qui affichait 93,4 % de réussite contre 52,3 % pour les humains. Mais il y a une grande différence par rapport aux travaux menés par DeepMind. En effet, LipNet a été testé sur un échantillon spécialement créé pour l’occasion totalisant seulement 51 mots uniques.
Marc Zaffagni, Futura-Sciences