Enceintes connectées : l’IA n’existe pas

Que se passe-t-il quand vous demandez à Siri l’âge de Donald Trump ? Comment Google Home transmet-il à l’ampoule de votre salon l’ordre de s’éteindre ? Qui explique à Alexa où trouver votre morceau favori sur Spotify ? En dépit des fantasmes d’algorithmes tout-puissants, assistants vocaux et enceintes connectées nécessitent, dès leur création, une importante intervention humaine.

Ce samedi après-midi de décembre, avec ma sœur et ses enfants, nous ne sommes pas l’unique famille à venir visiter la galerie de paléontologie du Muséum national d’Histoire naturelle. Il faut bien occuper les 45 minutes passées à faire la queue dans le froid. L’un de mes neveux, 8 ans, demande au smartphone de sa mère : « OK Google, images de tricératops ». Sans attendre, des images de dinosaures à trois cornes s’affichent sur l’écran. Devant la facilité déconcertante avec laquelle son fils utilise ce service, lui qui ne maîtrise pas encore tout à fait le clavier et dont l’orthographe est pour le moins créative, ma sœur me demande, l’œil goguenard : “Dis tonton, comment ça marche un assistant vocal ?” Ça tombe bien, la file avance lentement et un panneau annonce encore 30 minutes d’attente…

Anatomie d’une intelligence artificielle

Google Assistant, Siri ou Cortana sont présents dans nos smartphones et nos ordinateurs. Selon Google, 20 % des requêtes seraient actuellement faites avec la voix. Les assistants vocaux équipent également les enceintes connectés proposées par les GAFAM (Google, Apple, Facebook, Amazon et Microsoft) :  Google Home, HomePod ou encore Amazon Echo. En 2018, on trouve leurs courbes sobres ou leurs couleurs high-tech (voir encadré) dans les foyers de plus d’1,7 million de français·e·s.

Une enceinte connectée, c’est un ordinateur sans écran et sans clavier

Les enceintes connectées sont équipées d’une alimentation électrique, d’un microprocesseur (le « cerveau » qui effectue les calculs), d’une connexion internet et d’un microphone : ce sont des ordinateurs. Et, comme les ordinateurs et les smartphones, elles s’appuient sur un système d’exploitation. Si vous utilisez un PC, vous êtes sans doute « sous Windows » ; si vous avec un Mac, vous connaissez Mac OS X ; si vous utilisez un iPhone, c’est iOS et si ce n’est pas le cas, c’est sans doute Android, le système de Google. De même, comme Google Home est équipé de Google Assistant, Apple HomePod s’appuie sur Siri tandis qu’Alexa anime les enceintes Amazon Echo (mais également 200 000 autres produits, pas tous vendus par Amazon). Enfin, Cortana est l’assistant vocal proposé par Microsoft. Ce sont des logiciels propriétaires : leur code est fermé et ne peut être consulté si vous n’êtes pas employé·e ou sous-traitant·e de l’entreprise qui les commercialise.

 

Le modèle de Google Assistant, c’est l’ordinateur central qui répond aux capitaines des vaisseaux de « Star Trek », et la firme de Mountain View ne s’en cache pas. “Comme J.A.R.V.I.S., qui accompagne Tony Stark dans son armure d’Iron Man”, précise l’un de mes neveux. Les intelligences artificielles (IA) qui s’activent à la voix ne se limitent d’ailleurs plus à la science-fiction, puisque dans la comédie dramatique « Her » de Spike Jonze, Scarlett Johansson prête sa voix à Samantha.

Les assistants vocaux s’activent à l’aide d’un wake word, littéralement, « un mot qui réveille » : « OK Google », « Dis Siri » ou « Alexa » (ce qui n’est pas sans poser de problème si c’est votre prénom). Pourquoi la voix ? Parce qu’elle est jugée plus rapide : 210 mots à la minute contre 70 à l’écrit. Mais aussi parce qu’elle permet de lancer une tâche lorsque les mains sont déjà occupés à cuisiner, à bricoler ou à faire le ménage.

Les assistant vocaux s’activent à l’aide d’un wake word, littéralement, « un mot qui réveille ».

Une fois l’enceinte activée, les utilisateur·trice·s peuvent exprimer leur demande. Comme pour toute requête dans un moteur de recherche, la connexion internet est indispensable pour transmettre les données aux serveurs de la marque, majoritairement situés aux États-Unis pour les géants du numérique. L’étape suivante est appelée speech to text : l’IA transcrit la commande vocale en une demande écrite, qui va elle-même subir un traitement statistique permettant d’en identifier les mots-clés.

En vidéo | Science-fiction, les IA au cinéma

Par exemple, dans la phrase « Alexa, commande-moi une pizza quatre fromages », l’enceinte envoie un enregistrement sonore aux serveurs d’Amazon. Ces quelques mots sont alors analysés par l’IA, qui identifie commande, pizza et quatre-fromages comme les mots-clés pour rechercher un restaurant susceptible de livrer chez vous, en se basant sur votre géolocalisation. Enfin, Alexa répond avec une proposition (et non des centaines de pages comme le ferait un moteur de recherche sur écran). C’est l’opération inverse, text to speech, qui nécessite que la machine transforme une information écrite en son, à l’aide d’un synthétiseur vocal.

Les chercheur·se·s Kate Crawford et Vladan Joler proposent un schéma très exhaustif détaillant l’anatomie d’une IA, en y intégrant matières premières nécessaires, infrastructures techniques, corps de métier sollicités et niveau de rémunération. Je vous propose ici une version plus légère, qui se concentre sur le chemin parcouru par l’information lors d’une requête auprès d’une enceinte connectée.

Que se passe-t-il lorsque vous posez une question à une enceinte connectée ? / Sébastien Magro, 2019
Que se passe-t-il lorsque vous posez une question à une enceinte connectée ? / Sébastien Magro, 2019

Des enceintes connectées, mais pas si intelligentes

« Les IA ont besoin d’apprendre et, pour cela, elles s’appuient sur le machine learning, ou apprentissage machine », précise le sociologue Antonio Casilli, enseignant à Telecom ParisTech et chercheur associé à l’EHESS. « Cette technique consiste à proposer à l’ordinateur suffisamment d’exemples, pour voir émerger des patterns. » Il faut notamment que la machine identifie des schémas récurrents, c’est-à-dire qu’elle « comprenne » les différentes tournures de phrases pour une même commande, et qu’elle intègre les variantes de prononciations et d’accents.

Contrairement aux êtres humains, qui apprennent à partir d’exemples peu nombreux, il faut plusieurs milliers de requêtes pour que les intelligences artificielles « apprennent ».

Dans la file d’attente du Muséum, nous dépassons une statue de stégosaure qui joue à cache-cache dans les fougères. À partir d’ici, on nous promet 15 min d’attente. Ma sœur : “Donc, si je comprends bien, les enceintes connectées ne sont pas intelligentes, elles ont besoin qu’on les entraîne, c’est ça ?” En effet, demander à Siri de noter un rendez-vous, rechercher l’adresse d’un musée grâce à Alexa ou commander un Uber avec « OK Google » : tout cela participe à améliorer les IA qui équipent ces services. De même, vérifier les résultats proposés par une enceinte, à partir d’un smartphone ou d’un ordinateur, améliore ses réponses à venir. En somme, c’est un travail que les utilisateur·trice·s fournissent gratuitement aux constructeurs.

[su_box title=”À quoi ces objets doivent-ils ressembler ?”]

Comment dessiner un objet qui obéit à la voix, sans être manipulé ? Deux tendances émergent :

Enceinte connectée Google Home
Enceinte connectée Google Home / photo Google

• Google fait le choix de l’objet familier dont les formes évoquent la décoration intérieure, voire le soin. Les courbes et les couleurs neutres, « naturelles », dominent l’ensemble de l’offre. L’enceinte de milieu de gamme, Google Home, n’est pas sans évoquer un diffuseur d’huiles essentielles, tandis qu’à l’entrée de gamme, Google Home Mini est un simple galet, sans angle saillant.
• De leur côté, Apple et Amazon assument la référence à la science-fiction avec des formes plus futuristes. Le vocabulaire est résolument technique : les enceintes HomePod et Amazon Echo sont noires ou blanches, avec des touches lumineuses de couleurs vives, par exemple quand Siri écoute, ou lorsqu’Alexa traite une question.

[/su_box]

Les êtres humains derrière les machines

En l’état actuel des choses, l’intelligence artificielle n’est donc pas autonome : elle repose principalement sur le travail d’êtres humains. Avant la commercialisation de ces services, les algorithmes qui traitent les données sont programmées par des ingénieur·e·s. Puis, pendant leur utilisation, ces programmes sont régulièrement “entraînés” par leurs utilisateur·trice·s. Mais d’autres humain·e·s interviennent : des centaines de milliers de personnes, principalement basées dans les pays émergents, traitent également les données, produites majoritairement par les utilisateur·trice·s des pays riches, le plus souvent pour des salaires dérisoires.

Derrière les assistants vocaux qui équipent les enceintes connectées, des travailleur·se·s du clic.

Les travailleur·se·s du clic ne sont que très rarement employé·e·s par les GAFAM, car ces fonctions sont souvent délocalisées et externalisées à travers des chaînes de sous-traitance. La plupart sont recruté·e·s pour des contrats à durée déterminée ou payé·e·s à la pièce. Parmi les tâches qui leur sont proposées figure la comparaison de deux fichiers : une piste son, de quelques secondes à peine, prononcée par l’utilisateur·trice et le texte “compris” par la machine. Les travailleur·se·s du clic doivent le corriger si nécessaire, et l’annoter avec des mots-clés pour le rendre traitable par l’algorithme.

À écouter | Antonio Casilli, sociologue : « Les intelligences artificielles ont besoin d’être entraînées »

Ces personnes réalisent jusqu’à 180 micro-tâches par heure, soit plusieurs milliers par jour. Elles sont peu payées : quelques centimes d’euros lorsqu’elles vivent en Europe mais encore moins dans les pays asiatiques, africains ou d’Amérique du Sud où l’on parle de centimes de centimes par tâche. Les plus aisé·e·s se connectent depuis leur foyer, car elles et ils disposent des meilleurs équipements informatiques. Mais beaucoup travaillent depuis les cybercafés, à l’université ou à l’école. Les régions les plus concernées sont Madagascar et l’Afrique de l’Ouest pour le traitement des données francophones ; pour les anglophones, c’est l’Asie pacifique, avec notamment l’Inde et les Philippines.

Pour ces personnes, il est impossible de créer les solidarités professionnelles qui émergent lorsqu’on travaille à l’usine ou dans un bureau. La plupart d’entre elles ne savent pas que des milliers de travailleur·se·s assurent les mêmes tâches. Antonio Casilli précise : « S’ils en ont conscience, c’est au niveau local, avec les 4 ou 5 personnes qui les ont initiées au micro-travail. ». L’éclatement géographique joue aussi, car les plateformes de micro-travail suivent le soleil : lorsque la journée se termine dans la Silicon Valley, elle commence à Hyderabad, en Inde, ce qui permet un service continu.

[su_box title=”Dans les coulisses de Cortana : témoignage de Julie, transcriber“]
En mai 2018, La Quadrature du Net, association de lutte pour les libertés en ligne, rapporte le témoignage de Julie, opératrice pour un sous-traitant de Microsoft. En 2017, pendant 8 mois, elle a été transcriber, c’est-à-dire transcriptrice : elle écoutait de courtes séquences enregistrées par Cortana, puis vérifiait leur transcription écrite pour s’assurer que l’intelligence artificielle avait bien compris le sens des phrases.

[/su_box]

L’intervention humaine par micro-tâches se soustrait à l’IA au point que, pour Antonio Casilli, une partie de l’intelligence artificielle est elle-même artificielle : lorsque la machine n’est pas en mesure de comprendre une requête, des personnes prennent le relais et saisissent “à la main” la demande dans la base de données.

À lire aussi | Enceintes connectées et confidentialité des données : entretien avec Nina Gosse, avocate

Pour le moment, le modèle économique des enceintes connectées repose majoritairement sur la récolte et la commercialisation des données des utilisateur·trice·s – surtout pour Google et Amazon, moins pour Apple et Microsoft. Le traitement de ces données permet un profilage précis qui peut être vendu aux marques pour qu’elles diffusent de la publicité ou des partenariats commerciaux sur les enceintes connectées. Si l’on reprend l’exemple de la commande de pizza, Amazon propose déjà cette fonctionnalité pour Alexa, en partenariat avec Domino’s. Les fabricants d’enceintes connectées n’ont donc pas intérêt à ce que l’importance de l’intervention humaine soit connue : ils doivent entretenir l’image de produits innovants pour continuer de séduire une clientèle issue des classes moyennes et supérieures.

L’intelligence artificielle autonome est encore loin

Les enceintes connectées et les assistants vocaux peuvent rendre bien des services, mais ces objets ne sont pas magiques. Comme pour la plupart des outils numériques, les utilisateur·trice·s ignorent souvent que leur usage a un coût économique et humain, ainsi qu’un impact écologique. En prendre conscience amène à faire des choix en conséquence. Quant à une intelligence artificielle parfaitement autonome, même les géants de la Silicon Valley en sont encore loin – n’en déplaise aux plus angoissants scénarios des films de science-fiction.

Nous passons le guichet de la galerie de paléontologie, l’attente se termine. Ma sœur reprend son téléphone : “Vous n’en aurez pas besoin dans le musée, tonton et moi allons vous faire la visite…”.

2 Comments

  1. Merci pour ce panorama complet de l’assistance vocale ! Le chiffre de 20% de requêtes vocales de Big G serait à prendre avec des pincettes, cf https://blog.resoneo.com/2018/01/requete-cinq-nest-pas-vocale/

  2. Pingback:10 Façons pour que le machine learning en marketing digital change la donne - METADOSI

Leave a Comment

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.