Est-ce qu’Alexa, Google ou Siri écoutent nos conversations ?

Alexa: une vidéo virale montre que le haut-parleur d'Amazon enregistre des fragments de voix sans le mot d'activation. Est-ce possible?

© Perrine Signoret

“Alexa, mets l’alarme à huit heures”, “Alexa, joue le film Oppenheimer”, “Alexa, dis-moi quel temps il fera à Pâques”. Toutes ces interactions avec l’enceinte intelligente sont enregistrées et disponibles pour tout utilisateur qui les demande à Amazon. C’est ce qu’a découvert la criminologue María Aperador, qui a été surprise de constater que certains audios ne commençaient pas par le mot d’activation, « Alexa ». Elle l’a dénoncé dans une vidéo sur TikTok et Instagram qui est devenue virale. Comment est-ce possible ?

Amazon a une politique claire : les audios ne sont pas stockés ni envoyés au cloud à moins que l’appareil ne détecte le mot d’activation. La compagnie confirme cela et ajoute que l’utilisateur saura quand Alexa envoie sa demande au cloud par un indicateur lumineux bleu ou un son de l’enceinte.

David Arroyo, chercheur du CSIC spécialisé en cybersécurité et données, offre une explication alternative : les systèmes peuvent s’activer lorsque quelqu’un prononce le mot d’activation, mais ils peuvent aussi avoir de faux positifs pour diverses raisons.

Les systèmes d’apprentissage automatique d’interprétation de la voix, comme ceux utilisés par Alexa, Google ou Apple, incorporent divers éléments pour améliorer leur fonctionnement. Cependant, ce n’est pas une tâche facile. “Ces systèmes sont conçus pour identifier tous les éléments de variabilité par prononciation”, dit Arroyo, se référant aux différents accents et façons de parler, ainsi qu’aux changements dans la résonance ou la réverbération du lieu où se trouve l’appareil.

María Aperador a partagé avec EL PAÍS que les enregistrements durent environ 6 secondes et sont des fragments de conversations occasionnelles. Parmi les plus de 500 fichiers audio qu’Amazon lui a fournis, elle a trouvé deux dans lesquels le mot d’activation n’était pas prononcé.

Une étude de l’Université Ruhr de Bochum et de l’Institut Max Planck pour la Sécurité et la Confidentialité souligne l’importance des activations accidentelles sur les haut-parleurs intelligents. Après avoir analysé 11 appareils de huit fabricants différents, ils ont publié des informations sur plus de 1.000 activations involontaires.

Alexa: comment les enceintes détectent le mot d’activation

Les enceintes intelligentes s’activent lorsqu’elles entendent le mot Alexa ou les phrases “ok, Google” ou “hey, Siri” grâce à un système qui est toujours à la recherche de ce mot. Mais ce n’est pas exclusif à Alexa, les smartphones ou de nombreux interphones le font aussi.

“Quand tu mets l’enceinte en veille active, elle absorbe tout ce que tu dis à tout moment. Elle n’enregistre pas. Mais l’algorithme le traite, car il doit voir quels mots sont prononcés”, dit Arroyo.

L’algorithme recherche les motifs acoustiques correspondant au mot d’activation sur l’appareil lui-même. Amazon indique que sa technologie ne se base que sur l’information des ondes sonores pour détecter le terme. Ils soulignent également que l’enceinte peut être activée avec un bouton, ce qui éviterait la surveillance du son. Quant aux enregistrements, qui sont effectués lorsque l’appareil est activé, les utilisateurs peuvent choisir de ne pas les stocker dans leurs options de confidentialité.

Si le son était traité pour extraire des données au-delà de la recherche du mot-clé, les problèmes de confidentialité seraient très graves. Mais il n’y a pas de preuve que cela se produise. “Il y a beaucoup d’intérêts à ce que cela ne se produise pas, car cela signifierait une perte de confiance dans tous les appareils et un préjudice économique très important pour ces entreprises”, indique Albors.