« Deepfake », un terme imparfait pour une réalité appelée à durer

Histoire d’une notion. Des images pornographiques mettant en scène la chanteuse américaine Taylor Swift, entièrement générées par intelligence artificielle (IA), ont inondé le réseau social X en janvier. Devait-on les qualifier de deepfakes ? La question s’est posée au Monde, et si le mot a été retenu par la majeure partie de la presse, quelques titres l’ont soigneusement évité, comme le site américain The Verge, une référence dans la tech. Pour comprendre ce questionnement, il faut revenir aux origines, très récentes, du terme.
Fin 2017, le public découvre, effaré, des séries de vidéos pornographiques dans lesquelles le visage des actrices X a été remplacé par celui de célébrités. C’est un utilisateur du forum Reddit qui les fabrique, à l’aide d’un programme d’IA. Il se fait appeler « Deepfakes », et baptise ainsi le fil de discussion dans lequel il publie ses créations. Un mot est né. Et vite adopté. C’est que la formule, en plus d’être accrocheuse, est assez parlante. Elle fait à la fois référence à l’usage de l’IA (deep, pour deep learning, « apprentissage profond ») et à la manipulation (fake, qui signifie « faux »).
Les deepfakes se répandent sur Internet à des fins pornographiques ou parodiques. Des deepfakes sonores voient le jour, remplaçant une voix par une autre. Les deux se combinent : il devient alors possible de faire dire n’importe quoi à n’importe qui. L’inquiétude s’installe. Et si les deepfakes, déjà largement utilisés pour nuire aux femmes, étaient aussi exploités à des fins de manipulation politique ?
Retour en 2024. En cette année d’élections, l’IA est au centre des préoccupations. D’autant que, depuis deux ans, une petite révolution a eu lieu dans ce domaine : des programmes comme Midjourney ou Dall-E permettent à n’importe qui, en un clic, de générer une image réaliste, à partir d’une simple consigne écrite. Taylor Swift, comme bien d’autres, en fait les frais.
Mais s’agit-il de deepfakes ? Il n’est plus question de calquer un visage sur un contenu préexistant, mais de créer une nouvelle image à partir de zéro. « Pour moi, il n’y a pas de différence fondamentale, explique Jean-Gabriel Ganascia, chercheur en IA, professeur à Sorbonne Université et ancien président du comité d’éthique du CNRS. Car ces images sont tout de même générées à partir d’éléments préexistants. » Il a en effet fallu que le modèle d’apprentissage « s’entraîne » sur de nombreuses photos de Taylor Swift, et des images pornographiques, pour être capable de générer ces nouveaux contenus.
Il vous reste 54.38% de cet article à lire. La suite est réservée aux abonnés.

Trending now

No results