L'outil d'IA de Microsoft peut transformer des photos en vidéos réalistes de personnes parlant et chantant

Microsoft Research Asia a dévoiler Un nouvel outil expérimental d’IA appelé VASA-1 peut prendre une photo fixe d’une personne – ou un dessin d’une personne – et un fichier audio existant pour créer un visage parlant réaliste en temps réel. Il a la capacité de générer des expressions faciales et des mouvements de tête par rapport à une image fixe existante, ainsi que des mouvements de lèvres appropriés pour correspondre à un discours ou une chanson. Les chercheurs ont téléchargé de nombreux exemples sur la page du projet, et les résultats semblaient suffisamment bons pour faire croire aux gens qu'ils étaient réels.

Bien que les mouvements des lèvres et de la tête dans les exemples semblent encore quelque peu robotiques et désynchronisés après une inspection plus approfondie, il est toujours clair que la technologie peut être utilisée à mauvais escient pour créer facilement et rapidement de fausses vidéos de vraies personnes. Les chercheurs eux-mêmes sont conscients de ce potentiel et ont décidé de ne pas publier « de démo en ligne, d'API, de produit, de détails de mise en œuvre supplémentaires ou toute démo connexe » jusqu'à ce qu'ils soient sûrs que leur technologie « sera utilisée de manière responsable et conformément aux normes appropriées ». .»  » Cependant, ils n'ont pas précisé s'ils prévoyaient de mettre en œuvre des garanties spécifiques pour empêcher les mauvais acteurs de les utiliser à des fins néfastes, telles que la création de fausses campagnes pornographiques ou de désinformation.

Les chercheurs estiment que leur technologie présente de nombreux avantages malgré les risques d’abus. Ils ont déclaré que cela pourrait être utilisé pour promouvoir l’équité en matière d’éducation, ainsi que pour améliorer l’accessibilité pour les personnes ayant des difficultés de communication, peut-être en leur donnant accès à un avatar capable de communiquer avec eux. Il peut également fournir un accompagnement et un soutien thérapeutique à ceux qui en ont besoin, ont-ils déclaré, laissant entendre que VASA-1 pourrait être utilisé dans un logiciel donnant accès à des personnages d'intelligence artificielle avec lesquels les gens peuvent parler.

READ  La mauvaise semaine de GTA Publisher Take-Two s'aggrave à mesure que les piratages de catastrophe

Selon le papier Déployé avec la publicité, VASA-1 a été formé sur l'ensemble de données VoxCeleb2, qui contient « plus d'un million de phrases rédigées par 6 112 célébrités » extraites de vidéos YouTube. Bien que l'outil ait été formé sur des visages réels, il fonctionne également sur des images artistiques comme la Joconde, que les chercheurs ont combinées de manière ludique avec un fichier audio de l'interprétation virale d'Anne Hathaway de la chanson de Lil Wayne. Photographes. C'est très exaltant et vaut la peine d'être regardé, même si vous doutez de l'utilité d'une technique comme celle-ci.

Ce contenu intégré n'est pas disponible dans votre région.

Cet article contient des liens d'affiliation ; Si vous cliquez sur ce lien et effectuez un achat, nous pouvons gagner une commission.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *