Le nouvel outil d’IA de Microsoft peut simuler des sons avec trois secondes de son

Malgré les progrès réalisés dans la création de vidéos IA, il faut encore une quantité importante de matériel source, comme des prises de vue sous différents angles ou des séquences vidéo, pour que quelqu’un puisse créer une fausse version convaincante de ce à quoi vous ressemblez. Quand il s’agit de simuler sa propre voix, c’est une autre histoire, par exemple Chercheurs Microsoft Il a récemment dévoilé un nouvel outil d’IA Il peut simuler la voix de quelqu’un en utilisant seulement un échantillon de trois secondes eux parler.

Le nouvel outil, un « Neural Markup Language Paradigm » appelé VALL-E, est construit sur Technologie de compression audio EnCodec de Meta, dévoilé à la fin de l’année dernière, qui utilise l’intelligence artificielle pour compresser une qualité audio supérieure à celle d’un CD à des débits de données 10 fois inférieurs à ceux des fichiers MP3, sans perte notable de qualité. Meta a envisagé EnCodec comme un moyen d’améliorer la qualité des appels téléphoniques dans les zones à couverture cellulaire inégale, ou comme un moyen de réduire les demandes de bande passante pour les services de diffusion de musique, mais Microsoft exploite la technologie comme un moyen de rendre l’audio de synthèse vocale plus efficace. réaliste sur la base d’un échantillon source très limité.

Les systèmes de conversion de texte existants sont capables de produire des voix très réalistes, c’est pourquoi les voix des assistants intelligents sonnent si authentiquement malgré leurs réponses verbales générées à la volée. Mais cela nécessite des données d’entraînement très propres et de haute qualité, qui sont généralement capturées dans un studio d’enregistrement avec un équipement professionnel. L’approche de Microsoft permet à VALL-E de simuler la voix de presque n’importe qui sans passer des semaines dans un studio. Au lieu de cela, l’outil est formé avec Jeu de données Meta Libri-lightqui contient 60 000 heures d’enregistrement en anglais de plus de 7 000 locuteurs uniques », extrait et traité à partir de LibriVox livres audio », qui sont tous du domaine public.

Microsoft a partagé un fichier Large gamme d’échantillons générés à partir de VALL-E Vous pouvez donc entendre par vous-même à quel point les capacités de l’onomatopée sont grandes, mais actuellement les résultats sont mitigés. L’outil a parfois du mal à recréer des accents, y compris même des accents subtils à partir d’échantillons sources où le locuteur sonne irlandais, et sa capacité à déplacer l’émotion dans une phrase donnée est parfois amusante. Mais pour la plupart, VALL-E a produit des échantillons qui sonnent de manière naturelle et chaleureuse et sont presque impossibles à distinguer des haut-parleurs d’origine dans les trois deuxièmes clips source.

Dans sa forme actuelle, entraînez-vous sur Libre Lite, VALL-E se limite à simuler la parole en anglais, et bien que ses performances ne soient pas encore parfaites, elles s’amélioreront sans aucun doute à mesure que son jeu de données de modèle se développera. Cependant, il appartiendra aux chercheurs de Microsoft d’améliorer VALL-E, car l’équipe ne publie pas le code source de l’outil. dans Document de recherche récemment publié Détaillant le développement de VALL-E, ses créateurs comprennent parfaitement les risques qu’il pose :

Étant donné que VALL-E peut synthétiser la parole qui préserve l’identité du locuteur, il peut présenter des risques potentiels d’abus de modèle, tels que l’usurpation de reconnaissance vocale ou l’usurpation d’identité d’un locuteur spécifique. Pour pallier ces risques, il est possible de construire un modèle de détection pour différencier si un extrait sonore a été synthétisé par VALL-E. Nous mettrons également Principes Microsoft de l’intelligence artificielle En pratique lors du développement de modèles.

READ  Dernières offres exclusives chez Huawei

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *