Menu principal

MUltimodal DeEEp Fake detection using Text-To-Speech Synthesis, Voice Conversion and Lips Reading (MUDEEFA)

Résumé du sujet

Ces dernières années, la vérification automatique du locuteur (ASV pour Automatic Speaker Verification) est de plus en plus utilisée pour la biométrie vocale. La sécurisation de ces systèmes biométriques vocaux pour les applications du monde réel devient donc un enjeu majeur. Le problème que nous posons donc ici est celui de l'usurpation d'identité au travers d'une attaque sur un système d'identification biométrique basé sur la voix, et des contre-mesures qui pourraient être mise en oeuvre pour répondre à ces attaques. Les travaux scientifiques récents montrent la diversité des attaques possibles. Parmi celles-ci, on peut compter sur les attaques par des systèmes de synthèse vocale de haute qualité ou les systèmes de conversion de voix performants. Les progrès récents de ces deux technologies de production synthétique de la parole sont dus à l'utilisation de techniques d'apprentissage profond (DNN) et de données massives nouvellement disponibles. La sécurité des systèmes de biométrie vocale contre les attaques par usurpation d'identité reste un sujet difficile et non-résolu. C'est un enjeu majeur à l'heure actuelle en ces périodes d'élections présidentielles et de diffusion massives d'informations erronées, modifiées ou falsifiées. Grâce à l'apprentissage profond et à la disponibilité de données de qualité et en grande quantité, la qualité des systèmes de synthèse de la parole à partir du texte et la conversion de voix (d'une voix source à une voix cible) a donc connu des progrès sans précédent. Sur certains systèmes, la qualité est telle qu'une oreille naïve ne saurait distinguer la parole générée (synthétique) de la parole naturelle. Les systèmes de reconnaissance automatique du locuteur (vérification de l'identité vocale du locuteur) sont en conséquence mis à rude épreuve du fait du manque de contre-mesures permettant aux systèmes de vérifier en plus de l'identité vocale du locuteur, la nature de parole (artificielle ou naturelle). De nombreuses études démontrent l’efficacité de la combinaison des modalités pour la reconnaissance de la parole et du locuteur ainsi que pour la construction de systèmes d’authentification robustes. La mise en place de systèmes permettant de synchroniser des enregistrements audio et les expressions labiales présentes dans une vidéo  et la disponibilité de corpus incluant les deux modalités nous permettra d’explorer le lien entre ces deux modalités.

Programme de la thèse

Ce sujet se situe à la frontière de plusieurs domaines et nécessite l'acquisition de compétences en traitement de la parole (synthèse et conversion de voix), en analyse des expressions faciales, en particulier labiales, et devra prendre en compte les travaux mêlant les deux modalités. Un travail conséquent de bibliographie et d'acquisition des technologies dans ces domaines sera donc nécessaire au démarrage de cette thèse. Ce travail permettra de mettre en œuvre ces deux compétences dans le but de proposer un système automatique de détection de fraude vocale (usurpation vocalique), en s'appuyant sur l'état de l'art en la matière et sur l'expertise développée par l'équipe EXPRESSION (identité vocalique et détection d'anomalie). Les résultats de la thèse pourront être confrontés à ceux exposés dans le workshop ASVspoof (satellite d'Interspeech) qui se concentre sur le défi de la vérification automatique de la parole et des contre-mesures à l'usurpation d'identité.

Contexte scientifique

L'équipe EXPRESSION du département Média et Interactions de l'IRISA cible l’étude des données produites par l’homme (en particulier langagières) et véhiculées par différents médias : le geste ou le mouvement, la parole et le texte. Deux de ses axes de recherche concernent la synthèse et reconnaissance du geste expressif et la parole expressive. L'équipe EXPRESSION possède une riche expérience dans le domaine du traitement automatique de la parole (synthèse de la parole et conversion de voix) ainsi que dans le domaine de la détection d'anomalie sur la voix et les expressions faciales. L'équipe dispose en outre de moyens techniques d'enregistrements qui lui permettront de faciliter la génération de données utiles à la synthèse, la conversion et l'analyse de la parole. Dans ce cadre, l'équipe a notamment développé un corpus dédié à l'analyse multimodale, baptisé EMO&LY (pour EMOtion and anomaLY) pour approfondir et valider ses recherches sur la détection d'anomalies menées pendant les précédentes thèses de Cédric Fayet et de Valentin Durand de Gevigney, encadrées au sein de l'équipe.

L'équipe d'accueil est située à Lannion, dans les Côtes d'Armor.


Mots-clés
classification; conversion de voix; heterogeneous information; intelligence artificielle; lecture labiale; parole; synthèse vocale
Établissement
INSTITUT DE RECHERCHE EN INFORMATIQUE ET SYSTEMES ALEATOIRES (IRISA) (EN PARTENARIAT AVEC L'INRIA)
35042 RENNES  
Équipe de recherche
EXPRESSION
Directeur
Damien LOLIVE
Co-encadrants
Pierre-François MARTEAU, Arnaud DELHAY
Site Web
https://www-expression.irisa.fr/
Date de début souhaitée
01/10/2022
Langues obligatoires
Anglais; Français
Prérequis

Le candidat ou la candidate devra mener des recherches appliquées de pointe dans un ou plusieurs des domaines suivants : traitement du signal, apprentissage automatique statistique, reconnaissance de la parole et des gestes. Il/elle devra posséder d'excellentes compétences en programmation informatique (par exemple C/C++, Python/Perl, etc.), et des connaissances en apprentissage automatique, en traitement du signal ou en interaction homme-machine.

Merci d'envoyer un CV, une lettre de motivation, une ou plusieurs lettres de référence et les résultats académiques du diplôme précédent (Master ou Ingénieur donnnant le titre de Master) à tous les contacts avant le vendredi 8 avril 2022, limite stricte.

Date limite
08/04/2022
Informations de contact

Damien LOLIVE
Pierre-François MARTEAU
Arnaud DELHAY
(prenom.nom@irisa.fr)