Stage en amélioration d’un système de détection de deepfake audio par une approche adversariale

Type de contrat : Stage

Niveau de diplôme exigé : Bac + 4 ou équivalent

Autre diplôme apprécié : M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée

Fonction : Stagiaire de la recherche

Contexte et atouts du poste

Les avancées dans le domaine de l’IA ont entraîné la multiplication d’outils permettant de produire des « deepfakes  » : le terme « deepfake » désigne la création de fausses images, vidéos, ou enregistrements audio à partir de techniques de deep learning. Dans le domaine de l’audio, la génération de deepfake a fortement progressé, notamment pour le clonage de voix. En effet, grâce à des outils libres ou commerciaux, il est désormais possible de créer un faux fichier audio réaliste à partir de quelques secondes d’enregistrement de la voix d’une personne. Une fois diffusés, ces deepfakes peuvent alors être utilisés de façon malveillante, par exemple dans le cadre de campagnes d’influence ou d’arnaques ciblées.

Par conséquent, la détection automatique de ces deepfakes est aujourd'hui un sujet de recherche très actif et de nombreux modèles ont été récemment proposés, montrant des performances de très bon niveau. Néanmoins, ces modèles peuvent rapidement devenir caduques en raison du développement permanent de nouvelles technologies de génération de deepfakes, ce qui demande des mises à jour régulières des modèles.

Ce cycle « nouvelle attaque – mise à jour » est classique, on le trouve par exemple dans le domaine des antivirus. Il est cependant  mis en cause par l’arrivée d’attaques dites «  adversariales », qui tirent partie des modèles de détection eux-mêmes pour générer des attaques encore plus réalistes.

Mission confiée

L’objectif principal du stage proposé est de mesurer l’impact potentiel des attaques adversariales dans le cadre de la détection des deepfakes audio. Un deuxième objectif sera d’améliorer la robustesse des modèles de détection de deepfakes audio à ces attaques adversariales.

 Le travail sera décomposé en trois phases :

  • Une analyse des différentes approches adversariales utilisées dans le cadre de la génération de deepfakes audio.
  • Une analyse de l’impact des attaques sélectionnées dans le cadre de la détection automatique de deepfakes audio.
  • La proposition de pistes d’amélioration des modèles de détection actuels, pour augmenter la robustesse à des attaques de type adversariales.

Le stage se déroulera au centre Inria Paris Sorbonne, rue Barrault, Paris 13, au sein d’un groupe de recherche spécialisé sur la parole et l’audio, composé d’une dizaine de chercheuses et chercheurs.

Ce stage est ouvert à des étudiantes étudiants de M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée.

Compétences

Compétences attendues :

  • Programmation Python
  • Pratique d’une librairie type Pytorch, Keras, Scikit-learn
  • Connaissances pratiques en apprentissage automatique
  • Maîtrise de l’anglais
  • Des connaissances en traitement automatique de la parole et/ou en génération automatique de contenus multimédia constitueront un plus.

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés déterminés en fonction de la durée du stage
  • Possibilité de télétravail (après 2 mois d'ancienneté)
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle