Stage en caractérisation de scènes et d’événements acoustiques pour le résumé automatique d’enregistrement de parole

Type de contrat : Stage

Niveau de diplôme exigé : Bac + 4 ou équivalent

Autre diplôme apprécié : de M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée.

Fonction : Stagiaire de la recherche

Contexte et atouts du poste

En traitement automatique de la parole, l’apport de modèles auto supervisés permettant d’extraire du signal des représentations condensées de l’information (embeddings) n’est plus à démontrer. Ces modèles ont autorisé la mise au point d’applications variées, comme la transcription, la traduction ou le résumé automatique d’un enregistrement de parole, avec un niveau de performance très élevé. Ils ont également mené à la création de systèmes capables de répondre à une requête d’n utilisateur en générant un texte adapté.

L’objectif du stage proposé est d’ajouter dans un tel système les informations non verbales pouvant être extraites de l’enregistrement audio, liées notamment à la scène acoustique et les événements sonores.

Mission confiée

Le stage propose différents objectifs dont :

  • Réaliser un état de l’art des approches existantes en caractérisation de scènes et détection d’événements acoustiques
  • Mettre en œuvre une sélection de ces approches et évaluer leur performance.
  • Evaluer la capacité d’un grand modèle de langage (LLM) à utiliser les informations non verbales, nativement et en intégrant les résultats de l’étape précédente, pour produire un résumé cohérent.

Le stage comprendra une partie expérimentale importante, comprenant l’évaluation, le finetuning et l’entraînement de systèmes de traitement de l’audio.

Le stage se déroulera au centre Inria Paris Sorbonne, rue Barrault, Paris 13, au sein d’un groupe de recherche spécialisé sur la parole et l’audio, composé d’une dizaine de chercheuses et chercheurs.

Ce stage est ouvert à des étudiantes étudiants de M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée.

 

Compétences

Compétences attendues :

  • Programmation Python
  • Pratique d’une librairie type Pytorch, Keras, Scikit-learn
  • Connaissances pratiques en apprentissage automatique
  • Maîtrise de l’anglais
  • Des connaissances en traitement automatique de la parole et/ou en traitement du signal constitueront un plus.

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés déterminés en fonction de la durée du stage
  • Possibilité de télétravail (après 2 mois d'ancienneté)
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des oeuvres sociales d'Inria)
  • Accès à la formation professionnelle