Segmentation Parole/Musique de documents multimédias à l’aide de réseaux de neurones profonds

Contexte
Les missions de l’institut national de l’audiovisuel (Ina) consistent à archiver et à valoriser la
mémoire audio-visuelle française (radio, télévision et médias Web). A ce jour, plus de 15 millions
d’heures de documents télé et radio sont conservés, dont 1,5 millions d’heures numérisées. En
raison de la masse de données considérée, il n’est techniquement pas possible de procéder à une
description manuelle, systématique et détaillée de l’ensemble des archives. Il est donc nécessaire
d’utiliser des techniques d’analyse automatique du contenu pour optimiser l’exploitation de cette
masse de données.
Objectifs du stage
La segmentation Parole/Musique (SPM) consiste à segmenter un flux audio en zones homogènes de
parole et de musique. Cette étape est nécessaire en amont de tâches d’indexation haut niveau, telles
que la reconnaissance de la parole, du locuteur, du morceau ou du genre musical. Pour ces
différentes raisons, cette tâche a suscité beaucoup d’intérêts au sein des communautés de traitement
de la parole, ainsi qu’en indexation musicale.
L’utilisation de systèmes de SPM à l’Ina répond à trois cas d’usage principaux. En premier lieu, il
s’agit de localiser rapidement les zones d’intérêt au sein des médias, pour fluidifier les processus de
description des archives, réalisés manuellement par des documentalistes. La description manuelle
des archives est coûteuse, et réalisée avec un niveau de détail variable: les journaux télévisés étant
décrits plus finement que les fonds radio anciens. Les systèmes SPM peuvent ainsi permettre de
faciliter la navigation dans des fonds d’archives sous-documentés. Le dernier cas d’usage
correspond à la segmentation en morceaux de musique: consistant à détecter le début et la fin des
morceaux. Cette tâche permet de mesurer la durée des extraits musicaux présents dans les archives,
et ainsi rémunérer les sociétés d’auteurs concernées lorsque les archives sont commercialisées.
A ce jour, un certain nombre de situations restent difficiles pour les systèmes SMS. Il s’agit
notamment la différentiation entre voix parlée et voix chantée, notamment dans certains styles
musicaux où les propriétés spectrales de la voix chantée et parlée sont similaires. Une autre
difficulté rencontrée est liée aux cas où la parole est superposée à la musique, ce qui arrive assez
fréquemment dans les émissions radio et télé. Une autre difficulté rencontrée par les systèmes
actuels est la liée à la finesse de la segmentation temporelle, généralement de l’ordre de la seconde.
L’objectif du stage consiste à concevoir des systèmes basés sur l’utilisation de réseaux de neurones
profonds pour la segmentation parole/musique d’archives audio-visuelles. Les méthodes proposées devront prendre en charge la diversité des archives de l’Ina (archives radio des années 1930 à nos
jours). Une partie du stage sera consacrée à l’analyse des corpus SPM existants, et à la constitution d’un
corpus annoté (interprète, morceau, genre, locuteur, ...) permettant d’avoir un maximum de contrôle
sur l’ensemble des paramètres testés lors des évaluations. L’autre partie du stage sera consacré à la
mise au point d’architectures basées sur des réseaux de neurones profonds pour la SPM, qui sera
réalisée dans la continuité des travaux en cours utilisant des réseaux de neurones convolutionnels.
Le langage de programmation utilisé dans le cadre de ce stage sera Python. Le stagiaire aura accès
aux ressources de calcul de l’Ina (cluster et serveurs GPU).

Bibliographie
Jimena, R. L., Hennequin, R., & Moussallam, M. (2015). Detection and characterization of singing
voice using deep neural networks.
Peeters, G. (2007). A generic system for audio indexing: Application to speech/music segmentation
and music genre recognition. In Proc. DAFX (Vol. 7, pp. 205-212).
Pinto, N., Doukhan, D., DiCarlo, J. J., & Cox, D. D. (2009). A high-throughput screening approach
to discovering good forms of biologically inspired visual representation. PLoS Comput Biol, 5(11),
e1000579.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.


Mots-clés
apprentissage automatique; big data; deep learning; music information retrieval; segmentation du signal; Tensor Flow; theano; traitement de la parole; traitement du signal
Établissement
Institut national de l'audiovisuel
94360 Bry-sur-Marne  
Date de début souhaitée
01/02/2017
Langues obligatoires
Anglais
Niveau
Bac +4; Bac +5
Durée
6 mois
Indemnité
527,75 euros/mois
Informations de contact

David Doukhan, ddoukhan@ina.fr