Thèse CIFRE Ina et Inria : “Apprentissage profond (deep learning) à large échelle pour la création de bases de connaissances et la valorisation d’archives”

Sujet

L’accroissement du nombre de programmes audiovisuels à archiver impose des contraintes de productivité nouvelles sur la documentation. Le développement d’outils automatiques et semi-automatiques pour assister le travail des documentalistes est désormais indispensable pour exploiter au mieux la très grande quantité d’information disponible. Ces dernières années, sont ainsi apparues des techniques d’indexation et d’analyse de contenu visuel ou sonore, permettant la modélisation d’information de haut niveau, comme par exemple : des visages, des locuteurs, des monuments, des logos, des décors, des noms de chansons, etc. La modélisation consiste à construire des représentations visuelles des entités avec lesquelles on désire annoter des archives multimédia. Les processus de modélisation sont basés sur des méthodes d’apprentissage non-supervisées, supervisées, ou parfois pauvrement supervisées.

Avec l’essor des réseaux de neurones convolutionnels durant ces dernières années, les représentations visuelles ad-hoc (“hand-crafted”) sont progressivement remplacées par des représentations à base de Deep Learning apprises à partir de données d’apprentissage dédiées à la tâche d’annotation visée. Ces stratégies d’apprentissage supervisées allant du signal (pixels) jusqu’aux classes ou entités dans un même formalisme ont permis d’atteindre des performances très importantes pour la reconnaissances d’objets dans les images.

Ces méthodes ont toutefois deux limitations majeures pour envisager une exploitation dans le contexte de la documentation professionnelle à large échelle. Premièrement, elles fonctionnent en monde fermé c’est à dire avec un nombre fixe de classes préalablement connues. Dans le cadre de l’Ina, il est essentiel de fonctionner en monde ouvert car à chaque instant :

  • des utilisateurs peuvent vouloir créer de nouvelles classes,
  • le système de prédiction peut être sollicité pour des images n’appartenant pas à la base d’apprentissage, ce qui est essentiel à détecter.

Deuxièmement, elles ne permettent pas d’envisager efficacement des stratégies d’apprentissage actif et incrémental du type bouclage de pertinence ou propagation d’annotation. Hors ces modes de fonctionnement dynamiques et interactifs sont indispensable à une mise en oeuvre métier. Il y au sein de l’Ina des dizaines de documentalistes qui ont pour mission d’annoter les documents vidéos. Il est essentiel que ces documentalistes puissent interagir avec le système de reconnaissance et que celui-ci soit suffisamment réactif.

Plus formellement, le coeur de la thèse sera de s’attaquer aux problèmes d’apprentissage actif multi-label et de détection de la nouveauté dans le contexte de l'apprentissage profond de représentations visuelles. Cela nécessitera de résoudre des verrous liés au passage à l’échelle des méthodes de prédiction à partir de modèles profond.

 

Encadrement et contexte

L’encadrement de la thèse sera assuré par Alexis Joly (HDR, Inria, https://scholar.google.fr/citations?user=kbpkTGgAAAAJ&hl=fr&oi=ao)  et Olivier Buisson (Dr, Ina, https://scholar.google.fr/citations?user=rWunhTEAAAAJ&hl=fr). Elle s’inscrit dans la continuité de plus de 10 ans de collaboration. Deux thèses CIFRE ont notamment déjà été soutenues en 2013 et 2016 sous leur co-supervision.  Par ailleurs, une plateforme de R&D nommée Snoop a été développée. Celle-ci est en cours d’expérimentation au sein de l’Ina mais aussi utilisée pour l’application de reconnaissance des plantes PlantNet (http://identify.plantnet-project.org).

Les acteurs institutionnels de cette thèse, l’équipe Zénith de l’Inria et l’Ina ont une expérience solide dans l’analyse de données multimédia et le passage à l’échelle et apporteront des compétences complémentaires sur le sujet. Les travaux de Zenith s’articulent autour de la gestion, l’analyse et de la recherche d’informations dans des données hétérogènes de très grande taille. Au sein de l’Ina, le doctorant rejoindra le département de la Recherche et de l’Expérimentation qui s’intéresse à tous les sujets de recherche en lien avec l’archivage audiovisuel.

 

Candidature

Envoyez par email et en PDF à l’adresse thcand@ina.fr, les documents suivants :

  • CV,
  • lettre de motivation ciblée sur le sujet,
  • au moins deux lettres de recommandation,
  • relevés de notes + liste des enseignements suivis en M2 et en M1.

 

Informations sur le poste

Début : deuxième semestre 2017

Salaire : 35 202€ bruts sur 13 mois.

Lieu : Ina (Institut national de l’audiovisuel) à Bry-sur-Marne.

 

 


Mots-clés
big data; deep learning; interactif
Établissement
Institut national de l'audiovisuel
94360 Bry-sur-Marne  
Directeur
Alexis Joly (HDR, Inria-Zenith)
Co-encadrants
Olivier Buisson (Dr, Ina)
Date de début souhaitée
01/11/2017
Langues obligatoires
Anglais; Français
Prérequis

Diplôme : Master 2 en informatique ou école d’ingénieur.
De bonnes connaissances et une pratique en Computer Vision et/ou Machine Learning, ainsi que la maîtrise de la programmation C/C++.
Bon niveau d’anglais.

Informations de contact

Olivier Buisson, thcand@ina.fr