Apprentissage topologique semi-supervisé multi-labels

Contexte :

En apprentissage automatique, on souhaite apprendre le lien entre une observation (décrite par un ensemble d’attributs) et l’appartenance à une classe. Plusieurs situations sont possibles. En apprentissage supervisé, la classe est déjà connue pour les données d’apprentissage, c’est-à-dire que chaque observation est associé à une étiquette (label) qui représentante sa classe. Dans ce cas l’algorithme doit apprendre la règle (ou la fonction) permettant d’attribuer automatiquement la bonne étiquette à chaque donnée. Dans le cas non supervisé, les observations ne sont pas associées à un label. L’algorithme doit estimer la structure des données sous forme de clusters, chaque cluster regroupant des données qui se ressemble, c’est-à-dire ayant des valeurs d’attributs similaires. Enfin, dans le cas semi-supervisé, on ne connaît les labels que pour un petit nombre d’observations. Dans ce cas la tâche est similaire à celle de l’apprentissage non supervisé, mais en ajoutant des contraintes assurant que les données ayant un même label soient regroupés dans un même cluster, et inversement.

Pour ce stage nous nous intéresserons au cas semi-supervisé, mais nous traiterons le problème des données multi-labels. De nos jours, de nombreuses données peuvent être classées dans plus d’une catégorie. C’est cas par exemple des images : une même image peut être de type « portrait », « selfie », « enfant » et « été » en même temps. On peut aussi citer les hashtags des tweets ou les catégories des films. L’existence de labels multiples complique significativement la tâche de l’apprentissage, puisqu’il faut être capable de prédire efficacement non plus un seul label mais un ensemble de label. Il s’agit pourtant d’un des challenges majeurs de l’analyse de données moderne.

L’objectif de ce stage sera de développer de nouvelles méthodes d’apprentissage semi-supervisé pour données multi-labels à partir de cartes auto-organisatrices. L’idée sera de représenter chaque observation par un vecteur représentant à la fois les variables et les labels, puis d’utiliser une mesure de similarité hybride adaptée à cette représentation. L’algorithme s’exécutera incrémentalement, en intégrant progressivement de nouveaux labels pour les observations non étiquetées à partir des prédictions faites à l’étape précédente. De cette façon, nous attendons une augmentation significative de la qualité des clusters obtenus.

Objectifs du stage :

  • Étudier l’état de l’art sur les méthodes d’analyse de données semi-supervisés multi-labels.
  • Développer et tester de nouvelles méthodes semi-supervisées qui prennent en compte les labels multiples.
  • Valider la méthode sur différents jeux de données.

Compétences souhaitées :

  • Formation en Apprentissage Automatique et Data Mining
  • Développement en Python et/ou Matlab

Établissement
Laboratoire d'Informatique Paris Nord - Université Paris 13
93430 Villetaneuse  
Date de début souhaitée
01/04/2017
Niveau
Bac +5
Prérequis

Formation en Apprentissage Automatique et Data Mining
Développement en Python et/ou Matlab

Durée
6 mois
Indemnité
~ 530 € par mois
Informations de contact

Guénaël Cabanes (guenael.cabanes@lipn.univ-paris13.fr)