Deep Learning Relationnel pour le clustering de données massives et complexes

L’apprentissage profond (ou Deep Learning) est un ensemble de méthodes d’apprentissage automatique tentant de modéliser des connaissances avec un haut niveau d’abstraction grâce à des architectures hiérarchiques de neurones artificiels. Ces techniques ont permis des progrès importants et rapides dans les domaines de l’analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage. En 2016, le programme alphaGo, ayant appris à jouer au jeu de go par la méthode de l’apprentissage profond, a battu le champion du monde Lee Sedol. Cet exploit, qui semblait impossible il y a quelques années seulement étant donné la complexité du jeu de go, a démontré les formidables capacités d’apprentissage et d’abstraction des méthodes profondes.

Nous nous intéresserons dans ce stage à l’apprentissage profond appliqué aux données non-vectorielles. En effet, dans de nombreuses applications, les observations ne sont pas naturellement représentées sous forme d’un nombre fixé de valeurs numériques, i.e., sous forme de vecteurs. Les données réelles peuvent en effet être de taille variable, être décrites par des variables qui ne sont pas directement comparables, ne pas être numériques, etc. On peut évoquer par exemple les données textuelles ou les données symboliques (intervalles, distributions, etc.). Or, beaucoup de méthodes d’analyse de données ont été construites pour des données représentées dans un espace vectoriel. Pour être appliquées à des données non vectorielles, les méthodes en question doivent être modifiées et adaptées. Une approche particulièrement fructueuse consiste à s’appuyer sur la définition de mesures de (dis)similarités entre données complexes. L’avantage évident de cette stratégie est de séparer la construction d’algorithmes d’analyse et le choix de la représentation des données. Cela permet de proposer une implémentation unique d’un algorithme d’analyse qui pourra être utilisée avec toute sorte de données, à condition de pouvoir calculer une (dis)similarités entre les observations. L’algorithme et son implémentation deviennent alors universels.

Cependant, ce type de méthodes s’adapte difficilement aux données massives, malgré une augmentation très rapide de la taille des jeux de données due aux nouvelles technologies. Le problème vient de l’impossibilité de placer l’ensemble de ces données en mémoire vive. Les données doivent être traitées une par une ou par « paquets ». Or, dans les méthodes à base de similarité, les données (ou leurs représentants) sont décrites par leurs distances à toutes les autres données, ce qui est impossible si on ne conserve pas en mémoire l’ensemble des données. Il est donc nécessaire de proposer de nouveaux algorithmes d’analyse de données à base de similarité qui soient adaptés à ce type de problème.

L’objectif de ce stage sera de développer une nouvelle méthode d’apprentissage profond pour données massives et complexes. La méthode mise au point se basera sur une mesure de similarité entre objets pour apprendre une nouvelle représentation des données sous la forme de pondérations qui formeront la couche d’entrée du réseau de neurone profond. Ces pondérations seront mises à jour e temps réel par l’algorithme au cours de l’apprentissage, de façon à limiter le temps de calcul et l’utilisation de la mémoire. Les performances de l’approche proposées seront testés expérimentalement sur des jeux de données artificiels et réels.


Établissement
LIPN (Laboratoire d'Informatique de Paris 13)
93430 Villetaneuse  
Site Web
https://lipn.univ-paris13.fr/fr/laboratoire-presentation/offres-d-emplois/offres-de-stage
Date de début souhaitée
01/04/2017
Niveau
Bac +5
Prérequis

Formation en Apprentissage Automatique et Data Mining
Développement en Python.�

Durée
mois
Indemnité
530 euros par mois
Informations de contact

Basarab Matei
matei@lipn.univ-paris13.fr