Menu principal

Evaluation de librairies open-sources dans le domaine du Deep-Learning pour le traitement des séquences ou des textes

ref : 0014352 | 19 oct. 2016

date limite de candidature : 16 déc. 2016

2 avenue Pierre Marzin 22300 LANNION - France

votre rôle

Les récents progrès des techniques d'apprentissage artificielles dites "Deep Learning" ont été largement relayés dans les média récemment. Citons rapidement à titre d'exemple, hors application de reconnaissance d'image : Watson, pour lequel IBM intègre de nombreuses techniques différentes dans sa technologie d'assistant intelligent; les assistants orientés smartphone ou OS de type SIRI, Cortana...; le nouvel assistant pour mail "Allo" de Google, etc... Ces différents succès reposent en partie sur de nouveaux composants d'apprentissage artificiels, et pour une autre partie sur les très grandes bases d'apprentissage maintenant disponibles chez les grands acteurs de l'internet pour entraîner ces systèmes. Parmi les nouveaux composants, la classe des LSTM networks (Long Short-Term Memory Networks) et leurs variantes (GRU...) nous intéressent ici tout particulièrement.

Nous souhaitons répondre à certaines questions quant à la mise en oeuvre des composants de type LSTM et/ou variantes et leur intérêt à Orange : Quelles sont les librairies de type LSTM qui pourraient être utilisées chez Orange ? Quel est le degré de maturité de ces librairies ? Quelles sont les difficultés de mise en oeuvre ? Comment se comportent les LSTM sur quelques tâches simples de prédiction de séquences, de Q/A, et d'extraction d'information ? Pour chaque problème type, et selon les types de LSTM, comment évoluent les courbes des performances en fonction du nombre d'exemples ? Peut-on entraîner des LSTM sur des bases de taille limitées ou moyennes ? Si oui quels types de LSTM le permettent, avec quels paramètres et quelles performances ?

Nous souhaitons à l'issu de ce stage avoir un premier retour sur expérience sur l'utilisation de composants de type LSMT, des avantages et inconvénients des librairies disponibles, leur facilité de mise en oeuvre, les performances qu'on peut en escompter avec un investissement de quelques mois (nous ne visons pas l'exhaustivité dans cette étude : la liste des tâches de tests sera adaptée au format du stage et aux contraintes techniques rencontrées au fur et à mesure).

Ce stage de 6 mois (durée impérative) sera donc composé des étapes suivantes :

1. Prises en main et compréhension des LSTM : 1,5 mois.

Un premier compte-rendu sur la prise en main sera effectué à la fin de cette étape.

2. Construction du benchmark des tâches de test : 1,5 mois.

A partir des jeux de données et des tâches précisées en entrée, concevoir et coder les scripts d'enchaînement des traitements et intégrer les composants nécessaires à chaque tâche.

Effectuer les tests unitaires.

Un document technique présentant le code développé sera effectué à la fin de cette étape.

3. Passage des tests et variations itératives sur le benchmark : 2 mois.

Une fois le benchmark bien rôdé, les campagnes de tests, en faisant varier les paramètres et les tailles des jeux de données, seront lancées. Tous les résultats seront consignés et analysés tout au long de cette étape.

4. Rédaction finale du rapport : 1 mois.

Le rapport compilera les livrables intermédiaires et un bilan des études effectuées.

Le rapport devra entre autres contenir les points suivants :

  • Présentation pédagogiques des LSTM et/ou variantes vues et les librairies utilisées,
  • Synthèse des difficultés rencontrées aux différentes étapes, synthèse des résultats obtenus.

votre profil

Elève ingénieur en 3ème année ou Master recherche en informatique ou traitement du signal.
Une spécialisation en machine learning sera un plus appréciable. 

Vous avez de bonnes connaissances en développement, notamment en Java et Python.

le plus de l'offre

Afin de gagner du temps, seront donnés dès le début du stage :

  • une courte bibliographie sur les LSTM et leurs principales variantes.
  • la short-list des librairies à évaluer.
  • la description des tâches de tests pour le benchmark.
  • pour les tâches portant sur du texte, les éventuels outils de prétraitement nécessaires.

entité

Orange Labs Products and Services (OLPS) mobilise désormais l'expertise de plus de 3300 personnes réparties sur 14 villes en France et à l'international dans 11 pays. Elles porteront la responsabilité technique globale des produits et services proposés par notre Groupe, de la stratégie à la maintenance des solutions mises en oeuvre partout dans le monde.

Un challenge de taille que nous relevons tous ensemble dans une logique de maîtrise des coûts et des délais, avec un environnement de travail centré autour du client et de l'innovation au service des pays.

Proche de la mer, vous serez dans l'équipe de traitement des données d'Orange Labs directement en lien avec des problématiques opérationnelles d'Orange sur le CRM et l'Audience. Vous évoluerez dans un contexte très recherche sur un sujet porteur. Vous serez intégré-e au sein d'une équipe recherche.

contrat

Stage

Durée du stage : 6 mois

Niveau d'études préparées pendant ce stage : Bac+5

Candidatez sur Orange Jobs :

https://orange.jobs/jobs/offer.do?joid=57292&lang=FR

 


Établissement
Orange Labs
22300 Lannion  
Site Web
https://orange.jobs/jobs/offer.do?joid=57292&lang=FR
Date de début souhaitée
01/03/2017
Langues obligatoires
Anglais; Français
Niveau
Bac +4; Bac +5
Prérequis

3ème année Master informatique ou traitement du signal ; option machine learning si possible

Durée
6 mois
Indemnité
dépendant de l'école, mais supérieur à 1000 euros /mois
Date limite
31/12/2016
Informations de contact

Candidature via le site Orange Jobs directement