Menu principal

3 stages niveau M2 au LIPN

Bonjour,
l'axe "analyse" de l'équipe RCLN du LIPN propose 3 sujets de stages
niveau M2, avec la possibilité de continuer en thèse pour au moins l'un
des 3 sujets.

1 Stage M2: Entraînement LASO pour l'analyse en dépendances "easy-first"
------------------------------------------------------------------------

1.1 Contexte scientifique
-------------------------

L'algorithme /easy-first/ pour l'analyse en dépendances [1]est un
algorithme glouton qui construit les arbres d'analyse de manière
ascendante en prenant les décisions les plus faciles, celles qui
nécessitent le moins de contexte, en premier de façon à donner plus
d'informations aux décisions ultérieures. Durant la phase
d'apprentissage, on cherche des séquence d'actions de construction qui
soit en accord avec les arbres observés dans le corpus
d'entraînement. Si l'une des acti ons génère un sous-arbre invalide,
alors le modèle est mis à jour (par exemple par une mise à jour de
type perceptron). L'algorithme d'apprentissage proprement dit
(ex. perceptron) se combine donc à une exploration des différentes
possibilités de construction incrémentale des structures.

Dans ce stage, on propose de reformuler le problème de l'apprentissage
pour ce type de problème en suivant le paradigme LaSO (/learning as
search optimization/)[2] qui modélise précisément les problèmes
d'apprentissage structuré nécessitant la recherche d'une structure
intermédiaire avant sa validation par une observation, ici la séquence
d'actions permettant de construire un arbre d'analyse. le stage aura
aussi pour but de mesurer l'apport de l'utilisati on d'un réseau de
neurones récurrent pour la prédiction de la séquence d'actions à
effectuer.

Profil recherché: Niveau M2, bonne connaissance d'un langage de
programmation (python ou c++ idéalement), un intérêt
fort pour l'apprentissage automatique appliqué au
traitement automatique des langues.

1.2 Administratif
-----------------

Le stage aura lieu au LIPN (CNRS - Université Paris13 - Paris Sorbonne
Cité) du 01/04/2017 a u 30/09/2017 et sera encadré par Joseph Le Roux
et/ou Nadi Tomeh.  Le/La stagiaire fera partie de l'équipe de
recherche RCLN, membre du labex EFL (axe "sémantique
computationnelle"), dans la structure de recherche fédérative MathSTIC
de CNRS/Paris 13 (axe "Optimisation et Apprentissage pour les contenus
numériques").

Les candidatures (CV et lettre de motivation) doivent être adressées à
Joseph Le Roux (leroux@lipn.fr) avant le 15/1/17.

2 Stage M2: Paramétrisation CRF neuronal pour les analyseurs en
---------------------------------------------------------------
dépendances de type graphe
--------------------------

2.1 Contexte scientifique
----------------------- --

L'analyse syntaxique en dépendances est une tâche essentielle en
traitement automatique des langues. Récemment, l'utilisation de
réseaux de neurones récurrents a permis un regain d'intérêt pour les
modèles d'analyse structurellement plus simples, par exemple le
système de Kiperwasser et Goldberg[3]. la notion de contexte étendu
est très bien gérée par les réseaux, et le système grammatical n'a
plus à prendre en compte ces contextes en interne, puisqu'ils lui sont
donnés via les plongements lexicaux (/word embeddings/).

Le but de ce stage est d'étudier la paramétrisation d'un analyseur en
dépendances projectives par un modèle probabiliste de type CRF (champs
de Markov aléatoire), où les potentiels sont calculés par des réseaux
de neurones. Un tel système a déjà été proposé pour les grammaires
syntagmatiques. D'autre part des systèmes neuronaux ont déjà été
proposés pour l'analyse syntaxique en dépendances mais jamais avec un
modèle probabilistes global.

Profil recherché: Niveau M2, bonne connaissance d'un langage de
programmation (python ou c++ idéalement), un intérêt
fort pour l'apprentissage automatique appliqué au
traitement automatique des langues.

2.2 Administratif
─────────────────

Le stage aura lieu au LIPN (CNRS - Université Paris13 - Paris Sorbonne
Cité) du 01/04/2017 au 30/09/2017 et sera encadré par Joseph Le Roux
et/ou Nadi Tomeh.  Le/La stagiaire fera partie de l'équipe de
recherche RCLN, membre du labex EFL (axe "sémantique
computationnelle"), dans la structure de recherche fédérative MathSTIC
de CNRS/Paris 13 (axe "Optimisation et Apprentissage pour les contenus
numériques").

Les candidatures (CV et lettre de motivation) doivent être adressées à
Joseph Le Roux (leroux@lipn.fr) avant le 15/1/17.

3 Stage M2 : Réseaux de neurones avec attention pour la correction
------------------------------------------------------------------
d'orthographe et de grammaire
-----------------------------

3.1 Contexte scientifique
-------------------------

La correction automatique d'orthographe et de grammaire est un
problème difficile et important en traitement automatique des
langues. Elle facilite la construction de logiciels d'aide à
l'apprentissage de langues étrangères, comme elle permet de réduire le
bruit dans l'entrée des outils de TAL ainsi améliorant leurs
performance, notamment sur les textes non-édités que l’on peut trouver
sur le web. La difficulté de cette tâche provient de la grande
variabilité dans les types d'erreur ainsi que leur dépendance
syntaxique et sémantique vis-à-v is du contexte.

Étant donné une phrase potentiellement erronée en entrée, certaines
approches utilisent des classifieurs (à base de règles ou appris
automatiquement) pour générer des corrections, en modélisant leurs
interactions avec, par exemple, un modèle de langue N-gram ou un
CRF. Les systèmes de traduction automatique statistique dits
phrase-based ont été utilisés avec succès dans ce contexte, notamment
grâce à la disponibilité croissante de données corrigées
manuellement. Néanmoins, leur défaut majeur est la difficulté de
modéliser proprement des corrections à différentes granularités
(caractères/mots/etc.) qui s'avère nécessaire pour réduire le taux de
mots inconnus nuisibles à leur bon fonctionnement. Plus récemment,
l'utilisation de réseaux de neurones a entraîné des gains
significatifs pour les tâches de "mapping" entre paires de séquences,
y compris celles de la traduction et de la correction d'orthographe,
ceci grâce à leur capacité d'apprendre une meilleure représentation
des données ainsi qu'une meilleur prise en compte du contexte.

Dans ce stage, on propose d'étudier une nouvelle architecture de
réseau de neurones combinant des informations au niveau des caractères
et des mots grâce à la possibilité d'empiler facilement différents
réseaux. En particulier, un réseau convolutif peut être utilisé pour
apprendre des embeddings à partir des caractères, que l'on combine
avec des embeddings de mots pour alimenter une ou plusieurs couches de
réseaux récurrents de type encodeur-décodeur. On propose également de
comparer différents modèles d'attention (global, local, etc.)  pour
mieux modéliser le contexte.

Profil recherché: Niveau M2, bonne connaissance d'un langage de
programmation (python ou c++ idéalement), un intérêt
fort pour l'apprentissage automatique appliqué au
traitement automatique des langues.

3.2 Administratif
─────────────────

Le stage aura lieu au LIPN (CNRS - Université Paris 13 - Sorbonne
Paris Cité) du 01/04/2017 au 30/09/2017 et sera encadré par Joseph Le
Roux et Nadi Tomeh. Le/La stagiaire fera partie de l'équipe de
recherche RCLN, membre du labex EFL (axe "sémantique
computationnelle"), dans la structure de recherche fédérative MathSTIC
de CNRS/Paris 13 (axe "Optimisation et Apprentissage pour les contenus
numériques").

Les candidatures (CV et lettre de motivation) doivent être adressées à
Joseph Le Roux (leroux@lipn.fr) avant le 15/1/17.

Footnotes
─────────

[1] /An efficient algorithm for easy-first non-directional dependency
parsing/, Yoav Goldberg et Michael Elhadad, NAACL 2010

[2] /Learning as search optimization: approximate large margin methods
for structured prediction/, Hal Daumé III et Daniel Marcu, ICML 2005

[3] /Simple and Accurate Dependency Parsing Using Bidirectional LSTM
Feature Representations/, Eliyahu Kiperwasser et Yoav Goldberg, ACL
2016.


Mots-clés
apprentissage automatique; deep learning; traitement automatique de langue
Établissement
Université Paris-Nord : Paris 13
93430 Villetaneuse  
Langues obligatoires
Anglais; Français
Niveau
Bac +5
Prérequis

cf. annonce

Indemnité
gratification de stage niveau M2
Informations de contact

cf. annonce