Menu principal

Annotation automatique en noms de lieux d’un corpus de récits de vie de migrants

1       Contexte

Ce stage s'intègre au projet Matriciel : "Lieux des migrants à travers des récits de vie : perceptions, émotions, mots, cartes". Le Réseau aquitain pour l’histoire et la mémoire de l’immigration (RAHMI) dispose d'un corpus sonore de nombreux récits de vie de migrants arrivés en Aquitaine à des époques différentes. Les récits des Espagnols arrivés au moment de la guerre civile, et ceux des Portugais venus en France pour travailler à partir de la fin des années 50, ont été regroupés en deux corpus. Ces entretiens ont été transcrits et l'objectif est de fournir des outils automatiques pour aider à leur analyse. Dans cette analyse, l'accent est mis sur l'articulation entre le singulier (le récit d'un ou quelques individus) et le commun (un lieu, éventuellement associé à un événement, qui a concerné un ou plusieurs groupes de population), et la mise en évidence d'éventuels régularités dans les corpus et contrastes entre les corpus, dans les lieux, les événements, les conditions d'intégration. Pour cela, un des objectifs du projet Matriciel est de segmenter le texte sous forme d'épisodes. Les résultats seront ensuite restitués dans un format cartographique qui permettra de présenter sous forme synoptique les épisodes dispersés dans les différents récits.

L'analyse s'attache au texte des récits de vie pour y identifier les lieux et les perceptions associées. Le lieu est ici compris dans un sens large : le lieu désigné par un toponyme répertorié dans un dictionnaire de toponymes (le plus souvent un nom propre, par exemple France) mais aussi celui désigné par un nom générique, éventuellement précisé par un nom propre et qui permet par exemple d'évoquer les lieux d'arrivée, de transit, d'asile ; le type d'habitation : la maison, l'appartement, le meublé, le garni, etc. ; les noms donnés aux lieux de résidence : le quartier, la cité, etc. La perception associée est, pour le moment, vue comme une polarité (deux valeurs : positive ou négative) qu'il faut attacher à un lieu ou à un segment de texte.

2       Sujet

Le sujet du stage est d'avancer dans l'identification automatique des désignations des lieux dans les récits transcrits, ainsi que des sentiments associées à ces lieux. Une première tâche (Brando et al. 2016) dans ce sens a été fondée sur l'apprentissage supervisé à l'aide de l'outil Stanford Named Entity Recognition (approche fondée sur les champs aléatoires conditionnels ou CRF)[1]. Des modèles pour cet outil ont été entrainés à partir de corpus annotés traitant de thématiques diverses. Les résultats ont été mesurés à l'aide des mesures de rappel, précision et F-mesure.

L'objectif du stage est d'améliorer ces résultats. Pour cela, deux pistes sont envisagées qui conduiront le stagiaire à implémenter deux types d'expérimentation (il est souhaité que l'ensemble des outils développés au cours de ce stage soit intégré à l'environnement GATE[2]) :

  • dans l'identification des lieux : le modèle d'apprentissage pourrait être amélioré grâce à la personnalisation et la meilleure utilisation des différents paramètres de l'apprentissage : étiquettes grammaticales, largeur de la fenêtre d'observation, prise en compte des variantes orthographiques ;
  • dans l'identification des sentiments : des outils fondés sur la syntaxe ont été conçus pour l'anglais (Andreevskaia & Bergler 2007 ; Ozdemir & Bergler 2015) afin d'identifier automatiquement des termes à prendre en compte pour définir la polarité de segments de textes. Ces outils seront testés et adaptés pour le français.

3       Prolongements éventuels

Le COGIT propose chaque année des sujets de thèse ainsi que des stages de post-doctorant. Un projet de l'université Concordia à Montréal sur la thématique de la représentation cartographique des récits de vie de migrants a débuté en 2016.

4       Encadrement du stage

Catherine Dominguès, IGN/DRE/LaSTIG/COGIT, 73 avenue de Paris, 94165 Saint-Mandé Cedex
mél : catherine.domingues@ign.fr

 Carmen Brando, EHESS, 190-198 Avenue de France, 75013 Paris
mél : carmen.brando@ehess.fr

Sabine Bergler, Concordia University, 1455 de Maisonneuve Blvd., Montreal, Canada,
mél : bergler@cse.concordia.ca

5       Pour candidater

Le dossier de candidature sera envoyé par mail à Catherine Dominguès. Il devra se composer d'un curriculum vitae et d'une lettre de motivation, accompagnés des relevés de notes des années de M1 et M2 (ou deux dernières années d'école d'ingénieurs) et d'une description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu).

6       Références

Andreevskaia A., Bergler S. (2007) CLaC and CLaC-NB: Knowledge-based and corpus-based approaches to sentiment tagging, In: Proceedings of SemEval-2007: 4th International Workshop on Semantic Evaluations at ACL 2007, Prague
http://www.aclweb.org/anthology/S/S07/S07-1022.pdf

Brando C., Dominguès C., Capeyron M. (2016) Evaluation of NER systems for the recognition of place mentions in French thematic corpora, In: Proceedings of the 10th Workshop on Geographic Information Retrieval (GIR '16). ACM, New York, NY, USA, article 7, 10 pages
DOI: 10.1145/3003464.3003471

Ozdemir C., Bergler S. (2015) A Comparative Study of Different Sentiment Lexica for Sentiment Analysis of Tweets. In: Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2015), Hissar, Bulgaria
https://www.aclweb.org/anthology/R/R15/R15-1064.pdf

 


[1] http://nlp.stanford.edu/software/CRF-NER.html

[2] https://gate.ac.uk/gate/doc/papers.html

 


Mots-clés
apprentissage automatique; entité nommée spatiale; nom de lieu; traitement automatique de langue
Établissement
Institut de l'information géographique et forestière
94160 Saint-Mandé  
Site Web
http://recherche.ign.fr/labos/cogit/accueilCOGIT.php
Date de début souhaitée
06/03/2017
Langues obligatoires
Français
Niveau
Bac +5
Prérequis

formation en informatique avec une spécialité TAL, ou formation en TAL avec des compétences fortes en informatique

Durée
5 mois
Indemnité
environ 530 euros par mois
Informations de contact

Catherine Dominguès
catherine.domingues@ign.fr