Menu principal

Étude de l’apport des dépêches AFP à un corpus de textes de la presse écrite

Stage financé par le Labex ICCA,  projet structurant «Plateformes» 2016

Le projet 2PI (Modèles économiques de la presse en ligne & pluralisme de l'information) se propose de comparer, à différents niveaux linguistiques, des textes provenant de l'agence de presse AFP et d'autres titres de presse.

Les étapes d'analyse des textes seront :

— extraction terminologique,

— analyse morphosyntaxique,

— annotation sémantique,

— extraction d'entités nommées,

— analyse rhétorique (selon la théorie des arbres discursifs de Marcu).

Selon les outils à disposition, ces étapes seront automatiques ou semi-automatiques.

L'analyse rhétorique nécessitera le développement d'outils ad hoc, basés sur des méthodes

de machine learning détectant des marqueurs syncatégorématiques et d'autres propriétés du texte, à établir. Les données étant temporalisées on étudiera également l'évolution des propriétés des textes.

En représentant toutes les propriétés linguistiques extraites des textes du corpus sous  forme de graphes, il s'agira de mesurer l'apport des textes de l'AFP vis-à-vis de celui des textes des autres médias et de caractériser/quantifier ainsi la notion de «pluralisme des médias».

Description du poste

Les tâches principales concernent :

- Analyses et annotations automatiques ou semi-automatiques des textes.

- Développement et évaluation de l'outil d'analyse rhétorique.

- Modélisation des résultats sous forme de graphes et application de différentes mesures

de similarité entre les sous-graphes induits par les données AFP et leurs compléments.

Profil souhaité

- Formation en cours : Master 2 en Linguistique Informatique ou similaire.

- Programmation en Python (principalement NLTK).

- Curiosité et capacité d'explorer des nouveaux domaines en linguistique et/ou informatique.

- Des connaissances en théorie des graphes seraient un plus.

Conditions

Stage conventionné 6 mois rémunéré

Merci d'envoyer votre candidature à l'adresse yannis.haralambous@telecom-bretagne.eu

Documents souhaités

CV, lettre de motivation, relevé de notes.

Lieu

Département Informatique, Télécom Bretagne (à partir du 1er janvier 2017 : IMT Atlantique), Brest.

Encadrants

Yannis Haralambous (Télécom Bretagne et UMR CNRS 6285 Lab-STICC)

Inna Lyubareva (Télécom Bretagne et GIS M@rsouin)

Contrat : stage.

Début : 1er février ou 1er mars 2017, selon les disponibilités du candidat.


Mots-clés
analyse rhétorique; étude de corpus; traitement automatique de langue
Établissement
Institut Mines Télécom - Télécom Bretagne (après le 1er janvier 2017 : IMT Atlantique)
29238 Brest  
Date de début souhaitée
01/03/2016
Langues obligatoires
Anglais; Français
Niveau
Bac +4
Prérequis

M1 en TAL

Durée
6 mois
Date limite
01/03/2017
Informations de contact

Yannis Haralambous