Menu principal

Extraction d’information pour la population d’un graphe de connaissance en écologie

 

Contexte

Un des objectifs de l’écologie des communautés est de prédire l’impact de perturbations d’origine naturelle ou anthropique (changement climatique, dégradation de l’habitat, pollution...) sur la structure des communautés écologiques, et la façon dont ces changements se répercutent sur le fonctionnement des écosystèmes. La structure d’une communauté est généralement représentée par le réseau des interactions écologiques qui se produisent entre les espèces constitutives de cette communauté. Si de récents progrès dans les méthodes d’inventaire de la biodiversité permettent aujourd’hui de reconstituer la liste complète des espèces au sein d’un écosystème, la reconstruction du réseau d’interactions à partir de cette liste d’espèces reste un problème ouvert [Bohan et al., 2017].

Une méthode pour reconstruire le réseau des interactions potentielles consiste à relier entre elles les espèces pour lesquelles des interactions ont été préalablement observées et documentées. Pour cela, on peut s’appuyer sur des bases de connaissance structurée en accès libre1 qui centralisent une partie des connaissances disponibles. Néanmoins, une grande partie des informations concernant les interactions entre espèces reste dispersée sous forme non structurée au sein de la littérature scientifique, accessible via les moteurs de recherche spécialisés. Pour pouvoir exploiter cette connaissance et enrichir les bases existantes, on souhaite se doter d’outils d’extraction d’information capables de cibler les mentions d’interactions écologiques au sein de publications scientifiques.

La tâche d’extraction de relations consiste à identifier les mentions d’un ensemble de relations d’intérêt au sein d’un texte. Pour chaque mention, on doit donc identifier les entités impliquées dans la relation, et le type de relation qui lie ces entités. On distingue quatre familles de méthodes pour l’extraction de relations : les approches supervisées, semi- ou non-supervisées et les approches ayant recours à la supervision distante [Smirnova & Cudré-Mauroux, 2018]. En l’absence de jeu de données annotées permettant l’apprentissage supervisé d’un extracteur, cette dernière catégorie de méthodes s’avère particulièrement intéressante. La supervision distante permet en effet de tirer parti de l’existence de bases de connaissance contenant des exemples des relations d’intérêt à extraire afin de générer automatiquement un jeu de données d’apprentissage.

Objectifs du stage

Les objectifs du stage sont de :

  • Réaliser un bref état de l’art des méthodes d’extraction de relations, avec une attention particulière pour les méthodes appliquées en écologie et dans le domaine biomédical.

  • Améliorer un outil existant de détection d’entités taxonomiques dans le texte2. L’étendre à de nouvelles entités, ex : régime alimentaire...

  • Constituer un jeu de données d’apprentissage et de test à partir des interactions contenues dans une base de connaissances existante, en requêtant les moteurs de recherche de publications scientifiques via leur API.

  • Implémenter une ou plusieurs méthodes d’extraction de relations et évaluer les performances de ces approches sur le jeu de test.

1 https://www.globalbioticinteractions.org/

2 https://github.com/nleguillarme/taxonerd

 

La stage entre dans le cadre de la chaire AI – Environnement de l’institut MIAI@Grenoble Alpes (The Multidisciplinary Institute in Artificial Intelligence)

Bibliographie

Bohan, D. A., Vacher, C., Tamaddoni-Nezhad, A., Raybould, A., Dumbrell, A. J., & Woodward, G. (2017). Next-generation global biomonitoring: large-scale, automated reconstruction of ecological networks. Trends in Ecology & Evolution, 32(7), 477-487.

Smirnova, A., & Cudré-Mauroux, P. (2018). Relation extraction using distant supervision: A survey. ACM Computing Surveys (CSUR), 51(5), 1-35.

 

 


Mots-clés
deep learning; extraction de connaissances; extraction de relations; graphe de connaissance
Établissement
Laboratoire d'Ecologie Alpine
38400 Saint-Martin d’Hères  
Site Web
https://leca.osug.fr/
Date de début souhaitée
01/04/2021
Langues obligatoires
Anglais; Français
Niveau
Bac +4; Bac +5
Prérequis

Étudiant en dernière année de cycle ingénieur ou en Master 1-2 recherche, spécialisé en mathématiques appliquées ou intelligence artificielle. Le candidat devra avoir de solides connaissances en machine learning (deep learning, reinforcement learning) et des compétences en programmation Python. Une expérience préalable en fouille de texte, extraction d’information ou NLP serait appréciée. Le candidat devra également savoir faire preuve d’autonomie et de bonnes aptitudes de communication.

Durée
3 à 5 mois
Indemnité
Oui
Date limite
01/07/2021
Informations de contact

Nicolas Le Guillarme, nicolas.leguillarme@univ-grenoble-alpes.fr