Amélioration de chatbots par calcul de similarités

CONTEXTE :

Le sujet de post-doctorat se rapporte au domaine applicatif des systèmes de dialogue. Nous avons mis en place un système de création de chatbots, dont le but est d'être ergonomique et utilisable par des novices en informatique.

L'un des principes de fonctionnement de ce système est d'utiliser des patterns de règles pour la compréhension de ce que dit ou écrit l'utilisateur du chatbot. L'objectif à atteindre est de pouvoir prendre en compte le maximum de formulations possibles à partir d'un ensemble de règles données ; pour cela on cherche à associer des formulations proches de celles prises en compte par les règles existantes, mais qui ne déclencheraient pas celles-ci. L'association est effectuée grâce à un calcul de similarité entre la formulation observée et les formulations prises en compte.

Différentes métriques de calculs de similarité existent, dont les performances varient selon le domaine d'application et le type de données concernées. Dans le cas qui nous intéresse, les énoncés de l'utilisateur sont souvent courts, et reliés à des univers spécialisés ; d'autre part, comme il s'agit de dialogues, il peut être nécessaire de prendre en compte l'aspect séquentiel des énoncés. On cherche donc une méthode robuste offrant la meilleure performance dans ce contexte.

La problématique du calcul de similarité sémantique est souvent abordée dans la littérature relative au Traitement Automatique du Langage Naturel et de la Recherche d'Information, et différentes techniques y sont décrites. Nous pouvons ainsi citer l'utilisation de thesaurus tel que Wordnet, ou des ontologies, à partir desquels différentes mesures de similarité ou de distance sont calculées ; l'extraction directe de relations de similarités à partir de corpus ; ou plus récemment, l'utilisation en ce sens du modèle word2vec. Cependant, à notre connaissance cette problématique n'a pas été traitée dans le contexte applicatif que nous décrivons. De plus, plusieurs chercheurs d'Orange travaillent sur des métriques de similarité sémantique dans d'autres cadres applicatifs. L'un de vos objectifs est de chercher la synergie entre ces travaux en internes, ceux de la littérature, et notre cadre applicatif.

 TACHES :

Développement d’une métrique de similarité robuste s’appliquant  aux  textes (dialogues) courts, très contextualisés et séquentiels.

 

Dans un premier temps, le postdoc fera l’état des lieux des solutions existantes, dans la littérature ainsi que dans les équipes partenaires.

Il/elle sélectionnera la ou les méthodes les plus appropriées, et cherchera à l’améliorer.

L’évaluation sera faite dans le cadre décrit ci-dessus.

Tâches :

- Familiarisation avec le contexte applicatif

- Evaluation et comparaison de différents algorithmes

- Proposition de la solution optimale et application dans le contexte applicatif ciblé

- Validation des résultats sur les données réelles

- Soumission d’article(s) dans des conférences et/ou revues internationales

- Rédaction d'un rapport d’étude sur les méthodes et algorithmes développés lors de cette étude et sur leur évaluation.

PROFIL:

- Compétences scientifiques et techniques

    - Apprentissage automatique

    - Développement logiciel (de préférence Python ou Perl, autres langages possibles)

    - Traitement Automatique du Langage Naturel

    - Anglais : parlé, lu, écrit, niveau courant

    - Capacité à travailler en équipe, à communiquer

    - Esprit d'initiative et sens des responsabilités

- Expériences souhaitées

    - Thèse de doctorat en Informatique ou Sciences du Langage (Traitement Automatique du Langage Naturel)

    - Idéalement une première expérience (thèse et/ou stage de M2) sur les agents dialoguants

 


Mots-clés
artificial intelligence; chatbot; dialogue; machine learning; traitement automatique de langue
Établissement
Orange Labs
22300 Lannion  
Langues obligatoires
Anglais; Français
Type de contrat
CDD
Type de poste
Postdoc
Informations de contact

Jean-Leon Bouraoui jeanleon.bouraoui@orange.com
Aleksandra Guerraz aleksandra.guerraz@orange.com