Menu principal

Modélisation et classification intelligentes de données de spectrométrie (RMN) à l’aide de Machine Learning

La spectroscopie par résonance magnétique nucléaire (RMN) est l’une des méthodes analytiques utilisées pour caractériser nos extraits. Elle nous permet d’obtenir un profil métabolomique (représenté par un spectre) pourchaque extrait. Les signaux sur ces spectres correspondent aux signaux des différents métabolites présents dans nos extraits. L'attribution des signaux aux métabolites correspondants constitue l’étape clé dans l’identification de l’empreinte métabolomique de chaque extrait. Cette attribution se fait souvent manuellement en utilisant des bases de données existantes, ce qui rend la tâche chronophage.

Dans ce contexte, l’université Lyon 1 et la société EVEAR souhaitent mettre en place un système d’attribution automatique. L’objectif de cette thèse est d’accompagner EVEAR dans la construction d’une solution pour l’identification des signaux des différents métabolites dans un spectre RMN. La démarche proposée est la suivante :

        Tour d’horizon des différentes méthodes réalisées manuellement chez EVEAR et ses concurrents

        Recherche des moyens d’automatisation

        Modélisation et formalisation

        Validation par l'expérimentation

Pour cela, trois axes de recherches ont été identifiés :

Axe 1: Classification à l’aide de machine Learning

L'analyse conventionnelle d'un spectre se concentre principalement sur l'étude des éléments intrinsèques de l'échantillon basé sur les propriétés physiques et physico-chimiques de l'échantillon. Par exemple, Zhang, Saleh et Shen (2013) ont étudié les distributions spectrales d'huiles de friture obtenues par RMN, et ont conclu que l'aire du troisième pic augmente avec l'altération croissante. Ce type d’analyse est un premier pas important pour la classification automatique. Les approches menées par le laboratoire DISP reposent sur le machine Learning et l’apprentissage automatique. En se basant sur l’expertise et les bases de données d’EVEAR, l'objectif de l’axe 1 est d’approfondir les travaux du laboratoire. Pour cela l’axe 1 peut être découpé en 3 parties :

        Faire un état de l’art des moyens de classification de signaux RMN

        Proposer un classifieur de spectre RMN supervisé ou non en s’aidant de l’expertise humaine d’EVEAR

        Valider le classifieur avec des données issues des expérimentations

Axe 2 : Modélisation / réduction basée sur un auto-encodeur

Les données issues d’un spectre RMN sont très volumineuses (128k points par spectre). L’axe 2 aura pour objectif de proposer une méthode de réduction des données robuste et utilisable dans l’axe 1. Plusieurs pistes ont été étudiées. Nous souhaitons développer une approche basée sur des auto-encodeurs. Les auto-encodeurs sont des algorithmes d’apprentissage non supervisé à base de réseaux de neurones artificiels, qui permettent de construire une nouvelle représentation d’un jeu de données. Généralement, celle-ci est plus compacte, et présente moins de descripteurs, ce qui permet de réduire la dimensionnalité du jeu de données. L’architecture d’un auto-encodeur est constitué de deux parties : l’encodeur et le décodeur. L’objectif de cet axe :

        Faire un état de l’art des outils de réduction

        Proposer un réducteur

        Valider le réducteur avec les outils de l’axe 1

Axe 3 : Quantification

L’analyse de spectre de l’axe 1 repose sur la qualification des échantillons : savoir quels métabolites sont présents dans un extrait. L’axe 3 a pour objectif de quantifier les métabolites. En se basant sur les données de l’axe 2, nous souhaitons être en mesure de connaître précisément les compositions d’un extrait pour pouvoir effectuer une traçabilité et un contrôle qualité permettant d’augmenter la chaîne de valeur d’EVEAR. Pour cela, nous pouvons détailler l’axe 3 en :

        Faire un état de l’art des moyens de quantification

        Proposer une méthode de quantification répondant aux critère d’EVEAR

        Valider cette quantification avec des données normalisé et hétérogène

        Intégrer cette méthode au processus d’EVEAR

 


Mots-clés
auto-encodeur; classification; machine learning; Modélisation; RMN
Établissement
Université Claude Bernard Lyon I
69622 Villeurbanne  
Directeur
Yacine Ouzrout
Co-encadrants
Baudouin Dafflon
Site Web
https://www.disp-lab.fr
Date de début souhaitée
01/09/2022
Langues obligatoires
Anglais; Français
Prérequis

● Curiosité intellectuelle
● Polyvalence
● Esprit critique et capacité d’analyse

Informations de contact

baudouin.dafflon@univ-lyon1.fr
a.bourafai@evear-extraction.com