Stage de recherche (fouille de données moléculaires)

Dans le contexte du projet DECADE (Découverte et exploitation des connaissances pour l'aide à la décision en chimie thérapeutique), l'équipe CoDaG du laboratoire GREYC de l'université Caen Normandie offre un stage de recherche pour des masters 2ème année ou équivalent.

 

* Contexte *

 

Le criblage à haut débit est devenu un processus incontournable pour trouver des molécules prometteuses (i.e. des molécules ayant une activité envers certaines cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement, le criblage fait aussi ressortir des molécules promiscues les "PAINS" (Pan Assay Interference Compounds) qui ne conduiront pas à des médicaments car pouvant présenter une certaine toxicité. L'identification d'un PAINS in silico est difficile et, de plus, des articles scientifiques décrivent comme prometteuses des molécules qui sont en réalité des PAINS. Du point de vue des avancées en chimie thérapeutique, le projet DECADE vise à l'identification de nouveaux PAINS.

 

* Sujet *

 

Même si l'utilisation des approches de fouille pour l'identification et la caractérisation de PAINS est théoriquement plutôt bien comprise, l'utilisation pratique introduit toujours des verrous additionnels. Dans le contexte de ce stage, l'applicabilité des techniques existantes et le développement d'une interface pour diriger les processus de fouille vont être explorés. Le stage contient quatre sous-tâches : 1) tester la capacité des outils de fouille de texte de retrouver des PAINS déjà identifiés dans la littérature, 2) utiliser l'apprentissage non-supervisé (ou semi-supervisé) pour grouper des molécules et vérifier la qualité des clusters trouvés, e.g. concernant les regroupement des PAINS et non-PAINS, 3) fouiller des sous-structures discriminatoires et vérifier leur sens biologique en coopération avec les experts en chimie thérapeutique, 4) implanter une interface permettant d'exprimer diverses contraintes et d'acquérir automatiquement des données additionnelles et/ou de filtrer automatiquement les données déjà acquises.


Mots-clés
fouille de données; fouille de textes
Établissement
Université de Caen Normandie
14032 Caen  
Site Web
https://www.greyc.fr/users/zimmermanna
Date de début souhaitée
01/05/2017
Langues obligatoires
Anglais
Niveau
Bac +5
Prérequis

connaissance fouille de données, expertise en programmation

Durée
3 mois
Indemnité
550/mois
Informations de contact

Albrecht Zimmermann, albrecht.zimmermann@unicaen.fr