Le travail du stage consistera en la constitution d'une base d'apprentissage adaptée à l'apprentissage d'un tel modèle avec des images extraites de référentiels comme Birds of the World (dessins), le choix de codage et normalisation de ces données etc. en collaboration avec l'autre stagiaire sur le projet.
Il existe deux grandes familles de modèles de réseaux de neurones génératifs pour des données en grande dimension, les auto-encodeurs variationnels (Variational Auto-Encoder, VAE) et les GAN (Generative Adversarial Networks). Nous allons nous concentrer sur la première, car ces modèles sont généralement plus faciles à entraîner, et il est plus simple d'intégrer des contraintes externes et d'influencer la "forme" de l'espace latent, par exemple, en le démêlant (disentanglement). L'objectif serait alors d'utiliser un VAE convolutif pour apprendre une représentation plus compacte des images, et ensuite d'utiliser cette représentation latente en entrée des modèles existants utilisés par des biologistes basés sur l'optimisation sous contraintes par des connaissances du métier (phylogénétiques). La question de la fusion de différentes modalités (vision, audition) ou espaces sémantiques (espèces, caractéristiques) sera également étudiée.
Plus d'information ici https://perso.liris.cnrs.fr/mathieu.lefort/jobs/stage/Merle/sujet1.pdf