Sorbonne Université / CNRS-LISN

Titre de thèse : Vers une exploration des grands modèles de langage avec raisonnement « Chain-of-Thought » : explicablité et biais

Co-encadrement : C. Montacie (Sorbonne-Université/STIH), L. Devillers (Sorbonne-Université/CNRS-LISN)

Contexte : Les grands modèles de langage (LLM) comme chatGPT, Gemini, Claude, LLaMA ou DeepSeek ont atteint des performances remarquables sur des tâches complexes de traitement des requêtes humains-IA. Parmi les techniques récentes ayant permis de renforcer leurs capacités figure le Chain-of-Thought prompting (CoT), ou requête par chaîne de pensée, qui décompose une question en étapes successives. Cette technique, popularisée par LangChain, s’apparente à une méthode de requêtes multiples visant à explorer plus profondément les connaissances internes d’un LLM. Elle favorise ainsi une meilleure structuration de l’interaction humain-IA et améliore l’explicabilité des réponses générées.

Sujet de thèse :
L’objectif est d’améliorer la traçabilité, la lisibilité et la fidélité explicative des réponses générées par les LLMs tout en conservant leurs performances. Cette recherche s’inscrit dans une perspective d’interprétabilité et d’ingénierie des requêtes, et débouchera sur des outils d’analyse, des protocoles de génération, et des modèles enrichis plus explicables.

Le sujet de thèse propose plusieurs enjeux de recherche. Un point critique est la traduction implicite des prompts en anglais, même lorsqu’ils sont initialement rédigés en français. Cette opération, souvent invisible à l’utilisateur, peut introduire des biais sémantiques, linguistiques et culturels (idiomatismes, reformulations, pertes de sens), des imprécisions ou des erreurs dans les résultats. D’autre part, les étapes intermédiaires de la chaîne de pensée sont rarement explicitées ou contrôlées, ce qui nuit à la transparence et à la traçabilité de l’inférence. En parallèle, l’introduction de tokens spéciaux dans les requêtes (par ex. <raisonnement>, <étape>, <conclusion>, <lang=fr>, etc.) ou dans les réponses du modèle peut servir à : structurer le raisonnement produit (début/fin, étapes intermédiaires, justification, choix de réponse), guider le comportement du modèle (forçage d’explication ou de format), améliorer l’explicabilité en facilitant l’extraction et la visualisation des parties-clés du traitement de la requête.

Objectifs principaux :
    Étudier les forces, les limites et les biais du CoT, en tant qu’approche multi-requêtes explorant l’espace des connaissances d’un LLM.
    Expliciter les différentes étapes intervenant dans le traitement d’un prompt complexe :
        Traduction implicite (et ses biais),
        Nombre et nature des étapes de décomposition,
        Usage de la paraphrase ou des reformulations intermédiaires.
    Développer des mécanismes permettant de guider, annoter ou contrôler ces étapes, par l’introduction de tokens spéciaux, d’annotations linguistiques, ou de prompts structurés.
    Évaluer l’impact de ces éléments sur :
        la qualité du résultat final,
        le coût computationnel,
        l’explicabilité perçue et mesurable du raisonnement.
    Proposer des variantes de du CoT plus robustes, multilingues, et plus transparentes.

Méthodologie :
    Phase 1 : Revue de littérature sur le CoT, les prompts structurés, les biais de traduction implicite, et les méthodes d’explicabilité.
    Phase 2 : Conception de variantes guidées du CoT : prompts hiérarchiques, décompositions explicites, paraphrases contrôlées.
    Phase 3 : Intégration dans des architectures existantes et ouvertes (LLaMA, DeepSeek, …) et instrumentation du traitement du prompt pour tracer les étapes internes.
    Phase 4 : Évaluation expérimentale sur des tâches de QA complexe et de raisonnement (GSM8K, HotpotQA, CosmosQA), avec comparaison à des baselines standard et analyse qualitative des biais linguistiques introduits.
    Phase 5 : Proposition d’un protocole d’interprétabilité fondé sur la reconstitution du chemin de raisonnement suivi par le modèle.

Bibliographie
1. Chain-of-Thought Prompting et Raisonnement par Étapes
[1] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., … & Le, Q. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. arXiv preprint arXiv:2201.11903. https://arxiv.org/abs/2201.11903
[2] Nye, M., Lin, K., Lee, J., Chen, X., & Schulman, J. (2021). Show Your Work: Scratchpads for Intermediate Computation with Language Models. NeurIPS.https://arxiv.org/abs/2112.00114
Zhou, D., Schärli, N., Hou, L., Wei, J., & Le, Q. V. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv preprint arXiv:2205.10625. https://arxiv.org/abs/2205.10625
[3] Yao, S., Zhao, J., Yu, D., et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv preprint arXiv:2305.10601. https://arxiv.org/abs/2305.10601
2. Explicabilité
[4] Andreassen, A., Reif, E., & Hewitt, J. (2024). Inseq: A Python Library for Interpretability Analyses of Sequence Generation Models. arXiv preprint arXiv:2407.15248. https://arxiv.org/abs/2407.15248
[5] Kim, S., Hwang, Y., Yoon, J., & Lee, K. (2023). Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention. arXiv preprint arXiv:2312.15033. https://arxiv.org/abs/2312.15033
[6] Zhu, Y., Ma, L., Lu, H., Zhang, H., & Zhang, M. (2024). SEER: Self-Explainability Enhancement of Large Language Models’ Representations. arXiv preprint arXiv:2502.05242. https://arxiv.org/abs/2502.05242
[7] Wang, W., Li, J., & Gao, Y. (2023). Proto-LM: A Prototypical Network-Based Framework for Built-in Interpretability in Large Language Models. arXiv preprint arXiv:2311.01732. https://arxiv.org/abs/2311.01732
3. Traduction Implicite et Biais Linguistiques dans les LLM
[8] Ruder, S., et al. (2021). Beyond English-Centric Multilingual Machine Translation. Findings of EMNLP 2021. https://arxiv.org/abs/2103.06508
[9] Costa-jussà, M. R., et al. (2022). No Language Left Behind: Scaling Human-Centered Machine Translation. arXiv preprint arXiv:2207.04672. https://arxiv.org/abs/2207.04672
[10] Shen, Y., et al. (2023). How Far Can We Go with Multilingual Prompting? ACL 2023. https://arxiv.org/abs/2302.03983

Déroulement de la thèse : Sorbonne-Université-STIH et CNRS-LISN – école doctorale « Concepts et langages »
Début : 1er octobre 2025
Inscription : à partir du 23 juin 2025
Rémunération : 2200 euros

Pour candidater :
Prérequis : Bases en IA générative et en informatique, intérêt pour la linguistique computationnelle
Envoyez à cmontacie@gmail.com et à devil@lisn.fr : un CV et une lettre de motivation indiquant un professeur référent et un site web de travaux (Github)si vous en avez un.

Pour postuler, envoyez votre CV et votre lettre de motivation par e-mail à devil@lisn.fr

OFFRE de Thèse : Vers une exploration des grands modèles de langage avec raisonnement « Chain-of-Thought » : explicablité et biais