• CDD
  • Paris / Nancy
  • Les candidatures sont actuellement fermées.

Site LORIA / AP-HP

PhD Position: LLM adaptation and exploitation for medical emergency call triage

 

This PhD offer is part of the ANR LLM4All project (2023-2027), which aims to design continual learning and footprint reduction mechanisms for LLMs, and to exploit them in challenging spoken dialog scenarios, including medical emergency calls. It will be co-supervised by Gaël Guibon, Dr. Ivan Lerner, and Emmanuel Vincent. The PhD student will have the opportunity to spend time in both the Synalp and Multispeech teams at LORIA and the PRIME team at Assistance Publique – Hôpitaux de Paris (AP-HP), and to benefit from the hands-on expertise of Dr. Gustave Toury, an EMS physician at SAMU 92 — the French EMS.

 

Summary:

Medical emergency call triage aims to assess the level of emergency and direct the appropriate response. Given the significant impact of this response on the patient’s health trajectory, improving the triage process is of utmost importance. Rapid decision-making with limited access to comprehensive medical information is required [1]. Predictive models based on large volumes of call data are believed to significantly enhance the safety and accuracy of decisions, e.g., in the case of cardiac arrest [2]. In parallel, learning deep patient representations from healthcare data has rapidly followed up trends in NLP [3], even though reaching application in emergency medicine [4]. However, the evolution and impact towards large language models (LLMs) has not yet been evaluated in the context of Emergency Medical Services (EMS) and call triage.

 

The objective of this PhD is to adapt an open, general-purpose LLM such as Llama2 [5] or Falcon [6] to the medical emergency call domain so as to help EMS physicians. Fine-tuning the LLM on in-domain data [7] is useful but not sufficient, due to the small amount of such data to adapt the LLM to both domain and task [8]. Instead, we will seek to incorporate structured medical knowledge in the form of medical ontologies such as the Unified Medical Language System (UMLS) [9] or memory modules such as in Memory Augmented Neural Networks [10]. We will also augment the LLM using semi-structured medical knowledge [2,3], e.g., using an in-house emergency medical note dataset which reports the physician’s observations of a patient’s medical state in textual form using sections such as “Comorbidities”, “Treatment”, and “Clinical examination”, as well as non-textual data including lab results, a severity score, the ICD-10 (International Classification of Diseases) diagnostics billing code, and the clinical outcome. The overall challenge will be to align the representations of medical emergency calls and these other knowledge sources. Different knowledge sources may translate into different data augmentation and/or fine-tuning approaches to improve the LLM while avoiding catastrophic forgetting.

 

Results will be evaluated on the SimSAMU dataset, a collection of acted medical emergency calls with diarization, transcription, dialog act, and slot filling annotations. The duration of the calls is 1 to 8 min, with a total duration of 3 hours. Models will be evaluated in terms of perplexity and other metrics such as Slot Error Rate, Sentence Level Semantic Accuracy, F1-scores on subtasks (e.g., dialog act detection), and BLEU/METEOR for surface quality.  The quality of the latent representation learned by the model will also be assessed by predicting the severity score, the ICD-10 diagnostics billing code and the outcome. AP-HP experts, led by Dr. Ivan Lerner, will manually review the quality of the system’s response.

 

 

Required Skills

MSc in computer science or machine learning.

Strong programming skills in Python/Pytorch.

Prior experience in NLP and digital health will be an asset.

 

 

Contacts

Please contact the following persons.

emmanuel.vincent@inria.fr 
ivan.lerner2@aphp.fr
gael.guibon@loria.fr 
 

 

=== Version française ===

 

Offre de thèse : Adaptation et exploitation de LLM pour la régulation des appels d’urgences médicales

 

Résumé :

La régulation des appels d’urgences médicales vise à évaluer le niveau d’urgence et à donner la réponse appropriée. Compte tenu de l’impact significatif de cette réponse sur la trajectoire de santé du patient, l’amélioration du processus de régulation est de la plus haute importance. Une prise de décision rapide avec un accès limité à des informations médicales complètes est nécessaire [1]. Les modèles prédictifs basés sur de grands volumes de données d’appels améliorent considérablement la sûreté et la précision des décisions, par exemple en cas d’arrêt cardiaque [2]. En parallèle, l’apprentissage profond de représentations des patients à partir des données de santé a rapidement suivi les tendances en TAL [3] et trouvé des applications en médecine d’urgence [4]. Cependant, l’évolution vers les grands modèles de langage (LLM) et leur impact n’ont pas encore été évalués dans le contexte des services médicaux d’urgence et de la régulation des appels.

 

L’objectif de cette thèse est d’adapter un LLM ouvert et généraliste tel que Llama2 [5] ou Falcon [6] au domaine des appels d’urgence médicale afin d’aider les médecins régulateurs. Fine-tuner le LLM sur les données du domaine [7] est utile mais pas suffisant, en raison de la petite quantité de données pour adapter le LLM au domaine et à la tâche [8]. Au lieu de cela, nous chercherons à incorporer des connaissances médicales structurées sous la forme d’ontologies médicales telles que le Unified Medical Language System (UMLS) [9] ou de modules de mémoire comme dans les réseaux de neurones à mémoire augmentée [10]. Nous augmenterons également le LLM en utilisant des connaissances médicales semi-structurées [2,3], par exemple en utilisant un ensemble de données de notes médicales d’urgence internes qui rapportent les observations du médecin sur l’état médical d’un patient sous forme textuelle en utilisant des sections telles que « Comorbidités », « Traitement » et « Examen clinique », ainsi que des données non textuelles, notamment des résultats de laboratoire, un score de gravité, le code diagnostic ICD-10 (International Classification of Diseases) de facturation du séjour hospitalier et le résultat clinique. L’enjeu global sera d’aligner les représentations des appels d’urgence médicale et ces autres sources de connaissances. Différentes sources de connaissances peuvent se traduire par différentes approches d’augmentation des données et/ou de fine-tuning pour améliorer le LLM tout en évitant le catastrophic forgetting.

 

Les résultats seront évalués sur le jeu de données SimSAMU, un ensemble d’appels d’urgences médicales joués avec des annotations de diarisation, transcription, actes de dialogue et slot filling. La durée des appels est de 1 à 8 min, pour une durée totale de 3 heures. Les modèles seront évalués en termes de perplexité et d’autres mesures telles que le Slot Error Rate, la Sentence Level Semantic Accuracy, les scores F1 sur des sous-tâches (par exemple, la détection d’actes de dialogue) et BLEU/METEOR pour la qualité de la surface. La qualité de la représentation latente apprise par le modèle sera également évaluée en prédisant le score de gravité, le code ICD-10 et le résultat clinique. Les experts de l’AP-HP, dirigés par le Dr Ivan Lerner, examineront manuellement la qualité de la réponse du système.

 

 

Compétences

Master en informatique ou en apprentissage automatique.

Solides compétences en programmation Python/Pytorch.

Une expérience préalable en TAL et en santé numérique sera un atout.

 

 

Contacts

Veuillez contacter les personnes suivantes :

emmanuel.vincent@inria.fr 
ivan.lerner2@aphp.fr
gael.guibon@loria.fr 
 

Références :

[1] K. Bohm and L. Kurland, “The accuracy of medical dispatch — A systematic review”, Scandinavian Journal of Trauma, Resuscitation and Emergency Medicine 26:94, 2018.

[2] M. L. Scholz, H. Collatz-Christensen, S. N. F. Blomberg, S. Boebel, J. Verhoeven, and T. Krafft, “Artificial intelligence in Emergency Medical Services dispatching: assessing the potential impact of an automatic speech recognition software on stroke detection taking the Capital Region of Denmark as case in point”, Scandinavian Journal of Trauma, Resuscitation and Emergency Medicine 30(1):36, 2022.

[3] X. Yang, A. Chen, N. PourNejatian, H. C. Shin, K. E. Smith, et al., “A large language model for electronic health records”, Digital Medicine 5:194, 2022.

[4] J. S. Obeid, E. R. Weeda, A. J. Matuskowitz, K. Gagnon, T. Crawford et al., “Automated detection of altered mental status in emergency department clinical notes: a deep learning approach”, BMC Medical Informatics and Decision Making 19:164, 2019.

[5] H. Touvron, L. Martin, K. Stone, P. Albert, A. Almahairi et al., “Llama 2: Open foundation and fine-tuned chat models”, arXiv preprint arXiv:2307.09288, 2023.

[6] G. Penedo, Q. Malartic, D. Hesslow, R. Cojocaru, A. Cappelli et al., “The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only”, arXiv preprint arXiv:2306.01116, 2023.

[7] I. A. Sheikh, E. Vincent, I. Illina, “Training RNN language models on uncertain ASR hypotheses in limited data scenarios”, Computer Speech and Language, pp.101555, 2023. 

[8] G. Guibon, M. Labeau, L. Lefeuvre, and C. Clavel, “An adaptive layer to leverage both domain and task specific information from scarce data”, in AAAI Conference on Artificial Intelligence, 37(6), 2023.

[9] I. Lerner, N. Paris, and X. Tannier, “Terminologies augmented recurrent neural network model for clinical named entity recognition”, Journal of Biomedical Informatics 102: 103356,  2020.

[10] A. Santoro, S. Bartunov, M. Botvinick, D. Wierstra, and T. Lillicrap, “Meta-learning with memory-augmented neural networks”, in International Conference on Machine Learning (ICML), pp. 1842–1850, 2016.