Le groupe de travail “Affects, Compagnons Artificiels et Interactions” (ACAI) a été créé en 2012. Son objectif est de regrouper les activités en France autour de l’informatique affective et de l’interaction avec des compagnons artificiels. Il regroupe une communauté pluridisciplinaire de chercheurs en Informatique Affective, en Sciences Cognitive, en Psychologie Sociale, en Linguistique.

Le GT ACAI se réunit tous les ans, soit dans le cadre d’une conférence, soit pour un atelier d’une journée qui permet d’échanger sur les questions de recherches menées par les équipes du GT en France. Cette année, la journée atelier du GT ACAI se tiendra à Strasbourg, pour la deuxième fois dans le cadre de la plate-forme de l’AFIA. Ce sera l’occasion de confronter nos problématiques aux modèles et aux questions de recherche non seulement auprès de la communauté ACAI, mais aussi avec toute la communauté française de l’intelligence artificielle.


Date : 4 juillet 2023

Site Web : pfia2023/journees/acai/

Lieu/Outil : PFIA 23, Strasbourg


Programme

Session 1 : Etudes Expérimentales
  • 10h35-10h50 : « Vers un outil pour contrer la Menace du Stéréotype : études pilotes sur les perceptions des enfants à l’égard des agents virtuels » par Marjorie Armando (LIS et LPC, Aix-Marseille Université), Isabelle Régner (LPC, Aix-Marseille Université), Magalie Ochs (LIS, Aix-Marseille Université) .
    résumé
    « Les utilisateurs ont la propension à appliquer des stéréotypes de genre que l’on retrouve dans la vraie vie sur des agents virtuels. De tels stéréotypes pourraient nuire à l’apprentissage des utilisateurs dans des environnements virtuels avec des agents pédagogiques. En particulier, les filles et les femmes sont négativement affectées par ces stéréotypes dans les tests de mathématiques. Le phénomène appelé Menace du Stéréotype fait référence à la peur de confirmer un stéréotype négatif dans un domaine de compétence, ce qui réduit la capacité de mémoire de travail, l’apprentissage et les performances. Nous visons à explorer si des agents virtuels peuvent être utilisés pour réduire les effets de la Menace du Stéréotype en mathématiques. Pour cela, un agent virtuel doit être perçu comme un modèle social. Nous présentons deux études pilotes avec des enfants pour explorer leur perception des agents virtuels. Plus particulièrement, nous étudions si les enfants appliquent des stéréotypes de genre lorsqu’ils interagissent avec des agents virtuels enfants, et si ces agents pourraient incarner un modèle efficace pour contrer la Menace du Stéréotype. Les résultats montrent que les enfants appliquent des stéréotypes de genre bien qu’ils soient différents de ceux appliqués par les adultes dans d’autres recherches. Plus important encore, les agents virtuels enfants peuvent être utilisés pour représenter un modèle social, ouvrant la possibilité de les utiliser pour améliorer les performances des enfants dans les domaines des Sciences. »
  • 10h50-11h05 : « Comparaison de l’effet de différents styles de voix sur l’engagement des enfants avec un robot virtuel » par Romain Vallée, Lucas Prégaldiny (Enchanted Tools).
    résumé
    « Cet article vise à comprendre l’influence de la prosodie lors d’une interaction enfant-robot virtuel. Nous analysons les résultats d’une expérience incluant 30 enfants âgés de 6 à 10 ans qui interagissent avec plusieurs robots virtuels dans un jeu vidéo. Cette étude préliminaire met en évidence l’impact de la voix sur les enfants puisqu’ils tendent à préférer une voix expressive utilisant des éléments vocaux non lexicaux plutôt qu’une voix jouée simulant des voix synthétiques stéréotypées. »
  • 11h05-11h20 : « Résolution Collaborative de Problème : rôle de l’attention et des comportements verbaux et non verbaux d’un Agent Conversationnel Animé sur les performances sociales d’un individu » par Jennifer Hamet, Elise Prigent, Jean-Claude Martin, Céline Clavel (Université Paris-Saclay, CNRS, Laboratoire Interdisciplinaire des Sciences du Numérique).
    résumé
    « La Résolution Collaborative de Problèmes (RCP) contribue de manière significative au bon déroulement d’un groupe ou d’une organisation (Aram, Morgan and Esbeck, 1971). Elle est définie comme étant un ensemble d’aptitudes sociales conjointes à résoudre des problèmes et à travailler vers un objectif commun tout en collaborant socialement les uns avec les autres dans un groupe d’individus (O’Neil, Chuang and Baker, 2010; Hesse et al., 2015; Stadler et al., 2020). Ainsi, la RCP dépend de la capacité des individus à établir un terrain d’entente concernant la nature du problème, à élaborer ensemble un plan de solution, à suivre les progrès réalisés en cours de route et à tenir compte de plusieurs points de vue tout en gérant respectueusement les désaccords. Cela exige la capacité de comprendre les objectifs et les contraintes de la tâche et de tenir compte des perspectives et des connaissances des autres, ainsi que la capacité de communiquer cette compréhension par la négociation, la réglementation mutuelle et le partage des responsabilités (Sun et al., 2020). Dans la présente étude, nous nous intéressons à l’impact des comportements verbaux et non verbaux d’un Agent Conversationnel Animé (ACA) sur les performances sociales des participants lors de tâches collaboratives, et à comment les caractéristiques individuelles modulent cet impact. »
  • 11h20-11h35 : « Toucher social humain-agent en environnement immersif » par Fabien Boucaud, Catherine Pelachaud (ISIR, CNRS, Sorbonne Université), Indira Thouvenin (HEUDIASYC, Université de Technologie de Compiegne).
    résumé
    « Présentation de l’architecture logicielle et technologique mise en place pour rendre possible une boucle interactive basée sur le toucher social entre un humain équipé d’un appareil de réalité virtuelle et un agent virtuel capable de percevoir et produire du toucher. Nous discuterons nos premiers résultats d’évaluation du système : apports du toucher sur le plan affectif et social, appréciations de l’agent. »
Session 2 : Prise de parole en public
  • 11h35-11h50 : « Étude de l’impact du sexe et de l’attitude sociale de l’audience virtuelle sur un locuteur humain » par Marion Ristorcelli, Emma Gallego, Kévin Nguy, Jean-Marie Pergandi, Rémy Casanova, Magalie Ochs (LIS, ISM, CRVM, CNRS, Aix Marseille Université).
    résumé
    « La prise de parole en public est une compétence sociale importante pour la vie professionnelle et personnelle. Ces compétences sont de plus en plus sollicitées et évaluées dans la vie quotidienne. Des outils de réalité virtuelle ont été proposés pour la formation à la prise de parole en public. La recherche a montré que ces outils peuvent être utilisés pour améliorer les performances oratoires. Pour varier la difficulté de la formation, des publics virtuels exprimant différentes attitudes sociales peuvent être simulés. Seuls quelques travaux de recherche ont exploré l’impact de l’apparence et du comportement du public sur l’expérience utilisateur. Dans cet article, nous proposons d’étudier l’impact des attitudes sociales simulées et du sexe du public virtuel sur les mesures subjectives reflétant l’expérience de l’utilisateur au cours d’une tâche de prise de parole en public. Nous décrivons une étude expérimentale dans laquelle 41 participants ont été invités à parler devant un public virtuel avec une attitude sociale neutre, positive ou négative. Le sexe de l’audience virtuel variait : uniquement des hommes, uniquement des femmes ou des agents mixtes. Après chaque discours, les utilisateurs ont évalué les attitudes de l’audience, leurs émotions et leur aisance à parler en public devant celle-ci. Les résultats de notre étude révèlent des effets significatifs du sexe et de l’attitude sociale du public virtuel sur la perception des utilisateurs ainsi que sur leur expérience émotionnelle et verbale. Plus précisément, le même comportement est perçu plus positivement lorsqu’il est affiché par un public virtuel féminin que lorsqu’il est affiché par un public virtuel masculin. De manière cohérente, les participants se sont également sentis moins à l’aise dans la tâche d’expression orale face à un public virtuel masculin que face à un public virtuel féminin. »
  • 11h50-12h15 : « EmoVox : création d’une base de données audio avec émotions » par Elodie Etienne (QuantOM, HEC Liège, University of Liège), Anne-Lise Leclercq, Angélique Remacle (Research Unit for a life-Course perspective on Health & Education, Speech-Language Pathology Department, University of Liège), Michaël Schyns (QuantOM, HEC Liège, University of Liège).
    résumé
    « Nous présentons un projet visant à créer une base de données émotionnelle (audio & vidéo, en français & en anglais) de haute qualité, équilibrée phonétiquement, contenant les six émotions de base d’Ekman et d’autres émotions communes lors de la prise de parole en public. Le but de cette base de données sera de détecter automatiquement les émotions chez un individu grâce à l’intelligence artificielle. Pour chaque langue, nous avons conçu deux études. La première consiste à enregistrer des phrases phonétiquement équilibrées avec les 10 émotions (et 2 niveaux d’intensité différents) produites par 12 acteurs. La deuxième implique la validation de chaque enregistrement par 25 juges différents. Nous pensons que notre projet sera notamment utile pour la formation à la prise de parole en public et pour la création d’environnements de formation en réalité virtuelle. En outre, notre base de données sera publique et ouverte à la communauté scientifique et pourra être utilisée à des fins de formation. »
  • 14h40-14h55 : « Modèle du stress social en réalité virtuelle » par Celia Kessassi (IMT-Atlantique/LS2N), Mathieu Chollet (UofG computing), Cédric Dumas (IMT-Atlantique/LS2N), Caroline G.L. Cao (IMT-Atlantique/Lab-STICC).
    résumé
    « Il arrive souvent que les personnes devant prendre la parole en public, devant passer un entretien d’embauche ou devant passer un examen oral ressentent un niveau de stress élevé. Afin de pouvoir s’entraîner à ces situations et à mieux gérer leur stress, des systèmes virtuels ont été proposés qui reproduisent ces situations. Par exemple, des systèmes de parole en public dans lesquels l’utilisateur prend la parole face à une audience virtuelle pour s’entraîner à réaliser sa présentation. Pour que ces systèmes virtuels soient efficaces, ils nécessitent un certain niveau de réalisme et doivent induire un niveau de stress suffisant pour permettre à l’utilisateur de s’y préparer. Pour cette raison, nous nous intéressons au mécanisme du stress en réalité virtuelle. Nous avons pour objectif de comprendre et d’identifier les facteurs qui pourraient permettre de mieux contrôler le niveau de stress en réalité virtuelle. Pour cela, nous avons réalisé une revue de la littérature dans laquelle nous avons identifié un certain nombre d’articles. Ces articles décrivent des études empiriques et proposent des facteurs influençant l’induction de stress. D’abord, plusieurs études suggèrent que pour être capables d’induire du stress, les personnages virtuels doivent démontrer un niveau élevé de réalisme comportemental, d’autre part, ces études indiquent qu’un niveau de réalisme graphique minimum peut suffire pour induire du stress. De plus, le niveau de stress est relié au sentiment d’être observé. Pour cela, il ne suffit pas de mettre des personnages virtuels dans le champ visuel de l’utilisateur, mais il faudrait s’assurer que les personnages regardent l’utilisateur et qu’ils émettent des signaux pour montrer à l’utilisateur qu’ils sont en train de l’observer. D’autres facteurs semblent accentuer ou diminuer le niveau de stress tel que le comportement positif ou négatif des agents ou leur statut social perçu. Suite à cette revue, nous proposons que les deux facteurs, le réalisme comportemental et le sentiment d’être observé, sont deux facteurs principaux pour induire du stress social en réalité virtuelle, et que d’autres facteurs comme le comportement ( positif ou négatif ) et le statut permettent d’élever ou de diminuer le niveau de stress. Nous souhaitons proposer un modèle computationnel incluant ces facteurs et le valider par la suite de nos travaux. »
Session 3 : Modèles computationnels
  • 14h55-15h10 : « Développement d’un agent conversationnel animé avec la capacité d’adaptation » par Jieyeon Woo, Catherine Pelachaud, Catherine Achard (ISIR,CNRS, Sorbonne Université).
    résumé
    « Dans l’interaction humain-humain, les interlocuteurs adaptent leurs comportements de manière réciproque et dynamique. La capacité d’adaptation réciproque peut permettre aux agents conversationnels animés (ACAs) de montrer des comportements sociaux et engageants. Nous nous concentrons sur la modélisation de l’adaptation réciproque pour générer des comportements d’ACA pour les deux rôles conversationnels de locuteur et d’auditeur. Nous proposons le modèle de réseau de neurones d’Augmented Self-Attention Pruning (ASAP), qui incorpore un réseau de neurones récurrents, un mécanisme d’attention de transformateurs et une technique d’augmentation pour apprendre l’adaptation réciproque via des signaux sociaux et multimodaux. Nous évaluons notre travail de manière objective et subjectivement et nos résultats montrent qu’ASAP surpasse significativement les modèles de pointe et démontrent ainsi l’importance de la modélisation de l’adaptation réciproque. »
  • 15h10-15h25 : « Amélioration des interactions multiparties grâce à des feedbacks émotionnels individuels et collectifs » par Sandratra Rasendrasoa (LITIS, Univ. Rouen Normandie), Julien Saunier, Alexandre Pauchet (LITIS, INSA Rouen Normandie), Sébastien Adam (LITIS, Univ. Rouen Normandie).
    résumé
    « Dans cette présentation, nous proposons une nouvelle fonctionnalité de facilitation pour les discussions de groupe fondée sur les réactions émotionnelles de l’agent. Ces feedbacks exploitent les émotions exprimées par les participants et visent à maintenir un ensemble de normes culturelles. Nous proposons deux types de feedback émotionnel, des interventions individuelles et des interventions liées au groupe, afin de prendre en compte la dimension multipartie des interactions de groupe. Nous évaluons cette fonctionnalité à travers une expérimentation où trois participants humains discutent avec un robot agissant comme facilitateur et montrons que cette fonctionnalité augmente l’intelligence émotionnelle perçue de l’agent et l’engagement de l’utilisateur, mais qu’elle n’a pas d’impact sur l’acceptabilité du système. »
  • 15h25-15h40 : « Voir et entendre ce qui n’a pas été dit : classification du comportement du client en Entretien Motivationnel à l’aide d’une fusion interprétable » par Lucie Galland (ISIR, Sorbonne université), Catherine Pelachaud (ISIR, CNRS, Sorbonne université), Florian Pecune (Université de Bordeaux).
    résumé
    « Le Motivational Interviewing (MI) est une approche thérapeutique axée sur la collaboration et qui encourage le changement comportemental. Pour évaluer la qualité d’une conversation en MI, les énoncés du client peuvent être classés en utilisant le code MISC comme étant des énoncés de changement, de maintien ou de suivi/neutres. La proportion d’énoncés de changement dans une conversation en MI est positivement corrélée avec les résultats de la thérapie, ce qui rend la classification précise des énoncés du client essentielle. Dans cette présentation, nous décrivons un classificateur qui distingue les trois classes MISC (énoncés de changement, de maintien et de suivi/neutres) en exploitant des caractéristiques multimodales telles que le texte, la prosodie, l’expressivité faciale et l’expressivité corporelle. Pour entraîner notre modèle, nous effectuons des annotations sur l’ensemble de données publiquement disponible AnnoMI pour collecter des informations multimodales, y compris du texte, de l’audio, de l’expressivité faciale et de l’expressivité corporelle. De plus, nous identifions les modalités les plus importantes dans le processus de prise de décision, ce qui fournit des informations précieuses sur l’interaction des différentes modalités au cours d’une conversation en MI. »
  • 15h40-15h55 : « Génération automatique des comportements faciaux : des données à l’évaluation » par Alice Delbosc, Magalie Ochs (LIS, Aix-Marseille Université), Nicolas Sabouret, Brian Ravenet (LISN, Université Paris-Saclay), Stéphane Ayache (LIS, Aix-Marseille Université).
    résumé
    « Un des enjeux dans le domaine des ACAs est la génération automatique de comportements. Alors que de nombreuses recherches se concentrent sur la génération des mouvements du corps, peu de travaux aujourd’hui considèrent les comportements du visage (expressions faciales, mouvements de tête et direction du regard). Or, ces comportements non-verbaux des agents jouent un rôle crucial lors des interactions. Plusieurs travaux montrent en effet que des expressions faciales inappropriées créent un sentiment étrange vis-à -vis de l’agent. Les mouvements de tête, quant à eux, augmentent l’intelligibilité de la parole, en plus d’améliorer la façon dont l’agent virtuel est perçu. Dans cette présentation, nous proposons un nouveau modèle de génération automatique d’expressions faciales, de mouvements de tête et du regard, construit à partir de réseaux antagonistes génératifs sur un corpus audio-visuel. Nous présenterons en particulier les problématiques scientifiques liées au développement de tels modèles : prétraitements des données, affranchissement du post-traitement des modèles et métriques d’évaluation objectives et subjectives. »
  • 15h55-16h10 : « Multimodal Behavioral Style Transfer for Facial and Body Gestures Generation » par Mireille Fares (ISIR, Sorbonne Université).
    résumé
    « We present TranSTYLer, a multimodal transformer-based model that addresses the challenge of transferring behavior expressivity style from one virtual agent to another. The model disentangles style and content, ensuring the preservation of meaningful behaviors. It eliminates the need for style labels and generalizes to unseen styles. Evaluations show superior performance compared to state-of-the-art models. A methodology is proposed to assess successful style transfer while preserving source content. »
Session Posters
  • « Comprendre l’importance du contenu textuel pour une prise de parole publique réussie » par Alisa Barkar (LTCI, Télécom Paris).
  • « Proteus the origin story: why users conform their behavior to the appearance of their avatars » par Anna Martin Coesel (CESI LINEACT).
  • « Automatisation du codage émotionnel des récits de rêve : une approche basée sur la génération de paraphrases » par Gustave Cortal (LMF / LISN).
  • « Requirements for efficient virtual mentorship » par Jean-Benoit Culié (IRIT, Serious Game Research Lab).
  • « Un assistant digital empathique pour voyager sereinement dans les voitures connectées » par Julie Lang (CHArt, EPHE).
  • « Représentations multimodales quantifiées pour l’étude de l’interaction sociale » par Louis Simon (ISIR, Sorbonne Université).
  • « Now or When? Interruption in dyadic human-agent interaction » par Liu Yang (ISIR, Sorbonne Université).
  • « Contextual Multi-Armed Bandit for Non-Verbal Behaviour Adaptation in Virtual Agents and Social Robots for Motivational Interviewing » par Nezih Younsi (ISIR, Sorbonne Université).
Remise des Prix et Conclusions

Organisation

Cet événement est organisé par Beatrice Biancardi (LINEACT-CESI) et Gaël Guibon (Loria, IDMC).