Interactions multimodales synchrones issues de formations en ligne: problématiques, méthodologie et analyses Marie-Laure Betbeder, Maud Ciekanski, Françoise Greffier, Christophe Reffay, Thierry Chanier To cite this version: Marie-Laure Betbeder, Maud Ciekanski, Françoise Greffier, Christophe Reffay, Thierry Chanier. In- teractions multimodales synchrones issues de formations en ligne: problématiques, méthodologie et analyses. 2007. edutice-00160314v1 HAL Id: edutice-00160314 https://edutice.archives-ouvertes.fr/edutice-00160314v1 Preprint submitted on 5 Jul 2007 (v1), last revised 23 Feb 2008 (v2) HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Communication au colloque EPAL : Echanger Pour Apprendre en Ligne, 7-9 juin 2007, Grenoble, France Interactions multimodales synchrones issues de formations en ligne : problØmatiques, mØthodologie et analyses Marie-Laure BETBEDER (LIFC, Besan(cid:231)on), Maud CIEKANSKI (LASELDI, Besan(cid:231)on), Fran(cid:231)oise GREFFIER (LIFC, Besan(cid:231)on), Christophe REFFAY (LIFC, Besan(cid:231)on), Thierry CHANIER (LASELDI, Besan(cid:231)on) R(cid:201)SUM(cid:201) Le dØveloppement d(cid:146)environnements de formation en ligne permettant aux utilisateurs de communiquer et de travailler ensemble de fa(cid:231)on synchrone a suscitØ l(cid:146)engouement de plus en plus de formateurs et d(cid:146)apprenants depuis la derniŁre dØcennie. Ces plateformes de formation gØnŁrent des interactions complexes entre les participants dont les analyses renouvellent le questionnement sur les traces et leurs traitements. Les travaux prØsentØs dans cet article portent sur la transcription et l(cid:146)analyse de donnØes d(cid:146)interactions multimodales synchrones issues d(cid:146)une formation en ligne. Une description de la mØthodologie dØveloppe le protocole de recueil des donnØes, les conventions de transcription, l(cid:146)organisation et la reprØsentation des donnØes. Des exemples d(cid:146)analyses effectuØes sur ces donnØes (cid:224) une Øchelle macroscopique et microscopique permettent de prØsenter des rØsultats et de discuter des atouts et des limites des outils employØs. MOTS CL(cid:201)S interactions multimodales synchrones, multimodalitØ, traces. Introduction 1. Les environnements audio graphiques synchrones sont aujourd’hui trŁs performants et d’utilisation aisØe, leur utilisation en situation de formation se rØpand donc rapidement. De ce dØveloppement dØcoulent de nouveaux besoins : - d(cid:146)une part, en termes de mØthodologie ; comment enregistrer les donnØes multimodales issues de tels environnements, quelles conventions de transcription adopter ? - d(cid:146)autre part, en termes de reprØsentation des donnØes ; comment le chercheur peut-il retrouver des informations, effectuer des traitements statistiques, et de maniŁre gØnØrale, comment peut-il accØder (cid:224) une relecture des situations jouØes Øtant donnØ la complexitØ et l(cid:146)hØtØrogØnØitØ de celles-ci pour parvenir (cid:224) les analyser ? On sait actuellement peu de choses sur la fa(cid:231)on dont apprenants et tuteurs travaillent dans ces environnements. Pour comprendre ce qui s’y passe, avant mŒme de songer (cid:224) concevoir des outils d’aide (cid:224) l’apprentissage ou (cid:224) la fonction tutorale, il faut Œtre capable d’analyser les interactions multimodales qui s’y dØroulent. A l(cid:146)inverse des situations en prØsentiel, la localisation (oø ils sont) et la perception (ce qu(cid:146)ils voient) des diffØrents participants dans ces environnements synchrones sont critiques et difficiles (cid:224) saisir (cid:224) la fois pour le participant et pour le chercheur. Les interactions synchrones et audio couplØes (cid:224) la multimodalitØ sont donc un objet rØcent complexe (cid:224) Øtudier. Nous souhaitons (cid:224) travers cet article prØsenter notre travail de l(cid:146)Øtape d(cid:146)expØrimentation (cid:224) celle des analyses macroscopiques et microscopiques de la multimodalitØ en dØcrivant notre mØthodologie (propre (cid:224) la multimodalitØ et la synchronie) et en montrant la nØcessitØ de disposer de reprØsentations de ces donnØes complexes afin d(cid:146)en rendre possible l(cid:146)analyse. Pour cela, nous prØsentons en section 2 la formation en ligne point de dØpart de ce travail. Elle est issue du projet de recherche pluridisciplinaire CopØas menØ par des chercheurs de deux champs disciplinaires (sciences du langage et informatique). L(cid:146)expØrimentation Øcologique s(cid:146)est dØroulØe dans l(cid:146)environnement audio graphique synchrone Lyceum, dØveloppØ (cid:224) l(cid:146)Open University (GB). Nous dØcrivons ensuite notre dØmarche mØthodologique en explicitant le protocole de recueil des donnØes (essentiellement l(cid:146)enregistrement des sessions par vidØo-Øcrans). Le besoin de transcription d(cid:146)un certain nombre de donnØes nous a amenØs (cid:224) spØcifier les actions, et donc (cid:224) travailler sur les formats des traces (champ largement ØtudiØ dans la communautØ, par exemple : (Avouris et al., 2005), (Courtin et Talbot, 2006), (Heraud et al., 2005) (Ollagnier-Beldame et Mille, 2007) et, d(cid:146)autre part de proposer une reprØsentation des interactions multimodales. 1 A partir de cette transcription, nous pouvons donc nous livrer (cid:224) des analyses longitudinales (analyser des sØquences interactives tout au long du corpus) et synchroniques (analyser les stratØgies des acteurs ou le processus de rØalisation d(cid:146)une t(cid:226)che). A partir d(cid:146)exemples d(cid:146)analyses d(cid:146)interactions multimodales, nous discutons de la nØcessitØ de croiser les reprØsentations et outils pour mieux apprØhender des phØnomŁnes complexes tels que, par exemple, les mØcanismes d(cid:146)apprentissage et de collaboration permis et suscitØs par ces dispositifs. Le travail de cet article s(cid:146)inscrit dans un projet plus large de structuration des corpus de formation en ligne en vue de leurs Øchanges1 (Reffay et al., 2007) (Noras et al., 2007). Ce projet a pour objectif de dØfinir un format commun de dØfinition et de structuration des diffØrents ØlØments d(cid:146)un corpus. Ces ØlØments incluent la description du scØnario pØdagogique, du protocole de recherche (composØ des questions de recherche et du protocole de recueil), les interactions et traces de la formation, les licences publiques et privØes et des analyses. L(cid:146)objet de cet article est donc de prØsenter une mØthodologie adaptØe (cid:224) la multimodalitØ, (cid:224) partir de notre formation en ligne et de nos questions de recherche : protocole de recueil et conventions de transcription, ainsi que les reprØsentations des ces donnØes. Nous donnons des exemples d(cid:146)analyses macroscopiques et microscopiques s(cid:146)appuyant sur les reprØsentations des donnØes avant de discuter des apports et limites des outils et analyses dØveloppØes. Contexte 2. 2.1. CopØas Le projet de recherche bidisciplinaire CopØas (Communication PØdagogique en environnement orientØ Audio Synchrone) menØ par deux Øquipes (informatique et sciences du langage) a permis de rØaliser une expØrimentation Øcologique qui s(cid:146)est dØroulØe sur 16 sØances (8 par groupe) dans un environnement audio graphique synchrone. Il s(cid:146)agit d(cid:146)une formation qui vise (cid:224) dØvelopper des compØtences d(cid:146)expression orale dans un contexte professionnel en anglais langue seconde chez 14 apprenants en master professionnel FOAD (UniversitØ de Franche-ComtØ). Le scØnario de la formation, con(cid:231)u par les tuteurs anglophones de l(cid:146)Open University, propose des activitØs collaboratives sur la nØgociation de critŁres d(cid:146)Øvaluation de sites Web pØdagogiques. A la marge de ces activitØs synchrones, les participants ont accŁs (cid:224) un environnement asynchrone pour l(cid:146)Øchange des consignes et des travaux entre sØances synchrones. 2.1.1. Lyceum : plateforme audio graphique synchrone La plateforme audio graphique synchrone utilisØe dans cette expØrimentation est Lyceum2 : plateforme dØveloppØe et utilisØe au sein de l(cid:146)Open University (GB). En tant qu(cid:146)environnement d(cid:146)apprentissage Lyceum permet (cid:224) un tuteur de retrouver, (cid:224) distance, des apprenants en mode synchrone. Les diffØrents participants connectØs (cid:224) l(cid:146)environnement peuvent donc se parler en temps rØel, intervenir dans un clavardage (chat) et voir/modifier simultanØment des productions textuelles ou graphiques. L(cid:146)interface de Lyceum (cf. Fig. 1) rassemble trois composants activables simultanØment : - un composant spatial (cadre 1) pour se dØplacer du hall d(cid:146)entrØe dans les salles de travail ou techniques, - un composant rassemblant les outils de communication synchrone (cadre 2) : module audio (avec outil de vote) (cid:224) gauche et clavardage dans la partie infØrieure droite, - un composant permettant d(cid:146)intØgrer selon les besoins de l(cid:146)activitØ diffØrents modules de production collaborative : traitement de texte, carte conceptuelle et/ou tableau blanc (cadre 3). Dans Lyceum, tous les acteurs (tuteur et apprenants) disposent de la mŒme interface et des mŒmes droits. 2.1.2. Les interactions en environnement audio-graphique synchrone Pour rendre compte de leur richesse et de la complexitØ de leur analyse, nous donnons ici une liste des actions possibles et perceptibles dans un environnement tel que Lyceum en les illustrant, lorsque c(cid:146)est possible, sur la figure 1. L(cid:146)acteur peut se situer dans l(cid:146)espace gr(cid:226)ce aux rectangles grisØs dans le composant spatial, ici, l(cid:146)acteur se trouve (cid:224) l(cid:146)Øtage 1 dans la salle 101. Il peut aussi voir qui se trouve dans le hall d(cid:146)entrØe (lobby). Lorsque d(cid:146)autres Øtages ou salles sont occupØs, leurs numØros apparaissent en gras. Les acteurs ne peuvent percevoir les autres (audio, graphique, clavardage, productions) que s(cid:146)ils sont rØunis dans la mŒme salle. Ils sont alors listØs dans le composant de communication (cadre 2). 1 Projet Mulce : http ://mulce.univ-fcomte.fr 2 Lyceum : http://kmi.open.ac.uk/projects/lyceum/ 2 Figure 1 : Interface de Lyceum Chacun peut, (cid:224) tout instant, parler en activant le bouton « Talk » (ex : Tim et Sophie), lever la main pour demander la parole (ex : Lucas), voter « Yes » (ex : Sophie) ou « No » (ex : Laetitia) pour rØpondre collectivement (cid:224) une question ou prendre une dØcision. Il est possible de notifier aux autres une absence momentanØment (ex : Julie). Le clavardage est un outil qui s(cid:146)ajoute (cid:224) cet ensemble. Il est souvent utilisØ pour des conversations parallŁles au flux oral pour le dØsambigu(cid:239)ser ou Øviter de le perturber (ex : salutations (cid:224) un nouvel arrivant). A cet ensemble dØj(cid:224) riche, s(cid:146)ajoute la possibilitØ, pour le groupe, d(cid:146)ouvrir plusieurs modules de production collaborative de 3 types : traitement de texte, tableau blanc et carte conceptuelle (cf. Fig. 1). Chaque module est visualisable (indØpendamment) par chacun gr(cid:226)ce aux onglets de la frise supØrieure du cadre 3. On peut y lire (cid:224) chaque instant la liste (parfois incomplŁte) des acteurs visualisant tel ou tel module. Les acteurs rØunis dans une mŒme salle peuvent donc partager l(cid:146)ensemble des communications (audio, iconique et clavardage) sans nØcessairement visualiser le mŒme document/module. Tous les acteurs peuvent ajouter ou supprimer un module, sauvegarder ou charger un document prØparØ auparavant dans le module, et bien sßr, crØer, Øditer, ou supprimer les objets propres (cid:224) chaque type de module (ex : Traitement de texte : paragraphes ; Carte conceptuelle : concepts et relations ; Tableau blanc : traits, formes, textes, etc.). Le potentiel et la souplesse d(cid:146)utilisation de ce type d(cid:146)environnements (Vetter, 2004), tant apprØciØes par les acteurs constituent un dØfi pour l(cid:146)analyse, de par sa complexitØ. En effet, la notion de groupe y est conjuguØe selon les modes d(cid:146)interaction et de production pour permettre (cid:224) l(cid:146)acteur de communiquer avec le groupe, tout en lui mØnageant un espace suffisant pour participer (cid:224) la production. 2.2. La multimodalitØ dans Lyceum L(cid:146)environnement audio graphique synchrone proposØ par Lyceum permet aux acteurs de recourir (cid:224) une variØtØ de modes pour communiquer : les modes textuel, parole, graphique, iconique, auxquels s(cid:146)ajoute un mode spatial qui correspond (cid:224) la localisation et au dØplacement des participants dans les diffØrentes salles et modules de la plateforme (cf. section 2.1.2.). A chaque mode communicationnel correspond une modalitØ, c(cid:146)est-(cid:224)-dire une forme concrŁte particuliŁre de communication, comme l(cid:146)illustre le tableau 1: Modes ModalitØs Textuel Clavardage, traitement de texte, carte conceptuelle, tableau blanc Parole Audio Graphique Carte conceptuelle, tableau blanc Iconique Vote, entrØe/sortie, absence momentanØe, main levØe, prise de parole Spatial DØplacement (salle + module) Tableau 1 : Correspondances entre modes et modalitØs dans Lyceum La multimodalitØ se dØcline sous diffØrentes formes. A un mode peut correspondre une variØtØ de modalitØs, comme par exemple dans le cas du mode textuel qui appara(cid:238)t dans la modalitØ clavardage, la modalitØ traitement de texte, la modalitØ carte conceptuelle ou encore tableau blanc. A certains modes peut ne correspondre qu(cid:146)une seule modalitØ, comme dans le 3 cas du mode parole qui ne correspond qu(cid:146)(cid:224) la modalitØ audio. Enfin, certains modules de production collaborative (carte conceptuelle, tableau blanc) peuvent intØgrer plusieurs modes, comme dans le cas de la carte conceptuelle avec les modes textuel et graphique (Chanier et Vetter, 2006). On parlera ici de communication multimodale quand elle fait intervenir plusieurs modes, ou quand plusieurs modalitØs sont associØes (cid:224) un seul mode. Lyceum propose donc aux acteurs d(cid:146)interagir (cid:224) partir d(cid:146)un ensemble de systŁmes sØmio-linguistiques particuliŁrement riche et dont la potentialitØ, dans le cadre d(cid:146)un apprentissage de langues par exemple, a donnØ lieu (cid:224) diverses Øtudes. Ces Øtudes ont permis de mettre en lumiŁre, d(cid:146)une part, l(cid:146)utilisation didactique que les participants font de la multimodalitØ (e.g : (Hampel, 2006)), selon leur comprØhension des fonctions des diffØrents modes et modalitØs, et, d(cid:146)autre part, l(cid:146)organisation de la multimodalitØ (cid:224) des fins communicatives (Chanier et Vetter, 2006), (Lamy, 2006). Deux grands traits ressortent de ces travaux : (1) l(cid:146)organisation hiØrarchique de la multimodalitØ dans les environnements audio graphique synchrones- le mode Parole Øtant prØpondØrant par rapport aux autres modes, en termes d(cid:146)actes rØalisØs ; (2) la complØmentaritØ forte des modalitØs audio et clavardage permettant toutes deux de soutenir la communication orale (Vetter et Chanier, 2006). 2.3. Analyser les actions multimodales synchrones Notre approche scientifique s(cid:146)inscrit (cid:224) la suite des travaux de Baldry et Thibault (Baldry et Thibault, 2005) et vise (cid:224) dØfinir une mØthodologie adaptØe (cid:224) l(cid:146)analyse de la multimodalitØ. Depuis les annØes 90, de nombreux travaux, notamment en analyse du discours, dØfinissent la multimodalitØ comme un processus dynamique de construction de sens, indissociable de la notion d(cid:146)interaction. La multimodalitØ Øvolue donc au fur et (cid:224) mesure de la communication et ne peut Œtre apprØhendØe comme un texte3 composite fini. Cela pose question quant (cid:224) la mØthodologie nØcessaire (cid:224) son analyse, dans la mesure oø l(cid:146)Øtude de chaque unitØ de la multimodalitØ per se (par ex. l(cid:146)Øtude de tout le clavardage, puis tout le traitement de texte, puis tout l(cid:146)audio) ne permettrait pas de rendre compte du principe d(cid:146)intØgration par lequel les acteurs structurent leur communication. En outre, la notion d(cid:146)interaction multimodale synchrone questionne les fa(cid:231)ons dont les acteurs vont travailler et communiquer. La juxtaposition des diffØrents composants (cf. section 2.1.2) implique-t-elle une dispersion de l(cid:146)attention des apprenants ou invite-t-elle (cid:224) un comportement polyfocal, intØgrant les diffØrents ØlØments de communication dØveloppØs dans des modes diffØrents, et ce dans un mŒme fil de conversation ? Comme le souligne Jones (Jones, 2004), les notions de polyfocalisation est cruciale pour comprendre le dØroulement de la communication multimodale et dØterminer la nature de l(cid:146)engagement de l(cid:146)acteur dans les diffØrentes t(cid:226)ches effectuØes. Cette notion de polyfocalisation est d(cid:146)autant plus importante dans l(cid:146)environnement ØtudiØ que les acteurs peuvent rØaliser des actions diffØrentes de fa(cid:231)on simultanØe, soit dans un mŒme contexte (une mŒme salle, une mŒme t(cid:226)che), soit dans des contextes diffØrentes (des salles, des modules, des micro-t(cid:226)ches diffØrentes), pour accomplir une mŒme macro-t(cid:226)che. Parce qu(cid:146)il y a synchronie, un mŒme acteur peut Øgalement utiliser diffØrentes modalitØs de fa(cid:231)on quasi simultanØe pour communiquer (parler et lire en mŒme temps le traitement de texte qui appara(cid:238)t dans le clavardage, parler et dØplacer des objets dans la carte conceptuelle, etc.). La diversitØ des actions multimodales questionne la fa(cid:231)on de reprØsenter ces phØnomŁnes. Il s(cid:146)agit donc de dØfinir un code de transcription pour des donnØes hØtØrogŁnes (mode verbal : oral et scriptural et mode non-verbal) et de proposer un modŁle structurØ qui donne un cadre aux futures analyses. En effet, dans Lyceum, cette notion est indispensable car des actions ayant lieu dans un espace (cid:224) un instant donnØ, ne sont pas lisibles/audibles par les personnes se trouvant au mŒme moment dans un espace diffØrent. Il est donc important de permettre aux chercheurs de restituer le contexte4 dans lequel ont lieu les interactions pour pouvoir les analyser. MØthodologie 3. Le dispositif de formation couplØ au protocole de recueil des donnØes, et les conventions de transcription influent sur les analyses qui pourront Œtre menØes (cid:224) l(cid:146)issue de la formation. Le fait « d(cid:146)avoir la main » sur la plateforme permet de tracer les informations souhaitØes (cf. par exemple, (Avouris et al., 2007)). Dans le cas contraire (comme pour le projet CopØas), le protocole de recueil des donnØes permet de pallier les possibles lacunes de la plateforme. Les conventions de transcription influent sur le grain d(cid:146)analyse car, selon le niveau de granularitØ adoptØ pour les transcriptions, certaines analyses seront possibles ou non. Tous ces choix dØcoulent Øvidemment des questions de recherche liØes au projet. Dans ce projet, nos questions de recherche concernent deux axes principaux. Le premier concerne 3 Nous employons ici « texte » dans un sens trŁs large (Halliday, 1989). 4 Le contexte Øtant compris ici comme une entitØ dynamique dØfinie dans l(cid:146)interaction par les acteurs (Goffman, 1974), (Goodwin et Duranti, 1992). 4 l(cid:146)association de l(cid:146)audio aux autres modalitØs, et les spØcificitØs de l’interaction multimodale (cid:224) distance. Le second a trait au positionnement et (cid:224) l(cid:146)instrumentation du tuteur. Ces deux axes nous ont amenØs (cid:224) effectuer les choix suivants. 3.1. Le protocole de recueil Lors de la conception de l(cid:146)expØrimentation, une phase importante consiste (cid:224) dØfinir quelles traces, interactions, donnØes devront Œtre recueillies durant ou aprŁs l(cid:146)expØrimentation. Le protocole de recueil inclut les enregistrements audio et vidØo, les enregistrements des productions individuelles et collectives ainsi que l(cid:146)organisation des donnØes. Pour l(cid:146)expØrimentation CopØas, nous avons choisi d(cid:146)enregistrer par captures d’Øcrans vidØo l(cid:146)interface de l(cid:146)environnement Lyceum. Toutes les sessions et toutes les salles utilisØes ont donc ØtØ enregistrØes. Ce choix de protocole exclut par exemple des analyses sur la gestuelle des acteurs (comme par exemple (Smith et Gorsuch, 2004)). En effet, nous avons fait le choix de ne pas enregistrer les acteurs dans leur environnement quotidien car cela ne correspondait pas (cid:224) nos questions de recherche. Nous avons Øgalement rØcupØrØ des logs (connexions (cid:224) la plateforme) des serveurs de l(cid:146)Open University et les interactions de clavardage. A l(cid:146)issue de l(cid:146)expØrimentation nous avons ØlaborØ et administrØ un questionnaire, menØ des entretiens semi-dirigØs et des auto-confrontations (cid:224) partir d(cid:146)extraits vidØo sØlectionnØs (Critical Event Recall) auprŁs des acteurs. Pour ne citer que quelques chiffres et donner un aper(cid:231)u de la taille du corpus traitØ, l(cid:146)ensemble des donnØes compte 37 vidØogrammes d(cid:146)une durØe cumulØe de 27 heures, 512 fichiers (productions, audiogrammes des entretiens, questionnaires, etc.) et occupe 35 Go. 3.2. Conventions de transcription Les conventions de transcription adoptØes induisent le niveau du grain d(cid:146)analyse. Ce qui est transcrit pourra en effet plus facilement faire l(cid:146)objet d(cid:146)une analyse. Par ailleurs, si l(cid:146)on veut rendre compte des actions dans des situations collectives, il faut Œtre capable de caractØriser pour chaque action, outre sa signification : qui la rØalise, qui peut la voir, et donc oø et quand elle a lieu. Pour cela, au del(cid:224) de la diffØrenciation des groupes, l(cid:146)unitØ premiŁre de « dØcoupage » des enregistrements vidØo est la notion de session (8 sessions par groupe). Ensuite chaque session est composØe d(cid:146)espace-temps qui caractØrisent le lieu et la date/heure d(cid:146)une action. Nous avons dØfini la notion d(cid:146)espace-temps ET = (S, t , t ) comme un lieu S (salle ou espace virtuel) 0 1 oø un groupe se retrouve effectivement dans un intervalle de temps [t , t] avec t : la date d(cid:146)entrØe de la premiŁre personne 0 1 0 dans l(cid:146)espace et t : la date de sortie de la derniŁre personne de cet espace. Cette notion permet de regrouper les actions ayant 1 eu lieu dans un mŒme espace-temps, c(cid:146)est (cid:224) dire, en gØnØral, partagØes par un groupe de personnes identifiØes. Dans Lyceum, cette notion est indispensable car des actions ayant lieu dans un espace (cid:224) un instant donnØ, ne sont pas lisibles/audibles par les personnes se trouvant au mŒme moment dans un espace diffØrent. Nous avons, en parallŁle, divisØ chaque session en sØquences pØdagogiques. Ce dØcoupage identifie de maniŁre plus prØcise mais subjective les grandes activitØs d(cid:146)une session par exemple : salutations, prØsentation des consignes, travail en sous-groupes, restitution du travail, dØbriefing, bilan. Nous proposons donc deux points de vue, l(cid:146)un pØdagogique et l(cid:146)autre plus objectif, pour une transcription de la co-prØsence d(cid:146)acteurs dans un lieu et durant une pØriode donnØe. Enfin, chaque acte est caractØrisØ systØmatiquement par une modalitØ (audio, vote, clavardage, module de production, etc.), une valeur (ce qui a ØtØ dit, Øcrit ou fait), une date de dØbut et Øventuellement une date de fin, l(cid:146)acteur ayant rØalisØ cet acte et l(cid:146)espace-temps et la sØquence dans lequel il a eu lieu. Les tours de parole audio et les actions de production ont des attributs supplØmentaires permettant d(cid:146)affiner la description de leur rØalisation dans ces modes spØcifiques. Concernant la parole, les caractØristiques de l(cid:146)oral tel qu(cid:146)elles apparaissent dans Lyceum sont fortement conditionnØes par la reprØsentation de l(cid:146)oral des concepteurs de la plate-forme. Ainsi, des boutons et ic(cid:244)nes en rapport permettant aux acteurs de communiquer (cid:224) plusieurs (cid:224) distance, pour Øviter sans l(cid:146)interdire le chevauchement qui rend la communication difficile. Les acteurs peuvent ainsi demander la parole (lever la main), indiquer qu(cid:146)ils parlent (un haut-parleur (cid:224) c(cid:244)tØ du nom les signale comme locuteur), acquiescer ou refuser par les boutons de vote (oui/non) assurant ainsi la bonne qualitØ de la communication (Lamy, 2006), (Hampel, 2006). Ces diffØrents ØlØments donnent lieu (cid:224) un codage dans la transcription. Au besoin quelques ØlØments de phonØtique ont ØtØ transcrits, cette transcription phonØtique n(cid:146)Øtant pas systØmatique. Nous avons Øgalement choisi de transcrire les silences pour pouvoir les quantifier ou savoir qui reprend la parole aprŁs un silence. Ainsi dŁs qu(cid:146)un silence excŁde 3 secondes il est considØrØ comme un tour de parole de l(cid:146) « acteur » silence. Les recouvrements sont finalement peu prØsents (cid:224) l(cid:146)audio et sont majoritairement multimodaux (par exemple un acteur intervient 5 dans le clavardage pendant qu(cid:146)un autre parle). La date/heure des actions permet cependant de rendre compte du chevauchement entre les actions. Concernant des actions effectuØes dans un module de production collaborative nous n(cid:146)avions pas de cadre scientifique pour les transcrire. La difficultØ principale pour ce type de transcription est de dØfinir le grain de caractØrisation de l(cid:146)action. Par exemple pour un module de traitement de texte quel est l(cid:146)objet ou l(cid:146)unitØ manipulØ : l(cid:146)ensemble du texte, le paragraphe, la ligne le mot ou le caractŁre ? Tout dØpend de l(cid:146)analyse qu(cid:146)on veut faire par la suite et de l(cid:146)utilisation de la transcription. Dans notre cas, l(cid:146)utilisation de la vidØo permet d(cid:146)analyser trŁs finement les actions effectuØes, les transcriptions n(cid:146)ont donc pas pour objectif de reprØsenter l(cid:146)action au niveau le plus fin possible. Pour le traitement de texte nous avons utilisØ comme objet la notion de paragraphe de Lyceum correspondant (cid:224) une ligne ou deux. Pour le module de carte conceptuelle les types d(cid:146)objets manipulables sont le concept et la relation et pour le tableau blanc : le trait, la zone de texte, l(cid:146)ellipse et la punaise. La valeur de l(cid:146)action correspond (cid:224) une des quatre activitØs suivantes : crØer, Øditer, supprimer ou sØlectionner. Au type d(cid:146)activitØ « Øditer » nous associons une Øtiquette de fond ou de forme. 3.3. Le problŁme de synchronisation des diffØrentes sources de traces La figure 2 prØsente la configuration de connexion des diffØrentes machines utilisØes lors des sessions pØdagogiques. Une horloge est reprØsentØe sur chaque machine susceptible de fournir des traces ou enregistrements des actions de la session. Nous pouvons constater que les diffØrentes unitØs utilisØes par le serveur ont chacune une horloge autonome. La machine de chaque chercheur ayant enregistrØ les clavardages et la vidØo d(cid:146)Øcran des espaces-temps a aussi sa propre horloge. Ainsi, lors du recueil des traces, les estampilles temporelles des actions ne se rØfŁrent pas (cid:224) un temps universel : elles ne sont pas synchronisØes. En utilisant la redondance de certaines traces, nous avons pu dØterminer le dØcalage existant entre les diffØrentes machines. Poste App n Poste tuteur Serveur Lyceum Ma(cid:238)tre Poste App 3 Poste App2 Internet Esclave Poste App1 Esclave Esclave Esclave1 Chercheur 1 Chercheur 2 Figure 2 : Connexion des diffØrentes machines Serveurs et Clients Cette contrainte dans la prØcision du temps est extrŒmement forte dans le cas d(cid:146)interactions synchrones puisque deux actions consØcutives peuvent Œtre sØparØes de moins d(cid:146)une seconde, tandis que les horloges Øtaient dØsynchronisØes de plusieurs minutes. Lors de la transcription des vidØos d(cid:146)Øcran, la date (hh:mm:ss) de chaque action a ØtØ donnØe dans le rØfØrentiel local de la durØe de la vidØo donnØ par le lecteur vidØo ; la date zØro Øtant le dØbut de l(cid:146)enregistrement de la vidØo. Il a fallu dØfinir ensuite avec prØcision, la date et heure (jj/mm/aa hh:mm:ss) du dØbut de l(cid:146)enregistrement vidØo dans le rØfØrentiel temporel de la machine du chercheur. Ainsi, la date de chaque action a pu Œtre replacØe dans un temps de rØfØrence choisi en appliquant un dØcalage rigoureusement calculØ. Tous ces calculs de synchronisation ont ØtØ faits en supposant que chaque horloge n(cid:146)a subi aucun dØcalage au cours de l(cid:146)expØrimentation. Par ailleurs, nous avons notØ que l(cid:146)exportation de dates et heures de Excel vers Access puis MySQL peut engendrer des petites imprØcisions. Pour pallier les risques d(cid:146)introduction d(cid:146)imprØcisions dans les valeurs temporelles nous opØrons une vØrification sur un Øchantillon, (cid:224) chaque Øtape de collecte, transcription ou transformation, afin de contr(cid:244)ler qu(cid:146)en particulier l(cid:146)ordre des ØvŁnements n(cid:146)est pas affectØ. La reprØsentation des interactions 4. Avant de pouvoir analyser les interactions et tenter de comprendre les phØnomŁnes qui se sont dØroulØs, il est indispensable de travailler sur « l(cid:146)organisation, la modØlisation et la conceptualisation des traces d(cid:146)activitØ, de leur reprØsentation et de leur traitement » (Settouti et al., 2006). Les transcriptions ont ØtØ enregistrØes dans un premier temps (cid:224) 6 l(cid:146)aide d(cid:146)un tableur par soucis d(cid:146)efficacitØ. Cette organisation des donnØes limite cependant leur traitement. Nous avons donc modØlisØ l(cid:146)ensemble des donnØes recueillies ou transcrites (Betbeder et al., 2006). Une organisation sous forme de base de donnØes offre au chercheur l(cid:146)avantage de bØnØficier de toutes les donnØes organisØes dans un unique format facilitant ainsi la recherche d(cid:146)informations et lui permettant d(cid:146)effectuer des fouilles et traitements statistiques. 4.1. Base de donnØes Figure 3 : SchØma relationnel de la base de donnØes Sans entrer dans les dØtails du schØma relationnel (cf . Fig. 3), ce modŁle reprend les diffØrentes notions dØfinies dans les conventions de transcription : sessions, sØquence, espace-temps. La table « Actions » est centrale, elle contient les principales caractØristiques d(cid:146)une action dØfinies dans la section 3.3. Chaque action est liØe (cid:224) un espace-temps ainsi qu(cid:146)(cid:224) une sØquence. Des tables spØcifiques ont ØtØ ajoutØes pour donner d(cid:146)autres prØcisions sur des actions : nous avons par exemple une table parole contenant le texte qui a ØtØ transcrit de l(cid:146)audio ainsi que (si nØcessaire) la transcription phonØtique de certains extraits. Une autre table spØcifique aux actions de productions, permet d(cid:146)enregistrer le type de module de production collaborative utilisØ (tableau blanc, carte conceptuelle ou traitement de texte dans Lyceum), le type d(cid:146)objet utilisØ (lignes, rectangles, ellipses, textes, paragraphes, concepts ou relations), et le document (plusieurs documents d(cid:146)Ødition collaborative pouvant Œtre ouverts simultanØment) ainsi que le type d(cid:146)action effectuØe (crØer, Øditer, supprimer, sØlectionner, etc). Enfin les actions sont liØes au fichier source (vidØo) et (cid:224) l(cid:146)enregistrement du document pour les actions de productions. Cette organisation gØnØrale permet alors d(cid:146)extraire aisØment les actions de chaque acteur. DurØe moyenne Acteur groupe niveau DurØe moyenne Acteur groupe des actes audio intermØdiaire (cid:224) des actes audio faux dØbutants (mm:ss) avancØ (mm:ss) al 00:12 agnes 00:10 amand 00:11 amel 00:08 chris 00:10 angel 00:11 ed 00:07 aur 00:07 ghis 00:08 bert 00:13 herve 00:07 isa 00:08 remy 00:07 rob 00:14 tim 00:14 sand 00:10 silence 00:18 silence 00:14 Tableau 2 : DurØe moyenne des actes audio des acteurs L(cid:146)interrogation de la base de donnØes permet de calculer par exemple (cf. Tableau 2) la durØe moyenne des actes de parole par acteur. On observe que les apprenants des 2 groupes, bien qu(cid:146)ayant des compØtences en langue trŁs diffØrentes, ont des moyennes similaires (min : 7 sec. max : 12 ou 13 sec., moyenne : 9 ou 10 sec.). Les tuteurs des deux groupes (Tim et Rob) ont exactement la mŒme moyenne. Enfin les conventions dØfinies nous permettent de quantifier et de calculer la moyenne des temps de silences entre deux interventions orales (faux dØbutants : 18 sec. et intermØdiaires/avancØs : 14 sec.). 4.2. Outil de visualisation 7 Le protocole de recherche ainsi que nos transcriptions nous ont permis d(cid:146)obtenir une base de donnØes des actions des acteurs riche en informations. NØanmoins cette organisation ne donne pas une visualisation optimale des donnØes utiles pour les analyses. En effet, la reprØsentation offerte par des requŒtes de la base ne permet pas la visualisation graphique de la durØe des actions, de leurs chevauchements ou enchevŒtrement. Les requŒtes prØsentent les rØsultats « (cid:224) plat » sans faire ressortir visuellement la durØe, les modalitØs et les acteurs. Nous avons donc dØveloppØ un outil couplØ (cid:224) la base de donnØes pour amØliorer la visualisation des donnØes d(cid:146)interactions multimodales : il permet, entre autres, de mettre en Øvidence la durØe et la structuration des actions (cf. Fig. 4). Figure 4 : Copie d(cid:146)Øcran de l(cid:146)outil de visualisation, vue par modalitØ5. Ce prototype permet de sØlectionner la session et l(cid:146)espace-temps (cid:224) visualiser. Deux vues sont proposØes, une vue par acteur (chaque acteur est une donnØe de l(cid:146)axe des ordonnØes, les modalitØs sont diffØrenciØs par des couleurs diffØrentes) et une vue par modalitØ (cf. Fig. 4), l(cid:146)axe des abscisses reprØsente le temps. Le graphe gØnØrØ reprØsente l(cid:146)intØgralitØ de l(cid:146)espace temps que l(cid:146)on peut « zoomer » et parcourir le long de l(cid:146)axe temporel. Sur la figure 4, on visualise aisØment que l(cid:146)acteur Chris effectue une action de production pendant l(cid:146)acte de parole de l(cid:146)acteur Tim (le tuteur). Cet outil est au stade de prototype, nous avons prØvu de dØvelopper une version stable courant 2008 et de l(cid:146)intØgrer au sein de la plateforme Mulce pour visualiser un corpus dØposØ. Exemples d(cid:146)analyses d(cid:146)interactions multimodales 5. 5.1. Analyse macroscopique L(cid:146)interrogation de la base de donnØes (cf. section 4.1) nous permet d(cid:146)effectuer une analyse longitudinale de ce qui s(cid:146)est dØroulØ au cours de l(cid:146)apprentissage. Nous cherchons (cid:224) dØgager des tendances gØnØrales en procØdant (cid:224) des calculs statistiques qui combinent les sessions, les acteurs, les actions et les modalitØs. Le but est Øgalement de repØrer des Øcarts par rapport (cid:224) ces tendances pour mettre en Øvidence des « comportements » singuliers et tenter de les interprØter. L(cid:146)objectif de cette section est de proposer une illustration des rØsultats obtenus par l(cid:146)exploitation de la base de donnØes et des analyses. Nous ne prØtendons pas faire une analyse exhaustive des interactions multimodales de cette formation. 5.1.1. Une premiŁre approche de l(cid:146)activitØ La base de donnØes nous permet d(cid:146)Øvaluer l(cid:146)activitØ de chaque acteur en calculant les actes des trois modalitØs principales : audio, clavardage et production (traitement de texte, carte conceptuelle et tableau blanc). La figure 5 prØsente ainsi le nombre total d(cid:146)actes effectuØs par chacun pour les huit sessions. Cette premiŁre mesure un peu grossiŁre sera ensuite couplØe avec d(cid:146)autres observations. 5 Signification des sigles : As : arrivØe/sortie, prod : acte de production, tpa : tour de parole audio, tpc : tour de parole clavardage et v : vote. 8 250 200 150 Moyenne 100 Ecartype 50 0 al amand chris ed ghis her rem Tuteur Figure 5 : Nombre moyen d(cid:146)actes par session pour chaque acteur A noter : Al a ØtØ absent (cid:224) deux sessions et Rem a abandonnØ au bout des quatre premiŁres sessions. Ce graphique montre que le tuteur exØcute un nombre d(cid:146)actes trŁs important par rapport aux apprenants en accomplissant (cid:224) lui seul 27% des actes. Par ailleurs il le fait de fa(cid:231)on rØguliŁre sur les huit sessions (Øcart type faible par rapport (cid:224) sa moyenne). Parmi les apprenants Ghis est le plus actif mais il n(cid:146)agit pas de fa(cid:231)on trŁs rØguliŁre sur l(cid:146)ensemble des sessions (Øcart type important). Si l(cid:146)on dØtaille l(cid:146)activitØ par session et par acteur (cf. Tableau 3) on observe une « sur-activitØ » pour Ghis en session 3 avec 220 actes (i.e. : 26,83% sur le total de la session) contre 181 pour le tuteur. Ghis passe en session 4 (cid:224) 10,04% des actes (49 actes, tuteur 144) : son taux le plus faible sur les huit sessions. Ayant observØ cette irrØgularitØ on peut chercher (cid:224) comprendre ce qui stimule ou freine l(cid:146)apprenant dans son activitØ, et (cid:224) interprØter ces Øcarts. Pour ce faire des informations complØmentaires pour caractØriser des diffØrences contextuelles ou pØdagogiques entre les sessions 3 et 4 sont nØcessaires. On constate d(cid:146)abord, comme le montre le tableau 3, une baisse gØnØrale du nombre d(cid:146)actes entre les sessions 3 et 4 pour l(cid:146)ensemble des acteurs. Code Acteur S3 S4 S4-S3 al abs 53 amand 147 65 -82 chris 67 52 -15 ed 58 23 -35 ghis 220 49 -171 herve 127 73 -54 remy 20 29 9 tuteur 181 144 -37 Tableau 3 : Nombre d(cid:146)actes par acteur en session 3 et 4 Un examen plus fin des donnØes classØes par type de production nous montre que Ghis a effectuØ un nombre d(cid:146)actes liØ (cid:224) la production trŁs largement supØrieur aux autres apprenants en session 3 puisqu(cid:146)il couvre 50% des actes de production parmi les apprenants. Une analyse plus approfondie de ces actions montre que Ghis effectue trŁs majoritairement des actions de productions de forme (dØplacement des objets sur les cartes conceptuelles) contribuant finalement assez peu (cid:224) la t(cid:226)che (sur le fond). 5.1.2. Espace-temps et dynamique de groupe La notion d(cid:146)espace temps suscite quelques questions. Comment les acteurs se partagent-ils un espace-temps ? Les outils sont-ils utilisØs indiffØremment par tous ? Avec la mŒme frØquence ? Comment s(cid:146)entrelacent les interventions des acteurs ? Les pourcentages d(cid:146)actes par acteur (cf. Fig 6) montrent que HervØ (12,04%) et Chris (14,36%) figurent parmi les apprenants actifs. De plus, d(cid:146)aprŁs les Øcart-types leur activitØ est rØguliŁre sur l(cid:146)ensemble des sessions. L(cid:146)observation des courbes de l(cid:146)activitØ par session montre des variations complØmentaires entre ces deux apprenants avec un cumul des pourcentages des actes accomplis par HervØ et Chris stable (en moyenne par session : 26,4%) et un Øcart type faible (3,96). 9
Description: