Disponibleenlignesurwww.sciencedirect.com ScienceDirect Pratiquespsychologiques21(2015)1–18 Examenpsychologique La psychotechnique des aptitudes. Pour différencier une sociotechnique de l’évaluation sans mesurage et une psychologie balbutiante de la compréhension de la performance Mental testing: Differentiating sociotechnical assessment without measurement and scientific explanation S. Vautier Octogone,universitédeToulouse,5,alléesAntonio-Machado,31058Toulousecedex9,France Rec¸ule21janvier2014;acceptéle23janvier2015 Résumé Une conception répandue consiste à considérer que des tests psychotechniques validés permettent de mesurerdesaptitudesintellectuellesàpartirduscoragedesperformancesobservées.Cetarticledéveloppe uneconceptionfalsifiabledumesurageordinalimpliquantquelesperformancesobservéesfalsifientvrai- semblablementcetteconceptionetanalysecommentlamodélisationpsychométriquesatisfaitl’impératif comparatifquisous-tendl’évaluationdesaptitudes.Maisl’efficacitéévaluatives’établitaudétrimentdela connaissancescientifiquedesdéterminantsdelaperformance.Lapratiquedel’examenpsychologiqueest ensuiteanalyséecommeunesociotechniquedel’évaluationsansmesurage. ©2015Sociétéfranc¸aisedepsychologie.PubliéparElsevierMassonSAS.Tousdroitsréservés. Motsclés: Testspsychologiques;Mesurage;Psychométrie Abstract Awidespreadviewconsistsinconsideringthatvalidatedpsychotechnicaltestsenableonetomeasure intellectual abilities with the help of the scoring of observed performances. This paper (i) elaborates a falsifiableconceptionofordinalmeasurement,(ii)showsthatitislikelythattheobservedperformances falsifyit,and(iii)analyzeshowpsychometricmodelingfulfilsthecomparativeimperativethatunderpins Adressee-mail: [email protected] http://dx.doi.org/10.1016/j.prps.2015.01.005 1269-1763/©2015Sociétéfranc¸aisedepsychologie.PubliéparElsevierMassonSAS.Tousdroitsréservés. 2 S.Vautier/Pratiquespsychologiques21(2015)1–18 theassessmentofabilities.Buttheevaluativeefficacybuildsuptothedetrimentofscientificknowledgeofthe performance’sdeterminants.Thepracticeofpsychologicalassessmentisthenthoughtofasasociotechnics ofassessmentwithoutmeasurement. ©2015Sociétéfranc¸aisedepsychologie.PublishedbyElsevierMassonSAS.Allrightsreserved. Keywords: Psychologicaltesting;Measurement;Psychometrics Lacraintequ’éprouvelefilsauthentiquedelacivilisationmoderneàl’idéedes’éloigner desfaitsquisontdéjàschématiquementpréformésparlesconventionsdominantesdela science,ducommerceetdelapolitique,estlamêmequelacraintequ’inspirela déviationsociale. MaxHorkheimeretTheodoreW.Adorno,Ladialectiquedelaraison. 1. Introduction Toutpraticiendestestsd’aptitudesaitquelesscoresoulesnotesqu’ilattribueauxpersonnes qu’iltestenemesurentpasdegrandeuranalogueàlalongueuroulatempératured’uncorps.Ilsait aussil’importancedelalocution«testvalidé»:onn’entreprendraitpassansrisqueprofessionnel uneévaluationdesaptitudesavecdestestsnonvalidés.Cettequasi-labellisationestparfoisconsi- dérée dans la communauté des utilisateurs comme un gage de scientificité (Gaillard, Colasse, Guihard,&Michel,2011,p.155).Unetelleopinionestdiscutable(Lacot,Afzali,&Vautier,à paraître).Siuntestvalidénemesurerien,lafinalitéduscoragepsychotechniquedoitêtreassumée dansuneperspectivesociotechniqueparoppositionàscientifique(pourladifférenceentrescience ettechnique,voirGranger,1995);cequientraînedesconséquencespolitiquespuisqu’ils’agitde dénaturaliserl’objetdel’évaluationpsychotechniqueenluireconnaissantlecaractèred’unfait socialparoppositionàunfaitbrut(cf.Searle,1995). La position mise à l’épreuve dans cet article est la suivante: l’évaluation d’un niveau de perfor manceou d’apt itu de1,àl’aid ed’u nsc orequ’o nra pp orteàune n ormestatisti que,n econsti tue pasuneopérationdemesurage,cequiimpliquequel’utilisationdutermedemesureesttrompeuse. Si la communauté des utilisateurs de tests souhaite assumer sa responsabilité scientifique, elle doit«faireleménage»danssesmodesd’expressionpourclarifiersondomainedecompétences, autantvis-à-visdesesmembresquedesmembresdelasociétécivileausenslarge,enévacuant de sa terminologie les termes connotant la mesurabilité des grandeurs psychologiques, et en assumant l’évaluation comme un processus qui assigne à la personne une ou des propriétés extrinsèques. Le terme d’évaluation possède une ambiguïté descriptive et appréciative redoutable. On dit qu’on évalue l’intelligence ou la taille d’un enfant. La taille est un attribut mesurable. D’où la tentationdeconclurequel’intelligenceestmesurable,puisqu’onl’évalue.Orlestestsd’aptitude ne sont pas faits pour déterminer une quantité d’intelligence, mais pour assigner une place à l’enfant(viasaperformance)dansuneéchelledescores. 1 Lepraticienvisel’aptitudeenregardantlaperformance. S.Vautier/Pratiquespsychologiques21(2015)1–18 3 En soi, un score n’est pas un jugement de valeur, mais ce n’est pas non plus le résul- tat d’un mesurage (Vautier, 2014d). Le score, interprété comme une propriété de l’enfant (le score traduit la performance, laquelle est le produit de l’intelligence, donc le score décrit l’intelligence), constitue la condition de possibilité pour que la formulation d’un jugement de valeursurl’enfant,enfonctionducontextedanslequelils’agitdel’insérer,acquièreunefactualité suffisante. «Insérerune personne dans un contexte social», en l’occurrence l’enfant évalué, implique uneconstructiondesignificationsàproposdelapersonnequidevientobjetd’attention,objetà spécifier,àpositionneretvis-à-visduquelsepositionner,objetàinsérerdansunréseaud’enjeux relationnelset/ouinstitutionnels,leplussouventimplicites.Parexemple,BinetetSimon(1907) proposent leur «échelle métrique de l’intelligence» pour «une situation où des doutes planent surlescausesduretardscolaire»(p.92)etoùl’enjeuconsisteà«envoyerl’élèveàlaclassede perfectionnement»oubienàlerenvoyer«àl’écoleordinaire».Laperformancedel’enfantdoit alorsêtrelavariabled’unefonctioncompatibleavecl’évaluation,c’est-à-dired’unefonctiondont lesvaleurssontcompatiblesaveclesnotionspratiquesde«pasassez»,«trop»,«suffisamment»: la performance doit être suffisamment élevée pour un renvoi à l’école ordinaire, ou bien assez bassepouruneorientationenclassedeperfectionnement(Vautier,2014b). Commeladescriptiondelaperformancen’estpasunnombre(onverraquec’estgénéralement unm-uplet),lescoragepréparesonévaluationentransformantsadescriptionenscalaire,ouencore, en nombre, tou joursli sibleco mm edegrédan su nordresimp le 2,auquelil su ffitd’adj oin dredes seuilsajustablesàlasituation. Ainsipeut-onexhumerl’impératifdecomparabilitédelapratiqueduscoragepsychotechnique. La psychotechnique répond à une demande sociale de comparabilité. Non pas qu’il s’agisse de comparer à tout va; ce qui importe, c’est de pouvoir comparer si le besoin s’en fait sentir. L’intérêt social de la psychotechnique comme technicité qui s’exerce sur autrui dépend de sa capacité à satisfaire l’impératif de comparabilité. De ce point de vue, on peut saluer la clarté aveclaquelleReuchlin(1969)définitlafinalitédestests:«ilsfournissentlesmoyensd’exprimer ces observations [les réponses] sous une forme telle que soient possibles la comparaison [des] individusentreeuxetlacomparaisondechacunavecles“normes”(descriptives)delapopulation àlaquelleilsappartiennent»(p.22). Huteau et Lautrey (1999, p. 76) écrivent que la mesure de l’efficience intellectuelle –via l’observation de performances à des items de tests– est fondée au niveau ordinal. C’est faux: lapsychotechniqueduscoragefabriquelacomparabilitédesperformancesaulieudelarévéler; c’estunetechnique(ouuneingénierie)socialequin’exploiteaucuneloipsychologiqueconnue ni,afortiori,aucunprincipedemesurage. Cet article définit ce que serait un mesurage ordinal en prenant l’exemple d’un test connu, et montre comment le discours psychométrique entérine le fait qu’on ne sache mesurer ordi- nalement aucune grandeur théorique avec des réponses (ou des performances) à des items de test.Puis,ilanalyselespratiqueslinguistiquesencoursdanslalittératurepsychotechniquepour montrer comment l’emploi des mots masque ce fait, en prenant comme exemple le manuel du test.Cetteanalyseestcomplétéed’unepetitemiseenscènequiviseàrendresensibleslesten- sionslogiquesetéthiquesquedoitaffronterlepsychologueclinicienlorsqu’ilsertladémarche évaluative. 2 Unordresimpleestunensembledontlesélémentsprisparpairespeuventtoujoursêtreordonnésl’unparrapportà l’autre(plus,moins,ouaussique). 4 S.Vautier/Pratiquespsychologiques21(2015)1–18 2. MesurerunegrandeuravecletestCubesduWISC-IV Soient des conditions suffisantes pour le mesurage ordinal d’une grandeur théorique dans unecertainepopulationd’unitésd’observation.Cesconditionsformentunehypothèsethéorique quiestfausse.Parconséquent,l’argumentselonlequelondisposed’unehypothèsedelaquelle déduirequ’onsaitcomparerdesquantitésd’unegrandeurdanscettepopulationestlogiquement valide,maisilestfauxparcequel’hypothèsesurlaquelleilreposeestfausse.Ilenrésultequ’en l’absence d’hypothèse alternative, on ne sait pas justifier qu’on sache mesurer ordinalement la grandeurthéoriqueaveclaperformancedanscettepopulation.Cettegrandeurn’estpasunconcept scientifique. LeWISC-IVestunebatteriedetestsutiliséeparlespsychologuescliniciensdanslecadrede l’examenpsychologiquedel’enfantetdel’adolescent(Chartier&Loarer,2008;Grégoire,2009; Jumel&Savournin,2013).Ellecomprend15testsetpermetdecalculer,enfonctiondesréponses observées,desscores,appelésnotesouindices,de«compréhensionverbale»,de«raisonnement perceptif», de «mémoire de travail», de «vitesse de traitement», ainsi qu’une note «totale» (Wechsler,2005a).L’analyseportesurl’hypothèsedemesurabilitéd’unegrandeurthéoriquepar laperformanceobservéeautestCubes. 2.1. LadescriptiondelaperformanceautestCubes LadescriptiondelaperformanceautestCubesmobiliseunlangagedontilestutiledeconnaître lasyntaxeetlelexique.Toutd’abord,commeletestcomprend14tâches,laperformanceautest est un 14-uplet. Le vocable de m-uplet est fondamental pour la compréhension de ce qui suit, c’estpourquoiilconvientdes’yattarderquelquepeuenpartantd’unexemple(voiraussiVautier, 2014c). Supposons pour simplifier que le test ne comprenne que trois tâches, toujours administrées dans le même ordre. La performance au test est alors décrite sous la forme d’un triplet (un 3- uplet),parexempleletriplet(1,1,0),qu’onpeutabrégerparlanotation«110».Lepremier«1» spécifie le résultat issu de l’observation de l’enfant lorsqu’il est confronté à la première tâche; ledeuxième«1»spécifielerésultatissudel’observationdel’enfantlorsqu’ilestconfrontéàla secondetâche:le«0»spécifielerésultatissudel’observationdel’enfantlorsqu’ilestconfronté àlatroisièmetâche.Lasyntaxedeladescriptiondelaperformanceàcepetittestprendlaforme «1puis1puis0».Aprèslasyntaxe,penchons-noussurlelexiquedeladescription.Lerésultatde l’observationdel’enfantfaceàunetâches’exprimedansunlexiquespécifique.Sionconsidère qu’unetâcheestéchouéeouréussie,letriplet«110»indiquedeuxréussitessuccessivespuisun échecgrâceaucodage«0=échec»et«1=réussite». Ladescriptiondelaperformanceaux14tâchesdutestCubesestun14-uplet.Cettedescription estmu ltivariée(p lus pr écisément14 -var iée )3.Let est Cub escom pr end troislexi ques. Lepremier lexique s’applique pour la description du résultat obtenu à chacune des trois premières tâches. Le seco nd lexique s’app liq ue pour la des cription du résu lta t à chac une des tâ ches no 4 à 8. Le troisièmelexiques’appliquepourladescriptiondurésultatàchacunedessixdernièrestâches. Lepremierlexiquecomportetroismodalitésquisont«0»pour«échec»,«1»pour«réussite partielle» et «2» pour «réussite totale». Ainsi, la performance aux trois premières tâches est 3 LapassationdutestCubesobéitàunerèglededépartetunerègled’arrêt,cequisignifiequedanscertainesconditions, laperformancen’estpasun14-uplet,auquelcasletestn’estpascomplètementstandardisé.Ilestinutiledetenircompte decetteparticularitéici. S.Vautier/Pratiquespsychologiques21(2015)1–18 5 décriteparuntripletparmiles27tripletspossibles000,001,...,222.Lesecondlexiqueadeux modalitésquisont«0»pour«échec»et«4»pour«réussite».L’utilisationduchiffre4aulieu duchiffre1pourcoderlaréussiteindiquelavalorisationdelaréussite:réussirunetâcheparmi les tâches no 4à8 vautm ie uxquer éussiru ne tâcheparmi les tâc hesno1 à 3.Let roisi èmele xique comprendcinqmodalités:«0»signifie«échec»etleschiffres«4»,«5»,«6»et«7»signifient desdegréscroissantsderéussite. Iln’estpasnécessairepourleproposdeprécisercommentlepsychologueutiliseceslexiques; supposons seulement que les psychologues qui pourraient effectuer la description d’une cer- taine performance (qu’on aurait filmée par exemple) soient interchangeables–le test est réputé «cotation-objectif». 2.2. Leprincipedemesurage:élémentsthéoriques Cequiprécèdedéfinitlecadredescriptifdesphénomènesempiriquesqu’onpeutdécrireavecle test.Voyonsmaintenantcommentonpeutimaginerunprincipegénéralpermettantderelierlagran- deurthéoriqueviséeparletestàl’ensembledesperformancesobservables.Par«observables», il faut entendre «qui peuvent être observées lorsqu’on procède à une observation», par oppo- sition à l’énumération de toutes les possibilités logiques générées par le langage descriptif de la performance, qui ne dépend d’aucune observation, et qui constitue l’ensemble de réponses logiquementpossibles,paroppositionàl’ensembledesréponsesempiriquementpossibles(i.e., cellesquis’observentenfait). Ilfautimaginerunprincipepourchaquetâche,avantderésoudreleproblèmeàl’échelledela description14-variée.Commeils’agitdedémontrerquelaconstructionthéoriquerequisepour fonder l’idée que la performance au test mesure une grandeur psychologique est fausse, il ne sera pas nécessaire de développer toute la démarche. Il suffit d’en développer une partie et de montrerquecettepartieestfaussepourquelathéoriecomplète,quicontientlathéoriepartielle, soitfausse. Considéronsunetâchedontlerésultatestdécritparleschiffres0ou4,quiconstituentlelexique le plus parcimonieux du test Cubes. On suppose une grandeur psychologique dont la variation dé term inelavariation du résu ltatàla tâch eno4.Ce tteg randeurp ossèdeparhypo thèse un eorigine naturelle,qu’onpeutnoterO,enposantqu’elledésignel’absencedequantité–onadmetqu’une quantité négative d’aptitude n’existe pas. On peut aussi considérer que la grandeur possède un maximumqu’onnotera«max». Leproblèmeconsisteàdéfinirunerelationdusegment[O,max]dansl’ensemblecontenantles éléments0et4.Àtoutpointdelagrandeur,onveutfairecorrespondreuneréponseobservable, 0ou4.Onveutaussiquetoutpointdelagrandeurnecorrespondequ’àuneréponse,sinoncette relationnepourraitpasêtreutiliséecommeunprincipedemesurage.Onveutdoncuneapplication de[O,m ax ]dans{0 ,4} .En fin,com melav ale urdescri pti ve«4»ind iqu epar défin itio nunniveau supérieuràceluiqu’indiquelavaleurdescriptive«0»,cetteapplicationdoitêtrecroissante. Laseu le solut ionpossible e stune fonctionpa rp a lie r.Ain si,direque laré pon seàlatâcheno 4mesurelagrandeurrevientàinvoquerunefonctionàdeuxpaliers,lesdeuxpaliersétantséparés parunseuildans[O,max],dontonignorelaposition.Lorsque,paruneexpériencedepensée, on fait varier la grandeur de O jusqu’au seuil, on pose qu’on observe «0»; quand la grandeur dépasseleseuiletvariejusqu’àsonmaximum,onposequ’onobserve«4».Cetteconstruction théorique n’est pas falsifiable, puisqu’on ne connaît pas la valeur de la grandeur et qu’on peut observer0ou4.Maisellefournituncadrelogiquepourrelierintelligiblementlelexiquedescriptif delaréponseàlatâcheetlagrandeurquelaréponseestsupposéemesurer. 6 S.Vautier/Pratiquespsychologiques21(2015)1–18 Onappliquelamêmedémarcheàlatâcheno 5,eninventantunautreseuil.Laquestionqui se pose maintenant est de savoir comment ordonner les deux seuils sur le segment [O, max], étantdonnéqu’onsupposequelesdeuxtâchesmesurentlamêmequantitéthéorique.NotonsA et B les deux seuils respectifs. Le langage de la grandeur implique que soit A<B, soit A=B, so it B< A.Co mmel atâcheno 4 es tsuppos éep lu sfacilequ elatâche no 5,A se tr ou veav an t B. En effet, l’ordre de difficulté des deux tâches implique la possibilité qu’un enfant possède une qua ntité d’aptitu de tellequ’el lelu iperm etde réussirla tâc heno 4ma ispas latâch eno 5.D ans cecas,cettequantitéestsupérieureàAetinférieureàB.DoncAestinférieuràB.End’autres termes, la performance (4, 0) signifie que la quantité d’aptitude de l’enfant se trouve après A –d’oùle«4»de(4,0)–etavantB–d’oùle«0»de(4,0). Une conséquence capitale découle de ce qui précède. Cet enfant ne peut théoriquement pas exhiber laperforman ce(0,4) ,puisque s’ ilr éuss itlatâche no 5,c’es tqu esa quantitéd’aptit ude estsupé rie ureauseuilB ,et do ncqu’ell ees taussis up érieur eaus euilA 4.D ’a prèslafo nctionpar pal ierdelatâc he no4, on d evrait observ eru neréu ssiteetno np asun éch ecàlatâ ch eno4. 2.3. Lafalsifiabilitéduprincipedemesurageetsesconséquencestechniques Nousdisposonsd’uncadrelogiquepourrelierlagrandeurthéoriqueetlaperformanceobser- vableavecdeuxitems,etcecadred’interprétationpossèdeunfalsificateur,quiestl’observation (0,4).Donclathéorieestfalsifiable,ouencoretestable(Popper,1973).Sionadmetquelaquantité théorique peut varier lorsque l’enfant passe d’un item à l’autre, la théorie n’est plus falsifiable maistautologique.Supposonsqu’onconsidèremaintenantquelathéories’appliqueàtoutenfant satisfaisant un certain nombre de conditions (conditions initiales). On peut alors énoncer la loi suivante:quelquesoitunenfantdanscesconditions,ilnepeutpasproduirelaperformance(0, 4)puisquelaperformancemesuresaquantitéthéoriqueselonlafonctiondemesuragequenous venonsd’élaborer.Autrementdit,nousvenonsdedirequelaprobabilitéd’observerl’événement (0,4)danscesconditionsestnulle(pouruneélaborationdelanotiondeloienpsychologie,voir Vautier,2011,2013;Vautier,Lacot,&Veldhuis,2014). Supposonsquedesobservations,nombreuses,corroborentcetteprédiction–aucun«04»n’a étéobservé.Alorslelangagedelagrandeurthéoriqueestunecommoditélinguistiquepourénoncer cet teloiemp irique 5 demani ère c oncise(po urunean aly sed elafonction descriptive dela théorie enphysique,voirDuhem,2007).Nousnesavonspassilagrandeurexisteentantquetelle,nous savons seulement que la fonction de mesurage dont elle constitue le domaine de définition est unmodèlecommodeetprometteur.Supposonsmaintenantquequelquesobservationsfalsifiantes aie ntétéra pportéesd an slalittératu rescientifiq ue6.Unno uvea uproblè mescientifiqu esepose: dequoid’autrequelaquantitéthéoriquedépendentdetellesobservations?Quellesquesoientles solutionsenvisageables,l’existenceduproblèmecréeunimpératiftechnique:cequiestobservé estuneanomalieauregarddelathéoriedemesurage;unargumentquiinterprètecequiestobservé entermesdeniveaudelagrandeurthéoriquen’estpasvalide.L’exploitationdelatechniquede mesuragedoitprendreencomptelefaitqueparfois,lesdonnéessontaberrantes.Ilnes’agitpas d’une erreur de mesure au sens d’un manque de précision conduisant à la nécessité d’utiliser 4 Ici,onabesoindepostulerquelaquantitéquel’onveutmesurervariedemanièrenégligeableentrelemomentoù l’enfan ttra it el’item no 4etlem om ent oùiltra itel’ item no5. 5 Cett elois tructur alee st au ssiconnu es ou slen omd’é chelledeGuttman(1944). 6 Cequ i,s oitditenp ass ant,e stquasi impo ss ibles ilespolit iqu eséditori alesdesrevuesd’évaluationenpsychologie décrètentquecetyped’étudemanquedeportée. S.Vautier/Pratiquespsychologiques21(2015)1–18 7 un encadrement de la valeur théorique plutôt qu’une valeur ponctuelle, mais d’une aberration théorique qui nécessite une élucidation parce qu’elle signale qu’on ne comprend pas ce qui se passe.Dèslors,uneprécautionélémentaireconsisteànepasqualifiercesobservationscomme des données exploitables et l’utilisateur doit affirmer clairement qu’il ne peut rien conclure de ses observations parce qu’elles sont théoriquement inintelligibles–la performance ne dépend pas que de la quantité théorique, donc la théorie ne «marche pas». Supposons enfin que de nombreusesobservationsfalsifiantesaientétérapportées.Alors,l’intérêtscientifiquedelathéorie demesurageestnégatif:onaapprisqu’unetelleconstructionthéoriqueestfausse,cequiconstitue uneauthentiqueconnaissancescientifique. 2.4. Incertitudesàproposdel’incertitude L’incertitude est une notion vague tant qu’on ne précise pas sur quoi elle porte. Lorsqu’on disposed’unmodèledemesurageordinalcorroboréquiestfondésurdesobservationsmultiva- riées,ondisposed’unethéoriegénéraledontlavéritéestincertaine.Lagénéralitédelathéorie estlimitéeàlapopulationdesêtresqu’onpeutévaluer.Parexemple,laproposition«quelsque soient les enfants qui rempliraient certaines conditions (l’âge, et d’autres attributs descriptifs liésàlamanièredontsedéroulelapassationdutest),laperformanceobservéeserait00,40ou 44»estunepropositiongénérale.Commelapropositionestcontrefactuelle,lenombred’unités d’observationestinfinietonnepeutdoncpasvérifierlapropositionunitéparunité.Onsaitau mieuxqu’uncertainnombredetests(ausenspoppérienduterme)corroborentcetteproposition. Faceàl’incertitudeirréductibledecetteproposition,onsecontentedeconsidérerqu’elleestvraie jusqu’àpreuveducontraire. Supposonsqu’ondécidedecroireenunetelleloiparcequ’elleatoujoursétécorroborée.Une autreincertitudes’yattache,quiprendlaformed’uneindéterminationintrinsèque.Lagradation desperformances00,40et44définittroissegmentssur[O,max],dontonconnaîtl’ordremais pasl’étendue,cequiimpliquequ’onestrigoureusementincapabledejustifierquelescoresoit une mesure quantitative (ou additive). Si on additionne les chiffres dans les couples 00, 40et 44, on obtient respectivement 0, 4et 8, mais il est évident que la proposition «0+4=4», par exemple,estscientifiquementabsurdebienquemathématiquementvraie.L’additionn’apasde senspsychologique.Ces«scores»signifientseulementquelaquantitédétectéeparl’observation «0»(i.e.,00)estpluspetitequelaquantitédétectéeparl’observation«4»(i.e.,04),quiestelle- mêmepluspetitequelaquantitédétectéeparl’observation«8»(i.e.,44).Supposonsenfinqu’on augmentelenombred’itemsjusqu’àunnombremetqu’ilsoitpossibled’identifierunefonction parpalieràm’seuils(lenombredeseuilsdépendantdunombredevaleursdescriptivesassociées à ces items). On aura affiné le grain de l’échelle ordinale, mais la mesure demeurera ordinale, c’est-à-direquel’additiondesscoresdemeurerauneabsurditépsychologique(ouscientifique). 2.5. L’ambiguïtéscientifiquedelamodélisationpsychométrique Les psychométriciens savent bien que la fonction par palier qui est nécessaire pour fonder l’idée d’un mesurage ordinal d’une grandeur à l’aide d’une performance multivariée est fausse (Bertrand,ElAhmadi,&Heuchenne,2008;Borsboom,2008).Ilseraittoutdemêmesurprenant qu’unphénomèneaussicomplexequ’uneperformanceàuntestd’aptitudeobéisseàunprincipe si simple, qui revient à expliquer la performance à l’aide d’une seule «variable latente» (ou théorique).Lefaitquelemodèlesoitfauxnousapprend(i)quepourexpliquercesphénomènes, 8 S.Vautier/Pratiquespsychologiques21(2015)1–18 une théorie plus riche est nécessaire et (ii) qu’il est impossible de déduire de l’observation des performancesquoiquecesoitentermesdeniveaudelagrandeur. Mais, au lieu de prendre acte de ces connaissances pour clamer que le jugement évaluatif ne peut être fondé sur nos connaissances scientifiques faute de mesurage, et, éventuellement, pour encourager un programme de recherche ciblé sur les processus de réponse à des items de tests, les psychométriciens ont conservé l’impératif d’une interprétation unidimensionnelle et quantitative de la performance. Pour ce faire, ils ont modifié le modèle théorique développé ci-dessus en introduisant la notion de probabilité d’observer telle réponse conditionnellement à telle valeur numérique de la grandeur, laquelle est définie sur une échelle d’intervalle grâce notammentaupostulatdel’existenced’unefonctioncaractéristiquedel’item(cf.Fischer,1995). CettetransitionestexplicitéeparBertrandetal.(2008),cequipermetd’examinercommentilsla justifient. Suivonslesauteurspasàpas. «Silamodélisationdelaréussitedesujetsàdesitemsveutêtreréaliste,lathéorieprécédente esttropabrupteetdoitêtreassouplie.Ilestexceptionnelqu’uneéchelledeGuttman,àcause desarigidité,s’appliqueparfaitementauxdonnéesexpérimentales»(p.31). La signification de l’adjectif «réaliste» est ici non pas descriptive, mais pragmatique. Le réalismeinvoquéestenfaitunappelàlasoumissionàlademandesocialed’unsavoirfondateurde l’évaluation(sinon,pourquoiêtreréaliste?).Dupointdevuescientifique,l’existenced’anomalies théoriques est reconnue, mais pas leur fréquence, ni leur caractère falsifiant, ni l’invalidité de l’inférence comparative, «telle quantité est supérieure à telle autre», à partir du modèle et des données.Lesauteurspoursuiventenadoptantlapositionsuivante: «Il est naturel d’interpréter les écarts au modèle en concédant un caractère aléatoire à la relationempirique‘réussir’deS[ensembledessujets,unitésd’observation]versI[ensemble desitems].Cecaractèrealéatoireestdûauxautresvariables–nonexplicitementprisesen comptecommelacompétencedessujetsetladifficultédesitems–quipeuventinfluencerla réussiteoul’échec;onimagineaisémentqu’ellessontcomplexesetnombreuses:humeur dusujet ,en vironne m en tphysiqu eetsocia l,mode depr ésentation de l’item,etc.[ . ..]»(p. 31). Lesauteursreconnaissentexplicitementquelesperformancesdépendentd’unemultitudede causesinconnuestantd’unpointdevuethéoriquequepratique.Maisonnevoitpasenquoicette ignoranceimpliquequelaperformanceobservéedoiveêtreconc¸uecommelerésultatd’uneexpé- riencealéatoire(pouruneintroductionàlanotiond’expériencealéatoire,voirFalmagne,2003). Ilsemblequelesauteursconfondentlesprobabilitéssubjectives,quiserventàjaugerlaconfiance qu’onaencertainespropositions,etlesprobabilitésobjectives,quisupposentl’indétermination intrinsèque des phénomènes (Hacking, 2002). Avant d’en tirer les conséquences, poursuivons encoreaveceux. «Onconc¸oitdoncquedanslasituationoùunsujetsestconfrontéàunitemi,laréussite d eip ars,au lieud ’êtr etou jou rsréalisé eq uan d(cid:2)(s ) ≥(cid:3) (i),jamais q uan d(cid:2)(s )< (cid:3) (i)[(cid:2)(s) et (cid:3) (i) d és ign ent respect ivement la positi on de s et de i su r le dom aine d e la g rand eur], estgouvernéeparunetendancefloue:laréussite(etsoncontrairel’échec)aunecertaine probabilitédesurvenir.Désormaiscen’estpluslefaitderéussir,maisleschancesderéussir quiserontf on ctionsde (cid:2)(s)et(cid:3)(i) .L aprob abil ité que s réussiss ei,no tée (cid:4)(s,i),d ép endde lacompétencedescommedeladifficultédei.»(p.31). S.Vautier/Pratiquespsychologiques21(2015)1–18 9 Lesanomaliesthéoriquessontmaintenantéliminéesparunrécitprobabilistequiinventeune «tendance floue» à produire telle ou telle performance. Le «flou» s’exprime par des probabi- lités et ce qu’il y a de permanent dans la «tendance» est sous-tendu par la grandeur nommée «compétence». Lespsychométriciensontpoussélarhétoriquejusqu’àappelerlesmodèlespsychométriques des«modèlesdemesure».L’intuitionquantitativeestsauvegardéemaisc’estauprixd’unrenon- cement à la connaissance théorique. La préférence pour la grandeur comme cadre conceptuel assimilateurdépassel’intérêtpourlacompréhensionproprementscientifiquedelaperformance, laquellen’afinalementqu’unrôleauxiliaire.Onpourradésormaisestimerunevaleurnumérique, cequin’estpasmesurer,quandbienmêmeonadmetquecettevaleurnepermetpasdecompren- drecommentlaperformanceaétéproduitepuisque,étantdonnéen’importequellevaleurdela grandeur,touteperformancepeutêtreobservée–avecuneprobabilitéplusoumoinsimportante, maisjamaiségaleà0nià1.Autrementdit,onacceptel’opacitédelaperformanceetonassigne des v aleurs numér iq u es à de s performa nce s en toute i gnorance 7. E n dépit de «l’é vi den ce», la psychométriemoderneasauvél’entreprisecomparativedufaitqu’onnesachemesurerdemanière ordinale aucune grandeur psychologique, en substituant l’estimation statistique au mesurage expérimental. 3. Lespraticiensdestestspeuvent-ilsrevendiquerunefonctiond’évaluationetune responsabilitéscientifique? Lapartieprécédenteamontré(i)commentunefonctionparpalierreliantlagrandeurthéorique àuneperformancemultivariéepermetdecomparerdesperformancesdistinctes,et(ii)pourquoiun telmodèleestcertainementfaux,cequiimpliquequel’interprétationordinaledelaperformance observée n’est pas acceptable du point de vue logique faute de modèle corroboré. De plus, le recoursauxprobabilitéspoursauvegarderl’intuitionquantitativevialamodélisationpsychomé- triquevoilenotreignorancedesdéterminantsdelaperformancepoursatisfaireunimpératifnon scientifiquequivaêtrediscutéici(dansuncontextepluslarge,voiraussiPestre,2013,chapitre 3).Cetyped’analysesuggèrequel’évaluationpsychotechniquedesaptitudesconstitueunmétier extraordinairementingrat,parcequelepraticiendoitspécifiercommentilarticulelebesoinsocial d’assimilerlespersonnesàdesorganismesdotésdediversesformesdecapacitésintellectuelles, conc¸uescommedesgrandeursempiriquementindéterminéesmaisessentiellespourl’évaluation des individus –«les construits»–, et les questions, toujours ouvertes, (i) de ce qui, dans des conditionsparticulières(décritesaumieuxgrossièrement),déterminelesperformancesauxitems destestsd’ aptitude8,et (ii)dece qu ecesp erformancesdé terminentà leu rtour. L’impératif qui motive la méthodologie du scorage des performances intellectuelles est le mêmequeceluiquiinstituelanotationscolaire,ouquiconduitDuhem(2007,partie2,chapitre 1),dansuneanalyselumineusedelaquantitéetdelaqualité,àtenter,sansyparvenir,dejustifier 7 En particulier, l’estimation de la valeur numérique de la grandeur à un instant t pour une personne donnée est logiquementdifférentedelatendancecentraledelagrandeurpourcettepersonne,sitantestqu’unetellenotionadmetteune interprétationpsychologique.Rienn’exclutquelatendancecentralesoit‘significativement’différentedel’estimationissue d’uneperformanceponctuelle.Maiscetteincertitudeestenquelquesorterenvoyéedansle«pré-conscientépistémologique »duchercheurpuisquepourpouvoirl’analyserempiriquement,ilfaudraitsavoirmesurerlagrandeur(Vautier,Veldhuis, Lacot,&Matton,2012). 8 «[. .. ]ilestpe uréalistedepenserqu’onestaujourd’huicapabled’expliciterlesmécanismespsychologiquessuscep- tiblesdegénérerlesréponsesauxitemsd’untestoud’unquestionnaire»(Juheletal.,2011,pp.186–187). 10 S.Vautier/Pratiquespsychologiques21(2015)1–18 le mesurage de la qualité «être un bon géomètre». Cet impératif est formulé de fac¸on concise parPerrondansunedesdiscussionsdelaConférencedeconsensussurl’examenpsychologique de l’enfant et de l’adolescent (Voyazopoulos, Vannetzel, & Eynard, 2011): «[les scores] sont desjugementscomparatifsdevaleurquiserépercutentauniveausociologiquegénéral,dansune sociétéquiabesoindehiérarchiser,àl’écoleoudansl’entreprise,auniveaudelamicro-sociologie etauniveaudesjugementsdevaleurquel’individuportesurlui-même»(p.234).Michell(2003) proposeuneanalysehistoriquedecequ’ilappellel’impératifquantitatif,maissansdévelopper lafonctionsocialedel’évaluation,laquellenécessiteseulementlaprojectiondesperformances à évaluer sur une échelle ordinale. Coombs (1964, chapitre 13) formule la nécessité sociale de compresserlesobservationssurune«lignededécision».Cettenécessitéestcomparative.Sideux performancessontincomparables,alorsdeuxpersonnesreprésentéesparcesperformancessont aussiincomparables,cequiestrédhibitoirepourlademandesociale. La dynamique de l’examen psychologique des aptitudes repose sur deux aspirations téléo- logiquement distinctes, évaluer vs comprendre, potentiellement incompatibles. Comme les performancesobservablesnesontpassimplementordonnées,lesméthodologiesdéployéessont incompatiblesdèslorsquelapremièreopèreunforc¸agedescriptifparlescorage.Onnepeutalors pasévalueretcomprendrelaperformancedanslemêmemouvement.Pourl’évaluer,ilfautlasco- rer,c’est-à-direlafairelittéralementdisparaîtresouslenombre,lequeltirerasasignificationd’une référentialisationqueDanziger(1990,1987)qualifiedegaltonienne–l’étalonnageduscore,ou encorelerapportàunedistributionderéférence.Tandisquepourcomprendrelaperformance,il faut,adoptantunepostureexpérimentale,endécouvrirlestenants–variablesindépendantes–ce quisupposedes’appuyerpleinementsurlelangagedescriptifquipermetd’identifierleschan- gementsintervenantauniveaudelavariabledépendante.Dupointdevuetemporel,lecalculdu scoreetsoninterprétationnormative(ou,demanièresynonyme,évaluative)prennentuninstant, tandisquel’investigationdecequietdecequedéterminelaperformanceestuneffortdepensée, quiconduitpeut-êtreàquelquesspéculationsouhypothèsesdanslecadremêmedel’examen,ou davantage si on dispose de connaissances générales pertinentes–sinon, pas plus, parce que les personnesquiviennentsefaireévaluern’entrentpasdecefaitdansunprogrammederecherche particulier. Lefaitquelacommunautédespraticiensdel’évaluationpsychotechniquechercheunelégiti- mationdecettepratiquedansladoctrinedelavalidationdestests(e.g.,Juheletal.,2011)constitue ainsiunobstacleépistémologique(Bachelard,1983)auprogrèsdelaconnaissancescientifique de ce qui détermine la réponse aux items de tests–on pourrait utiliser la notion de dissonance cognitive.Toutsepassecommesi,pouréviterladissonance,ladoctrinedelavalidationdestests s’était organisée pour ne pas accuser réception de la non mesurabilité des grandeurs psycholo- giquespardesréponsesàdestests;lamesurabilitédesgrandeurspsychologiquestientlerôlede postula t fo nda teur, et la s igni ficati o n des notions d e m esurage9, de validité10 et d e gé né ralité 11 9 Mesurerc’estattribuerunnombre. 10 Untestv alide estunte stq uimesurebiencequ’ilestcensémesurer;unargumentvalideestunargumentapproxi- mativementvrai;pourdesdiscussions‘orthodoxes’delavaliditéenpsychologie,voirparexempleCizek(2012),Kane (2006)ouNewton(2012)etpourdesdiscussionscritiques,voirBorsboom,Cramer,Kievit,ScholtenetFranic(2009)et Michell(2009,2013). 11 Dan slapsy chologiedite,abusivement,«nomothétique»,legénéraln’estpluscequis’appliqueàtouteunitéd’une classederéférence,maiscequiparticulariselaclassederéférence(Danziger,1987,1990;Lamiell,1998;Salvatore& Valsiner,2010;Vautier,2011,2013).
Description: