ebook img

L'analyse des corrélations canoniques appliquée à des données environnementales PDF

35 Pages·2017·1.74 MB·French
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview L'analyse des corrélations canoniques appliquée à des données environnementales

R EVUE DE STATISTIQUE APPLIQUÉE L. BELLANGER D. BAIZE R. TOMASSONE L’analysedescorrélationscanoniquesappliquéeà desdonnéesenvironnementales Revuedestatistiqueappliquée,tome 54,no4(2006),p. 7-40 <http://www.numdam.org/item?id=RSA_2006__54_4_7_0> ©Sociétéfrançaisedestatistique,2006,tousdroitsréservés. L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/legal.php). Toute utili- sation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright. Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques http://www.numdam.org/ Rev.StatistiqueApplique´e,2006,LIV(4),7-40 L’ANALYSEDESCORRE´LATIONSCANONIQUES APPLIQUE´EA` DESDONNE´ESENVIRONNEMENTALES L.BELLANGER1,D.BAIZE2,R.TOMASSONE3 (1)De´partementdeMathe´matiquesJeanLeray–UMR6629,Universite´deNantes BP92208,44322NantesCedex3. [email protected] (2)INRA,SciencedesSols,Centred’Orle´ans–BP20619,45166OlivetCedex. [email protected] (3)InstitutNationalAgronomique,De´partementdeMathe´matique,75231ParisCedex05. [email protected] RE´SUME´ L’analysedescorre´lationscanoniquesestunevieilleme´thodestatistiquesurtoutconnue pour ses qualite´s the´oriques, puisqu’elle englobe de nombreuses autres me´thodes. Nous essayons,danscetarticle,demontrerquel’interpre´tationdesre´sultatsqu’ellefournitn’estgue`re plusdifficilequecelledeme´thodespluslargementemploye´escommelare´gressionmultipleou l’analyseencomposantesprincipales.Dansledomainedesdonne´esenvironnementales,elle pourraitconstituerunoutildere´fe´rencede`squ’ils’agitdemettreenrelationdesensembles devariables.L’analyseestillustre´eparl’e´tudedesrelationsentrelateneurene´le´mentstraces me´talliquesdegrainsdeble´ enfonctiondecertainescaracte´ristiquesdessolsou` lesble´sont pousse´,enparticulierapre`se´pandagedebouesd’e´puration. Mots-cle´s : analyse des corre´lations canoniques, re´gression, re´-e´chantillonnage, e´le´ments tracesme´talliques,sol,ble´. ABSTRACT Canonicalcorrelationsanalysisisanoldmethodwellknownasakeyoneofalotof others.Wetrytoshowthattheinterpretationofresultsitfurnishesisnomoredifficultthanother ones,widelyused,asregressionorprincipalcomponentsanalysis.Forenvironmentaldatait couldbeareferencetoolwhenrelationsbetweentwogroupsofvariatesareconcerned.Analysis is illustrated by a study of relations between trace metals in wheat and soil characteristics, particularlyaftersewagesludgespreading. Keywords: canonicalcorrelationanalysis,regression,resamplingmethods,tracemetals,soil, wheat. 8 L.BELLANGER,D.BAIZE,R.TOMASSONE 1.Introduction Parmilesnombreuxproble`mesclassiquesdelaStatistique,celuidel’e´tudede la relation entre variables est sans nul doute l’un des plus fre´quents : on calcule le coefficient de corre´lation entre deux variables, on estime les parame`tres d’un mode`le de re´gression d’une variable a` expliquer en fonction d’une ou plusieurs autres (les re´gresseurs ou variables explicatives) pour tenter d’«expliquer» cette variableete´ventuellementdelapre´direpourd’autresvaleursdesre´gresseurs.Quand on dispose de deux groupes de variables une me´thode, l’Analyse des Corre´lations Canoniquessouventappele´eAnalyseCanonique(ulte´rieurementnote´eACC),existe depuisbienlongtemps[11].Bienquedenombreuxlogicielsoffrentunprogramme pour re´aliser les calculs, elle ne semble pas be´ne´ficier d’une «bonne re´putation» : peudepublicationsavecdesapplicationsl’utilisent.Lesarticleslesplusre´centsdela RevuedeStatistiqueApplique´edatentdesanne´es1987-1992,encorequelescorpus dedonne´esauxquelsilss’appliquentsoientdenaturediffe´rente[7],[20],[21],[15]. Est-ce une me´thode sans inte´reˆt, trop difficile d’emploi, pour tout dire «maudite»?A` premie`revue,ilsembleraitquecesoitlecassinousreprenonsquelques ouvrageslapre´sentant : – «La me´thode d’analyse canonique ... pre´sente un inte´reˆt assez limite´ pour les applications, car elle conduit a` de grandes difficulte´s d’application. Cependant elle joue un roˆle the´orique important : en effet, elle constitue un cadre ge´ne´ral dontlare´gressionmultiple,laplupartdesme´thodesd’analysedesdonne´es...et l’analysediscriminantesontdescasparticuliers»[16],pp.275. – «Si les applications directes de l’analyse canonique sont peu nombreuses, elle n’enconstituepasmoinsuneme´thodefondamentalecarsade´marcheseretrouve dans d’autres me´thodes comme l’analyse des correspondances ou l’analyse discriminante»[22],pp.188. – «Canonicalanalysisisoftencoolyreceiveddespitealackofsuitablealternatives». «Surprisingly, substantive applications of these methods in ecology are few. In practice, all too often other less suitable forms of analysis are pressed into service for the purpose. Among these multiple regression analysis and principal componentsanalysisarefrequentlyencountered»[10],pp.1. – En 2004, les auteurs du plus re´cent des ouvrages tiennent le meˆme discours : «Canonical correlation analysis is one of the less commonly used multivariate techniques.Itslimitedusemaybedue,inpart,tothedifficultyoftenencountered intryingtointerprettheresults»[1],pp.234. Pourre´sumer,l’ACCestcaracte´rise´epar: – uneinterpre´tationdesre´sultatssouventde´licate; – mais un inte´reˆt the´orique essentiel fournissant un cadre unificateur a` un certain nombred’autresme´thodes. Nousnereviendronspassurlesecondaspectbienconnu,maisnousvoulonsa` partird’unexemplemontrerqu’onpeuttoutdemeˆmeexploiterlesre´sultatsfournis paruneanalysecanonique,meˆmesil’exploitationpeuts’ave´rercomplexe. ANALYSEDESCORRE´LATIONSCANONIQUESSURDESDONNE´ESENVIRONNEMENTALES 9 Les donne´es que nous allons pre´senter proviennent d’une e´tude qui peut s’apparentera` un«casd’e´cole»pourl’analysecanonique:en1998,leMiniste`rede l’Ame´nagementduTerritoireetdel’Environnementalance´leprogrammeGESSOL (FonctionsenvironnementalesdessolsetGEStiondupatrimoineSOL[3]).Unedes questionsfondamentalesdeceprogrammee´tait: «Est-ilpossibledebaˆtirdesmode`lespermettantdede´tecterparavancelescas deconcentrationsexcessivesene´le´mentstracesme´talliques(ETM)danslesgrains deble´ a` partirdedonne´espertinentesacquisessurdese´chantillonsdesol?». Le proble`me est d’une extreˆme importance pour de multiples raisons lie´es a` l’e´volution des pratiques agricoles; en particulier celle lie´e a` l’e´pandage de boues d’e´puration riches en ETM [8] et aux pole´miques qui en de´coulent [23]. Actuellement, les publications sur le sujet [19], pour inte´ressantes qu’elles soient, sontdescompilationsdere´sultatsd’essaisagronomiquessurdenombreusesplantes. Les seules me´thodes d’analyse utilise´es sont la re´gression line´aire et l’analyse des composantesprincipales.Lesre´sultatsstatistiquesdesre´gressionsselimitenta` une e´quation, une valeur du coefficient de de´termination (R2), mais aucune analyse critiquedelavalidite´ decesre´gressionsn’estfaite. Nous allons d’abord pre´senter le corpus de donne´es qui doit nous aider a` re´pondrea`laquestionpose´e( 2);nousrappelleronsensuitelade´marcheclassiquede § l’analysecanonique( 3)etnousdonneronsunepremie`reinterpre´tationdesre´sultats § ( 4); enfin nous montrerons que des indices rarement utilise´s peuvent faciliter § l’interpre´tation( 5). § 2.Lesdonne´es:ade´quationa` l’objectifduprogrammederecherche 2.1.Lecorpusdedonne´es Il est constitue´ par un e´chantillon de n = 198 sites e´tudie´s selon le meˆme protocole dans diverses re´gions de France. Il s’agit de sols agricoles «ordinaires», c’est-a`-direnonpollue´setn’ayantpasrec¸udebouesd’e´puration(saufunedouzainede casparticuliers[8]).Ilsappartiennenta`18famillespe´do-ge´ologiquescontraste´es.Sur chaquesite,desgrainsdeble´onte´te´re´colte´sa`maturite´sur1m2(varie´te´«Soissons» ou«Tre´mie»).Aupiedduble´ainsire´colte´,l’horizondesurfacelaboure´dusolae´te´ e´galementpre´leve´.Surdese´chantillonsse´che´settamise´sa`2mmdeceshorizonsde surface,nousavonsde´termine´ : – 9 variables caracte´ristiques des proprie´te´s agro-pe´dologiques classiques : granu- lome´trie5fractions(argile:A;limonfinetgrossier:LF,LG;sablefinetgrossier: SF,SG)1,lecarboneorganique(CS),lepHmesure´apre`sagitationdansl’eau(pH), lecalcaire(CaCO )etlacapacite´d’e´changecationique(CEC);cesvariablessont 3 desteneurs,sauflepHetlaCEC. – 8variablesrepre´sentantlesconcentrationstotalesdesme´tauxdusolobtenuesapre`s mise en solution par les acides fluorhydrique et perchlorique selon la norme NF ISO14869-1:FeS,MnS,CdS,CrS,CuS,NiS,PbSetZnS. 1 A+LF+LG+SF+SG=100%,maisnaturellementpaslasommedeleurlogarithme. 10 L.BELLANGER,D.BAIZE,R.TOMASSONE – et 8 variables qui sont les concentrations en me´taux extraits par deux re´actifs, DTPA (Die´thyle`neTriamine-PentaAce´tique) et NH NO (nitrate d’ammonium), 4 3 choisis pour leur capacite´ a` atteindre seulement les formes chimiques les plus re´actives et les plus susceptibles d’eˆtre absorbe´es par les racines des plantes. Les quantite´s extraites au DTPA correspondraient plutoˆt aux me´taux associe´s aux matie`res organiques et aux oxydes de fer, tandis que celles extraites par le NH NO correspondraient plutoˆt aux formes me´talliques e´changeables, les plus 4 3 phyto-disponibles.Soit:CdD,CuD,PbDetZnD(pourDTPA),CdN,CuN,PbN etZnN(pourNH NO ). 4 3 – 7 variables repre´sentant les concentrations dans les grains de ble´ en CdB, CrB, CuB, FeB, NiB, PbB et ZnB. Notons que deux autres variables potentiellement inte´ressantesMgBetMnBn’ontpueˆtremesure´esquesurles162premierssites. Nousavonsdoncdeuxgroupesdevariables: – 25variablesSOL: A,LF,LG,SF,SG,CEC,CaCO ,CS,pH,CdS,CrS,CuS,FeS,MnS,NiS,PbS, 3 { ZnS,CdD,CuD,PbD,ZnD,CdN,CuN,PbN,ZnN } – 7variablesBLE: CdB, CrB, CuB, FeB, NiB, PbB, ZnB +2 MgB, MnB sur un e´chantillon de { } { } moindretaille. 2.2.Difficulte´sapriori Aveccecorpusdedonne´esest-ilpossibledere´pondrea`laquestionfondamen- taleduprogrammeGESSOL:pre´voirlateneurenETMdegrainsdeble´ enutilisant desdonne´esanalytiquesdel’horizondesurfacedusoldanslequelceble´ae´te´cultive´? Unetellepre´tentionseheurtea` d’e´videntesdifficulte´sdeprincipe: – cequisepasseauchampa` l’interfaceentrelesracinesetlasolutiondusoln’est pasbiende´critpardesanalysesre´alise´esaulaboratoiresurdese´chantillonsdesol se´che´settamise´sa` 2mm! – leroˆledesautrescouchesdusol(horizonsprofonds)estcomple`tementne´glige´; – les processus de redistribution des e´le´ments absorbe´s au niveau des racines vers lesdiversorganesdelaplantenesontpasprisencompte; – de meˆme que ne sont pas pris en compte les synergies et les antagonismes intervenanta` l’e´chelledescellulesdesve´ge´taux. Cependant de nombreux scientifiques dans le monde entier utilisent cette approche car elle est tre`s simple a` mettre en œuvre. Nous ferons de meˆme tout en sachantquenousnepourronspasde´criredefac¸onparfaitelarelationentrelesolet leble´. ANALYSEDESCORRE´LATIONSCANONIQUESSURDESDONNE´ESENVIRONNEMENTALES 11 2.3.Premiersregardssurlecorpusdedonne´es Une question pre´alable a` l’analyse est le choix du corpus : doit-on travailler sur les 198 sites ou sur les 162 qui ont l’avantage de contenir toutes les variables importantesdisponibles?Iln’existepasdere´gleabsoluepourre´pondrea` cetypede question.Silesdeuxcorpussontassezvoisins,ilestsansdoutepre´fe´rabledetravailler surceluiquicontientdavantagedevariables,meˆmes’ilestdetailleplusre´duite.Les 36 sites qui sont exclus peuvent ulte´rieurement servir de donne´es comple´mentaires pourvaliderlesre´sultats. Lesdistributionsdechacunedes34variabless’e´tantave´re´estre`sdissyme´triques (lesgrandesvaleurssontrelativementrares),unetransformationlogarithmiques’est impose´e.Laconse´quenceimme´diatepourl’interpre´tationestquenousdevronspenser a` desproduitsoudesrapportsdevariablesetnona` dessommesoudesdiffe´rences. Unexamenplusde´taille´ montrequePbNn’aque43valeursdiffe´rentesdeze´ro;en fait,lesvaleursnullessontde´critesparlelaboratoired’analysecomme«infe´rieuresa` uncertainseuildequantification»,cequiestunedifficulte´classiquedanslesdosages chimiques;cesontdesvaleursnullesoutre`sprochesdeze´ro;maiscenesontpasdes donne´esmanquantes.Dansunee´tudedanslaquellenousallonsanalyserdesvariations simultane´esdevariables,ilestpre´fe´rabled’e´liminercettevariable.Leproble`meest sensiblementvoisinpourCaCO (47valeursdiffe´rentesdeze´ro);a`ladiffe´renceque 3 CaCO vaut effectivement ze´ro dans tous les cas ou` les sols ne sont pas calcaires. 3 Etant donne´ l’importance possible du carbonate de calcium, le pe´dologue souhaite qu’onlaconserve. Enconclusion,nousallonstravaillersurlecorpusden=162sitesavec: – 24variablesSOL: A,LF,LG,SF,SG,CEC,CaCO ,CS,pH,CdS,CrS,CuS, 3 { FeS, MnS, NiS, PbS, ZnS, CdD, CuD, PbD, ZnD, CdN, CuN, ZnN , ensemble } de´finiparunematriceX , 162 24 × – 9variablesBLE: CdB,CrB,CuB,FeB,NiB,PbB,ZnB,MgB,MnB ,ensemble { } de´finiparunematriceY . 162 9 × Laformedesdistributionsdecesdeuxensemblesdevariablesestfourniesurles figures1et2.Nousaurionspulespre´sentersouslaformeclassiqued’histogrammes, toutefoisellessontplus«parlantes»avecuneversionlisse´eobtenueparestimation deladensite´(lelecteurinte´resse´pourraconsultersurcesujet[25](pp.132-138)).Ces distributionssontd’autantplusinte´ressantespourlasuitedel’analysequeleurforme est voisine de celle de la distribution Normale ou pour le moins syme´trique; c’est le cas pour la majorite´ d’entre elles sauf pour CaCO (et nous avons vu pourquoi 3 ci-dessus) et pour PbB qui a aussi de nombreuses valeurs au-dessous du seuil de de´tection. Certaines pre´sentent une bimodalite´ ge´ne´ralement peu marque´e. Notons quelesfiguresobtenuespourles198sites(saufe´videmmentpourMgBetMnB)ont toutes la meˆme allure; nous pouvons donc raisonnablement penser que les 36 sites exclusnesontpastre`sdiffe´rentsducorpusquenousallonsmaintenante´tudier. 12 L.BELLANGER,D.BAIZE,R.TOMASSONE FIGURE1 Distributionsdes24variablesSOL FIGURE2 Distributionsdes9variablesBLE ANALYSEDESCORRE´LATIONSCANONIQUESSURDESDONNE´ESENVIRONNEMENTALES 13 3.Principedel’analysedescorre´lationscanoniques Pour e´tudier la relation entre deux ensembles de variables definis chacun par une matrice X pour le premier et Y pour le second l’ACC va eˆtre un outil n p n q privile´gie´.Lenom×bredelignesndechaque×matriceestidentique;XapcolonnesetY enq;noussupposeronsquerang(X)=petrang(Y)=q.Leslignesrepre´sentent les individus ou les observations : une observation i est repre´sente´e par un vecteur se´pare´ endeux: x =[x ,...,x ]T ety =[y ,...,y ]T , (i=1,...,n) i i1 ip i i1 iq Lesdeuxmatricesdedonne´essontdonc: X =[x1 ... xk ... xp] et Y =[y1 ... yl ... yq] n p n q × × ou` xk (resp.yl)estlevecteurvariabledecomposantesxik (resp.yil),(1 (cid:1) i (cid:1) n). Les variables des deux groupes xk et yl, repre´sente´es par des vecteurs de Rn, sontsuppose´escentre´es.Ainsi,lamatricedecovariancesexpe´rimentalesdesp+q caracte`ress’e´crit: S= 1 XTX XTY = S11 S12 , S =ST . n(cid:2)YTX YTY(cid:3) (cid:2)S21 S22(cid:3) 12 21 3.1.Formulationclassique L’ide´e initiale de Hotelling [11] a consiste´ a` rechercher deux combinaisons line´airesl’unedex1,...,xp de´finieparunpremiervecteura` pcomposantesa , p 1 l’autre de y1,...,yq, de´finie par un second vecteur a` q composantes b , te×lle q 1 que les vecteurs aT = [a ... a ... a ] et bT = [b ... b .×.. b ] 1 k p 1 l q maximisentlecoefficientdecorre´lationentreu= X a etv= Y b vecteurs n p p 1 n q q 1 deRn.uetvsontappele´svariablescanoniques,tand×isqu×elesvecteu×rsde×coefficients a Rpetb Rq sontappele´sfacteurscanoniqu(cid:4)e(cid:5)s(cid:6).(cid:7)(cid:4)(cid:5)(cid:6)(cid:7) (cid:4)(cid:5)(cid:6)(cid:7)(cid:4)(cid:5)(cid:6)(cid:7) ∈ ∈ Onmontrequeceproble`mesere´sumeenfaita` : – obtenir les vecteurs de coefficients a Rp et b Rq qui rendent maximal cor(u,v)=r = 1aTXTYb ∈ ∈ n – detellesortequelesdeuxcombinaisonline´airessoientdevariance1,soit: aTS a=1 11 (cid:8)bTS22b=1 Lorqu’un premier couple de caracte`res u1,v1 a e´te´ obtenu, on recherche, un deuxie`mecouple u2,v2 telquer =cor(u2,v2)soitmaximaletcor(u2,u1)= 2 (cid:9) (cid:10) (cid:9) (cid:10) 14 L.BELLANGER,D.BAIZE,R.TOMASSONE cor(u2,v1)=cor(v1,v2)=0etainsidesuite.Ilexisteaumoinss=min(p,q) couplesdetelsvecteurs uk,vk . (cid:9) (cid:10) Matriciellement,leproble`meserame`nedonca`trouverdeuxmatricesdepoids: A =[a1 ... ak ... as] etB =[b1 ... bl ... bs] p s q s × × permettantdecalculerdeuxmatricesn s,U= X A etV= Y B ,telles × n p p s n q q s × × × × que la matrice de covariances de la matrice transforme´e [U V] ait la forme plus (cid:4)(cid:5)(cid:6)(cid:7)(cid:4)(cid:5)(cid:6)(cid:7) (cid:4)(cid:5)(cid:6)(cid:7)(cid:4)(cid:5)(cid:6)(cid:7) simple: AT 0 S S A 0 I Γ 11 12 s var[U V]= = (cid:2) 0 BT (cid:3)(cid:2)S21 S22(cid:3)(cid:2) 0 B(cid:3) (cid:2)Γ Is(cid:3) ou` : Γ=diag(rk), 1(cid:2)r1 (cid:2)....(cid:2)rs (cid:2)0. Larecherchedesdeuxmatricesdepoidsfournitsimultane´mentlesscoefficientsde corre´lation;elles’obtientparlarecherchedessolutionsde: S21S−111S21−γ2S22 b=0 (cid:9) (cid:10) oude: S12S−221S21−γ2S11 a=0 (cid:9) (cid:10) Les quantite´s γ2 (k = 1,...,s), identiques dans les deux e´quations pre´ce´dentes, k donnentlescarre´sdescoefficientsdecorre´lationr = γ2entrelesdeuxvariables k k uketvk;touteslesvaleurspropresγ2(k =s+1,...,p)sontnulles(sinoussupposons k (cid:11) quep > q,doncques = q).Onpeutobtenirlesak a` partirdesbk ouinversement lesbk a` partirdesak : S−111S12bk = γkak S−221S21ak = γkbk Cesdeuxe´quationsontuneinterpre´tationinte´ressante:γ ak estlaprojectiondebk k surl’espacede´finiparlescolonnesdeX,espacedesvariablesdupremiergroupe,et γ bk estcelledeak surl’espacede´finiparlescolonnesdeY,espacedesvariables k du second groupe. L’obtension des deux matrices de poids des variables de de´part A etB permetalorsdecalculerlesvariablescanoniquesuk etlesvk.Less p s q s coe×fficients×de corre´lation r entre uk et vk s’appellent coefficients de corre´lation k canonique. ANALYSEDESCORRE´LATIONSCANONIQUESSURDESDONNE´ESENVIRONNEMENTALES 15 3.2.Autrespre´sentations Ilenexisteplusieurs;ellessontd’ine´galinte´reˆtmaisellespeuventfournirun e´clairagecomple´mentairepourlecalculoul’interpre´tationdel’ACC. Unepremie`reconsistedansl’utilisationdelade´compositionsingulie`red’une matrice.Partantdelade´compositiondeCholeskidesdeuxmatricesde´finiespositives S =PT P etS =PT P etende´finissantlanouvellematricededimension 11 11 11 22 22 22 p × q : C = PT11 −1S12P−221, a` partir de la de´composition singulie`re de cette dernie`reC =L Θ M ,onobtientdirectementlesvariablescanoniques p q p s s s s q Un s =XP×−111(cid:9)Let×(cid:10)Vn s×=YP×−221MT dontlamatricedecovariancesest: × × I Θ s (cid:2)Θ I (cid:3) s LestermesdelamatricediagonaleΘ,e´galea`Γ,donnentdirectementlescoefficients decorre´lationcanoniquer . k Onpeutausside´riverlesvariablescanoniquesd’autresfac¸onspar: – moindres carre´s [5] : si on cherche les matrices A et B qui minimisent la trace de (XA YB)T (XA YB) ,lessolutionssontlesmatricesquenousavons − − trou(cid:12)ve´esdansl’approcheclassiqu(cid:13)edel’ACC. – un mode`le line´aire ge´ne´ral multidimensionnel : le mode`le de re´gression line´aire multidimensionnels’e´crit: Y =X Φ +E n q n p p q n q × × × × danslequelYestunematriced’observationsdeqvariables,Xunematriceconnue, Φ une matrice de parame`tres inconnus a` estimer et E une matrice de termes ale´atoires. Si on a V = YB et U = XA on a V = UD+E, avec n s n s D=Γ=diag(r ),ce×quicorresponda`×lare´gressionmultidimensionnelledeV k surU.Onende´duitque: V =U D +E =X A D +E n s n s s s n s n p p s s s n s × × × × × × × × Less(=q)colonnesdelamatricedeparame`tresΦ =ADrepre´sentent l’estima- p s tiondescoefficientsdere´gressiondechacunedesq×variablescanoniquesdusecond groupe sur les p variables du premier; c’est la meilleure estimation, au sens des moindrescarre´s.L’avantagedecetteapprochetienta` cequ’ellepre´cise,demanie`re explicite,lastructurestochastiquedumode`le.Toutefois,ellee´clipsel’aspectsyme´tri- quedelapre´sentationclassique,cepeuteˆtreunavantage,commedansl’e´tudeque nous pre´sentons. Plus pre´cise´ment, avec les p valeurs x = [x ,...,x ]T et les 0 01 0p parame`tresADnousconnaissonslessvaleursdesvariablescanoniquesu dupre- 0 miergroupe,doncaussiv cellesdusecondgroupeetparconse´quentlesq valeurs 0 y =[y ,...,y ]T;onobtientdoncy enutilisantlesparame`tresdelare´gressionde 0 01 0q 0 Ysurlesvariablescanoniquesdupremiergroupe.Donc,silapre´dictiondesvariables

Description:
L'analyse des corrélations canoniques est une vieille méthode statistique surtout connue pour ses qualités théoriques, puisqu'elle englobe de
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.