Statistique appliqu´ee ——— Universit´e Pierre et Marie Curie Maˆıtrise de Math´ematiques Ann´ee 2006/2007 A. Tsybakov Pr´eambule Ce polycopi´e s’adresse aux ´etudiants ayant suivi un cours d’int´egration et un premier cours de probabilit´es. La Partie 1 contient un bref rappel de quelques notions de base de probabilit´es,souventsansd´emonstration(lesmanuelsdeprobabilit´esconseill´essontl’ouvrage de N.Bouleau Probabilit´es de l’ing´enieur, variables al´eatoires et simulation et le polycopi´e du cours de J.Lacroix et P.Priouret Probabilit´es approfondies, Chapitres 1 – 3). La Partie 1 pr´esente aussi les r´esultats probabilistes utilis´es dans la Statistique qui g´en´eralement ne sont pas expos´es dans les cours de probabilit´es (th´eor`emes de continuit´e, r´egression et corr´elation, lois d´eriv´ees de la normale multivari´ee, etc). La Partie 2 introduit les principales notions de la Statistique et d´ecrit quelques m´ethodes classiques de l’estimation, de tests d’hypoth`ese et de constructiondesintervallesdeconfiance.Enfin,laPartie3contientl’applicationdesm´ethodes statistiques dans les 3 mod`eles concrets multi-dimensionnels, a savoir, celles de l’analyse en composantes principales, de la r´egression lin´eaire multivari´ee et de l’analyse discriminante (classification). Les parties marqu´ees par le signe ∗ peuvent ˆetre omises en premi`ere lecture et ne feront pas l’objet de question aux examens. Table des mati`eres Partie 1. Rappels et compl´ements de probabilit´es 7 Chapitre 1. Quelques rappels de probabilit´es 9 1.1. Caract´eristiques des variables al´eatoires 9 1.2. Rappel de quelques in´egalit´es 16 1.3. Suites de variables al´eatoires 18 1.4. Ind´ependance et th´eor`emes limites 20 1.5. Th´eor`emes de continuit´e 22 1.6. Exercices 23 Chapitre 2. R´egression et corr´elation 25 2.1. Couples des variables al´eatoires. Lois jointes et marginales 25 2.2. Conditionnement (cas discret) 26 2.3. Conditionnement et projection. Meilleure pr´evision 28 2.4. Probabilit´e et esp´erance conditionnelles (cas g´en´eral) 30 2.5. Conditionnement (cas continu) 33 2.6. Covariance et corr´elation 35 2.7. R´egression 37 2.8. Variance r´esiduelle et rapport de corr´elation 37 2.9. R´egression lin´eaire 40 2.10. Meilleure pr´evision lin´eaire 42 2.11. Exercices 43 Chapitre 3. Vecteurs al´eatoires. Loi normale multivari´ee 47 3.1. Vecteurs al´eatoires 47 3.2. Loi normale multivari´ee 54 3.3. Esp´erance conditionnelle d’un vecteur al´eatoire 60 3.4. Th´eor`eme de corr´elation normale 62 3.5. Lois d´eriv´ees de la loi normale 66 3.6. Th´eor`eme de Cochran 68 3.7. Exercices 69 Partie 2. Notions fondamentales de la Statistique 73 Chapitre 4. E´chantillonnage et m´ethodes empiriques 75 4.1. E´chantillon 75 4.2. Repr´esentation graphique de l’´echantillon 77 4.3. Caract´eristiques de l’´echantillon. M´ethode de substitution 80 3 4 TABLE DES MATIE`RES 4.4. Statistiques exhaustives∗ 83 4.5. Propri´et´es des statistiques X¯ et s2 87 4.6. Covariance et corr´elation empiriques 89 4.7. Construction d’un ´echantillon pseudo-al´eatoire par simulation∗ 90 4.8. Exercices 93 Chapitre 5. Estimation des param`etres 97 5.1. Mod`ele statistique. Probl`eme d’estimation des param`etres 97 5.2. Comparaison d’estimateurs 100 5.3. M´ethode des moments 105 5.4. M´ethode du maximum de vraisemblance 107 5.5. Comportement asymptotique de la fonction de log-vraisemblance 112 5.6. Consistance de l’estimateur du maximum de vraisemblance 114 5.7. Mod`eles statistiques r´eguliers 117 5.8. Normalit´e asymptotique de l’estimateur du maximum de vraisemblance 123 5.9. Comparaison asymptotique d’estimateurs 125 5.10. Exercices 126 Chapitre 6. Tests d’hypoth`eses et r´egions de confiance 129 6.1. Le probl`eme de test d’hypoth`ese 129 6.2. Test d’hypoth`ese simple contre l’alternative simple 131 6.3. Tests des hypoth`eses composites 136 6.4. Tests dans le mod`ele normal 139 6.5. Tests asymptotiques 145 6.6. Tests de comparaison de deux lois normales∗ 147 6.7. R´egions de confiance 149 6.8. M´ethodes de construction des r´egions de confiance 151 6.9. Dualit´e entre tests et r´egions de confiance 156 6.10. Exercices 157 Partie 3. Analyse statistique multivari´ee 163 Chapitre 7. Analyse en composantes principales 165 7.1. Donn´ees multivari´ees 165 7.2. L’id´ee de l’Analyse en composantes principales (ACP) 166 7.3. ACP : cadre th´eorique 168 7.4. ACP : cadre empirique 169 7.5. Etude des corr´elations : cadre th´eorique 171 7.6. Etude des corr´elations : cadre empirique 174 7.7. Exemple d’application num´erique de l’ACP 175 7.8. Repr´esentation graphique des r´esultats de l’ACP 178 7.9. Limites d’utilisation de l’ACP 180 7.10. Exercices 181 Chapitre 8. R´egression lin´eaire multivari´ee 187 8.1. Le probl`eme d’estimation de r´egression multivari´ee 187 8.2. M´ethode des moindres carr´es 189 8.3. Propri´et´es statistiques de la m´ethode des moindres carr´es 191 TABLE DES MATIE`RES 5 8.4. R´egression lin´eaire normale 192 8.5. Application au probl`eme de pr´evision 193 8.6. Application aux tests sur le param`etre θ 195 8.7. Exercices 199 Partie 1 Rappels et compl´ements de probabilit´es 1 Quelques rappels de probabilit´es 1.1. Caract´eristiques des variables al´eatoires Soit (Ω,A,P) un espace de probabilit´e, ou` (Ω, A) est un espace mesurable et P est une mesure de probabilit´e sur A. Une variable al´eatoire (v.a.) X est une fonction mesurable X : (Ω,A) → (R,B) ou` B est la tribu bor´elienne de R. Parfois on ´ecrit X = X(ω) pour souligner le fait qu’il s’agit d’une fonction de ω ∈ Ω. D´efinition 1.1. La fonction de r´epartition (f.d.r.) d’une variable al´eatoire X est la fonction F : R → [0,1] d´efinie par F(x) = P(X ≤ x) = P(ω : X(ω) ≤ x). C’est une fonction monotone croissante, continue `a droite et telle que lim F(x) = 0 x→−∞ et lim F(x) = 1. La fonction F sera aussi appel´ee la loi (ou la distribution) de X. On va x→∞ distinguer entre deux principaux types de variables al´eatoires : les variables discr`etes et les variables continues. Variable discr`ete : X est une variable al´eatoire dont les valeurs appartiennent `a un en- semble fini ou d´enombrable. La variable de Poisson est un exemple de variable discr`ete dont l’ensemble de valeurs est d´enombrable : pour θ > 0 la loi de X est donn´ee par θk P(X = k) = e−θ, k = 0,1,2,... k! On dit alors queX suit la loi de PoissonP(θ). La fonction de r´epartition deX est repr´esent´ee dans la Figure 1.1. La f.d.r. d’une variable al´eatoire discr`ete est une fonction en escalier. Variable continue : X est une variable al´eatoire dont la loi admet une densit´e f ≥ 0 par rapport `a la mesure de Lebesgue sur R, i.e. (cid:90) x F(x) = f(t)dt, −∞ 9 10 1. QUELQUES RAPPELS DE PROBABILITE´S 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 −1 0 1 2 3 4 5 6 Figure 1.1. La f.d.r. de la loi de Poisson pour tout x ∈ R. Dans ce cas la f.d.r. F de X est diff´erentiable presque partout sur R et la densit´e de probabilit´e de X est ´egale `a la d´eriv´ee f(x) = F(cid:48)(x) presque partout. On note que f(x) ≥ 0 pour tout x ∈ R et (cid:90) ∞ f(x)dx = 1. −∞ Exemple 1.1. a) Loi normale (gaussienne) N(µ,σ2) est la loi de densit´e f(x) = √1 e−(x2−σµ2)2, x ∈ R, 2πσ ou` µ ∈ R et σ > 0. Si µ = 0, σ2 = 1, la loi N(0,1) est dite loi normale standard. Dans la suite, l’´ecriture X ∼ N(µ,σ2) signifie que la v.a. X suit la loi N(µ,σ2). b) Loi uniforme sur l’intervalle [a,b], −∞ < a < b < ∞, est la loi not´ee U[a,b], de densit´e f(x) = (b−a)−11l (x), x ∈ R, [a,b] ou` 1l (·) d´esigne la fonction indicatrice de l’ensemble A : A (cid:189) 1 si x ∈ A, 1l (x) = I{x ∈ A} = A 0 sinon. c) Loi exponentielle E(θ) est la loi de densit´e f(x) = θ−1e−x/θ1l (x), [0,+∞[ ou` θ > 0. La fonction de r´epartition de E(θ) est F(x) = (1−e−x/θ)1l (x). [0,+∞[
Description: