MASTER ECONOMETRIE ET STATISTIQUE APPLIQUEE (ESA) Université d’Orléans Econométrie et Statistique Non Paramétrique (Partie II) Régressions Non Paramétriques Univariées Christophe Hurlin Année Universitaire 2007-2008 Master Econométrie et Statistique Appliquée (ESA) Université d’Orléans Faculté de Droit, d’Economie et de Gestion Bureau A 224 Rue de Blois – BP 6739 45067 Orléans Cedex 2 www.univ-orleans.fr/deg/masters/ESA/ October 10, 2007 Contents 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 Principe d(cid:146)Estimations Non ParamØtriques . . . . . . . . . . . . . . . . 2 3 RØgressions Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3.1 RØgression avec lissage par moyenne mobile . . . . . . . . . . . . 4 3.1.1 Etude de la convergence en probabilitØ . . . . . . . . . . . 6 3.1.2 Etude de la convergence en distribution et intervalles de con(cid:133)ance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2 RØgression avec lissage par opØrateur (cid:224) noyau ou rØgression kernel 9 3.2.1 Etude de la convergence en probabilitØ . . . . . . . . . . . 11 3.2.2 Etude de la convergence en loi et intervalles de con(cid:133)ance . 12 3.3 SØlection du paramŁtre de lissage dans la rØgression Kernel . . . . 14 3.3.1 CritŁre de la MISE et approche GCV . . . . . . . . . . . . 16 3.3.2 CritŁre de l(cid:146)AMISE . . . . . . . . . . . . . . . . . . . . . . 17 3.4 Estimation d(cid:146)une fonction de densitØ . . . . . . . . . . . . . . . . 18 3.4.1 ProcØdure UNIVARIATE . . . . . . . . . . . . . . . . . . 20 3.4.2 ProcØdure KDE . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4.3 Procedure SAS INSIGHT . . . . . . . . . . . . . . . . . . 26 3.5 Regressions Kernel : Applications SAS INSIGTH . . . . . . . . . 28 4 RØgressions locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.1 RØgression locale : LOESS et LOWESS regressions . . . . . . . . 30 4.2 ProcØdure LOESS . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.1 Sorties graphiques . . . . . . . . . . . . . . . . . . . . . . 39 4.2.2 SØlection du paramŁtre de lissage . . . . . . . . . . . . . . 40 4.2.3 Autres options de la procØdure LOESS . . . . . . . . . . . 45 Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 1 1. Introduction LarØgressionnonparamØtriquealongtempsØtØopposØe(cid:224)larØgressionØconomØtrique usuelle. En e⁄et, dans l(cid:146)esprit des travaux de la Cowles Commission, cette derniŁreestgØnØralementfondØesurunespØci(cid:133)cationissuedelathØorieØconomique etpeutseramener(cid:224)uneformeexplicitedØpendantd(cid:146)unnombre(cid:133)nideparamŁtres quel(cid:146)onchercheensuite(cid:224)estimerparlamØthodelaplusappropriØe(maximumde vraisemeblance, MCO, GMM etc..). A l(cid:146)inverse, la rØgression non paramØtrique est une rØgression "sans modŁle", au sens oø comme nous allons le voir, on cherche (cid:224) estimer la fonction de lien caractØrisant la relation entre deux vari- ables Øconomiques. C(cid:146)est donc une rØgression "a-thØorique" (au sens de la thØorie Øconomique) par opposition (cid:224) la rØgression paramØtrique usuelle, censØe dØcouler de l(cid:148)estimation d(cid:146)une forme rØduite d(cid:146)un modŁle thØorique. Historiquement,leprincipedesrØgressionsnonparamØtriquesremonteau19e(cid:18)me siŁcle selon Cleveland and Loader (1995), toutefois les premiers travaux mod- ernes sur ce sujet datent des annØes 50. La premiŁre application que nous verrons relŁvedel(cid:146)estimation de fonctions de densitØ pardesmØthodesd(cid:146)opØrateur(cid:224) noyau(kernel) avec les travauxfondateurs deRosenblatt (1956) et de Parzen (1962). Ces premiers tarvaux ont ØtØ ØtØndus (cid:224) la notion de rØgression ker- nel, imparfaitement traduit enfran(cid:231)ais par le terme de rØgression avec lissage par opØrateur (cid:224) noyau. Dans ce domaine, on identi(cid:133)e deux papiers fondateurs publiØs la mŒme annØe : Nadaraya (1964) et Watson (1964). En(cid:133)n, la rØgression local polynomiale, plus rØcente Cleveland et Devlin (1988) constitue une gØnØralisation de ces mØthodes. Le prØsent cours ne portera que sur les rØgressions non paramØtriques uni- variØes. Pour les rØgressions multivariØes, nous revoyons le lecteur (cid:224) l(cid:146)ouvrage de rØfØrence de Yatchev (2003). Dans ce cours nous prØsenterons tout d(cid:146)abord les grands principes de la rØgression non paramØtrique. Dans une seconde sec- tion, nous Øtudierons la regression non paramØtrique kernel. Dans ce cadre nous Øtudierons comme un cas particulier, le principe de l(cid:146)estimation kernel d(cid:146)une den- sitØ. En(cid:133)n, dans une troisiŁme section nous Øtudierons la rØgression locale poly- nomiale et plus spØci(cid:133)quement les regressions de type LOESS et la LOWESS. Toutes les applications se feront sur le logiciel SAS (cid:224), partir des procØdures UNIVARIATE (estimation kernel de densitØ), KDE (estimation kernel de den- Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 2 sitØ), SAS INSIGHT (estimation kernel de densitØ, regression kernel et regression locale polynomiale) et LOESS (regression locale polynomiale). 2. Principe d(cid:146)Estimations Non ParamØtriques Lorsque l(cid:146)on souhaite dØcrire l(cid:146)in(cid:135)uence d(cid:146)une variable quantitative sur un Øven- ement en faisant le moins d(cid:146)hypothŁse possible sur la forme de la relation, on distingue deux approches1 : L(cid:146)approche de la rØgression paramØtrique (cid:15) L(cid:146)approche de la rØgression non-paramØtrique (cid:15) Comme on le sait le but d(cid:146)un modŁle de rØgression consiste (cid:224) dØterminer la fa(cid:231)on dont l(cid:146)espØrance d(cid:146)une variable dØpendante Y dØpend d(cid:146)un ensemble de variables explicatives X: Supposons pour simpli(cid:133)er que X R: Le problŁme 2 consiste donc (cid:224) dØterminer pour chaque rØalisation de la variable x; la valeur de la fonction f (x), dite fonction de lien. De(cid:133)nition 2.1. On appelle fonction de lien, la fonction f (x) qui a toute rØali- sation x de la variable explicative X associe la quantitØ : E(Y X = x) = f (x) (2.1) j PourcaractØrisercettefonctiondelien,lapremiŁreapprocheconsiste(cid:224)utiliser un modŁle de rØgression paramØtrique. On suppose que cette fonction peut s(cid:146)Øcrire comme une fonction explicite des valeurs de X: Cette fonction peut Œtre linØaire, logarithmique, non-linØaire etc. Par exemple, dans le cas linØaire on postule que : E(Y X = x) = (cid:11)+(cid:12)x (2.2) j On cherche alors (cid:224) dØterminer les meilleures valeurs de (cid:11) et (cid:12) compte tenu d(cid:146)un critŁre, par exemple celui de la MSE. De(cid:133)nition 2.2. Dans un modŁle de rØgression paramØtrique, la fonction de lien est (i) de forme explicite et (ii) peut s(cid:146)Øcrire en fonction d(cid:146)un nombre rØduit de paramŁtres. Exemple : E(Y X = x) = f (x;(cid:18)) (2.3) j oø f (:) est connue avec (cid:18) RK: 2 1Nous n(cid:146)Øvoquerons pas dans ce cours l(cid:146)approche dite semi-paramØtrique, gØnØralement rØservØe aux modŁles de rØgression multivariØe. Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 3 L(cid:146)exemple typique est celui d(cid:146)un modŁle linØaire, oø l(cid:146)on postule que : E(Y X = x) = (cid:11)+(cid:12)x = f (x;(cid:11);(cid:12)) (2.4) j On sait qu(cid:146)(cid:224) partir de ce type de modŁle, on dispose : 1. D(cid:146)une mesure synthØtique du lien qui lie X (cid:224) Y qui peut Œtre notamment confrontØe (cid:224) une thØorie Øconomique (tests de spØci(cid:133)cation, approche (cid:224) la Cowles Commission). 2. D(cid:146)Øcarts type et d(cid:146)intervalle de con(cid:133)ance associØs aux paramŁtres et aux valeurs prØvues de la variable Y 3. Detestssimples(infØrence)(cid:224)mettreenoeuvresurlavaleurdesparamŁtres du modŁle. Au contraire, on peut retenir une approche non paramØtrique dans laquelle on va estimer la relation entre le niveau moyen de Y et toutes les valeurs rØalisØes de X: On ne postule aucune forme spØci(cid:133)que sur la fonction de lien. De(cid:133)nition 2.3. Dans un modŁle de rØgression non-paramØtrique, la fonction de lien (i) n(cid:146)a pas de forme explicite et (ii) ne pas peut s(cid:146)Øcrire en fonction d(cid:146)un nombre rØduit de paramŁtres. E(Y X = x) = f (x) (2.5) j Le principal avantage (ou inconvØnient suivant le point de vue adoptØ) de cette approche c(cid:146)est qu(cid:146)elle ne nØcessite aucune hypothŁse a priori sur la forme du lien entre X et Y: On a donc une approche a-thØorique, encore plus gØnØrale que celle dØveloppØe par exemple dans le cadre des modŁles VAR de Sims (1980). Avec une approche non paramØtrique, on aboutit (cid:224) : 1. une reprØsentation graphique de la relation entre X et Y: 2. Il n(cid:146)existe pas de forme analytique de la fonction de lien f (x): Tout le problŁme consiste alors (cid:224) estimer cette fonction de lien f (x), qui est a priori inconnue, et non plus uniquement les paramŁtres de Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 4 cette fonction comme c(cid:146)est le cas dans l(cid:146)approche paramØtrique stan- dard2. Pour cela, il existe deux grandes familles de mØthodes de rØgression non paramØtriques : 1. La rØgression kernel (Nadaraya, 1964; Watson, 1964) 2. LarØgression locale polynomiale (Cleveland, 1979; ClevelandetDevlin, 1988) Nous commencerons par prØsenter le principe de la rØgression kernel. 3. RØgressions Kernel Le principe de la rØgression kernel repose en fait sur des mØthodes de lissage. A(cid:133)n de bien comprendre le principe d(cid:146)une rØgression kernel ou rØgression par lissage par opØrateur (cid:224) Noyau, nous commencerons par exposer le principe de la rØgression avec lissage par moyenne mobile. Une fois que l(cid:146)on aura dØmontrØ un certain nombre de rØsultats dans ce cas simple, nous nous contenterons d(cid:146)Ønoncer plusieurs rØsultats dans le cas de la rØgression kernel. 3.1. RØgression avec lissage par moyenne mobile Admettons que le (cid:148)vrai(cid:148)modŁle de l(cid:146)Øconomie s(cid:146)Øcrive sous la forme : y = f (x )+" i = 1;::;N (3.1) i i i oø" estunbruitblancavecE(" ) = 0etE("2) = (cid:27)2. Onsupposequelafonction i i i " f (:) est inconnue et l(cid:146)on se propose d(cid:146)estimer cette fonction par une mØthode de lissage par moyenne mobile (MA). L(cid:146)idØe consiste tout simplement (cid:224) appliquer une moyenne mobile aux valeurs de Y pour obtenir un estimateur de la fonction de lien. De(cid:133)nition 3.1. L(cid:146)estimateur de la fonction de lien par moyenne mobile s(cid:146)Øcrit sous la forme suivante : f (x ) = Y (3.2) i j xj2Vk;xi oø V dØsigne un voisinage de x dØ(cid:133)n(cid:0)i pa(cid:1)r les k individus ayant les valeurs de k;x b i X les plus proches de x : i 2On peut en e⁄et faire le reproche aux Øconomistes - ØconomŁtres d(cid:146)Œtre prØtentieux au point de prØtendre conna(cid:238)tre le modŁle, c(cid:146)est (cid:224) dire la forme de la fonction de lien f(x;(cid:18)), et de simplement prØtendre ignorer uniquement la valeur des paramŁtres. Mais c(cid:146)est prØcisŁment tout l(cid:146)intØrŒt d(cid:146)une dØmarche (cid:224) la Cowles Commission que de partir de la thØorie Øconomique pour aider (cid:224) la spØci(cid:133)cation d(cid:146)un modŁle et d(cid:146)une forme rØduite (fonction de lien). Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 5 On peut donner une autre dØ(cid:133)nition de cette fonction de lien. De(cid:133)nition 3.2. Supposonsquelesobservationsx sont ordonnØesdefa(cid:231)oncrois- i sante x x :: x et que k est un entier impair, alors : 1 2 N (cid:20) (cid:20) (cid:20) i 1 f (x ) = y (3.3) i j k j=i X b oø l(cid:146)on a i = i (k 1)=2 et i = i+(k 1)=2: (cid:0) (cid:0) (cid:0) ConsidØrons l(cid:146)exemple suivant. On suppose que l(cid:146)on dispose d(cid:146)un Øchantillon de N = 5 couples de valeurs (x;y) telles que (3;7);(2;4);(6;16);(7;19);(9;25) : Les valeurs classØes sont alors dØ(cid:133)nies f g de la fa(cid:231)on suivante : x x x x x 1 2 3 4 5 2 3 6 7 9 y y y y y 1 2 3 4 5 4 7 16 19 25 Si l(cid:146)on suppose que la taille de la fenŒtre k = 3; alors on peut calculer 3 estimations de la fonction f (x) aux points x = 3;6;7 : On obtient ainsi : f g 1 f (x ) = f (3) = (4+7+16) = 9 (3.4) 2 3 b b 1 f (x ) = f (6) = (7+16+19) = 14 (3.5) 3 3 1 fb(x ) = fb(7) = (16+19+25) = 20 (3.6) 4 3 b b De fa(cid:231)on gØnØrale, l(cid:146)estimateur MA de la focntion de lien peut s(cid:146)Øcrire sous la forme : i i 1 1 f (x ) = f (x )+ " (3.7) i j j k k j=i j=i X X Etudions la convergenbce de cet estimateur. Pour cela, nous Øtudierons suc- cessivement : 1. la convergence en probabilitØ de f (x ) i 2. la convergence en loi de f (x ) a(cid:133)n d(cid:146)en dØduire des intervalles de i b con(cid:133)ance sur f (x ): i b Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 6 3.1.1. Etude de la convergence en probabilitØ ConsidŁrons l(cid:146)Øcriture suivante : i i 1 1 f (x ) = f (x )+ " (3.8) i j j k k j=i j=i X X b Utilisons une dØcomposition en sØries de Taylor (cid:224) l(cid:146)ordre 2 de la fonction f (x ) j autour du point de rØfØrence x . Il vient ; j = 1;::;N : i 8 f (x ) = f (x )+f (x )(x x )+ f00(xi) (x x )2 +o(x x )2 j i 0 i j i j i j i (cid:0) 2 (cid:0) (cid:0) f (x )+f (x )(x x )+ f00(xi) (x x )2 (3.9) i 0 i j i j i ’ (cid:0) 2 (cid:0) On obtient alors : i i 1 1 f (xi) f (xi)+f0(xi)(xj xi)+f00(xi)(xj xi)2 + "j ’ k (cid:0) (cid:0) k Xj=i h i Xj=i b i i i f (x )+ f0(xi) (x x )+ f00(xi) (x x )2 + 1 " i j i j i j ’ k (cid:0) 2k (cid:0) k j=i j=i j=i X X X Or, on sait que si les k valeurs x sont choisies de fa(cid:231)on symØtrique par rapport j (cid:224) la valeur pivotale x on a : i i (x x ) = 0 (3.10) j i (cid:0) j=i X De plus, on peut montrer que si les x sont Øqui-rØparties sur un intervale unitaire i : 1 i 1 (k2 1) 1 k 2 (x x )2 = (cid:0) (3.11) 2k j (cid:0) i 24 N2 ’ 24 N j=i (cid:18) (cid:19) X On en dØduit donc (cid:133)nalement que : 1 k 2 1 i f (x ) f (x )+f00(x ) + " (3.12) i i i j ’ 24 N k (cid:18) (cid:19) j=i X b Le dernier terme est une somme de k termes indØpendants et indentiquement distribuØs dŁs lors, de variance (cid:133)nie (cid:27)2=k; par consØquent on obtient le rØsultat " suivant. Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 7 RØsultat L(cid:146)estimateur MA de la fonction de lien f (x ) i = 1;::;N , notØ i 8 f (x ); est tel que : i b k 2 1 f (x ) = f (x )+O +Op (3.13) i i N k1=2 (cid:18) (cid:19) (cid:18) (cid:19) Par consØquent, l(cid:146)berreur quadratique moyenne vØri(cid:133)e : 2 k 4 1 E f (x ) f (x ) = O +Op (3.14) i i (cid:0) N k (cid:18) (cid:19) (cid:18) (cid:19) h i b On sait dŁs lors que le biais de l(cid:146)estimateur est dØ(cid:133)ni par : 1 k 2 1 i f (x ) f (x ) f00(x ) + " (3.15) i i i j (cid:0) ’ 24 N k (cid:18) (cid:19) j=i X b et que la variance de f (x ) est approximativement Øgale (cid:224) : i b 1 i 1 i k(cid:27)2 (cid:27)2 var f (x ) = var " = var(" ) = " = " (3.16) i 0k j1 k2 2 j 3 k2 k h i Xj=i Xj=i b @ A 4 5 On en tire la consØquence suivante : lim E f (x ) f (x ) = 0 (3.17) i i k=N 0 (cid:0) ! h i b limVar f (x ) f (x ) = 0 (3.18) i i k (cid:0) !1 h i De ces deux propriØtØs, on dØduit immØdiatement que : b RØsultat L(cid:146)estimateur MA de la fonction de lien f (x ) i = 1;::;N , notØ i 8 f (x ); n(cid:146)est convergent que si conjointement k=N 0 et k : i ! ! 1 k b f (x ) p f (x ) i = 1;::;N; 0 et k (3.19) i i (cid:0)! 8 N ! ! 1 b L(cid:146)estimateur MA n(cid:146)est donc pas un bon estimateur, puisque que pour qu(cid:146)il soit convergent il faut (cid:224) la fois une trŁs large fenŒtre et que cette fenŒtre ne reprØsente qu(cid:146)une part in(cid:133)me des observations de l(cid:146)Øchantillon. Toute l(cid:146)idØe de la rØgression kernel consistera (cid:224) amØliorer cette propriØtØ a(cid:133)n d(cid:146)obtenir un estimateur qui converge dŁs lors "simplement" que la taille de l(cid:146)Øchantillon N est "grande". Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 8 3.1.2. Etude de la convergence en distribution et intervalles de con(cid:133)- ance ConsidØrons l(cid:146)Øcriture suivante : 1 k 2 1 i f (x ) f (x )+f00(x ) + " (3.20) i i i j ’ 24 N k (cid:18) (cid:19) j=i X b Si le nombre de points de la MA, c(cid:146)est (cid:224) dire k; augmente avec N, alors par un thØorŁme central limite, on montre d(cid:146)aprŁs le ThØorŁme Centrale Limite (TCL) que le terme de droite est asymptotiquement distribuØ selon une loi normale de moyenne nulle et de variance (cid:133)nie telle que : i 1 pk " D N 0;(cid:27)2 (3.21) 0k j1 N(cid:0)! " j=i !1 X (cid:0) (cid:1) @ A Par consØquent, on en dØduit que la quantitØ : 1 k 2 pk f (x ) f (x ) f00(x ) (3.22) i i i (cid:0) (cid:0) 24 N " # (cid:18) (cid:19) converge asymptotiquemebnt vers une loi normale. RØsultat L(cid:146)estimateur MA de la fonction de lien f (x ) i = 1;::;N , notØ i 8 f (x ); vØri(cid:133)e: i 1 k 2 b pk f (x ) f (x ) f00(x ) d N 0;(cid:27)2 (3.23) i (cid:0) i (cid:0) 24 N i (cid:0)! " " # (cid:18) (cid:19) (cid:0) (cid:1) b Tout le problŁme est que cette propriØtØ ne permet pas de construire un intervalle de con(cid:133)ance sur f (x ); puisque par dØ(cid:133)nition la quantitØ i f00(xi) est inconnue. On doit donc chercher une taille de fenŒtre qui cro(cid:238)t avec la taille N de l(cid:146)Øchantillon et dont la vitesse de convergence "annule" le terme Nk 2f00(xi): (cid:0) (cid:1) Supposons que la taille de la fenŒtre vØri(cid:133)e la propriØtØ suivante : k = k(N) = N(cid:11) (3.24) Comment (cid:133)xer la valeur de (cid:11) de sorte (cid:224) "annuler" asymptotiquement le terme Nk 2f00(xi) qui dØpend de la quantitØ ((cid:133)nie) inconnue f00(xi) ? Supposons que l(cid:146)on (cid:133)xe (cid:11) = 4=5, c(cid:146)est (cid:224) dire que k = N4=5 alors (cid:0) (cid:1) k 2 2 pk = N25 N(cid:0)15 = 1 (3.25) N (cid:18) (cid:19) (cid:16) (cid:17)
Description: