Microeconometría Aplicada Notas de Clases José Miguel Benavente H.1 8 de marzo de 2010 1Departamento de Economía. Universidad de Chile. e-mail : [email protected]. QuisieraagradecerlaeficienteayudadeJavieraVásquezenlatranscripcióndeestosapuntesco- motambiénloscomentariosdeEmersonMelo,GonzaloLeytonyOsvaldoLarrañagaaversiones previas de estas notas. Todos los errores son responsabilidad del autor. Capítulo 1 Modelos de Elección Discreta 1.1. Introducción En muchos contextos, el fenómeno que se quiere modelar no es continuo sino discre- to. Así por ejemplo,la decisión de participar en el mercado del trabajo, opinión sobre un tipo de legislación, tipo de auto escogido por el consumidor entre varios modelos posibles. En general, todos los modelos que estudiaremos en este contexto tienen en común que en ellos la variable dependiente toma los valores 0, 1, 2 ....En ocasiones estos valores tendrán significado en si mismo como el numeros de patentes a los que denominaremos datos de recuento. Pero en la mayoría de los casos los valores que toma la variable dependiente no son mas que códigos utilizados para representar un resultado cualitativo.Porejemplo,enelcasodelaparticipacióndemercado,un0puedesignificar “no participar” y un 1 puede significar “si participar”. Aparentemente, en ninguno de estos casos parece posible, en principio, utilizar el análisis de regresión clásico. Sin embargo, en todos ellos es posible construir modelos que enlazan la decisión o resultado con un conjunto de factores bajo la misma filosofía que en el modelo de regresión. Lo que haremos será analizar cada uno de estos casos dentro del marco general de los modelos de probabilidad. Resulta conveniente agrupar los modelos posibles en dos grandes clases, binomial y multinomial, dependiendo de si el resultado es la elección entre dos alternativas o entre más. Si bien el segundo tipo es una extensión del primero, se pueden distinguir en estos últimos situaciones donde los resultados son no ordenados, como el caso de la elección del auto o bien ordenados como el caso de las patentes. En lo que sigue nos concentraremos en las diversas formas de estimar un modelo de elección binaria para luego continuar con casos de elección múltiples. 3 4 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA 1.2. Modelo Básico de Elección Binaria Supuesto básico: latent variable threshold model y∗ = x(cid:48)β+ε i i i con: (cid:189) 1 si y∗ > 0; y = i i 0 si y∗ ≤ 0 i Luego, P[y = 1]=P[x(cid:48)β +ε > 0] = F(x(cid:48)β) i i i i Modelos Alternativos para F(·): Probit: (cid:90) 1 z Φ(z) = √ · exp(−u2/2)du 2π −∞ Logit: 1 Λ(z) = 1+e−z 1.3. Estimación por Máxima Verosimilitud (cid:89)n L = F(x(cid:48)β)yi[1−F(x(cid:48)β)]1−yi i i i=1 Tomando logaritmo a la expresión anterior: (cid:88)n (cid:110) (cid:111) (cid:48) (cid:48) logL = y ·logF(x β)+(1−y )·log[1−F(x β)] i i i i i=1 Maximizando con respecto a beta obtenemos la función "score": (cid:189) (cid:190) ∂logL (cid:88)n y ·f (1−y )·f i i i i = − · x ∂β F 1−F (cid:124)(cid:123)(cid:122)i(cid:125) i i i=1(cid:124) (cid:123)(cid:122) (cid:125) vector escalar 1.3. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 5 con F = F(x(cid:48)β) y f = f(x(cid:48)β); donde f es la densidad correspondiente a F. i i i i Entonces: ∂logL (cid:88)n y −F i i = ·f ·x i i ∂β F (1−F ) i i i=1 y así, el estimador ML β(cid:98) es aquel que resuelve las ecuaciones de verosimilitud: (cid:88)n y −F i i ·f ·x = 0 i i F (1−F ) i i i=1 1.3.1. Modelo Logit Para este caso, si se considera la forma funcional antes vista, se tiene que : 1 Λ(z) = 1+e−z entonces al derivar se puede obtener la siguiente expresión : f(z) = Λ(z)[1−Λ(z)] Demostración : F(z) = Λ(z) = (1+e−z)−1 dΛ(z) = −1(1+e−1)−2(−1·e−z) = Λ(z)[1−Λ(z)] dz Y en consecuencia las ecuaciones de verosimilitud son: ∂logL (cid:88)n = (y −Λ )·x i i i ∂β i=1 donde Λ = Λ(x(cid:48)β). i i Lamatrizdesegundasderivadas(Hessiano)eslasiguiente:(permiteverlavelocidad con que se acerca al máximo) ∂2logL (cid:88)n H = = − Λ (1−Λ )·x x(cid:48) ∂β∂β(cid:48) (cid:124)i (cid:123)(cid:122) i(cid:125) i i i=1 escalar 6 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA Demostración: ∂logL (cid:88)n y −F i i = ·f ·x i i ∂β F (1−F ) i i i=1 (cid:88)n y −Λ i i = ·Λ (1−Λ )·x i i i Λ (1−Λ ) i i i=1 (cid:88)n = (y −Λ )·x i i i i=1 ∂2logL (cid:88)n ∂Λ i = −x ∂β∂β(cid:48) i ∂β i=1 (cid:88)n = − Λ (1−Λ )·x x(cid:48) i i i i i=1 La que es definida negativa para todos los β, asumiendo que los x’s no son perfec- tamente colineales ( si lo fueran H no es invertible, explota). Así, la log-likelihood es globalmente cóncava. La esperanza de H es ella misma y no depende de y, por lo tanto la matriz de información muestral es: (cid:88)n Jn(β) = Λ (1−Λ )·x x(cid:48) i i i i i=1 1.3.2. Modelo Probit o Normit En este caso, se tiene que : ∂logL (cid:88)n y −Φ i i = ·φ ·x = 0 i i ∂β Φ (1−Φ ) i i i=1 donde Φ = Φ(x(cid:48)β)) y φ = φ(x(cid:48)β) con φ la densidad de la normal estándar. También i i i i se puede escribir como: ∂logL (cid:88) −φ (cid:88) φ i i = ·x + ·x i i ∂β 1−Φ Φ i i yi=0 yi=1 1.4. MEDIAS CONDICIONALES DEL TÉRMINO DE ERROR 7 1.4. Medias condicionales del término de error (cid:48) E(ε |y = 1) = E(ε |x β+ε > 0) i i i i i φ(x(cid:48)β) = i Φ(x(cid:48)β) i y por otra parte: (cid:48) E(ε |y = 0) = E(ε |x β+ε (cid:54) 0) i i i i i −φ(x(cid:48)β) = i 1−Φ(x(cid:48)β) i Si z (cid:118) N(0,1): Figura 1 Distribución Normal(0,1) densidad: 1 φ(z) = √ ·exp(−1/2z2) 2π 8 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA Medias Condicionales: (cid:90) 1 k E(z|z < k) = · z·φ(z)dz P(z < k) −∞ (cid:90) 1 k 1 = · z· √ ·exp(−1/2z2)dz Φ(k) 2π −∞ (cid:183) (cid:184) 1 1 k = −√ ·exp(−1/2z2) Φ(k) 2π −∞ −φ(k) = Φ(k) De la misma manera: (cid:90) 1 +∞ E(z|z > k) = · z·φ(z)dz 1−Φ(k) k (cid:90) 1 +∞ 1 = · z· √ ·exp(−1/2z2)dz 1−Φ(k) 2π k (cid:183) (cid:184) 1 1 +∞ = −√ ·exp(−1/2z2) 1−Φ(k) 2π k φ(k) = 1−Φ(k) Así, las ecuaciones de verosimilitud, en el caso de un modelo Probit, se pueden escribir de la siguiente forma: (cid:88)n E(ε |y )·x = 0 i i i i=1 (cid:124) (cid:123)(cid:122) (cid:125) condición de ortogonalidad La matriz Hessiana correspondiente es la siguiente: ∂2logL (cid:88) −φ (cid:88) −φ = i [φ −xi(cid:48)β(1−Φ )]·x x(cid:48) + i[φ +x(cid:48)βΦ ]·x x(cid:48) ∂β∂β(cid:48) (1−Φ )2 i i i i Φ2 i i i i i yi=0 i yi=1 i Dadas las expresiones para las medias condicionales, los valores entre paréntesis cuadradossonpositivosyentonceslamatrizHessianacorrespondienteesnegativadefini- da, es decir, la log-likelihood es globalmente cóncava. Tomando esperanzas, la matriz de información muestral para el modelo Probit es la 1.5. PROPIEDADES ASINTÓTICAS DEL ESTIMADOR ML 9 siguiente: (cid:88)n φ2 Jn(β) = i ·x x(cid:48) Φ (1−Φ ) i i i i i=1 1.5. Propiedades Asintóticas del estimador ML Bajo “condiciones de regularidad generales”, el estimador ML es consistente y asin- tóticamente normal con una matriz de varianzas y covarianzas dada por el inverso de la matriz de información. Esta inversa es la cota inferior de Cramer-Rao y entonces, el estimador ML es también asintóticamente eficiente. La varianza del vector Score: Para ambos modelos el Score tiene la siguiente forma: ∂logL (cid:88)n y −F i i = ·f ·x i i ∂β F (1−F ) i i i=1 Donde F = F(x(cid:48)β) y f = f(x(cid:48)β). Así, la varianza viene dada por: i i i i (cid:181) (cid:182)(cid:181) (cid:182) (cid:181) (cid:182) ∂logL ∂logL (cid:48) (cid:88)n y −F 2 E = E i i ·f2·x x(cid:48) ∂β ∂β F (1−F ) i i i i i i=1 (cid:88)n f2 = i ·x x(cid:48) F (1−F ) i i i i i=1 Dado que la Var(y )=F (1−F ). i i i Demostración: Var(y ) = E(y −F )2 = E(y2−2F y +F2) i i i i i i i Dado que: E(y ) = F i i Var(y ) = E(y )−F2 = F (1−F ) i i i i i Notar que esta última expresión es la misma que la matriz de información muestral derivada para cada uno de los modelos anteriores. 10 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA Nota : Máximo Global: Aproximación de Taylor de logL(β) alrededor de β(cid:98) MLE (cid:175) (cid:175) ∂logL(cid:175) ∂2logL(cid:175) logL(β) = logL(β(cid:98))+ (cid:175) (β(cid:98)−β)+0,5(β(cid:98)−β)(cid:48) (cid:175) (β(cid:98)−β) ∂β(cid:48) (cid:175) ∂β∂β(cid:48) (cid:175) β(cid:98) β(cid:98) (cid:124) (cid:123)(cid:122) (cid:125) (cid:124) (cid:123)(cid:122) (cid:125) =0 <0 logL(β) < logL(β(cid:98)) 1.6. Propiedades de las densidades regulares y verosimili- tudes Considere una muestra aleatoria obtenida de una función de densidad g(y:θ), la que depende del parámetro θ (extendible al caso de un vector). El logaritmo de la función de verosimilitud viene dado por: (cid:88)n logL = log(g(y ;θ)) i i=1 La densidad g es Regular de primer orden si la diferenciación con respecto a θ y la integración sobre y puede ser llevada a cabo en ambos sentidos con un mismo resultado. (es decir, la integral de la derivada es igual a la derivada de la integral). (cid:90) (cid:90) d d g(y;θ)dy = g(y;θ)dy dθ dθ y y La densidad es Regular de segundo orden es lo mismo si se cumple para la segunda derivada. Si θ es un vector las condiciones anteriores deben cumplirse para todas las derivadas con respecto a cada uno de los elementos de θ. Propiedades: 1. (cid:90) +∞ g(y;θ)dy = 1 −∞ Así, si g es regular de primer orden, entonces: (cid:90) +∞ g(cid:48)(y;θ)dy = 0 −∞
Description: