ESTUDIO DEL AIC Y BIC EN LA SELECCIÓN DE MODELOS DE VIDA CON DATOS CENSURADOS que para obtener el grado de Maestro en Ciencias con Especialidad en Probabilidad y Estadística P r e s e n t a Abelardo Montesinos López Directores de Tesina Dr. Enrique Raúl Villa Diharce Dr. Luis A. Escobar R. Guanajuato, Gto. Agosto de 2011 ´ Indice general I´ndicegeneral I Agradecimientos III 1 Introduccio´n 1 2 Criterio deinformacio´nAIC yBIC 3 2.1 Introduccio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 DistanciadeKullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2.1 Estimacio´n por ma´xima verosimilitud y su relacio´n con la informa- cio´ndeK-L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2.2 Derivacio´nalternativadel´ındiceAIC, Konishiy Kitagawa(2008) . . 6 2.2.3 Akaike(1974) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 Criterio deinformacio´nBayesiana(BIC) . . . . . . . . . . . . . . . . . . . . 10 3 Estudio desimulacio´n 13 3.1 Introduccio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2 Implementacio´ndelmecanismodecensuratipoI . . . . . . . . . . . . . . . 14 3.2.1 Distribucionesdeuno y dospara´metros . . . . . . . . . . . . . . . . 14 3.2.2 Distribucionesdedos para´metros . . . . . . . . . . . . . . . . . . . . 25 3.2.3 Distribucionesdeuno, dosy tres para´metros . . . . . . . . . . . . . . 41 4 Conclusiones 49 A Algunas distribuciones de tiempo de vida 52 A.1 Distribucio´nWeibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 A.2 Distribucio´nLognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 A.3 Distribucio´nLoglog´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 I ´INDICEGENERAL A.4 Distribucio´nInversaGausiana . . . . . . . . . . . . . . . . . . . . . . . . . 54 A.5 Distribucio´nGamaGeneralizada . . . . . . . . . . . . . . . . . . . . . . . . 55 B Algunos resultados 56 C Anexos 58 Bibliograf´ıa 60 II Agradecimientos A mi familia, amigos y a todas aquellas personas que directa e indirectamente contribu- yeronen larealizacio´n deestatesina. En particularalos Dres.EnriqueVillay LuisEscobar,porsusconsejosy paciencia. Al departamento de Probabilidad y Estad´ıstica del CIMAT por la oportunidad que me brindo´. Al CONACYTporlabecaquerecib´ı durantemisestudiosdemaestr´ıa. Al Dr. Rogelio Ramos Quiroga y al Dr. Jorge Dom´ınguez y Dom´ınguezpor sus valiosos comentariosaestetrabajo. A laDra. Ange´licaHerna´ndez Quinteroporsuapoyoincondicional. III ´ 1 CAPITULO Introduccio´n Eneltrabajodemodelacio´nestad´ıstica,esdeprimordialimportancialaseleccio´ndelmo- delo,es decir,elegirdentrodeunconjuntodemodelosalternativoselmodeloma´sapropiado para el conjunto disponiblede datos. Por ejemplo, en teor´ıa de valores extremos algunas ve- ces se desea elegir entre la distribucio´n generalizada de valores extremos con un para´metro de forma muy pequen˜o o una distribucio´n gumbel, donde e´sta u´ltima se toma como un caso l´ımite de la primera cuando el para´metro de forma tiende a cero. En tal caso es deseable un estad´ıstico que permita seleccionar entre un modelo u otro. Los ´ındices AIC y BIC (Crite- rio de informacio´n de Akaike y criterio de informacio´n bayesiano, respectivamente)son dos criterios de uso frecuente para la seleccio´n de modelos. El AIC fue propuesto por Akaike (1974)como un estimadorinsesgadoasinto´ticodela informacio´nde Kullback-Leiblerespe- rada, entre un modelo candidato ajustado y el verdadero modelo. El BIC fue derivado por Schwarz en 1978 como una aproximacio´n a una transformacio´n de la probabilidad posterior deunmodelocandidato. A trave´s del tiempo el uso de ambos criterios para la seleccio´n de modelos ha crecido significativamente.EntrealgunasdelasprimerasaplicacionesdelAICsugeridasporelautor de e´ste ´ındice, Akaike, se encuentran el ana´lisis factorial, ana´lisis de componentes princi- pales, regresio´n mu´ltiple y series de tiempo. Otras aplicaciones recientes de ambos criterios 1 tambie´nsetienenenecolog´ıa(Andersonetal.,1994;JohnsonyOmland,2004;Dennisetal., 2006;Ponciano et al.,2009)y bioinforma´tica(Edwardset al.,2010;Abreu etal.,2010), por mencionar algunas. As´ı mismo, en los u´ltimos an˜os se han introducido en el a´rea de confia- bilidad, donde con frecuencia se usan con datos censurados, a pesar que ambos criterios no fueronconstruidosparamodeloscondatoscensurados.Porestarazo´n,en elpresentetrabajo hacemos un estudio del desempen˜o de los criterios de informacio´n antes mencionados, con- siderando datos con censura por tiempo (Tipo I). En este estudio, consideramoslos modelos deprobabilidadma´scomunesenelana´lisisdedatosdevida,comoson:Weibull,Lognormal, Loglog´ıstica,Gaussianainversa,Rayleigh,ExponencialyGamaGeneralizada.Utilizamosun disen˜o experimental, donde los taman˜os muestrales son 20, 30, 50 y 100, y las proporciones decensurason0, 0.05,0.10,0.15,0.20,0.30.,0.40y 0.50.A trave´sdeunestudiodesimula- cio´n evaluamos la proporcio´n de veces que el procedimiento (AIC y BIC) selecciona a cada unodelosmodelosquecompiten,considerandoconjuntosdedatosgeneradosdeunodeellos. El trabajo esta´ organizadodelasiguientemanera: En el Cap´ıtulo 2 sepresentaunabreve introduccio´ndelainformacio´ndeKullback-Leiblerysuconexio´nconelAIC.Luegosepre- senta un bosquejo detallado de las ideas principales de una derivacio´n alternativa del ´ındice AIC por parte de Konishi y Kitagawa (2008), as´ı como tambie´n las ideas del autor original, Akaike (1974). Por u´ltimo, se definen los elementos necesarios que permiten dar una idea clara de la derivacio´n del ´ındice BIC. En el Cap´ıtulo 3 se presenta el estudio de simulacio´n, donde comparamos el desempen˜o de los´ındices. Se describen los pasos generales que se si- guenparasuimplementacio´n.Primerosepresentanydiscutenlosresultadosqueseobtienen alconsiderarelproblemadediscriminarentrelosmodelosWeibull,RayleighyExponencial, con un nu´mero diferente de para´metros. Luego se discuten los resultados de la discrimina- cio´nparacuatromodeloscondospara´metros:Weibull,Lognormal,Loglog´ısticayGaussiana inversa.Tambie´nseestudiaeldesempen˜odeamboscriterioscuandolasdistribucionescandi- datas son la Weibull, Rayleigh, Exponencial, Lognormal y Gama Generalizada. Finalmente, en elCap´ıtulo 4sepresentan lasconclusionesobtenidasen el estudio. 2 ´ 2 CAPITULO Criterio de informacio´n AIC y BIC 2.1. Introduccio´n En este Cap´ıtulo se discute la informacio´n de Kullback-Leibler (K-L) como un criterio para la evaluacio´n estad´ıstica de modelos que aproximan a la verdadera distribucio´n de pro- babilidadquegeneralosdatos,ysedanalgunasdesuspropiedadesteo´ricasma´simportantes que se relacionan al AIC. Luego, por un lado se describen las ideas principales de Konishi y Kitagawa(2008) de como el criterio de informacio´n estad´ıstica (K-L) llevaal concepto de informacio´n AIC. Por otro, tambie´n se describen las ideas del autor original Akaike (1974), paraladerivacio´ndelAIC.Adema´s,sedefineelcriteriodeinformacio´nBayesiana(BIC)con todossus elementos,y las ideasprincipalesdecomo llegara este. 2.2. Distancia de Kullback-Leibler Laestimacio´ndelainformacio´ndeKullback-Leiblereselpuntoclaveenladerivacio´ndel criteriodeinformacio´nAIC,elcualhasidoampliamenteusadoparalaseleccio´ndemodelos estad´ısticos. La informacio´n de Kullback-Leibler definida en (2.1) es considerada como una medidade bondad de ajustedel modelopropuesto f(x) hacia el modelo verdadero g(x), ver Shibata(1995). 3 2.2. DISTANCIADEKULLBACK-LEIBLER g(x) g(X) I(g,f) = log g(x)dx = E log (2.1) X f(x) f(X) Z (cid:20) (cid:21) (cid:20) (cid:18) (cid:19)(cid:21) dondeE denotaquelaesperanzaes tomadacon respecto alavariablealeatoriaX. X Algunas de las propiedades de la informacio´n de K-L son: (i) I(g,f) 0, (ii) I(g,f) = ≥ 0 g(x) = f(x), es decir, la informacio´n de K-L siempre es positiva, excepto cuando las ⇔ dos distribuciones son iguales (Burnham y Anderson, 2002, pa´gina 430). De aqu´ı, esta in- formacio´npuedeinterpretarsedirectamentecomouna“distancia”entredosmodelos,eneste caso f(x) y g(x), aunque estrictamente no lo sea, ya que la medida de f a g no necesaria- mentees lamismaquedeg af. Aunque la informacio´n K-L es bastante razonable para evaluar que´ tan adecuado es un modelo dado, en la pra´ctica es bastante limitada ya que casi siempre se desconoce la verda- deradistribucio´nquegeneralosdatos,lo cual impidecalcular (2.1). Laecuacio´n (2.1)sepuedere-expresar como I(g,f) = E [log(g(X))] E [log(f(X))] (2.2) X X − de donde se tiene que, para la comparacio´n de diferentes modelos es suficiente considerar E [log(f(X))], ya que E [log(g(X)] es un te´rmino comu´n que puede ser ignorado. El se- X X gundote´rminode(2.2)seconocecomolog-verosimilitudesperadaporunidadparaelmodelo f. As´ı, de un conjunto de modelos candidatos el modelo que tenga mayor log-verosimilitud esperadaeselquecorrespondealquetienemenorinformacio´ndeK-L,yenconsecuenciaes elmejormodelo. Sielmodelof(x)esta´ completamenteespecificado,entoncesobse´rvesequeunestimador naturalpara E [log(f(X))] es X n 1 log[f(X )] (2.3) i n i=1 X dondeXn = (X1,...,Xn)′ esunamuestraaleatoriadelaverdaderadistribucio´ng(x).Note´se que (2.3) es un estimador insesgado para E [log(f(X))], y cuando n tiende a infinito con- X vergeaE [log(f(X))] conprobabilidad1, asumiendoque E [log(f(X))] < . X X | | ∞ 4 2.2. DISTANCIADEKULLBACK-LEIBLER 2.2.1. Estimacio´n por ma´xima verosimilitud y su relacio´n con la infor- macio´n de K-L Ensituacionespra´cticastrabajarconmodeloscompletamenteespecificadosnoescomu´n. Lo habitual es asumir un modelo parame´trico f(x θ);θ Θ Rp y luego estimar los { | ∈ ⊂ } para´metrosθporel“me´tododema´ximaverosimilitud”.Au´nma´s,debidoaquemuchasveces no se tiene bien identificado un modelo, lo usual es proponer varios modelos parame´tricos parael mismoproblema,lo queposteriormentesehaceen el estudiodelAIC y BIC. Sesabequebajociertascondicionesderegularidadelestimadordema´ximaverosimilitud (EMV)deθ,θn = θn(Xn),convergeenprobabilidadaθ0 = argm´ınI[g(.),f(. θ)],esdecir, θ∈Θ | b b p θn θ0. (2.4) n−→→∞ f(x θ0) es llamada la mejor aproximabcio´n a g(x) (Claeskens y Hjort, 2008). As´ı, como en | la pra´ctica θ0 es imposiblede calcular ya que no se conoce g(x), el emv de θ proporcionala mejoraproximacio´n parame´trica a la verdadera distribucio´ng dentro de la clase parame´trica f(x θ). Para cuando θ es un escalar y g(x) = f(x θ∗), para algu´n θ∗ Θ, una prueba de | | ∈ (2.4)puedeverseen Wasserman (2004).Unaformaheur´ısticadever(2.4)es lasiguiente: Maximizarlalog-verosimilitudℓ (θ) =: n log(f(X θ)) es equivalenteamaximizar n i=1 i| n P 1 f(X θ) i M (θ) = log | n n g(X ) i=1 (cid:18) i (cid:19) X yadema´s porleydelosgrandes nu´meros f(X θ) g(X) p M (θ) E log | = E log = I[g(.),f(. θ)]. n g g n−→→∞ g(X) − f(X θ) − | (cid:20) (cid:18) (cid:19)(cid:21) (cid:20) (cid:18) | (cid:19)(cid:21) De aqu´ı, M (θ) I[g(.),f(. θ)]. Pero como se menciono´ anteriormente, I[g(.),f(. θ)] se n ≈ − | | minimizaenθ0,as´ıque I[g(.),f(. θ)]esmaximizadaenθ0.Deestaforma,seesperaqueel − | θ quemaximizaMn(θ), θn, tiendaaθ0. b 5 2.2. DISTANCIADEKULLBACK-LEIBLER 2.2.2. Derivacio´n alternativa del´ındice AIC, Konishi y Kitagawa (2008) Comoyasedijo,unaformadeevaluarlabondaddeajustedef(x θ )almodeloverdadero n | g(x), es por medio de la informacio´n K-L. As´ı, por (2.2), la informacio´n de K-L entre el b modelog(x) y f(x θ ) esta´ dadapor n | b I[g(.),f(. θ )] = E [log(g(X))] E [log(f(X θ ))] (2.5) n X X n | − | Entonces por lo comentado en (2.2) solamentees de importancia obtener un buen estimador b b delsegundote´rminodelladoderechode(2.5),E [log(f(X θ ))].Unaposibilidadesusarla X n | distribucio´nemp´ıricadelosdatosen vezdeg(x),resultandocomo estimador b n 1 1 E [log(f(X θ ))] = log f(X θ ) = ℓ (θ ). (2.6) X n i n n n | n | n Xi=1 h i b b b b EsteestimadornoesnecesariamenteinsesgadoparaE [log(f(X θ ))],debidoaqueaqu´ıse X n | hace uso de la muestra aleatoria Xn = (X1,...,Xn)′ que inicialmente tambie´n se emplea b para obtener θ =: θ (X ), el EMV de θ. La forma tradicional de arreglar este problemaes n n n obtenerel sesgoquesecometeporusar(2.6)comoestimadordeE [log(f(X θ ))],yluego X n b b | restarestea(2.6).Para ello,primero no´tesequeel sesgodeesteestimadoresta´ dado por b 1 Sesgo = EXn nℓn(θn)−EX[log(f(X|θn))] (2.7) (cid:20) (cid:21) 1 = nEXn ℓn(θbn)−nEX[log(f(Xb|θn))] h i dondeEX significaquelaesperanzaestomabdarespectoaladistribbucio´nconjuntadelvector n X . Luego, obse´rvese que el u´ltimo te´rmino de la ecuacio´n (2.7) se puede descomponer en n trespartes, lo quesera´ importantepara estimarel sesgo: EXn ℓn(θn)−nEX[log(f(X|θn))] = EXn[ℓn(θ0)−nEX[log(f(X|θ0))]] (2.8) h i b b + EXn ℓn(θn)−ℓn(θ0) h i + EXn nEXb [log(f(X|θ0))]−nEX[log(f(X|θn))] h i Acontinuacio´nsedescribeco´moseobtienencadaunodeestoste´rminos,adema´senesepro- b ceso seemplean resultadosquesonexplicadosen el ape´ndiceB. 6
Description: