Ana´lisis de datos con R 1 Guillermo Ayala Gallego 2 26 de marzo de 2014 1Uno m´as. 2. 2 ´ Indice general 1. Probabilidad: lo bueno si ... 9 1.1. Experimento y probabilidad . . . . . . . . . . . . . . . . . . . . . . . 9 1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2.1. Funci´on de distribuci´on . . . . . . . . . . . . . . . . . . . . . 11 1.2.2. Media y varianza . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 19 1.3. Vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.4. Distribuci´on normal multivariante . . . . . . . . . . . . . . . . . . . 20 2. Un muy breve repaso a la Estad´ıstica 25 2.1. Algo de Estad´ıstica Descriptiva, poco . . . . . . . . . . . . . . . . . 25 2.2. Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3. Estimaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.1. Estimaci´on insesgada de media y varianza . . . . . . . . . . . 29 2.3.2. Estimaci´on insesgada del vector de medias y la matriz de co- varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4. Estimador m´aximo veros´ımil . . . . . . . . . . . . . . . . . . . . . . 32 2.5. Contraste de hip´otesis . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.5.1. Test del cociente de verosimilitudes . . . . . . . . . . . . . . 35 2.5.2. Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.5.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . 35 3. Componentes principales 37 3.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.2. Componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3. Componentes principales de los datos golub . . . . . . . . . . . . . . 45 3.4. Un poco de teor´ıa ⇑ . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4. An´alisis cluster 51 4.1. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.2. Disimilaridades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2.1. Disimilaridades entre observaciones . . . . . . . . . . . . . . 55 4.2.2. Disimilaridades entre grupos de observaciones . . . . . . . . 58 4.3. Cluster jer´arquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.4. M´etodos de particionamiento . . . . . . . . . . . . . . . . . . . . . . 65 4.4.1. M´etodo de las k-medias . . . . . . . . . . . . . . . . . . . . . 65 4.4.2. Particionamiento alrededor de los mediodes . . . . . . . . . . 70 4.5. Silueta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.6. Un ejemplo completo . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3 5. An´alisis discriminante o de c´omo clasificar con muestra de entre- namiento 83 5.1. Un problema de probabilidad sencillo . . . . . . . . . . . . . . . . . 86 5.2. Dos poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . 87 5.3. Dos normales multivariantes . . . . . . . . . . . . . . . . . . . . . . 87 5.4. Dos poblaciones normales multivariantes con par´ametros desconoci- dos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.5. An´alisis discriminante con m´as de dos poblaciones normales . . . . 91 5.6. Valoraci´on del procedimiento de clasificaci´on . . . . . . . . . . . . . 92 5.7. Variables discriminantes can´onicas o discriminantes lineales . . . . . 96 5.8. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6. Regresi´on 103 6.1. Regresi´on lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.2. Regresi´on lineal mu´ltiple . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.3. Estimaci´on de β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.4. Algunos casos particulares . . . . . . . . . . . . . . . . . . . . . . . . 110 6.5. Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.6. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.7. Distribuci´on muestral de βˆ . . . . . . . . . . . . . . . . . . . . . . . 114 6.8. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 6.9. Valoraci´on de las hip´otesis del modelo . . . . . . . . . . . . . . . . . 116 6.10.Inferencia sobre el modelo . . . . . . . . . . . . . . . . . . . . . . . . 134 6.11.Selecci´on de variables . . . . . . . . . . . . . . . . . . . . . . . . . . 140 6.11.1. Procedimientos que comparan modelos . . . . . . . . . . . . . 140 6.11.2. Procedimientos basados en criterios . . . . . . . . . . . . . . 143 6.12.Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7. De c´omo usar R en un tiempo razonable (no f´acil, no) 159 7.1. Instalaci´on y c´omo trabajar con R . . . . . . . . . . . . . . . . . . . 160 7.1.1. R y Windows . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7.1.2. R y Linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7.2. ¿C´omo instalar un paquete? . . . . . . . . . . . . . . . . . . . . . . . 160 7.3. ¿C´omo fijar el directorio de trabajo? . . . . . . . . . . . . . . . . . . 161 7.4. Etiquetas de valor y de variable . . . . . . . . . . . . . . . . . . . . . 161 7.4.1. ¿C´omo etiquetar una variable? . . . . . . . . . . . . . . . . . 161 7.5. Elaboraci´on de un informe a partir del c´odigo R . . . . . . . . . . . 161 7.5.1. Sweave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 7.6. R y Octave/Matlab. . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 4 Pr´ologo Cada vez hay m´as datos. Tenemos m´as datos introducidos en ficheros. Y esto es lo peor. Si los datos estuvieran en hojas sueltas y perdidas pues no pasa nada. Se archivan los papeles y los datos no molestan. No, ahora los propios ordenadores o bien muchas personas accediendo desde distintos lugares, tienen el mal gusto de crear unas bancos de datos cada vez mayores. Cada vez con m´as casos y con m´as variables.Elproblemanoesconseguirdatos.Lostienesapreciodesaldo.Telosdan sin que los pidas. Si tienes conocidos bi´ologos, m´edicos, qu´ımicos, psic´ologos seguro que tienen datos para analizar. Si trabaj´ais en un hospital, tendr´eis una legi´on de m´edicos (y cada vez m´as enfermeros) con datos. Todo el mundo tiene datos. A los que tienen carin˜o. Que creen que tienen mucho valor. Pero que no saben qu´e hacer con ellos. En el mejor de los casos algu´n dibujo estilo pastel (bueno, se le llama diagrama de sectores pero es un pastel) o histograma. ¡Que Dios nos libre de tanto dibujo que solo sirve para gastar papel y tinta! En estas notas se pretende (s´olo se pretende) partiendo de unos conocimientos inform´aticosquenoseanb´asicosydeunosconocimientosprobabil´ısticosyestad´ısti- cos m´as bien b´asicos, llegar a poder hacer algo decente con un banco de datos. La parte de an´alisis descriptivo de datos se obvia. Simplemente a lo largo del curso se va utilizando y recordando. Ya est´a bien de perder el tiempo explicando c´omo hacer un histograma si luego lo hace un programa. El tono de estas notas pretende ser ameno pues bastante tost´on es lo que se cuenta. No inu´til. Pero s´ı tost´on. Hay que asumirlo desde un principio. Esto no es ”Sexo en Nueva York”.1 Son unas notas de Estad´ıstica con R ?. 2 Este documento contiene unas notas de clase para la asignatura de Ana´lisis de Datos de Ingenier´ıa Inform´atica de la Universidad de Valencia. Pretende en cada tema empezar desde un nivel b´asico de contenidos para llegar al uso de la t´ecnica correspondiente. Es una realidad que el inform´atico acaba realizando an´alisis de datos.Entreotrascosasporquesueleserlapersonam´asamanoobienporqueyaha programado el resto de la aplicaci´on que tambi´en incorporar algu´n tipo de an´alisis ma´s o menos sencillo. Y es una pena ver c´omo se desaprovecha la informaci´on. Por ello en estas notas pretendo tratar r´apidamente muchos temas y, adem´as, que podamosutilizarlas.PorelloserecurreaR.Porsupotenciayporsudisponibilidad. Inclusoensupropiacasayconunaconexi´onaInternetnodemasiador´apidapuede el estudiante instalarse R y cualquier paquete que se necesite. Esto ya es bastante desdeelpuntodevistadocente.Adem´as,cualquierprocedimientoestad´ısticoest´aen R. Casi se puede decir, que si no lo est´a, no merece la pena de utilizarse. Se proponen distintos ap´endices como apoyo a conceptos anteriores necesarios. Se hace un repaso r´apido de los conceptos b´asicos de la Probabilidad en el tema 1Sin duda, la mejor serie de televisio´n de la historia. Hay que verla. Las pel´ıculas de despu´es no.Encualquiercasoahoraesm´asrecomendableGirls. 2Unanunciodelaradio(CadenaSerparam´assen˜as)hablabadeunapersonaquenoentend´ıa porqu´esuprofesordeEstad´ısticalohab´ıasuspendido.Esdesuponerquelapersonaqueescribio´el anuncioestudiar´ıaPeriodismo.All´ıhayunaasignaturadeEstad´ıstica.Claramentelehaservido. Hahechounanuncioylehabr´anpagadoporello. 5 1. Las ideas b´asicas de la Estad´ıstica que utilizamos en el resto del curso aparecen en el tema 2. Ambos cap´ıtulos con meros resu´menes que no sustituyen el repaso de muchos de los conceptos en algunos de los textos que se citan en los cap´ıtulos correspondientes. Estas notas est´an orientadas para estudiantes de Ingenier´ıa Inform´atica y por ello en muchas ocasiones se incluyen definiciones y conceptos b´asicos que dicho estudiante no tiene. Una introducci´on gen´erica a la Probabilidad y la Estad´ıstica que es adecuado hojear pues cubre los conceptos previos es el libro de texto de Dougherty [1990]. El inter´es fundamental de estas notas es dar una visi´on muy amplia sin perder demasiado tiempo en detalles de cada t´ecnica. En este sentido se intenta ir directo al grano con lo que eso supone de dificultad an˜adida. Sin embargo, tiene la com- pensaci´ondeverc´omomuchosdelosconceptosque seestudiansonreescriturauno de otro. Por fin, un signo de edad es tener que escribir las cosas para que no se nos olviden. Quiz´as para que uno mismo lo aprenda y para no olvidarlo despu´es. En el fondo, todos vamos aprendiendo segu´n lo explicamos y lo escuchamos. Sinduda,unasnotascomolasquesiguens´olosepuedenhacerutilizandoLATEX para escribir y el programa R ? 3 para realizar el an´alisis de los datos. Son dos herramientas imprescindibles que se complementan perfectamente. Un tratamiento estad´ıstico no acaba con un c´odigo o con unos dibujos aislados. Acaba con un informe. Con frecuencia, se dedica m´as tiempo a explicar lo que se ha hecho, a escribir el informe, que a la preparaci´on y tratamiento de los datos, al an´alisis de los datos. En este sentido, creo que una herramienta como LATEX es fundamental utilizada con R. En este texto hablamos de an´alisis de datos. No de LATEX. Sin embargo, uno aprende a veces cosas importantes mientras estudia otras que cree que lo son m´as. En este sentido, habr´a referencias a LATEX. Finalmente veamos una gu´ıa de lectura del documento. Es muy habitual que si uno empieza a leer un texto por el principio nunca pase m´as all´a del primer o segundo cap´ıtulo, y eso con suerte. Las notas est´an escritas de manera que se lean cada tema por separado sin m´as conexiones entre ellos. De modo que si quieres un pequen˜orepasodeProbabilidadconsultaeltema1.Sipatinasunpocoenlob´asico de la Estad´ıstica pues entonces hay que leer el tema 2. Son los u´nicos temas de car´acter b´asico. Los dem´as van al grano. En particular si te interesa c´omo reducir la dimensi´on del banco de datos lee el tema 3. Si el problema que te quita el suen˜o es c´omo dadas unas variables sobre un individuo clasificarlo en uno de g posibles grupos conocidos a priori y de los cuales tienes ejemplos entonces no lo dudes y lee el tema 5. Si tienes datos y no saben si se disponen formando grupos y ni tan siquiera del nu´mero de grupos que tienes entonces has de acudir sin remisi´on al tema 4. Finalmente en los temas 6, ?? y ?? viene la artiller´ıa pesada. Como todos sabemoslosmodeloslinealessonelcoraz´ondelaEstad´ıstica,sinellos,otrast´ecnicas de an´alisis de datos se la hubieran ventilado. Los modelos lineales es un esfuerzo colectivo que ha construido una teor´ıa redonda, u´til, f´acil de aprender y aplicar. Parecequecasitodoest´aprevistoybienresuelto.Losmodeloslinealesgeneralizados surgen de la envidia que todo lo corroe. Cuando la variable respuesta, en lugar de sercontinua,comoenlosmodeloslineales,esunarespuestabinaria,omultinomial, o bien un conteo. ¿Qu´e hacer? La teor´ıa de modelos lineales no se puede aplicar ni con calzadores. Sin embargo, con unos cuantos cambios t´ecnicamente simples surgenunosmodelosprobabil´ısticosparaanalizarestosdatosquesonabsolutamente preciosos. 3La primera leccio´n sobre R es c´omo citar el programa. En la l´ınea de comandos escribimos citationynosdevuelvelareferenciabibliogra´fica.Delmismomodolopodemoshacersiutilizamos otro paquete. Por ejemplo tecleando citation(“cluster”) nos indica c´omo citar el paquete cluster queutilizamoseneltema4. 6 Un detalle pr´actico de enorme inter´es. Para programar con R en el sistema ope- rativaWindowslom´asc´omodoesutilizarRWinEdt(?)mientrasquesitrabajamos en Linux la opci´on m´as c´omoda es utilizar emacs con el paquete ESS. Se pueden encontrar detalles adicionales R. R es libre. ¿Esto significa que es malo? ¿Tiene pocas funciones? ¿Lo que tiene no es de fiar? Hay una idea muy extendida de que el precio de las cosas est´a´ınti- mamente relacionado con la calidad. No s´e si en general es cierto. En el caso de R no lo es. Algunos art´ıculos de prensa que apoyan el comentario son NYT.06.01.09, NYT.07.01.09, The New York Times, 16 de febrero de 2009. Tambi´en podeis encontrar algunas empresas que, bas´andose en R, desarrollan productos comerciales como Revolution Computing. Finalmentealgunasdireccionesdeinter´essobreRsonlassiguientes:http://www.r- bloggers.com/. 7 8 Cap´ıtulo 1 Probabilidad: lo bueno si . . . Empezamos por donde hay que empezar. Con la Probabilidad. Temida, odiada. Despreciada porque habla de juegos. Por encima de todo, u´til, de una utilidad extran˜a. Da vergu¨enza hablar de Estad´ıstica sin citar algo de Probabilidad. 1 Y no lo vamos a hacer. Vamos a cumplir con la papeleta. En cualquier caso, si no te manejas bien con los conceptos b´asicos probabil´ısticos (variable aleatoria, vector aleatorio, distribuci´on conjunta y marginal, ...) hay que leer algu´n texto. Uno muy bueno, pero no f´acil de encontrar, es ?. 1.1. Experimento y probabilidad Dadasunconjuntodecondiciones,unexperimento,nosiemprepodemospredecir exactamente lo que va a ocurrir. La Probabilidad es la disciplina matem´atica que estudia estos experimentos. En primer lugar determinamos el conjunto de posibles resultados que se puede producir en la experiencia, es el espacio muestral, Ω. Los posibles subconjuntos de A ⊂ Ω son los sucesos aleatorios y la probabilidad no nos dice si cada suceso si va a producir o no sino que se limita a cuantificar para cada experimento la mayor o menor certidumbre que tenemos en la ocurrencia de A antes de realizar la experiencia.P(A)escomosesueledenotarhabitualmentelaprobabilidad del suceso A. Obviamente cada suceso tiene asignada una probabilidad. Han de darse unas condicionesdeconsistenciam´ınimasquehandeverificarlasdistintasprobabilidades de los sucesos aleatorios. Son las siguientes Definici´on 1 (Medida de probabilidad) P funci´on de conjunto definida sobre los sucesos es una medida de probabilidad si: 1. (No negativa) P(A)≥0 para todo A⊂Ω. 2. (La probabilidad del espacio muestral es uno) P(Ω)=1. 3. (Numerablemente aditiva o σ aditiva) Si {A } es una sucesi´on de sucesos n n≥1 disjuntos entonces (cid:88) P(∪ A )= P(A ). n≥1 n n n≥1 1De hecho, hay una teor´ıa muy extendida que dice que podemos saber Estad´ıstica sin ningu´n conocimientodeProbabilidad.Estacreenciaseconsideraunnuevotipodeenfermedadmental.Si bienenunaversi´onlevededichaenfermedad. 9 Ejemplo 1 Si el espacio muestral es finito y consideramos que todos los elementos que lo componen son equiprobables entonces la probabilidad de un suceso A vendr´ıa dada como #(A) P(A)= (1.1) #(Ω) siendo # el cardinal del conjunto. Se comprueba con facilidad que es una medida de probabilidad que verifica la axioma´tica previa. Es el modelo que corresponde al concepto intuitivo de resultados equiprobables. Pr´acticamente todos los juegos de azar siguen un modelo como este donde var´ıan los resultados posibles. Nota de R 1 (Muestreo con y sin reemplazamiento) Consideramosuncon- junto finito y numeramos sus elementos de 1 a n. Nuestro espacio muestral es {1,...,n}. Veamos c´omo extraer k elementos (con k ≤ n) sin reemplazamiento de este conjunto. La funci´on sample es la funci´on b´asica. En el siguiente c´odigo tenemos k =6. n <- 30 omega <- 1:n sample(omega, size = 6, replace = FALSE) ## [1] 4 14 5 9 25 15 Ahora lo repetimos con reemplazamiento. sample(omega, size = 6, replace = TRUE) ## [1] 28 2 6 26 2 7 1.2. Variable aleatoria Supongamos el experimento consistente en elegir a una individuo al azar de la Comunidad Valenciana. Obviamente el espacio muestral est´a formado por los dis- tintos individuos. Si los numeramos tendr´ıamos Ω={ω }N donde N es el nu´mero i i=i total de personas de la Comunidad. Elecci´on al azar supone que cada individuo tiene la misma probabilidad de ser elegido y viene dada por P({ω }) = 1. Obvia- i N mente cuando se elige una muestra de personas pensamos en alguna caracter´ıstica num´erica de la misma por ejemplo su edad. Denotemos por X → R la aplicaci´on tal que X(ω) es la edad de la persona ω. Puesto que el individuo ω es seleccionado de un modo aleatorio, tambi´en ser´a aleatoria la cantidad X(ω). La aplicaci´on X recibeelnombredevariablealeatoria.SiB esunsubconjuntoarbitrariodenu´meros reales entonces cualquier afirmaci´on de inter´es sobre la variable aleatoria X suele poderse expresar como P({ω : X(ω) ∈ B}). Por ejemplo, si nos interesa la pro- porci´on de personas que tienen 37 o m´as an˜os esto supone plantearse el valor de P({ω : X(ω)∈[37,+∞)}). Dos son los tipos de variables de mayor inter´es pr´actico, las variables aleatorias discretasylascontinuas.Unavariablealeatoriasedicediscretasitomaunconjunto de valores discreto, esto es, finito o si infinito numerable. Si el conjunto de valores que puede tomar lo denotamos por D entonces se define la funci´on de probabilidad de X como P(X =x). En estas variables se tiene que (cid:88) P(a≤X ≤b)= P(X =x), (1.2) a≤x≤b para cualesquiera valores reales a≤b. 10
Description: