Table Of Content

Ana´lisis de datos con R 1 Guillermo Ayala Gallego 2 26 de marzo de 2014 1Uno más. 2. 2 ´ Indice general 1. Probabilidad: lo bueno si ... 9 1.1. Experimento y probabilidad . . . . . . . . . . . . . . . . . . . . . . . 9 1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2.1. Función de distribución . . . . . . . . . . . . . . . . . . . . . 11 1.2.2. Media y varianza . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 19 1.3. Vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.4. Distribución normal multivariante . . . . . . . . . . . . . . . . . . . 20 2. Un muy breve repaso a la Estad´ıstica 25 2.1. Algo de Estad´ıstica Descriptiva, poco . . . . . . . . . . . . . . . . . 25 2.2. Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.1. Estimación insesgada de media y varianza . . . . . . . . . . . 29 2.3.2. Estimación insesgada del vector de medias y la matriz de co- varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4. Estimador máximo veros´ımil . . . . . . . . . . . . . . . . . . . . . . 32 2.5. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.5.1. Test del cociente de verosimilitudes . . . . . . . . . . . . . . 35 2.5.2. Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.5.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . 35 3. Componentes principales 37 3.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.2. Componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3. Componentes principales de los datos golub . . . . . . . . . . . . . . 45 3.4. Un poco de teor´ıa ⇑ . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4. Análisis cluster 51 4.1. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.2. Disimilaridades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2.1. Disimilaridades entre observaciones . . . . . . . . . . . . . . 55 4.2.2. Disimilaridades entre grupos de observaciones . . . . . . . . 58 4.3. Cluster jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.4. Métodos de particionamiento . . . . . . . . . . . . . . . . . . . . . . 65 4.4.1. Método de las k-medias . . . . . . . . . . . . . . . . . . . . . 65 4.4.2. Particionamiento alrededor de los mediodes . . . . . . . . . . 70 4.5. Silueta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.6. Un ejemplo completo . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3 5. Análisis discriminante o de cómo clasificar con muestra de entre- namiento 83 5.1. Un problema de probabilidad sencillo . . . . . . . . . . . . . . . . . 86 5.2. Dos poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . 87 5.3. Dos normales multivariantes . . . . . . . . . . . . . . . . . . . . . . 87 5.4. Dos poblaciones normales multivariantes con parámetros desconoci- dos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.5. Análisis discriminante con más de dos poblaciones normales . . . . 91 5.6. Valoración del procedimiento de clasificación . . . . . . . . . . . . . 92 5.7. Variables discriminantes canónicas o discriminantes lineales . . . . . 96 5.8. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6. Regresión 103 6.1. Regresión lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.2. Regresión lineal mu´ltiple . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.3. Estimación de β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.4. Algunos casos particulares . . . . . . . . . . . . . . . . . . . . . . . . 110 6.5. Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.6. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.7. Distribución muestral de βˆ . . . . . . . . . . . . . . . . . . . . . . . 114 6.8. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 6.9. Valoración de las hipótesis del modelo . . . . . . . . . . . . . . . . . 116 6.10.Inferencia sobre el modelo . . . . . . . . . . . . . . . . . . . . . . . . 134 6.11.Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . 140 6.11.1. Procedimientos que comparan modelos . . . . . . . . . . . . . 140 6.11.2. Procedimientos basados en criterios . . . . . . . . . . . . . . 143 6.12.Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7. De cómo usar R en un tiempo razonable (no fácil, no) 159 7.1. Instalación y cómo trabajar con R . . . . . . . . . . . . . . . . . . . 160 7.1.1. R y Windows . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7.1.2. R y Linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7.2. ¿Cómo instalar un paquete? . . . . . . . . . . . . . . . . . . . . . . . 160 7.3. ¿Cómo fijar el directorio de trabajo? . . . . . . . . . . . . . . . . . . 161 7.4. Etiquetas de valor y de variable . . . . . . . . . . . . . . . . . . . . . 161 7.4.1. ¿Cómo etiquetar una variable? . . . . . . . . . . . . . . . . . 161 7.5. Elaboración de un informe a partir del código R . . . . . . . . . . . 161 7.5.1. Sweave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 7.6. R y Octave/Matlab. . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 4 Prólogo Cada vez hay más datos. Tenemos más datos introducidos en ficheros. Y esto es lo peor. Si los datos estuvieran en hojas sueltas y perdidas pues no pasa nada. Se archivan los papeles y los datos no molestan. No, ahora los propios ordenadores o bien muchas personas accediendo desde distintos lugares, tienen el mal gusto de crear unas bancos de datos cada vez mayores. Cada vez con más casos y con más variables.Elproblemanoesconseguirdatos.Lostienesapreciodesaldo.Telosdan sin que los pidas. Si tienes conocidos biólogos, médicos, qu´ımicos, psicólogos seguro que tienen datos para analizar. Si trabajáis en un hospital, tendréis una legión de médicos (y cada vez más enfermeros) con datos. Todo el mundo tiene datos. A los que tienen carinõ. Que creen que tienen mucho valor. Pero que no saben qué hacer con ellos. En el mejor de los casos alguń dibujo estilo pastel (bueno, se le llama diagrama de sectores pero es un pastel) o histograma. ¡Que Dios nos libre de tanto dibujo que solo sirve para gastar papel y tinta! En estas notas se pretende (sólo se pretende) partiendo de unos conocimientos informáticosquenoseanbásicosydeunosconocimientosprobabil´ısticosyestad´ısti- cos más bien básicos, llegar a poder hacer algo decente con un banco de datos. La parte de análisis descriptivo de datos se obvia. Simplemente a lo largo del curso se va utilizando y recordando. Ya está bien de perder el tiempo explicando cómo hacer un histograma si luego lo hace un programa. El tono de estas notas pretende ser ameno pues bastante tostón es lo que se cuenta. No inu´til. Pero s´ı tostón. Hay que asumirlo desde un principio. Esto no es ”Sexo en Nueva York”.1 Son unas notas de Estad´ıstica con R ?. 2 Este documento contiene unas notas de clase para la asignatura de Ana´lisis de Datos de Ingenier´ıa Informática de la Universidad de Valencia. Pretende en cada tema empezar desde un nivel básico de contenidos para llegar al uso de la técnica correspondiente. Es una realidad que el informático acaba realizando análisis de datos.Entreotrascosasporquesueleserlapersonamásamanoobienporqueyaha programado el resto de la aplicación que también incorporar alguń tipo de análisis ma´s o menos sencillo. Y es una pena ver cómo se desaprovecha la información. Por ello en estas notas pretendo tratar rápidamente muchos temas y, además, que podamosutilizarlas.PorelloserecurreaR.Porsupotenciayporsudisponibilidad. InclusoensupropiacasayconunaconexiónaInternetnodemasiadorápidapuede el estudiante instalarse R y cualquier paquete que se necesite. Esto ya es bastante desdeelpuntodevistadocente.Además,cualquierprocedimientoestad´ısticoestáen R. Casi se puede decir, que si no lo está, no merece la pena de utilizarse. Se proponen distintos apéndices como apoyo a conceptos anteriores necesarios. Se hace un repaso rápido de los conceptos básicos de la Probabilidad en el tema 1Sin duda, la mejor serie de televisioń de la historia. Hay que verla. Las pel´ıculas de después no.EncualquiercasoahoraesmásrecomendableGirls. 2Unanunciodelaradio(CadenaSerparamássenãs)hablabadeunapersonaquenoentend´ıa porquésuprofesordeEstad´ısticalohab´ıasuspendido.Esdesuponerquelapersonaqueescribioél anuncioestudiar´ıaPeriodismo.All´ıhayunaasignaturadeEstad´ıstica.Claramentelehaservido. Hahechounanuncioylehabránpagadoporello. 5 1. Las ideas básicas de la Estad´ıstica que utilizamos en el resto del curso aparecen en el tema 2. Ambos cap´ıtulos con meros resu´menes que no sustituyen el repaso de muchos de los conceptos en algunos de los textos que se citan en los cap´ıtulos correspondientes. Estas notas están orientadas para estudiantes de Ingenier´ıa Informática y por ello en muchas ocasiones se incluyen definiciones y conceptos básicos que dicho estudiante no tiene. Una introducción genérica a la Probabilidad y la Estad´ıstica que es adecuado hojear pues cubre los conceptos previos es el libro de texto de Dougherty [1990]. El interés fundamental de estas notas es dar una visión muy amplia sin perder demasiado tiempo en detalles de cada técnica. En este sentido se intenta ir directo al grano con lo que eso supone de dificultad anãdida. Sin embargo, tiene la com- pensacióndevercómomuchosdelosconceptosque seestudiansonreescriturauno de otro. Por fin, un signo de edad es tener que escribir las cosas para que no se nos olviden. Quizás para que uno mismo lo aprenda y para no olvidarlo después. En el fondo, todos vamos aprendiendo seguń lo explicamos y lo escuchamos. Sinduda,unasnotascomolasquesiguensólosepuedenhacerutilizandoLATEX para escribir y el programa R ? 3 para realizar el análisis de los datos. Son dos herramientas imprescindibles que se complementan perfectamente. Un tratamiento estad´ıstico no acaba con un código o con unos dibujos aislados. Acaba con un informe. Con frecuencia, se dedica más tiempo a explicar lo que se ha hecho, a escribir el informe, que a la preparación y tratamiento de los datos, al análisis de los datos. En este sentido, creo que una herramienta como LATEX es fundamental utilizada con R. En este texto hablamos de análisis de datos. No de LATEX. Sin embargo, uno aprende a veces cosas importantes mientras estudia otras que cree que lo son más. En este sentido, habrá referencias a LATEX. Finalmente veamos una gu´ıa de lectura del documento. Es muy habitual que si uno empieza a leer un texto por el principio nunca pase más allá del primer o segundo cap´ıtulo, y eso con suerte. Las notas están escritas de manera que se lean cada tema por separado sin más conexiones entre ellos. De modo que si quieres un pequenõrepasodeProbabilidadconsultaeltema1.Sipatinasunpocoenlobásico de la Estad´ıstica pues entonces hay que leer el tema 2. Son los uńicos temas de carácter básico. Los demás van al grano. En particular si te interesa cómo reducir la dimensión del banco de datos lee el tema 3. Si el problema que te quita el suenõ es cómo dadas unas variables sobre un individuo clasificarlo en uno de g posibles grupos conocidos a priori y de los cuales tienes ejemplos entonces no lo dudes y lee el tema 5. Si tienes datos y no saben si se disponen formando grupos y ni tan siquiera del nu´mero de grupos que tienes entonces has de acudir sin remisión al tema 4. Finalmente en los temas 6, ?? y ?? viene la artiller´ıa pesada. Como todos sabemoslosmodeloslinealessonelcorazóndelaEstad´ıstica,sinellos,otrastécnicas de análisis de datos se la hubieran ventilado. Los modelos lineales es un esfuerzo colectivo que ha construido una teor´ıa redonda, u´til, fácil de aprender y aplicar. Parecequecasitodoestáprevistoybienresuelto.Losmodeloslinealesgeneralizados surgen de la envidia que todo lo corroe. Cuando la variable respuesta, en lugar de sercontinua,comoenlosmodeloslineales,esunarespuestabinaria,omultinomial, o bien un conteo. ¿Qué hacer? La teor´ıa de modelos lineales no se puede aplicar ni con calzadores. Sin embargo, con unos cuantos cambios técnicamente simples surgenunosmodelosprobabil´ısticosparaanalizarestosdatosquesonabsolutamente preciosos. 3La primera leccioń sobre R es cómo citar el programa. En la l´ınea de comandos escribimos citationynosdevuelvelareferenciabibliogra´fica.Delmismomodolopodemoshacersiutilizamos otro paquete. Por ejemplo tecleando citation(“cluster”) nos indica cómo citar el paquete cluster queutilizamoseneltema4. 6 Un detalle práctico de enorme interés. Para programar con R en el sistema ope- rativaWindowslomáscómodoesutilizarRWinEdt(?)mientrasquesitrabajamos en Linux la opción más cómoda es utilizar emacs con el paquete ESS. Se pueden encontrar detalles adicionales R. R es libre. ¿Esto significa que es malo? ¿Tiene pocas funciones? ¿Lo que tiene no es de fiar? Hay una idea muy extendida de que el precio de las cosas está´ınti- mamente relacionado con la calidad. No sé si en general es cierto. En el caso de R no lo es. Algunos art´ıculos de prensa que apoyan el comentario son NYT.06.01.09, NYT.07.01.09, The New York Times, 16 de febrero de 2009. También podeis encontrar algunas empresas que, basándose en R, desarrollan productos comerciales como Revolution Computing. FinalmentealgunasdireccionesdeinteréssobreRsonlassiguientes:http://www.r- bloggers.com/. 7 8 Cap´ıtulo 1 Probabilidad: lo bueno si . . . Empezamos por donde hay que empezar. Con la Probabilidad. Temida, odiada. Despreciada porque habla de juegos. Por encima de todo, u´til, de una utilidad extranã. Da verguënza hablar de Estad´ıstica sin citar algo de Probabilidad. 1 Y no lo vamos a hacer. Vamos a cumplir con la papeleta. En cualquier caso, si no te manejas bien con los conceptos básicos probabil´ısticos (variable aleatoria, vector aleatorio, distribución conjunta y marginal, ...) hay que leer alguń texto. Uno muy bueno, pero no fácil de encontrar, es ?. 1.1. Experimento y probabilidad Dadasunconjuntodecondiciones,unexperimento,nosiemprepodemospredecir exactamente lo que va a ocurrir. La Probabilidad es la disciplina matemática que estudia estos experimentos. En primer lugar determinamos el conjunto de posibles resultados que se puede producir en la experiencia, es el espacio muestral, Ω. Los posibles subconjuntos de A ⊂ Ω son los sucesos aleatorios y la probabilidad no nos dice si cada suceso si va a producir o no sino que se limita a cuantificar para cada experimento la mayor o menor certidumbre que tenemos en la ocurrencia de A antes de realizar la experiencia.P(A)escomosesueledenotarhabitualmentelaprobabilidad del suceso A. Obviamente cada suceso tiene asignada una probabilidad. Han de darse unas condicionesdeconsistenciam´ınimasquehandeverificarlasdistintasprobabilidades de los sucesos aleatorios. Son las siguientes Definición 1 (Medida de probabilidad) P función de conjunto definida sobre los sucesos es una medida de probabilidad si: 1. (No negativa) P(A)≥0 para todo A⊂Ω. 2. (La probabilidad del espacio muestral es uno) P(Ω)=1. 3. (Numerablemente aditiva o σ aditiva) Si {A } es una sucesión de sucesos n n≥1 disjuntos entonces (cid:88) P(∪ A )= P(A ). n≥1 n n n≥1 1De hecho, hay una teor´ıa muy extendida que dice que podemos saber Estad´ıstica sin ninguń conocimientodeProbabilidad.Estacreenciaseconsideraunnuevotipodeenfermedadmental.Si bienenunaversiónlevededichaenfermedad. 9 Ejemplo 1 Si el espacio muestral es finito y consideramos que todos los elementos que lo componen son equiprobables entonces la probabilidad de un suceso A vendr´ıa dada como #(A) P(A)= (1.1) #(Ω) siendo # el cardinal del conjunto. Se comprueba con facilidad que es una medida de probabilidad que verifica la axioma´tica previa. Es el modelo que corresponde al concepto intuitivo de resultados equiprobables. Prácticamente todos los juegos de azar siguen un modelo como este donde var´ıan los resultados posibles. Nota de R 1 (Muestreo con y sin reemplazamiento) Consideramosuncon- junto finito y numeramos sus elementos de 1 a n. Nuestro espacio muestral es {1,...,n}. Veamos cómo extraer k elementos (con k ≤ n) sin reemplazamiento de este conjunto. La función sample es la función básica. En el siguiente código tenemos k =6. n <- 30 omega <- 1:n sample(omega, size = 6, replace = FALSE) ## [1] 4 14 5 9 25 15 Ahora lo repetimos con reemplazamiento. sample(omega, size = 6, replace = TRUE) ## [1] 28 2 6 26 2 7 1.2. Variable aleatoria Supongamos el experimento consistente en elegir a una individuo al azar de la Comunidad Valenciana. Obviamente el espacio muestral está formado por los distintos individuos. Si los numeramos tendr´ıamos Ω={ω }N donde N es el nu´mero i i=i total de personas de la Comunidad. Elección al azar supone que cada individuo tiene la misma probabilidad de ser elegido y viene dada por P({ω }) = 1. Obvia- i N mente cuando se elige una muestra de personas pensamos en alguna caracter´ıstica numérica de la misma por ejemplo su edad. Denotemos por X → R la aplicación tal que X(ω) es la edad de la persona ω. Puesto que el individuo ω es seleccionado de un modo aleatorio, también será aleatoria la cantidad X(ω). La aplicación X recibeelnombredevariablealeatoria.SiB esunsubconjuntoarbitrariodenu´meros reales entonces cualquier afirmación de interés sobre la variable aleatoria X suele poderse expresar como P({ω : X(ω) ∈ B}). Por ejemplo, si nos interesa la pro- porción de personas que tienen 37 o más anõs esto supone plantearse el valor de P({ω : X(ω)∈[37,+∞)}). Dos son los tipos de variables de mayor interés práctico, las variables aleatorias discretasylascontinuas.Unavariablealeatoriasedicediscretasitomaunconjunto de valores discreto, esto es, finito o si infinito numerable. Si el conjunto de valores que puede tomar lo denotamos por D entonces se define la función de probabilidad de X como P(X =x). En estas variables se tiene que (cid:88) P(a≤X ≤b)= P(X =x), (1.2) a≤x≤b para cualesquiera valores reales a≤b. 10

Description:

65. 4.4.2. Particionamiento alrededor de los mediodes 70. 4.5. Silueta 74. 4.6. Un ejemplo completo .

Análisis de datos con R 1 PDF

163 Pages·2014·1.12 MB·Spanish

Checking for file health...

Save to my drive

Quick download

Download

Download Análisis de datos con R 1 PDF Free - Full Version

by Unknow| 2014| 163 pages| 1.12| Spanish

Download Análisis de datos con R 1 by in PDF format completely FREE. No registration required, no payment needed. Get instant access to this valuable resource on PDFdrive.to!

Free Download PDF

About Análisis de datos con R 1

65. 4.4.2. Particionamiento alrededor de los mediodes 70. 4.5. Silueta 74. 4.6. Un ejemplo completo .

Detailed Information

Author:	Unknown
Publication Year:	2014
Pages:	163
Language:	Spanish
File Size:	1.12
Format:	PDF
Price:	FREE

Download Free PDF

Safe & Secure Download - No registration required

Why Choose PDFdrive for Your Free Análisis de datos con R 1 Download?

100% Free: No hidden fees or subscriptions required for one book every day.
No Registration: Immediate access is available without creating accounts for one book every day.
Safe and Secure: Clean downloads without malware or viruses
Multiple Formats: PDF, MOBI, Mpub,... optimized for all devices
Educational Resource: Supporting knowledge sharing and learning

Frequently Asked Questions

Is it really free to download Análisis de datos con R 1 PDF?

Yes, on https://PDFdrive.to you can download Análisis de datos con R 1 by completely free. We don't require any payment, subscription, or registration to access this PDF file. For 3 books every day.

How can I read Análisis de datos con R 1 on my mobile device?

After downloading Análisis de datos con R 1 PDF, you can open it with any PDF reader app on your phone or tablet. We recommend using Adobe Acrobat Reader, Apple Books, or Google Play Books for the best reading experience.

Is this the full version of Análisis de datos con R 1?

Yes, this is the complete PDF version of Análisis de datos con R 1 by Unknow. You will be able to read the entire content as in the printed version without missing any pages.

Is it legal to download Análisis de datos con R 1 PDF for free?

https://PDFdrive.to provides links to free educational resources available online. We do not store any files on our servers. Please be aware of copyright laws in your country before downloading.

The materials shared are intended for research, educational, and personal use in accordance with fair use principles.