TRABAJO FIN DE MÁSTER MÁSTER OFICIAL EN ESTADÍSTICA APLICADA UNIVERSIDAD DE GRANADA Alumna: María Ángeles Dueñas Rodríguez ÍNDICE Capítulo 1: Introducción ............................................................................................ 1 Capítulo 2: Teoría de los modelos de regresión logística multinomial ............... 6 2.1. Formulación e Interpretación del modelo ................................................... 8 2.1.1. Formulación ...................................................................................... 8 2.1.2. Interpretación del modelo ............................................................... 11 2.1.3. Otros aspectos a tener en cuenta sobre las variables ................... 13 2.2. Métodos de estimación. Estimación por máxima verosimilitud ................ 14 2.3. Bondad de ajuste del modelo ................................................................... 17 2.3.1. Contrastes de bondad de ajuste del modelo .................................. 17 2.3.1.1. Test chi-cuadrado de Pearson .......................................... 18 2.3.1.2. Test chi-cuadrado de razón de verosimilitudes. Estadístico de Wilks. Devianza ........................................ 18 2.3.2. Calidad del ajuste ............................................................................ 19 2.3.2.1. Coeficiente pseudo-R2 de Mc-Fadden .............................. 19 2.3.2.2. Coeficiente pseudo-R2 de Cox-Snell ................................. 19 2.3.2.3. Coeficiente pseudo-R2 de Nagelkerke .............................. 20 2.3.3. Tasa de clasificaciones correctas ................................................... 20 2.4. Contrastes sobre los parámetros del modelo ........................................... 21 2.5. Inferencia en regresión logística multinomial. Intervalos de confianza .... 23 2.6. Métodos de selección del modelo ............................................................. 24 2.6.1. Hacia adelante ................................................................................ 25 2.6.2. Hacia atrás ...................................................................................... 25 2.6.3. Stepwise .......................................................................................... 25 2.7. Validación del modelo ................................................................................ 26 2.7.1. Residuos de Pearson o residuos estandarizados .......................... 26 2.7.2. Residuos de Pearson o residuos estandarizados .......................... 27 Capítulo 3: Funciones y comandos con R ............................................................ 29 3.1. Primeros pasos con R ............................................................................... 31 3.2. Análisis unidimensional ............................................................................. 37 3.2.1. Variables cualitativas ...................................................................... 37 3.2.2. Variables cuantitativas continuas ................................................... 41 3.3. Análisis bidimensional ............................................................................... 44 3.3.1. Dos variables cualitativas ............................................................... 44 3.3.2. Una variable cualitativa y una variable cuantitativa continua ......... 46 3.3.3. Dos variables cuantitativas continuas ............................................. 51 3.4. Modelo de regresión logística multinomial ................................................ 52 3.4.1. Formulación y selección del modelo ............................................... 53 3.4.2. Inferencia ......................................................................................... 56 3.4.3. Contrastes sobre los parámetros .................................................... 57 3.4.4. Bondad de ajuste del modelo ......................................................... 58 3.4.5. Validación del modelo ...................................................................... 59 Capítulo 4: Aplicación con datos reales ................................................................ 60 4.1. Descripción de la aplicación ..................................................................... 61 4.2. Resultados ................................................................................................ 64 4.2.1. Análisis descriptivo unidimensional ................................................. 64 4.2.2. Análisis bidimensional ..................................................................... 72 4.2.3. Modelo de regresión logística multinomial. Factores asociados a los tipos de depresión .............................................. 80 4.2.3.1. Selección del modelo ......................................................... 81 4.2.3.2. Odds ratios e Intervalos de Confianza .............................. 89 4.2.3.3. Contraste sobre los parámetros ......................................... 90 4.2.3.4. Interpretación del modelo .................................................. 91 4.2.3.5. Ajuste global del modelo .................................................... 93 4.2.3.6. Validación del modelo ........................................................ 96 4.3. Conclusiones ............................................................................................. 98 Anexos. Cálculos con R .......................................................................................... 99 Bibliografía .............................................................................................................. 114 CAPÍTULO 1: INTRODUCCIÓN 1 Este trabajo pretende dar una descripción detallada de una aplicación con datos reales de modelos de respuestas discretas realizando el análisis con el software estadístico R. Concretamente se aplicará un modelo de regresión logística multinomial. El software utilizado tal y como se ha demostrado (1-3) es un paquete muy potente que permite realizar numerosos análisis, y entre ellos la regresión logística multinomial. El objetivo principal del trabajo es describir la teoría del análisis que se llevará a cabo (regresión logística multinomial), detallar cómo se aplica esta teoría con el lenguaje de R y finalmente describir una aplicación con datos reales en la que se aplique estos modelos y se realicen los análisis con R. El trabajo se estructurará de la siguiente manera: - Este primer capítulo es una introducción al trabajo donde se especifican los objetivos del mismo y los objetivos de la aplicación, así como su relación con la literatura. - El segundo capítulo contiene toda la teoría de los modelos de regresión logística multinomial, incluyendo la formulación, bondad de ajuste del modelo, inferencia, calidad y validación de los modelos. - El tercer capítulo incluye todas las funciones de R que se utilizarán posteriormente en la aplicación para obtener los resultados deseados. Además de nombrar estas funciones se describen sus argumentos y las salidas que aportan cada una de ellas. - El cuarto capítulo está completamente dedicado a la aplicación con datos reales, en la que se describe ésta, incluyendo un análisis descriptivo y relaciones entre variables anterior a la aplicación del modelo de regresión logística multinomial. Finalmente se interpretan todos los resultados y se obtienen conclusiones. - Posteriormente, aparece un anexo en el que se incluyen todos los cálculos realizados con R, en el que se incluyen todas las funciones y comandos utilizados para obtener todos los resultados mostrados en el capítulo cuarto. - Finalmente, mostramos toda la bibliografía utilizada en todo el trabajo. La aplicación con datos reales que describimos en este trabajo procede de un estudio a nivel nacional que se realizó en España, en el cual se estudia el dolor y la depresión en pacientes atendidos en atención primaria. Para este trabajo se ha seleccionado la información necesaria de este estudio para conocer los factores asociados a la presencia de trastornos mentales infradiagnosticados en pacientes con 2 dolor crónico de tipo osteomuscular, atendidos en una muestra representativa de centros de Atención Primaria (AP) en España. Se ha considerado este estudio ya que se entiende que el dolor y la depresión son problemas de salud muy comunes, sobre todo en pacientes atendidos en atención primaria (4). Ambos problemas de salud aumentan el uso de los servicios sanitarios y producen un deterioro de la calidad de vida relacionada con la salud de estos individuos (5,6). El dolor crónico y la depresión son procesos comunes, mostrándose en algunos estudios que la prevalencia oscila entre 15% y 100% (7). Así mismo, la presencia y la intensidad de dolor crónico se reconoce que son predictores del grado de depresión en estos pacientes(8,9). Pacientes con dolor crónico y depresión asisten a la consulta del médico con más frecuencia y se convierten en grandes consumidores de los servicios sanitarios (10,11). Muchos estudios han demostrado que pacientes con depresión y dolor crónico son más propensos a estar más insatisfechos con su salud (12). En atención primaria, la depresión a menudo no se diagnostica, particularmente en casos de pacientes que sufren dolor crónico (13). Nos proponemos realizar esta aplicación con ese objetivo, ya que existen escasos estudios que estudian la comorbilidad de dolor crónico con otros trastornos mentales, la mayoría de los estudios estudian la relación entre el dolor y trastorno de depresión mayor, habiendo pocos que estudien otros trastornos como depresión menor, distimia o trastorno bipolar. Así mismo, no son muy comunes estudios que utilizan un cuestionario específico estructurado para evaluar estos procesos en atención primaria. Así que nuestro objetivo principal será conocer los factores asociados a los tipos de trastornos mentales en pacientes con dolor osteomuscular, y para tal fin se realizará un modelo de regresión logística multinomial, que permitirá conocer qué variables de las recogidas en el estudio afectan y de qué manera afectan a la presencia o ausencia de algunos tipos de trastornos mentales de estos pacientes. Se utilizará este modelo de regresión logística multinomial ya que la variable respuesta es categórica, con más de dos categorías, ya que contempla entre los tipos de trastornos mentales, la depresión mayor, depresión menor, trastorno bipolar, distimia, remisión parcial y trastornos causados por medicamentos o drogas, además de contemplar la posibilidad de presenciar más de un tipo de trastorno de los anteriores mencionados o incluso la ausencia de trastorno mental. 3 Los modelos de regresión logística permiten principalmente dos finalidades (14): - Cuantificar la importancia de la relación existente entre cada una de las covariables y la variable dependiente, lo que lleva implícito también clarificar la existencia de interacción y confusión entre covariables respecto a la variable dependiente (es decir, conocer la odds ratio para cada covariable). - Clasificar individuos dentro de las categorías de la variable dependiente, según la probabilidad que tenga de pertenecer a una de ellas dada la presencia de determinadas covariables. De hecho, la regresión logística es una de las herramientas estadísticas con mejor capacidad para el análisis de datos en investigación clínica y epidemiología, de ahí su amplia utilización (15-22). Y es la técnica más apropiada para usar en este estudio. El objetivo primordial que resuelve esta técnica es el de modelar cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico pero en este caso es politómico, la presencia o no de diversos factores y el valor o nivel de los mismos. Es decir, estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías. Como se ha comentado antes, se realizará un análisis descriptivo previo de las variables recogidas en el estudio, para conocer las características principales de los pacientes estudiados. También analizaremos previamente relaciones entre distintas variables que se consideren de interés, sobre todo entre la variable de los tipos de trastornos mentales y el resto de variables, para poder elegir las posibles variables independientes candidatas a ser incluidas en el modelo de regresión logística multinomial. Una vez realizado este análisis exploratorio previo, conoceremos los factores asociados a la presencia de algún tipo de trastorno mental, mediante el modelo de regresión logística multinomial. En nuestro caso, en este modelo la variable respuesta sería los tipos de trastornos mentales, incluida la categoría de ausencia de depresión, la cual se tomaría como categoría de referencia para el modelo. Las variables predictoras que elegiremos para conocer su asociación con los tipos de trastornos mentales, seleccionadas según lo obtenido en los análisis bivariantes y según criterios clínicos, serán: sexo, edad, nivel de estudios, estado civil, trastornos del sueño, la localización del dolor (cervical, espalda, articulaciones, extremidades), intensidad del dolor general, 4 duración del dolor en la última semana, influencia del dolor en las actividades de la vida diaria y número de consultas al médico a causa del dolor. Así que estimaremos la probabilidad de tener un tipo de trastorno mental influenciada por otros factores. Finalmente se interpretará los resultados obtenidos llegando a alcanzar los objetivos propuestos y obteniendo conclusiones. 5 CAPÍTULO 2: TEORÍA DE LOS MODELOS DE REGRESIÓN LOGÍSTICA MULTINOMIAL 6 En este capítulo se explica toda la metodología que será utilizada para resolver nuestro problema y alcanzar el objetivo que nos planteamos sobre nuestra aplicación. Como se ha indicado anteriormente, para el propósito de ese estudio, se utilizarán modelos de respuesta discreta, concretamente el modelo de regresión logística multinomial. A continuación se describirá este modelo explicando entre otras cosas, la formulación, los métodos de estimación, interpretación de parámetros, ajustes del modelo, validación, contrastes de hipótesis asociados. Todo este desarrollo teórico que se explica a continuación, es lo que posteriormente se llevará a cabo a la práctica con nuestra aplicación. Los modelos de regresión logística son modelos estadísticos en los que se pretende conocer la relación entre una variable dependiente cualitativa, dicotómica (regresión logística binaria o binomial) o con más de dos categorías (regresión logística multinomial) y entre variables explicativas independientes, que pueden ser cualitativas o cuantitativas. Las covariables cualitativas que sean dicotómicas, es aconsejable que se codifiquen tomando valores 0, para una de las categorías o para su ausencia y 1 para la otra categoría o para su presencia (esta codificación es importante, ya que cualquier otra codificación podría provocar modificaciones en la interpretación del modelo). Pero si la covariable cualitativa tuviera más de dos categorías, se realiza una transformación, para poderla incluir en el modelo. Esta transformación consiste en crear varias variables cualitativas dicotómicas ficticias o de diseño, llamadas variables dummies, de forma que una de las variables se tomaría como categoría de referencia y cada una de las variables creadas entraría en el modelo de forma individual. En general, si la covariable cualitativa posee n categorías, habrá que realizar n −1 covariables ficticias (14,23). La regresión logística multinomial es utilizada en modelos con variable dependiente de tipo nominal con más de dos categorías (politómica) y es una extensión multivariante de la regresión logística binaria clásica. Las variables independientes pueden ser tanto continuas (covariables) como categóricas (factores). Tradicionalmente las variables dependientes politómicas han sido modeladas mediante análisis discriminante pero, gracias al creciente desarrollo de las técnicas de cálculo, cada vez es más habitual el uso de modelos de regresión logística multinomial, implementados en paquetes estadísticos, debido a la mejor interpretabilidad de los resultados que proporciona (24). Estos modelos se analizan eligiendo una categoría como referencia de la variable dependiente o de respuesta y se modelan varias ecuaciones 7
Description: