1.1 INTRODUCCION 1.4 MUESTREO ALEATORIO SIMPLE 1.2 ALGUNOS CONCEPTOS BAsICOS 1.5 COMPUTADORAS Y ANIDSIS BIOESTADiSTICO 1.3 MEDIDAS Y ESCALAS DE MEDICION 1.6 RESUMEN 1.1 INTRODUCCION Con frecuencia se recuerda el hecho de que se vive en la edad de la informacion, asi que, oportunamente, este libro es acerca de informacion: como se obtiene, como se analiza y como se interpreta. A la informacion que trata este libro se Ie llama datos, los cuales estan disponibles en forma de niimeros. Los objetivos de este libro sondos: 1) ensefiar al estudiante a organizar y resumir datos; 2) ensefiarle como tomar decisiones respedo a un gran volumen de datos al examinar solo una pequefia parte de ellos. Los conceptos y metodos necesarios para lograr el primer objetivo se presentan bajo el titulo de estadistica descnptiva, y el segundo objetivo se logra mediante el estudio de 10 que se conace como estadistica inforencial. En este capitulo se estudia la estadistica descriptiva. Del capitulo 2 al 5 se estudian los t6picos que conforman la base de la inferencia estadistica, y en elresto dellibro se expone la estadistica inferenciaL Puesto que.este libro esta disefiado para personas que se preparan para iniciar 0 que ya cursan una carrera en el area de ciencias de la salud, el material y los ejercicios reflejan los problema:s y actividades que tales personas probablemente encontraran en la practica de su trabajo. 1 2 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA 1.2 ALGUNOS CONCEPTOS BAsICOS AI igual que en todos los campos del aprendizaje, la estadistica tiene su propio vocabulario. AIgunas de las expresiones frecuehtes en el estudio de la estadfstica son nuevas para quienes no han tenido relaci6n previa con el tema. Otros terminos, aunque parecen familiares, probablemente tienen significados especializados que difieren del significado asociado por costumbre a dichos t'erminos. Los siguientes terminos se utilizan extensamente en todo ellibro. Datos Los datos son la materia prima de la estadfstica. Para este prop6sito se puede definir a los datos como numeros. Las dos clases de numeros que se utilizan en estadfstica son numeros que resultan de la toma --en el sentido literal del termi no-de medidas, y aquellos que resultan del proceso de conteo. Por ejemplo, cuando una enfermera pesa al paciente 0 Ie toma 1a temperatura, se obtiene 1a medida que consiste en una cantidad, por ejemp10 150 libras 0 100 grados Farenheit. Un tipo bastante diferente de numeros se obtiene cuando el administrador de un hospital cuenta el numero de pacientes, quiza 20, dados de alta en un dfa. Cada uno de los tres numeros es un dato (datum) y los tres juntos son datos. Estadlstica En la seccion anterior esta imp1icito el significado de la estadfstica. Pero, para ser mas precisos, se puede decir que la estadistica es la disciplina que se ocupa de 1) la recoleccion, organizacion, resumen y analisis de datos, y 2) la obtenci6n de inferencias a partir de un volumen de datos cuando se examina solo una parte de estos. Las personas que realizan estas actividades estadfsticas deben estar prepara das para interpretar y comunuar los resultados a los demas, tal como 10 demande la situaci6n. En terminos sencillos, se puede decir que los datos son numeros, que los numeros contienen informacion y que el prop6sito de la estadistica es investigar y evaluar 1a naturaleza y el significado de esa informacion. Fuente de datos EI desempeflo de actividades estadfsticas obedece a la necesi dad de responder a diversas preguntas. Por ejemplo, los medicos probablemente quieran encontrar respuestas a preguntas con respettoa la utilidad relativa de pro cedimientos de tratamiento alternativos. Losadministradores posiblemente quie ran responder a preguntas respecto a areas de interescomo el espfritu de equipo de los empleados 0 el uso de las instalaciones. Cuando se determina que el enfoque adecuado para buscar una respuesta a la pregunta requiere del uso de la estadistica, se comienza a investigar datos apropiados que sirvan como la materia prima en la investigacion. Estos datos norrnalmente esrnn disponibles de una 0 mas fuentes como las siguientes: . 1. Registros rutinarios. Es diffcil imaginar algun tipo de organizaci6n que no lleve registros de 1aoperacion diaria de sus actividades. Mientras que los registtosclinicos de un hospital, por ejemplo, contienen una inmensa canti dad de informaci6nacerca de los pacientes, los registros contables de la instituci6n contienen datos en abundancia sobre las actividades financieras del hospital. Cuando surge la necesidad de tener datos, se debe buscar prime ro en los registros que se llevan rutinariamente. 1.2 ALGUNOS CONCEPTOS BAsICOS 3 2. Encuesta. 8i los datos necesarios para contestar una pregunta no estan disponibles a partir de los registros almacenados de manera rutinaria, la fuente 16gica puede ser una encuesta. Por ejemplo, suponga que el admi nistrador de una cHnica desea obtener informacion respecto a Ia forma de transporte que utiliza el paciente para visitar la cHnica. 8i Ia forma de admi sion no contiene una pregunta ace rca del transporte, es posible llevar a cabo una encuesta entre los pacientes para obtener esta informacion. 3. Experimentacion. Frecuentemente, los datos necesarios para responder una pregunta estan disponibles solo como resultado de la experimentacion. Tal vez una enfermera quiere saber que estrategia es mejor para maximizar el seguimiento de las indicaciones medicas por parte del paciente. La enferme ra podria conducir un experimento en el que se prueben diferentes estrate gias para motivar el cumplimiento del tratamiento en distintos pacientes. La evaluacion subsecuente de las respuestas a las diversas estrategias puede ca pacitar a Ia enfermera para decidir cual es mas efectiva. 4. Fuentes externas. Los datos necesarios para responder a una pregunta pue den ya existir como informes publicados, bancos de datos disponibles 0 en la literatura de investigacion. En otras palabras, uno se puede encontrar con que alguien mas ya planteo la misma pregunta y que la respuesta que obtuvo puede aplicarse a la situacion presente. Bioestadistlca Las herramientas de Ia estadistica se utilizan en muchos cam pos: negocios,ensefianza, psicologia, agricultura y economia, por mencionar algu nos cuantos. Cuando los datos que se analizan proceden de las ciencias biologicas 0 medicas, se utiliza el termino bioestadistica para diferenciar esta aplicacion particu lar de las herramientas y conceptos de la estadfstica general. Dicha aplicacion es la que se estudia en este libra. Variable Una caracteristica se clasifica como variable si, tal como se observa, se encuentra que esta toma diferentes valores en diferentes personas, lugares 0 cosas. Esto se hace por la simple razon de que la caracterfstica no es la misma cuando se observa en diferentes sujetos. Algunos ejemplos de variables son: presion sanguf nea diastolica, frecuencia cardiaca, estaturas de varones adultos, peso de ninos en edad preescoIar, y la edad de los pacientes que consultan a un dentista. Variable cumditativa Una variable cuantitativa es aquella que puede medirse en la forma usual. 8e pueden obtener mediciones de la estatura de los varones adultos, del peso de los ninos en edad preescolar, y de la edad de los pacientes que consultan a un dentista. Estos son ejemplos de variables cuantitativas. Las mediciones hechas sobre va riables cuantitativas conllevan informaci6n respecto a cantidad. Variable cualitatlva Algunas caracteristicas no pueden ser medidas como la estatura, el peso y la edad. Muchas de ellas solo se pueden clasificar, por ejemplo, cuando a una persona enferma se Ie da un diagnostico medico 0 cuando se deter mina que alguien pertenece a un grupo etnico dado, 0 bien, cuando se dice que una persona, Iugar 0 cosa poseen 0 no alguna caracteristica de interes. En tales 4 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA casos, la medicion consiste en una clasificacion. Y las variables a las que uno se refiere se Haman variables cualitativas. Las mediciones hechas sobre este tipo de variables cdntienen informacion respecto a los atributos. Aunque en el caso de las variables cualitativas las mediciones no se llevan a cabo en el sentido usual de la palabra, se puede contar el numero de personas, lugares 0 cosas pertenecientes a varias categorfas. EI administrador de un hospital, por ejem plo, puede contar el n6.mero de pacientes internados en un dfa, con base en cada uno de los diagnosticos de admision. Estos conteos 0 jrecuencias, como se denominan, son el numero que se maneja cuando el analisis involucra variables cualitativas. Variable alealoria Siempre que se determina la estatura, el peso 0 la edad de un individuo, el resultado frecuentemente se denomina valor de la variable respec tiva. Cuando los valores se originan como resultado de factores aleatorios (al azar), que no pueden predecirse con exactitud y anticipacion, la variable se llama variable aleatoria. Un ejemplo de variable aleatoria es la estatura de los adultos; cuando nacen los ninos no es posible predecir con exactitud la estatura que tendran en su edad adulta; la estatura que alcanza un adulto es el resultado de muchos factores geneticos y ambientales. Los val ores resultantes de los procedimientos de medicion se denominan observaciones 0 medidas. Variable· alealoria discreta Las variables pueden caracterizarse aun mas como discretas 0 continuos. Puesto que la definicion rigurosamente matematica de las variables discreta y continua va mas aHa del limite de este libro, en su lugar se presentan definiciones menos formales y un ejemplo de ca~una. Una variable discreta se caracteriza por separaciones 0 interrupciones en la escala de valores que puede tomar. Estas separaciones 0 interrupciones indican la ausencia de valores entre los valores especfficos que puede asumir la variable. Algunos ejemplos ilustran el punto. EI numero de admisiones diarias en un hospital general es una variable aleatoria discreta, puesto que el numero de admisiones por dia debe repre sentarse con numeros enteros tales como 0, 1,203. EI numero de admisiones en un dfa determinado no puede ser 1.5, 2.997 0 3.333. EI n6.mero de caries, amalga mas 0 perdida de dientes por nino en una escuela primaria es otro ejemplo de una variable discreta. Variable alealoria continua Una variable aleatoria continua no posee las sepa raciones 0 interrupciones tipicas de una variable a/eatoria discreta. Una variable aleatoria continua puede tomar cualquier valor dentro de un intervalo espedficado de valo res asumidos poria variable. Entre los ejemplos de variables continuas se hallan las diversas mediciones que pueden hacerse en individuos tales como su estatura, peso y diametro craneano. Sin importar cuan cerca esten las estaturas de dos personas, teoricamente siempre es posible encontrar otra persona cuya estatura se encuentre entre las dos estaturas de referenda. Ahora bien, debido a las limitaciones de los instrumentos de medicion disponi bles, las observaciones sobre variables que son inherentemente continuas se registran como si fueran discretas. La estatura, por ejemplo, normalmente se redondea hacia el cuarto, media 0 pulgada completa mas cercanos, mientras que si se cuenta con el ins trumento de medicion adecuado, esa medida puede hacerse tan precisa como se desee. 1.3 MEDIDAS Y ESCALAS DE MEDICION 5 Poblacion Habitualmente se considera a una poblacion como una coleccion de entidades, por 10 general personas. Sin embargo, una poblacion 0 coleccion de entidades puede estar compuesta de animales, maquinas, plantas 0 celulas. Para los propositos de este libro, una poblaci6n de entidades se define como la colecci6n mas grande de entidades de interes en un momento particular. Si se toma la medida de alguna variable para cada una de las entidades en una poblacion, se obtiene una poblacion de valores para esa variable. Por 10 tanto, una poblaci6n de valores se puede definir como la mayor colecci6n de valores para una variable aleatoria, los cuales son de interes en un momento particular. Por ejemplo, si se tiene interes en conocer el peso de todos los niiios inscritos en el sistema de educacion primaria del estado, la poblacion esta formada por todos esos pesos. Si se tiene interes solo en el peso de los estudiantes inscritos en el primer grado, se tiene una poblacion diferente, compuesta por los pesos de los estudiantes de primer grado. Por 10 tanto, las poblaciones se determinan 0 definen con base en el campo de interes. Las pobla ciones pueden ser finitas 0 infinitas. Si una poblacion de valores consiste en un numero fijo de esos valores, se dice que la poblacion es finita. Si, por otra parte, una poblacion consiste en una sucesion interminable de valores, entonces es una poblacion infinita. Muestra Una muestra puede definirse simple mente como una parte de una po blaci6n. Suponga que una poblacion se compone de los pesos de todos los niiios inscritos en el sistema de educacion primaria del estado, y se escoge para el analisis solo una fraccion de los niiios; entonces se tiene unicamente una parte de la pobla cion, es decir, se tiene una muestra. 1.3 MEDIDAS YESCALAS DEMEDICION En la seccion anterior se utilizo varias veces la palabra medici6n en su sentido usual y, con seguridad, ellector ha comprendido claramente el significado deseado. Sin embargo, la palabra medici6n puede tener una defininicion mas cientifica. De he cho, existe una gran cantidad de obras dedicadas al tema de mediciOn. Una parte de estas obras se ocupa tambien de la naturaleza 'de los numeros que resultan de las medici ones. Expertos en el tema de mediciones, hablan de escalas de medicion que dan como resultado la categorizacion de mediciones de acuerdo con su naturaleza. En este apartado se define la medici6n y las cuatro escalas de medici6n resultantes. El estudio del tema con mas detalle, se encuentra en las obras de Stevens (1, 2). MediciOn Se define como la asignaci6n de numeros a objetos 0 eventos de acuerdo con un conjunto de reglas. Las diversas escalas de medicion son consecuencia de que la medici6n puede llevarse a cabo seglin diferentes conjuntos de reglas. Escala nominal La escala de medici6n mas baja es la escala nominal. Como su nombre 10 indica, consiste en designar 0 "nombrar" las obserVaciones 0 clasificarlas en varias categorias mutuamente excluyentes y colectivamente exhaustivas. La prac tic a de utilizar numeros para distinguir entre diversos diagn6sticos medicos consti 6 CAPITULO 1 INTRODUCCION A LA BIOESTADisTICA tuye una medicion sobre una escala nominal. Otros ejemplos incluyen dicotomfas . como masculino-femenino, sano-enfermo, menor de 65 aiios de edad-mayor de 65 aiios de edad en adelante, nifio-adulto y casado-soltero. Escala ordinal Siempre que las observaciones no solo difieran de categoria a categoria, sino que ademas puedan clasificarse por grados de acuerdo con alglin criterio, se dice que se miden sobre una escala ordinal. Los padentes convalescien tes pueden c1asificarse como sin mejoria, mejorados y bastante mejorados. Las per sonas pueden clasificarse de acuerdo con su estado sodoeconomico como de clase baja, de clase media 0 clase alta. La inteligencia de los niiios puede estar por enci ma del promedio, promedio 0 por debajo del promedio. En cada uno de estos ejemplos, todos los miembros de cualquiera de las categorias se consideran iguales, pero los miembros de una categoria se consideran inferiores, peores 0 menores que los de otra que, a su vez, guard a una relacion similar con otra categorfa. Por ejem plo, un paciente bastante mejorado esta en mejor estado de salud que uno clasifica do como mejorado, mientras que un paciente que ha mejorado esta en mejor condicion que uno sin mejoria. Por 10 general, es imposible inferir que la diferencia entre los miembros de una de las categorias y la categoria inmediata adyacente sea igual ala diferenda entre los miembros de esa categoria y los miembros de la categorfa adyacente a ella. El grade de mejoria entre los sin mejoria y los mejora dos quiza no sea el mismo que el :que existe entre los mejorados y los bastante mejorados. La implicacion es que si se hiciera una division mas fina, que produje ra mas categorfas, estas podrfan tambien ordenarse de manera semejante. La funcion de los numeros asignados a datos ordinales es la de ordenar (0 asignar una categoria seglin el rango) las observaciones desde las mas bajas hasta las mas altas; de aqui el termino ordinal. Escala de intervalos La escala de intervalos es una escala masespecializada que la nominal 0 la ordinal en el sentido de que, con esta escala, no soloes posible ordenar las mediciones, sino que tambien se conoce la distancia entre dos medicio nes cualesquiera. Por ejemplo, se sabe que la diferencia entre una medida de 20 y una medida de 30 es igual a la diferencia entre lasmedidas de,30 y 40. La capaci dad para hacer esto implica el uso de una distancia unitaria y un punto cero, los cuales son arbitrarios. El punto cero seleccionado no es necesariamente un cero verdadero en el sentido de que no indica una ausencia total de la cantidad que se esta midiendo. Quiza el mejor ejemplo de una escala de intervalos es la forma en que generalmente se mide la temperatura (grados Fahrenheit 0 Celsius). La uni dad de medidon es el grado, y el punto de comparadon es el que se selecciona arbitrariamente como "cero grados", el cual no implica una ausencia de calor. La escala de intervalos, a diferencia de las escalas nominal y ordinal, es una escala realmente cuantitativa. Escala de razones El nivel mas alto de medicion es la escala de razones. Esta escala se caracteriza por el hecho de que puede determinarse tanto la igualdad de las razones como la de los intervalos. Y para esta escala es fundamental un punto cero verdadero. La medicion de rasgos tan familiares como altura, peso y longitud, hacen uso de este tipo de escala. 1.4 MUESTREO ALEATORIO SIMPLE 7 1.4 l\'IUESTREO ALFATOmO SIMPLE Tal como se sefialo can anterioridad, uno de los prapositos de este libra es ensefiar los conceptos de inferencia estadfstica, la cual puede ser definida como sigue: DEFINICION La inferencia estadistica es el procedillliento por llledio del cual se llegaa una conclusion acerca de una poblacion con base en los resultados que se obtienen de una llluestra extraida de esa poblacion. Existen muchas clases de muestras que pueden obtenerse de una poblaci6n. Sin embargo, no se puede utilizar cualquier tipo de muestra como base para hacer inferencias validas acerca de la poblacion. En general, para realizar una inferencia valida acerca de una poblacion se necesita un muestreo de la poblacion fundamen tado cientfficamente. Tambien existen muchas c1ases de muestras cientificas que pueden obtenerse de una poblacion. La mas sencilla es la muestra aleatoria sim ple. En esta secci6n se define la muestra aleatoria simple y se explica como obtener la de la poblacion. Si se utiliza la letra N para designar el tamafio de una poblacion finita, y la letran para designar el tamafio de la muestra, es posible definir una muestra aleatoria simple como: . DEFINICION Si se extrae una muestra de tamaiio n de una poblaci6n de talllano N, de lllanera que cada llluestra posible de tamano n tenga la lllisllla probabilidad de ser seleccionada, la llluestra se llallla muestra aleatoria simple. El sistema de seleccion de muestras que satisface la definicion anterior se llama muestreo aleatorio simple. Mas adelante se demuestra el pracedimiento del muestreo aleatorio simple, pero antes se considera la cuesti6n de si se muestrea con reemplazo a sin reemplazo. Cuando se utiliza un muestreo con reemplazo, cada elemento de la poblacion esta disponible para cada seleccion. Par ejempl0, como parte de un estudio de duracion de la estancia, se selecciona una muestra de una poblacion de pacientes que alguna vez fueran internados en el hospital. Suponga que el muestreo comprende la seleccion de una muestra de expedientes, tornados del archivo del departamento de registra medi co, de los pacientes dados de alta. En el muestreo con reemplazo se selecciona un expediente para incluirlo en la muestra, se registra la duracion de la estancia y se de vuelve el expediente al archivo. AI devolver el expediente a la "poblacion" este puede ser seleccionado de nuevo, en cuyo caso, el tiempo de estancia se registrara una vez mas. En un muestreo sin reemplazo, el expediente extrafdo no se regresa al archivo despues de registrar el data que se investiga, sino que se separa hasta extraer toda la 8 CAPiTULO I INTRODUCCION A LA BIOESTADiSTICA muestra. Con este procedimiento, un expediente debe aparecer solo una vez en la muestra. En la practica, por 10 general, un muestreo siempre se hace sin reempla zoo La importancia y significado de esto se explica mas adelante; por ahora, es nece sario estudiar la manera en que se selecciona una muestra aleatoria simple. Para asegurar una seleccion totalmente aleatoria, se debe seguir algful procedimiento ob jetivo, pues se intenta evitar el uso dejuicios subjetivos para decidir que elementos de la poblacion constituyen una muestra aleatoria. En el siguiente ejemplo se muestra un metodo para elegir una muestra aleatoria simple a partir de una poblacion. EJEMPLO 1.4.1 Clasen et al. (A-I) estudiaron la oxidacion de esparteina y mefenitoina en un grupo de individuos residentes en Groenlandia. Se representaron dos poblaciones en su estudio: habitantes del este y del oeste de Groenlandia. Los investigadores se interesaron en comparar los dos grupos con respecto a las variables de interes. La tabla 1.4.1 muestra las edades de 169 individuos del oeste de Groenlandia. Para propositos ilustrativos, considere que estos individuos forman una poblacion de tamafio N = 169 de la que se quiere obtener una muestra aleatoria simple de tamafio 10. TABlA 1.4.1 Edades de 169 individuos que participan en un estudio de oxidacion de esp81'teina y mefenitoina Individuo num. Edad Individuo nUm. Edad Individuo num. Edad 1 27 57 29 113 45 2 27 58 26 114 28 3 42 59 52 115 42 4 23 60 20 116 40 5 37 61 37 117 26 6 47 62 27 118 29 7 30 63 63 119 48 8 27 64 44 120 53 9 47 65 22 121 27 10 41 66 44 122 38 11 19 67 45 123 53 12 52 68 40 124 33 13 48 69 48 125 24 14 48 70 36 126 25 15 32 71 51 127 43 16 35 72 31 128 39 17 22 '73 28 129 40 18 23 74 44 130 22 19 37 75 63 131 25 20 33 76 30 132 21 21 26 77 21 133 26 (Continua) 1.4 MUESTREO ALEATORIO SIMPLE 9 TABlA 1.4.1 (Continuaci6n) Individuo num. Edad Individuo num. Edad Individuo num. Edad 22 22 78 50 134 41 23 48 79 30 135 47 24 43 80 31 136 30 25 34 81 30 137 42 26 28 82 24 138 33 27 23 83 26 139 31 28 61 84 56 140 29 29 24 85 31 141 37 30 29 86 26 142 40 31 32 87 23 143 31 32 38 88 18 144 26 33 62 89 38 145 30 34 25 ·90 53 146 27 35 34 91 40 147 26 36 46 92 23 148 36 37 24 93 24 149 24 38 45 94 18 150 50 39 26 95 49 151 31 40 29 96 49 152 42 41 48 97 39 153 34 42 34 98 32 154 27 43 41 99 25 155 28 44 53 100 32 156 31 45 30 101 23 157 40 46 27 102 47 158 28 47 22 103 34 159 29 48 27 104 26 160 29 49 38 105 46 161 24 50 26 106 21 162 28 51 27 107 19 163 22 52 30 108 37 164 50 53 32 109 36 165 30 54 43 110 24 166 38 55 29 III 51 167 28 56 24 112 30 168 23 169 39 FUENTE: Reproducido can autorizaci6n de Kim BI1i'isen, M. D.