jueves, 27 de septiembre de 2012

Bioestadística hasta el II parcial


El lunes 01 de octubre de 2012, se efectuará quiz y se explicarán las propiedades de las Medidas de Tendencia Central. 

El jueves 04 de octubre de 2012, hay clase magistral sobre Medidas de Variabilidad. 

El lunes 08 de octubre de 2012, hay suspensión de clases por las elecciones. 

El jueves 11 de octubre de 2012, se explicará lo restante de las Medidas de Variabilidad. 

El lunes 15 de octubre de 2012, hay clase magistral sobre Medidas de Forma. 

El jueves 18 de octubre de 2012, se desarrollará la práctica 6.

El lunes 22 de octubre de 2012, se continuará con la práctica 6.

El jueves 25 de octubre de 2012, se efectuará el Segundo Parcial de Bioestadística.

miércoles, 19 de septiembre de 2012

Presentación de Bioestadística ULA

Presentación del Blog Bioestadística ULA en el marco del II Congreso de Experiencias Pedagógicas y Didácticas en Educación Virtual.

lunes, 17 de septiembre de 2012

Gráficas de Caja

La gráfica de caja es una representación que describe simultáneamente varias características importantes de un conjunto de datos, tales como el centro, la dispersión, la desviación de la simetría y la identificación de observaciones que caen inusualmente lejos de la mayoría de datos (a estas observaciones se le llaman valores atípicos).

En este tipo de gráfica se representan los tres cuartiles y los valores extremos (máximo y mínimo) en una caja rectangular alineada en sentido horizontal o vertical, abarcando el rango intercuartílico, con el borde izquierdo (o el inferior) de la caja el primer cuartil (Q1=P25) y en el borde derecho (o el superior) el tercer cuartil (Q3=P75). Se traza una línea a través de la caja en el segundo cuartil (Q2=D5=P50=Mediana). Posteriormente se traza una línea o bigote, desde cada extremo de la caja.

El bigote inferior o izquierdo es una línea que va desde el primer cuartil al punto correspondiente al menor de los datos dentro de 1,5 rangos intercuartílicos a partir del primer cuartil. El bigote superior o derechos  es una línea que va desde el tercer cuartil al punto correspondiente al mayor de los datos dentro de 1,5 rangos intercuartílicos a partir del tercer cuartil. Los datos que se encuentran alejados de la caja más allá de los bigotes se grafican como puntos individuales. A un punto situado después de un bigote, pero a menos de 3 rangos intercuartílicos de los bordes de la caja se le llama punto atípico, mientras que a un punto que se encuentre situado a más de 3 rangos intercuartílicos de los bordes de la caja se le denomina punto atípico extremo.

Ejemplo:
Daniel (2010) menciona que en la Revista American Journal of Clinical Pathology, Pitts y otros, asegura que "los carcinomas con metaplasia y sarcomas producidos dentro del seno son difíciles de diagnosticar y clasificar con precisión debido a sus variados patrones histológicos y a su rareza". En un intento por estudiar más detalles de las características biológicas, los autores investigaron una serie de sarcomas puros y carcinomas que exhibían metaplasia, a continuación se muestran los datos para la construcción de la gráfica de caja.

Diámetros (cm) de sarcomas puros extirpados de los senos de 20 mujeres.
0,51,22,12,52,53,03,84,04,24,5
5,05,05,05,06,06,57,08,09,513,0

Construcción de la gráfica:
Se calculan los cuartiles en el programa SPSS para Windows versión 19, se hace clic en el menú Analizar, se selecciona Estadísticos descriptivos y luego Frecuencias; en el cuadro diálogo que arroja se selecciona la variable en estudio, se hace clic en el botón Estadísticos... (ubicado en la parte superior derecha), se selecciona Cuartiles (ubicado en la parte superior izquierda), se hace clic en el botón Continuar y finalmente en Aceptar.

Los resultados obtenidos fueron los siguientes:
Q1=2,625 cm
Q2=4,75 cm
Q3=6,5 cm

Se calcula la Rango intercuartilar (RQ):

RQ = Q3 - Q1= 6,5 cm - 2,625 cm = 3,875 cm

El bigote superior va a quedar determinado por el mayor de los datos comprendidos entre  Q3 y Q+ 1,5.RQ. Entonces se tiene que:

Q+ 1,5.RQ = 6,5 cm + 1,5 (3,875 cm) = 6,5 cm + 5,8125 cm = 12,3125 cm
Por lo tanto el bigote superior llegará hasta el mayor de los datos entre 6,5 cm y 12,3125 cm, el cual es 9,5 cm.

El bigote inferior va a quedar determinado por el menor de los datos comprendidos entre  Qy Q- 1,5.RQ. Entonces se tiene que:

Q- 1,5.RQ = 2,625 cm - 1,5 (3,875 cm) = 2,625 cm - 5,8125 cm = -3,1875 cm
Por lo tanto el bigote inferior llegará hasta el menor de los datos entre 2,625 cm y -3,1875 cm, el cual es 0,5 cm.

También se tiene que el sarcoma de 13 cm de diámetro es un valor o punto atípico.

Para hallar esta gráfica en el paquete estadístico SPSS para Windows versión 19, se realiza el siguiente procedimiento:

Se hace clic en el menú Gráficos, se selecciona Cuadro de diálogos antiguos y luego Diagramas de caja...; en el cuadro diálogo que arroja se selecciona el Diagrama simple y Resúmenes para distintas variables, se hace clic en el botón Definir, se coloca la variable en estudio en el recuadro Las cajas representan y finalmente se hace clic en el botón Aceptar.

El resultado es el siguiente luego de la edición de escala:

Gráfico 1. Diámetros (cm) de sarcomas puros extirpados de los senos de 20 mujeres.

Fuente: Daniel (2010).

Al examinar la gráfica se puede ver que el 50% central se encuentra entre 2,6 y 6,5 cm, además se puede observar que la Mediana está cercana a 4,5 cm. La línea o bigote más alargada en la parte superior indica que la distribución de diámetros está inclinada hacia la derecha o es asimétrica positiva. Asimismo, se puede notar que el programa estadístico indica cual es el dato extremo con un circulo y dice cuál es el número del mismo en la base de datos.

La gráfica de caja con valores extremos, así como el diagrama de tallos y hojas, son ejemplos de lo que se conoce como análisis exploratorio de datos. Estas técnicas, se hicieron populares debido al resultado del trabajo de Tuckey, permiten que el investigador examine datos de manera que éstos revelen tendencias y relaciones, identifique características únicas del conjunto de datos y faciliten su descripción y resumen.

Referencias:

Daniel, W. (2010). Bioestadística. Base para el análisis de las ciencias de la salud (4a. Ed.). México: Limusa Wiley.

Montgomery, D. y Runger, G. (2008). Probabilidad y estadística aplicada a la ingeniería (2a. Ed.). México: Limusa Wiley.

lunes, 3 de septiembre de 2012

Diagrama de tallos y hojas

Es un diagrama de gran utilidad para representar un conjunto de datos cuantitativos, este tipo de representación presenta similitudes con el histograma en cuanto que proporciona información del recorrido de la distribución de datos en estudio, muestra la ubicación de la mayor concentración de mediciones y revela la presencia o ausencia de simetría.

Cabe señalar que el diagrama de tallo y hojas tiene ventajas sobre el histograma, porque conserva la información que puede arrojar las mediciones individuales, situación que se pierde en los intervalos del histograma, otra ventaja, es que ésta representación elimina el paso de los datos originales a clases, lo que hace notar que se puede construir en el proceso de marcaje de los elementos en estudio. 

¿Cómo construir el diagrama de tallo y hojas?
- Señalar el título.
- Se debe dividir cada medición en dos partes, la primera se llama tallo y la segunda hojas
- El tallo se forma con uno o más dígitos iniciales de la medición, y las hojas se forman con uno o más de los dígitos restantes.
- La cantidad de tallos preferiblemente deben ser mayores o iguales a 5 y menores o iguales a 20.
- Los tallos forman una columna ordenada de menor a mayor del lado izquierdo del diagrama.
- Registrar las hojas por cada observación junto al valor correspondiente del tallo.
- Indicar fuente.

Ejemplo del diagrama de tallo y hojas:
Supongamos que durante el presente mes del año corriente, se mide el Tiempo en minutos que tardan un grupo de estudiantes para llegar a la Facultad de Medicina, Universidad de Los Andes (ULA).

Datos de Tiempo (minutos): 12, 13, 13, 14, 14, 15, 15, 20, 21, 22, 22, 22, 25, 27, 28, 29, 31, 31, 33, 34, 36, 38, 39, 40, 41, 41, 42, 44, 45, 50, 51 52.

Diagrama 1. Estudiantes de la Facultad de Medicina según Tiempo en minutos para llegar a la Facultad de Medicina. ULA, Mérida. Agosto, 2012.
Tallo   Hoja
Frecuencia absoluta
1
   2,3,3,4,4,5,57
2
   0,1,2,2,2,5,7,8,99
3
   1,1,3,4,6,8,97
4
   0,1,1,2,4,56
5
   0,1,23
Fuente: Datos supuestos.

Interpretación: a través del Diagrama 1 se puede observar que la distribución de datos de Tiempo (minutos) es asimétrica positiva, con la mayor concentración de datos en el segundo tallo, también se puede  determinar la moda, que en este caso es 22 minutos. Además se puede hallar la mediana, considerando que la cantidad de datos son pares, se tiene que los elementos centrales son 29 y 31 minutos, por lo tanto la mediana=(29+31)/2=30 minutos, es el Tiempo que divide la distribución en dos partes iguales. Asimismo se pueden calcular los cuartiles, usando Q1=n/4 y para el Q3=3n/4, por ejemplo: Q1=32/4=8, el valor obtenido determina la posición, la cual arroja que 20 minutos es el Tiempo que deja el 25% de los datos por debajo y el 75% de los datos de la distribución por encima.

Recomendaciones:
Es importante tomar en cuenta que este tipo de diagramas, no es aconsejable en informes anuales o en algún tipo de medios de difusión para un público en general, porque se convierten en una ayuda básica para que investigadores y tomadores de decisiones comprendan la naturaleza de los datos.

Algunas veces, la utilización del primero o de los dos primeros dígitos de los datos puntuales como tallos no proporcionan suficientes tallos como para permitir detectar la forma de su distribución. Una manera de solucionar esto es utilizar tallos dobles. Es decir, utilizar cada tallo dos veces: una vez para trazar las hojas inferiores y otra vez para trazar las hojas superiores.

Muchos de los procedimientos estadísticos que se desarrollan suponen que la variable independiente estudiada posea al menos una distribución aproximadamente normal, para la cual el diagrama de tallos y hojas tiene forma de campana, por lo tanto, los diagramas de tallos y hojas dan una idea de la localización de los datos y de la forma de la distribución. Esta técnica funciona bien para los conjuntos de datos que no tienen una dispersión muy grande.

Referencias:

Daniel, W. (2010). Bioestadística. Base para el análisis de las ciencias de la salud (4a. Ed.). México: Limusa Wiley.

Montgomery, D. y Runger, G. (2008). Probabilidad y estadística aplicada a la ingeniería (2a. Ed.). México: Limusa Wiley.