Agrupamiento de datos cuantitativos

Cuando existen gran cantidad de datos cuantitativos (discretos y continuos) que se encuentran muy dispersos, las distribuciones de frecuencias sin agrupar no son la mejor opción para realizar una organización de datos, por lo cual se hace necesario realizar una distribución en intervalos o clases, que hagan posible un resumen de los datos de la variable en estudio, para de esta manera concentrar los datos y así acumular el número de observaciones o frecuencias contenidas para cada clase facilitando su presentación, además de permitir un análisis de aspectos resaltantes que serían muy difícil de observar con datos individuales.

Es preciso aclarar que dichas clases, deben ser mutuamente excluyentes y colectivamente exhaustivas, lo primero significa que las clases no deben estar solapadas, es decir, un valor no puede pertenecer a dos clases de manera simultánea; lo segundo expresa que todos los datos deben estar incluidos en los intervalos definidos.

Cabe señalar que, las distribuciones de frecuencias en intervalos tienen como principal desventaja, la perdida de individualidad de los datos, debido a que se sabe que en determinada clase está contenida cierta cantidad de datos, sin embargo no se conoce con exactitud los valores que toma, por lo tanto se pierde el nivel de detalle y accesibilidad. Esta desventaja es atribuible cuando los datos ya se encuentran organizados en intervalos, de lo contrario, es posible retornar a los datos originales.

Por otro lado es importante tomar en consideración que, al agrupar los datos cuantitativos en intervalos, se debe elegir un número razonable de clases, porque cuando se escoge un número muy grande el objetivo de simplificación no se obtiene, además de que se puede correr el riesgo de tener muchas clases con muy pocos datos; en el caso contrario, (se selecciona un número muy pequeño de intervalos), se resume tanto los datos al punto de perder información de utilidad. 

Finalmente hay que recordar que tanto el número de clases como las amplitudes de las mismas dependen de la naturaleza de los datos, el número de datos disponibles para la agrupación y el interés del investigador.

Referencia:

Armas, J. (1988). Estadística sencilla: descriptiva. Mérida: Consejo de Publicaciones de la Universidad de Los Andes.

Entradas populares de este blog

Proporción, razón y tasa.

Medidas de tendencia no central

Diagrama de tallos y hojas