1.2.- Ordenación de datos.

Un grupo de gente trabajando al rededor de una mesa.

El primer paso para analizar una información suele ser organizarla. Se suele empezar organizando el conjunto de datos, al que llamaremos n (utilizaremos en general la n minúscula, aunque también podría ser N o ∑fi) en una tabla de frecuencias, estableciendo en ella, una relación entre los distintos valores que toma la variable, a la que llamaremos xi y el número de veces o frecuencia que esto sucede.

Por tanto, lo primero que se hace es abrir una tabla para organizar los datos recogidos. Para ello hay que decidir si los valores de la variable se van a presentar solos (1, 2, 3… n) o agrupados en intervalos (de 0 a 10; de 10 a 20; de 20 a 30...).

Se entiende por intervalo (también llamado “categoría” o “clase”) cada una de las partes en las que pueden agruparse los datos. Se hacen cuando hay muchos datos o el recorrido de la variable es muy amplio y hay que simplificar el estudio.

En caso de que se opte por presentar los datos agrupados en intervalos hay que decidir:

  • El número de intervalos que se van a hacer, lo que dependerá de la amplitud que tenga la variable. No es lo mismo una variable que toma dos valores (0 o 1) que una que oscila entre 0 y 100 (por ejemplo un porcentaje de placa). Se puede usar como criterio la raíz cuadrada del número de sujetos seleccionados en la muestra:

    Raíz cuadrada de n.

    Por ejemplo, si hubiera 900 personas en un estudio, los datos se podrían agrupar en 30 intervalos, aunque por regla general no se suele trabajar con más de 10-12 intervalos. Hay que recordar, que cuanto menos intervalos haya la precisión del estudio será menor.

  • Los extremos del intervalo, es decir, el umbral o límite inferior, Li, y el umbral o límite superior Ls.
  • Y la longitud o amplitud del intervalo, que es la diferencia entre los extremos: Ls - Li.

Los intervalos pueden ser abiertos (…) o cerrados […], lo que significa en el caso de los abiertos, que el valor extremo del intervalo (por ejemplo el 10 en un supuesto intervalo 10-20), no estaría incluido; pero en el caso de que fuera cerrado, si que se incluiría en el recuento de ese intervalo. Generalmente se usan cerrados a la izquierda y abiertos a la derecha […) y cuando esto no está especificado con ningún signo, como (…) o […], se supone que es así.

La marca de clase es el punto medio de cada intervalo y para su cálculo se usa la formula:

Suma del límite superior del intervalo y del límite inferior divido todo ello entre 2.

Es la cifra que se va a utilizar como representativa del intervalo.

Cada uno de los rangos de valores en que se ha decidido agrupar parcialmente los datos con el propósito de hacer un resumen de ellos.

Punto medio de cada intervalo, es el valor que representa a todo el intervalo para el cálculo de algunos parámetros como la media artmética o la desviación típica.

Ejercicio resuelto

Intenta responder a estas preguntas para un estudio en el que se fuera a revisar el número de dientes con obturaciones que presentan un grupo de 400 jóvenes de 25 años, de una ciudad determinada.

  1. ¿Qué variable se va a estudiar?
  2. ¿Cuál es el número de casos?
  3. ¿Cuál es el número de intervalos que habría que hacer?
  4. En el primer intervalo, ¿cuál sería el límite inferior y el límite superior? y ¿cuál sería la marca de clase?
  5. Si los intervalos son cerrados a la izquierda y abiertos a la derecha, ¿en qué intervalo incluirías el valor 4 para unos intervalos [0-4) y [4 – 8)?