Estas series de datos son diferentes de las que hemos estudiado hasta ahora. No vamos a trabajar mucho con ellas, pero como están muy relacionadas con los estudios ecológicos que estudiamos en la primera unidad de trabajo, vamos a presentar algo sobre ellas.
Imagina un grupo de grupo de personas de las que se conoce el peso y la talla de cada una de ellas, o unas personas de las que se sabe el índice de enfermedad periodontal y la frecuencia diaria de cepillados. En ambos casos hay personas (n) y dos variables para cada una (xi e yj). Sobre cada una de ellas se podría hacer un análisis estadístico separado, y así, estudiar la variable “índice de enfermedad periodontal” y también estudiar la variable “frecuencia de cepillado”, pero en este caso de las distribuciones bidimensionales, sabemos además también qué índice de enfermedad periodontal coincide en cada individuo con qué frecuencia de cepillado.
Distribuciones bidimensionales son aquellas distribuciones en las que intervienen dos conjuntos de datos diferentes (xi e yj), variando ambos a la vez. En ellas, cada elemento de la distribución (individuos, muestras, personas…) está definido por dos valores.
A veces entre estas dos variables (por ejemplo tasa de caries y tasa de consumo de azúcar) se establece un tipo de relación, de forma que una de ellas –variable dependiente– depende o cambia con la otra –variable independiente– (es probable que a más azúcar, más caries). Esto se denomina CORRELACIÓN y permite estudiar, en términos de probabilidad, lo que sucede entre ambas variables.
Se puede estudiar varios aspectos, y aunque no vamos a hacer ningún cálculo, vamos a concretarlos en tres cuestiones para facilitar las cosas:
- El tipo de relación que se da entre ellas, es decir si a aumentos de una de las variables corresponden aumentos o disminuciones de la otra.
Para medir esto se suele calcular la covarianza y el coeficiente de correlación (o de Pearson) que mide la fuerza de asociación entre las dos variables.
- Si es positivo la relación es directa, es decir, cuando aumenta una de ellas (independiente) aumenta la otra (dependiente).
- Si es negativo la relación es inversa, o sea, cuando aumenta la variable independiente, disminuye la variable dependiente.
- El nivel de dependencia o cuánto depende una de otra, lo que es muy útil para programas de educación para la salud, porque tiene más sentido desarrollarlos sobre la dependencia fuerte.
- Si el valor del coeficiente es cercano a [–1] y [+1] se dice que la correlación es fuerte, o sea depende mucho una de la otra.
- Si el valor del coeficiente es cercano a 0, la correlación es débil o depende poco.
- El cálculo del valor de la variable dependiente en función de un valor de la variable independiente. Por ejemplo, sabiendo la tasa de consumo de azúcar en un país, se puede calcular la tasa probable de caries que le corresponde. En este caso, cuanto más fuerte es la correlación (más depende una variable de la otra), el cálculo realizado se acercará más a la realidad (es más probable acertar).