Correlación no es Causalidad (aunque podría ser casualidad)

1148

Uno de los análisis estadísticos básicos que solemos hacer (incluso al ojo cuando estamos revisando resúmenes de datos) es la correlación, y también es uno de esos análisis que solemos interpretar con flexibilidad que nos podría llevar a conclusiones erróneas.

La correlación, sin entrar a definiciones formales, nos dice cómo el comportamiento de una característica de un fenómeno explica el comportamiento de otra, y viceversa. Es decir, si decimos que existe una correlación alta (y significativa) entre el ingreso de una persona y el valor del auto que conduce, estamos diciendo que podemos explicar una parte importante de cómo cambia el valor del auto que una persona conduce si conocemos su ingreso; y al revés, que podemos explicar una parte importante de cómo varía el ingreso de una persona si conocemos el valor del auto que conduce.

Sí, suena trabalenguas, la forma sencilla de entenderlo es que cuando dos comportamientos están correlacionados uno explica al otro en igual medida que el segundo al primero. Por esto es por lo que la correlación no denota causalidad. En el ejemplo del coche podríamos decir que la persona tiene un auto de mayor valor a causa de que tiene un mayor ingreso. Sin embargo, esta causa no es visible a partir de la correlación, para este análisis es igual de influyente el ingreso en el auto que el auto en el ingreso.

Nuestra lógica procedural nos invita a pensar que viene una cosa y después la otra, y en este caso particular también un cierto sentido de causalidad práctica. Para comprobar esto tendríamos que hacer un análisis de asociación que nos permita determinar no solo la correlación, sino el soporte y confianza de las implicaciones de una a la otra cosa y de la segunda a la primera.

Volviendo a la correlación, entonces cuando vemos dos variables correlacionadas no tiene un sentido de causa, ¿qué problema nos puede generar interpretarlo de este modo? Tomemos un ejemplo para ilustrarlo.

Pensemos que existe una correlación entre la edad de una persona y la gama del teléfono que tiene (ambas de mayor a menor). Esto nos estaría diciendo que la razón por la que una persona tiene un mejor dispositivo es porque envejece, o que la gente envejece porque tiene un teléfono de gama más alta. Ambas falsas, en realidad está correlación se podría dar y simplemente decirnos que podemos esperar que una persona de mayor edad tenga un teléfono de gama más alta, o que un teléfono de gama más alta sea poseído por una persona de mayor edad; sin embargo, no podemos esperar que solo por envejecer la gama del teléfono que la gente tiene aumente.

Es decir, si decidiéramos con base en esta interpretación errónea, entonces el target de la comunicación de teléfonos premium sería solo gente mayor, porque la edad causa la mejora; y nos parece obvio que hay otras variables que describen de mejor modo el target. Lo que sí estaría bien interpretado es que una persona de edad avanzada es más susceptible a adquirir un teléfono de gama alta que una joven (si esta correlación existiera). Cuando pensamos en causas damos por hecho cosas que son solo relaciones.

Ahora, ¿puede ser casualidad? Más que casualidad, puede aparecer por los detalles que se esconden en la información que estamos analizando. Podemos generar correlaciones espurias si no detectamos lo que está detrás de la correlación o podemos extrapolar incorrectamente si no entendemos correctamente el universo en que estamos trabajando.

Tomemos el ejemplo de los teléfonos y la edad. ¿Podría esto ser una correlación espuria? Sí, de hecho, lo es, al no ser una correlación directa sino que hay una tercera característica “oculta” que no estamos metiendo en la mezcla. Es probable que si metemos el ingreso veamos que la edad y la gama del teléfono tengan una correlación significativa con el ingreso y que a través de tender un puente a través de esta variable podamos entonces darle sentido a la correlación y utilizarla correctamente.

Y lo mismo puede ser una mala extrapolación. ¿Qué sucede si obtenemos esta correlación a partir de analizar la información de clientes antiguos de una compañía de telecomunicaciones que han tenido contratado un plan de mejora de equipo con cada recontratación? Es un caso extremo, pero no solo no estamos mirando a todo el universo, sino que estamos generando sistemáticamente esta correlación de modo que cualquier conclusión que saquemos solo podría aplicar a este pequeño segmento de la población. No a todos.

Así que sí, la correlación es simple, cercana, comprensible y poderosa, solo hay que ser conscientes de cómo la estamos interpretando y ejecutando para aprovechar lo encontrado y no meternos en peores problemas.

¿Tú utilizas este tipo de análisis para entender a tu consumidor? ¿Sabes qué de está diciendo? ¿La interpretas correctamente o te dejas llevar por la emoción?

 

 

 

SUSCRÍBETE A LA REVISTA IMPRESA A UN PRECIO ESPECIAL