BIO-ESTADÍSTICA: Correlación vs Causalidad. Cuidado con lo que nos presentan!

Estimados amigos,

Como continuación de los post denominados "Análisis cuantitativo en Empresas", ya comentábamos que la "guerra" está en saber quién interpreta mejor esos datos, una buena interpretación puede hacer crecer a tu empresa. Esa interpretación es la que crea valor.

El ámbito de la medicina no se escapa de este análisis como es sabido por todos, la Bio-Estadística no es un caso menor. De hecho debido a la gran cantidad de datos existentes y que se puede generar es ámbito muy interesante de estudio.

En esta ocasión escribo porque no es la primera y última vez en la que he observado estudios de técnicas Matemáticas-Estadísticas a variables biológicas.

Lo primero que debemos recordar es que "correlación no implica causalidad" (Es un tema que se debatió en BIG DATA- Análisis Cuantitativo en Empresas. PROGRAMA BIG DATA & BUSINESS ANALYTICS MÁLAGA 2017(V)). No obstante recordemos la definición del profesor j. Wooldridge

Efecto causal: Un cambio ceteris paribus en una variable tiene un efecto en otra.

La realidad es que muchísimas personas utilizan estadísticos para realizar análisis de todo tipo, pero lo cierto es que "no se puede saber de todo". Y en muchas ocasiones se presentan estudios que a simple vista ya carecen de sentido. El problema no es del investigador que los presenta, el problema está en que la Estadística es una ciencia compleja y es difícil tener un conocimiento fluido en este campo.

Como ejemplo presento la siguiente representación gráfica de una nube de puntos analizada por un investigador,en la que se relaciona variables como son peso y dietas inflamatorias:

Lo primero que debemos destacar gráficamente que la recta de regresión pasa por el centro de gravedad la nube de puntos, algo que debe de cumplir toda recta de regresión estimada por Mínimos Cuadrados Ordinarios.

Aparentemente se recoge la relación entre las variables, pero si somos rigurosos. Podemos apreciar un problema, bastante grave, puesto que la nube de puntos no es homogenea. Las consecuencias de la heterocedasticidad son bastante graves por los parámetros estimados. Es conocida por todos la ineficiencia de los parámetros estimados y sobretodo la invalidez de los contrastes de hipótesis realizados a través de la T-Student para contrastes individuales (En muestras finitas) y F-Fisher para contrastes conjuntos.

Ante esto podemos recordar el teorema de Gauss-Markov y los post comentados anteriormente. Ver post

Debido a este problema no podemos garantizar la hipótesis básicas del estudio "una dieta con un mayor índice inflamatorio también podría asociarse con la recuperación del peso". Siempre estamos hablando de Análisis Gráfico, habría que realizar contrastes de hipótesis como pueden ser los contrastes de Breusch-Pagan o White para verificar la existencia de heterocedasticidad.

Lo comentado anteriormente es un problema que se observa "a simple vista", lo más grave en este tipo de estudios es la especificación errónea del modelo. Lo habitual en este tipo de casos se debe a la "Omisión de Variables Relevantes". A qué nos referimos en este caso, pues es fácil, estamos relacionando la recuperación de peso únicamente con una variable explicativa como puede ser "Índice de dieta inflamatoria".

Lo cierto es que hoy en día gracias a la grandísima información que es posible ser recogida y analizada. Es sabido por todos que la relación entre el peso y otras variables es un ámbito multidimensional. Lo cierto es que podríamos considerar como factores de riesgo en la ganancia de peso causas como el estrés, las horas de trabajo, el sedentarismo, factores genéticos, zona de residencia, estacionalidad, y un largo etc. Por supuesto, el tipo de alimentación.

Este tipo de análisis con "Omisión de Variables Relevantes" causa problemas mucho más graves en las características de los parámetros estimados. Fundamentalmente afectan a la sesgadez e inconsistencia de los mismos.

Estos problemas estadísticos analizados en este post invalidan este tipo de artículos presentados por el autor. Lo cierto es que hay que afinar mucho para caer en estos detalles, pero ya que nos ponemos rigurosos y cobramos por conferencias.

Consejo: "No le contemos a los asistentes lo primero que aparece en un estudio sin verificar realmente lo que se está presentando".

Pagar unos 100€ por una conferencia debe estar justificado científicamente, no todo son palabras bonitas y gráficas.

Entre los aspectos tratados, estuvimos tratando la diferencia conceptual entre "correlación y causalidad". Como ya indicamos en su momento Clive W. J. Granger en su artículo Investigating Causal Relations by Econometric Models and Cross-Spectral Methods. Econometrica, 37, 424-438, ya trató las relaciones de causalidad entre variables.

Cuidado con generar correlaciones espúrias !!! (En estadística, una relación espuria (o, a veces, correlación espuria) es una relación matemática en la cual dos acontecimientos no tienen conexión lógica, aunque se puede implicar que la tienen debido a un tercer factor no considerado aún (llamado "factor de confusión" o "variable escondida"). La relación espuria da la impresión de la existencia de un vínculo apreciable entre dos grupos que es inválido cuando se examina objetivamente. Fuente wikipedia)

Saludos.

Miguel Ángel Ruiz Reina

+info: www.eknowmetrics.com

Si te suscribes...

  •  Te avisaremos de los nuevos Cursos, Talleres y Master Class que hagamos ONLINE.

  •  Tendrás acceso a ofertas y promociones puntuales.

  •  Si has estudiado Economía, ADE, Turismo. Recibirás ofertas de trabajo.

  •  Te mantendremos informado sobre novedades del sector de la Econometría.

  •  Te mandaremos tutoriales sobre herramientas de Econometría.

  • Facebook Classic
  • Twitter Classic
  • Google Classic