Cuál es el propósito de el coeficiente de correlación (r²) en la regresión lineal?, y porque debe tomarse válido para r²>0,95 en algunos caso y r²>0,98 para otros??
Respuestas a la pregunta
En primer lugar debemos distinguir algunos conceptos básicos para no confundirnos:
- r: coeficiente de correlación de Pearson, hablaremos de este solo, ya que hay muchos coeficientes de correlación (Spearman, Kendall, etc).
- R²: coeficiente de determinación
Coeficiente de correlación de Pearson
El r indica qué tan fuerte es una relación lineal entre dos variables, matemáticamente se expresa como la división entre la covarianza y el producto de las desviaciones estándar de dichas variables, o sea:
Esa es la explicación de por qué el valor de r va entre el -1 y el +1, el signo indicará dos cosas: Si es positivo la relación entre las variables es directa; si es negativo, será inversa.
Si la covarianza es muy pequeña, el valor de r tenderá a cero y entre las variables no habrá relación lineal. Si la covarianza es muy grande, r tenderá a ser ±1, en ese caso la correlación será fuerte. Ejemplo: Si obtenemos un valor de r=0.95 la correlación (directa) es aceptable, y si r=0.98, será aún más aceptable.
Ahora, cuando a r lo elevamos al cuadrado, lo que hallamos es el porcentaje de la variación de y debido a la variación de x.
Coeficiente de determinación
El R² indica qué tan bueno es un modelo (ya sea lineal u otro), por eso se le conoce también como bondad del ajuste (sea este lineal o no), se le calcula así:
Siendo el numerador la varianza de los datos estimados por el modelo y el denominador (Sy) la varianza de los datos observados.
Mientras más el valor se aproxime a 100%, el modelo será el mejor para el ajuste de los datos.
OBS: Si y solo si trabajamos con un modelo lineal, y este tiene sentido o robustez, se tiene que: R² = r²
En el ejemplo anterior, ambos valores de R² indican una robustez en el modelo lineal.