Seguimos con esta serie en la cual intentamos que todos/todas perdamos el miedo a las matemáticas en el Machine Learning. En esta tercera y última parte sobre la Regresión Lineal y Multilineal vamos a hablar sobre el concepto teórico de fiabilidad y contraste desde el punto de vista teórico. No os preocupéis si este es un poco denso (es necesario asimilar un poco de teoría) ya que en el siguiente artículo publicaremos una implementación práctica del ejemplo aplicando todos estos conceptos en el lenguaje de programación “R”.
Ahora que ya tenemos una estimación (ver los artículos anteriores), procederemos a buscar una fiabilidad, un contraste para ver si en definitiva, se cumple o no la premisa que hayamos definido sobre nuestro modelo a estudiar. En el anterior artículo vimos la definición de la expresión de regresión lineal múltiple, además de cómo obtener los estimadores a partir de los datos de una muestra aleatoria. También dimos un ejemplo del recuento de población de un parásito, y de cómo al parecer las variables temperatura y humedad influían en el recuento de dicha especie.
En resumen, el modelo estimado que predice para la observación i-ésima es:
Y el error de predicción:
El cual su media y varianza expresa una distribución normal.
Matricialmente llegamos a:
O bien:
Llegando a la siguiente conclusión:
Ahora bien, como estimador de la varianza del error se puede emplear:
Aplicándola a nuestro ejemplo, obtenemos:
Por lo que tendremos una desviación típica:
Veamos qué información nos aporta β ̂, sabemos que el vector de observaciones Y, se distribuye siguiendo una distribución Normal Multivariante:
Dado que β ̂ es una combinación lineal de las componentes del vector Y, por lo que podemos afirmar que se distribuye según una variable aleatoria Normal.
¿Qué podemos decir acerca su media y matriz de varianza y covarianza?
Consideramos que:
Por lo tanto tenemos que reescribir β ̂ como:
Por lo tanto podemos afirmar que:
Además, podemos concluir que:
Siendo la Varianza Residual:
Y por otro lado:
Contraste de Hipótesis:
Si suponemos que se cumple el modelo de regresión lineal, queremos saber si dicho modelo es explicativo o no, y para ello vamos a explicar ahora lo que se conoce como contraste de hipótesis e intervalos de confianza.
Consideramos H0 como la hipótesis nula, ninguna de las variables explicativas influye en la variable respuesta Y, es decir, que en caso de aceptar dicha hipótesis nuestro modelo no será explicativo.
Del mismo modo consideramos H1 como el rechazo de la hipótesis nula, es decir, si existe al menos una variable explicativa que influye en la variable respuesta, entonces el modelo es explicativo.
La variabilidad de toda la muestra se denomina variabilidad total (VT), y esta se compone de la explicada (VE) y de la no explicada por la regresión (VNE).
En nuestro ejemplo tenemos que la variabilidad total es:
VT = 3650.192 + 343.542 = 3993.734
Definimos el coeficiente de determinación (R^2=VE/VY) como el porcentaje de variabilidad de Y que explica el modelo de regresión ajustado, dicho en otras palabras, la proporción de variabilidad de la variable dependiente que es explicada por la regresión. Definido de esta manera el coeficiente nos puede presentar un problema, al introducir nuevas variables, sean o no significativas su valor aumenta, por lo que no nos resulta útil la información que muestra el coeficiente para decidir si qué variables explicativas son incluidas o excluidas del modelo. Por lo que para evitar este problema definimos el coeficiente de determinación corregido de la siguiente forma:
A continuación calcularemos el estadístico F:
Bajo la hipótesis nula:
El estadístico F sigue una distribución de probabilidad:
F de Snedecor con (p,n-p-1) grados de libertad.
Veamos ahora otros contrastes, hemos mencionado anteriormente que
sigue una distribución normal, pero además, si la estandarizamos conseguiremos que siga una distribución N (0,1):
Una variable t de Student con k grados de libertad se define como:
Pues bien, para ver si una variable Xi es significativa o no, nos basaremos en el contraste individual de la t de Student,:
De ser cierta la hipótesis nula, nuestra variable no influiría sobre la variable respuesta. Así pues, si es cierto H0, el valor de t tiene que predecir de una:
Para n>30, esta distribución deja una probabilidad del 95% en el intervalo [-1.96, 1.96]. Por lo que si cuando calculamos |t|, este es mayor que 1.96, rechazaremos la hipótesis nula, y concluiremos que la variable i-ésima sí que influye en nuestra variable respuesta.Hablemos ahora de los intervalos de confianza, como hemos mencionado anteriormente, sabemos que:
por lo que a continuación afirmaremos:
Es decir,
Esto significa que con una confianza del 1-alpha:
Cuando n>30 y alpha=0.05, el intervalo se convierte en:
Y esto es todo por hoy ;). Recuerda que en el siguiente artículo (y final de la parte de Regresión), publicaremos la implementación de la resolución del ejercicio de ejemplo que hemos utilizado en el lenguaje de programación R.
¡No te lo pierdas!
Escrito por Fran Fenoll (@ffenoll16), Fran Ramírez (@cyberhadesblog y @cybercaronte) y Enrique Blanco (@eblanco_h) ambos del equipo de Ideas Locas CDO de Telefónica.
Artículos anteriores de esta serie:
- Las Matemáticas del Machine Learning ¿Qué debo saber?
- Las Matemáticas del Machine Learning: explicando la Regresión Lineal (I)
- Las Matemáticas del Machine Learning: Ejemplos de Regresión Lineal (II) y Multilineal.
Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube.
The post Las Matemáticas del Machine Learning: Ejemplos de Regresión Lineal (III) y Multilineal. Contraste y fiabilidad. appeared first on Think Big.