Regresión lineal simple con R

Los datos

Los datos del fichero EdadPesoGrasas.txt corresponden a tres variables medidas en 25 individuos: edad, peso y cantidad de grasas en sangre. Para leer el fichero de datos y saber los nombres de las variables:

grasas <- read.table("http://www.uam.es/joser.berrendero/datos/EdadPesoGrasas.txt", 
    header = TRUE)
names(grasas)
## [1] "peso"   "edad"   "grasas"

Con el fin de conocer las relaciones existentes entre cada par de variables podemos representar una matriz de diagramas de dispersión. Al parecer existe una relación lineal bastante clara entre la edad y las grasas, pero no entre los otros dos pares de variables. Por otra parte el fichero contiene un dato atípico.

pairs(grasas)

plot of chunk unnamed-chunk-2

Para cuantificar el grado de relación lineal, calculamos la matriz de coeficientes de correlación:

cor(grasas)
##          peso   edad grasas
## peso   1.0000 0.2400 0.2653
## edad   0.2400 1.0000 0.8374
## grasas 0.2653 0.8374 1.0000

Cálculo y representacion de la recta de mínimos cuadrados

El comando básico es lm (linear models). El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (\( y \)) y cuál es la variable regresora o independiente (\( x \)). El segundo argumento, llamado data especifica cuál es el fichero en el que se encuentran las variables. El resultado lo guardamos en un objeto llamado regresion. Este objeto es una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados:

regresion <- lm(grasas ~ edad, data = grasas)
summary(regresion)
## 
## Call:
## lm(formula = grasas ~ edad, data = grasas)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -63.48 -26.82  -3.85  28.32  90.88 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  102.575     29.638    3.46   0.0021 ** 
## edad           5.321      0.724    7.35  1.8e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 43.5 on 23 degrees of freedom
## Multiple R-squared: 0.701,   Adjusted R-squared: 0.688 
## F-statistic:   54 on 1 and 23 DF,  p-value: 1.79e-07 
## 

Los parámetros de la ecuación de la recta de mínimos cuadrados que relaciona la cantidad de grasas en la sangre en función del peso vienen dados por la columna ´Estimate´ de la tabla ´Coefficients´ de la salida anterior. Por lo tanto, en este ejemplo la ecuación de la recta de mínimos cuadrados es:
\[ y = 102.575 + 5.321 x \]

Los siguientes comandos representan la nube de puntos (comando plot) y añaden la representación gráfica de la recta de mínimos cuadrados (comando abline aplicado al objeto generado por lm):

plot(grasas$edad, grasas$grasas, xlab = "Edad", ylab = "Grasas")
abline(regresion)

plot of chunk disp

El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es Multiple R-squared: 0.701.

Cálculo de predicciones

Supongamos que queremos utilizar la recta de mínimos cuadrados para predecir la cantidad de grasas para individuos de edades \( 31, 31, 32,\ldots, 50 \). Basta crear un fichero de datos que contenga las nuevas variables regresoras y usar el comando predict:

nuevas.edades <- data.frame(edad = seq(30, 50))
predict(regresion, nuevas.edades)
##     1     2     3     4     5     6     7     8     9    10    11    12 
## 262.2 267.5 272.8 278.2 283.5 288.8 294.1 299.4 304.8 310.1 315.4 320.7 
##    13    14    15    16    17    18    19    20    21 
## 326.0 331.4 336.7 342.0 347.3 352.6 358.0 363.3 368.6 

Por ejemplo, para un individuo de 30 años, predecimos una cantidad de grasas de 262.2

Inferencia en el modelo de regresión simple

Suponemos ahora que los datos proceden de un modelo de regresión simple de la forma:
\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \]
donde los errores aleatorios \( \epsilon_i \) son independientes con distribución normal de media 0 y varianza \( \sigma^2 \).

Bajo este modelo,

confint(regresion)
##              2.5 %  97.5 %
## (Intercept) 41.265 163.885
## edad         3.822   6.819
confint(regresion, level = 0.9)
##                5 %    95 %
## (Intercept) 51.780 153.370
## edad         4.079   6.562
nuevas.edades <- data.frame(edad = seq(20, 60))
# Grafico de dispersion y recta
plot(grasas$edad, grasas$grasas, xlab = "Edad", ylab = "Grasas")
abline(regresion)

# Intervalos de confianza de la respuesta media: ic es una matriz con tres
# columnas: la primera es la prediccion, las otras dos son los extremos
# del intervalo
ic <- predict(regresion, nuevas.edades, interval = "confidence")
lines(nuevas.edades$edad, ic[, 2], lty = 2)
lines(nuevas.edades$edad, ic[, 3], lty = 2)

# Intervalos de prediccion
ic <- predict(regresion, nuevas.edades, interval = "prediction")
lines(nuevas.edades$edad, ic[, 2], lty = 2, col = "red")
lines(nuevas.edades$edad, ic[, 3], lty = 2, col = "red")

plot of chunk intervalos

anova(regresion)
## Analysis of Variance Table
## 
## Response: grasas
##           Df Sum Sq Mean Sq F value  Pr(>F)    
## edad       1 101933  101933      54 1.8e-07 ***
## Residuals 23  43444    1889                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Diagnóstico del modelo

Los valores ajustados \( \hat y_i \) y los residuos \( e_i = \hat y_i - y_i \) se pueden obtener con los comandos residuals y fitted respectivamente. Los residuos estandarizados se obtienen con rstandard. Por ejemplo, el siguiente código obtiene una representación de los residuos estandarizados frente a los valores ajustados, que resulta útil al llevar a cabo el diagnóstico del modelo:

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados, residuos)

plot of chunk residuosVSajustados

No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.

La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo:

qqnorm(residuos)
qqline(residuos)

plot of chunk qqplot

Dado que los puntos están bastante alineados, la normalidad también parece aceptable.

Ejercicios

  1. Ajusta el modelo que explica la cantidad de grasas en función del peso.

  2. Supongamos que la variable regresora toma los valores \( x=1,2,\ldots,10 \). El siguiente código de R genera una muestra que sigue el modelo de regresión lineal (cuando \( \beta_0=0 \), \( \beta_1=1 \) y \( \sigma=0.3 \)), extrae el valor de la pendiente estimada \( \hat{\beta}_1 \) y resume los principales resultados.

# Variable regresora (dieño fijo) y parámetros
x = seq(1, 10)
beta0 <- 0
beta1 <- 1
sigma <- 0.3

# Genera la variable respuesta
y <- beta0 + beta1 * x + rnorm(length(x), sd = sigma)

# Ajusta el modelo
reg <- lm(y ~ x)

# Extrae el valor de la pendiente estimada
coefficients(reg)[2]

# Resume el ajuste
summary(reg)