lunes, 2 de enero de 2017

Análisis de Regresión

Ejercicio 11.69

El fabricante de autos Lexus ha aumentado continuamente sus ventas desde el lanzamiento de esa marca en 1989 en Estados Unidos. No obstante, el porcentaje de aumento cambió en 1996 cuando el Lexus introdujo una línea de camiones. Las ventas de vehículos Lexus de 1996 a 2003 se muestran en la siguiente tabla.
\[\begin{array}{r|l}\text{Año}&\text{Ventas}\\ \hline 1996&18.5\\1997&22.6\\1998&27.2\\1999&31.2\\2000&33\\2001&44.9\\2002&49.4\\2003&35\end{array}\]
  1. Denotando con \(Y\) las ventas y con \(x\) el año cifrado (–7 para 1996, –5 para 1997, hasta 7 para 2003), ajuste el modelo \(Y = \beta_0 + \beta_1 x + \varepsilon \).
  2. Para los mismos datos, ajuste el modelo \(Y = \beta_0 + \beta_1 x + \beta_2 x^2 +\varepsilon\).
  3. Encuentre un intervalo de confianza de \(90\%\) para \(\beta_2\).
  4. ¿Hay evidencia de un efecto cuadrático en la relación entre \(Y\) y \(x\)? (Pruebe \(H_0 \colon \beta_2 = 0\).) Use \(\alpha = 0.10\).
  5. Encuentre un intervalo de predicción de \(98\%\) para las ventas del Lexus en 2004. Use el modelo cuadrático.

Solución

Enlace para los cálculos en GeoGebra: https://drive.google.com/open?id=0B_We6HBlW22dd2RVd25wR3RUcDQ.
Matrices preliminares:
\[\text{Matriz \(X\) para modelo lineal:} \quad X_1=\left(\begin{array}{rr}1&-7\\1&-5\\1&-3\\1&-1\\1&1\\1&3\\1&5\\1&7 \end{array}\right),\] \[\text{Matriz \(X\) para modelo cuadrático:} \quad X_2=\left(\begin{array}{rrr}1&-7&49\\1&-5&25\\1&-3&9\\1&-1&1\\1&1&1\\1&3&9\\1&5&25\\1&7&49 \end{array}\right),\] \[\text{Vector \(Y\) para ambos modelos:} \quad Y=\left(\begin{array}{r}18.5\\22.6\\27.2\\31.2\\33\\44.9\\49.4\\35 \end{array}\right).\]

Cálculo de las estimaciones para los modelos propuestos

Según la nomenclatura en el archivo de GeoGebra.
\[XX_1 = (X_1^t X_1)^{-1}=\left(\begin{array}{rr}0.125&0\\0&0.00595\end{array}\right),\] \[XY_1=X_1^tY = \left(\begin{array}{r}261.8\\304.4\end{array}\right) \] en forma análoga obtenemos \[XX_2=\left(\begin{array}{rrr}0.28906&0&-0.00781\\0&0.00595&0\\-0.00781&0&0.00037\end{array}\right)\]\[XY_2=\left(\begin{array}{r}261.8\\304.4\\5134.6\end{array}\right)\] Tenemos las estimaciones para el modelo lineal \[beta1 =\hat{\beta}_1 =  \left(\begin{array}{r}32.725\\1.8119\end{array}\right),\] ecuación \(Y=1.8119\; x + 32.725;\) modelo cuadrático \[beta2= \hat{\beta}_2= \left(\begin{array}{r}35.5625\\1.8119\\-0.13512\end{array}\right),\] ecuación \(Y=-0.13512 \; x^{2} + 1.8119 \; x + 35.5625\).

Intervalo de confianza y prueba de hipótesis para \(\beta_2\)

Dado que el nivel de confianza es de 90% y la prueba de hipótesis tiene una significación de 10%, el valor de la tabla coincide y vale \(t_{(0.05,5)} = 2.01505\), ya que \(n=8\) y se estimaron \(k+1=3\) parámetros.

Margen de error para intervalo de confianza, con varianza \(vrnz_{2}=S_2^2=33.72719\) y tomar el elemento \(3\times 3\) de la matriz \((X_2^t X_2)^{-1}\), tenemos \(Merror_{3,4}=t_{3,4} \sqrt{V(\hat{\beta_2})} = 2.01505\times \sqrt{33.72719 \times 0.00037} \approx 0.22572\), de esto \(-0.13512 \pm 0.22572\), y así \[-0.36084\leq \beta_2 \leq 0.0906\] como el intervalo incluye al cero, es probable que el término cuadrático no sea significativo en el modelo.

Hipótesis \(H_0\colon \beta_2=0\), \(H_1\colon \beta_2 \neq 0\). Los valores críticos para la región de rechazo \(t_{(0.05,5)} = \pm 2.01505\). El valor de prueba \[ t_{prueba} = \frac{-0.13512}{\sqrt{33.72719 \times 0.00037}} \approx -1.20626, \] queda dentro de la zona de no rechazo. Podemos concluir que el término cuadrático no es significativo.

Intervalo de predicción cuando \(x=9\)

Construcción del vector \(a\), con las asignaciones \(X_1=9\) (equivalente al año 2004) y \(X_2=9^2=81\), \[a=\left(\begin{array}{r}1\\9\\81\end{array}\right).\] Estimación puntual \(a^t \hat{\beta_2} = 40.925\), con 98% de confianza tenemos \(t_5=3.36493\), margen de error \[Merror_{5}=t_{5} S_2 \sqrt{1+a^t (X_2^2X_2)^{-1}a}\approx 33.54394.\] Con lo anterior \(40.925 \pm 33.54394\) y con un 98% de confianza \(7.38105 \leq \hat{Y}^{*}\leq 74.46895\).

Nota: La predicción la debemos hacer con el modelo lineal (previa verificación de \(\beta_1\)), ya que descartamos el término cuadrático.