Diabetes

Dades Diabetis

Descripció

El data frame de diabetes té 442 files i 3 columnes. Aquestes són les dades utilitzades al document "Least Angle Regression".

Efron, B.; Hastie, T.; Johnstone, I.; Tibshirani, R.: Least Angle Regression. \textit{Annals of Statistics}. Vol 32, No.2 (2004), pp. 407-499

Format

Aquest data frame conté les columnes següents:

  1. x una matriu amb 10 columnes que inclou: edat, sexe, índex de massa corporal (bmi),pressió arterial mitjana (mapa) i sis mesures de sèrum sanguini (tc, ldl, hdl, tch, ltg, glu)

  2. y un vector numèric: mesura de la progressió de la malaltia.

  3. x2 una matriu amb 64 columnes

Font

http://www-stat.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.ps

Detalls

La matriu x està estandaritzada i centralitzada. La matriu x2consisteix en la matriu x amb diverses interaccions de les variables explicatives.

Referències

Efron, Hastie, Johnstone and Tibshirani (2003) "Least Angle Regression" (with discussion) Annals of Statistics

Objectiu

Utilitzarem les dades per examinar els efectes de deu variables predictores basals i sis mesures de sèrum sanguini sobre una mesura quantitativa de la progressió de la malaltia un any després de la línia basal.

Primer obrim la llibreria lars on es troben totes les funcions del paquet lars que utilitzarem i la base de dades diabetes.

Comencem calculant la trajectòria dels coeficients mitjançant la regressió lasso i lar, respectivament, utilitzant la funció lars.

Ara utilitzem la funció plot.lars per realitzar el gràfic que ens permet veure l'estimació dels coeficientes del model ajustat respecte a la norma L1.

Podem veure que el lasso i el lar produeixen camins de solucions bastant semblants entre ells.

Després apliquem la funció cv.lars per obtenir el valor de $\lambda$ que minimitza l'error de predicció, mitjançant la validació encreuada, utilitzant dos modes diferents: step i fraction.

Ara extraiem el valor de la $\lambda$ que fa mínim l'error de la validació encreuada, obtingut per la validació encreuada efectuada anteriorment (mitjançant el mode step).

Finalment utilitzem la funció predict() per reajustar els coeficients utilitzant el valor de la $\lambda$ resultant de la validació encreuada.

Ara extraiem el valor de la $\lambda$ que fa mínim l'error de la validació encreuada, obtingut per la validació encreuada efectuada anteriorment (mitjançant el mode fraction).

Finalment utilitzem la funció predict() per reajustar els coeficients utilitzant el valor de la $\lambda$ resultant de la validació encreuada.

Comparacions

Ara compararem els camins dels coeficients que produeix la funció lars amb la trajectòria dels coeficients que ens proporciona la funció glmnetque utilitza el descens seguint les coordenades.

Com a conclusió podem veure que els dos mètodes per a calcular els coeficients del lasso funcionen de manera molt semblant en aquest cas amb la base de dades de diabetis.