Enfoque basado en distancias de algunos métodos estadísticos multivariantes

Fortiana Gregori, Josep

Please use this identifier to cite or link to this item: http://hdl.handle.net/2445/35453

Title:	Enfoque basado en distancias de algunos métodos estadísticos multivariantes
Author:	Fortiana Gregori, Josep
Director/Tutor:	Cuadras, C. M. (Carlos María)
Keywords:	Anàlisi multivariable Multivariate analysis
Issue Date:	30-Oct-2001
Publisher:	Universitat de Barcelona
Abstract:	[spa] 1) Introducción Una de las aplicaciones estadísticas de la Geometría Métrica es la representación de conjuntos, consistente en determinar puntos en un espacio de métrica conocida (frecuentemente euclídea) cuyas distancias reproduzcan exacta o aproximadamente las observadas. Los Métodos de Regresión y Discriminación basados en Distancias, propuestos por Cuadras, proporcionan predicciones estadísticas aplicando propiedades geométricas de una representación euclídea. Tienen la ventaja de permitir el tratamiento de Variables continuas, cualitativas de tipo nominal y ordinal, binarias y, en general, cualquier mixtura de estas variables. Esta memoria es una contribución al estudio de estos métodos de predicción basados en distancias. En lo sucesivo emplearemos la abreviatura "DB" para referirnos él estos métodos. 2) Fundamento teórico de la predicción DB Supongamos que se ha medido una variable respuesta "Y" sobre un conjunto "U" de "n" objetos, definidos por unas coordenadas "Z", y se desea predecir el valor Y(n+l) de esta variable para un nuevo objeto "omega" definido por las coordenadas "Epsilon"(n+1). Aplicando una función distancia adecuada se obtiene una matriz "delta" de distancias entre los objetos "U", y de ella las coordenadas "X" de los "U" en cierto espacio euclídeo RP. Existe una expresión para las coordenadas euclídeas X(n+l) de "omega". Si "Y" es continua (regresión DB), la predicción Y(n+l) se obtiene calculando regresión lineal sobre las variables "X" y aplicando a X(n+1) la ecuación de regresión obtenida. Si "Y" es discreta, con estados que equivalen a sub-poblaciones de "U" (discriminación DB), se asigna "omega" a aquella subpoblación para la cual es mínima la distancia euclídea entre su centro de gravedad y X(n+l). Conviene observar que en la práctica no se emplean en general estas construcciones teóricas, sino cálculos equivalentes. 3) La distancia Valor Absoluto La elección de la función distancia es crítica para estos métodos. Para cada problema concreto se puede elegir una medida de distancia que refleje el conocimiento del modelo. Existen, sin embargo, algunas medidas de distancia "standard", adecuadas a gran número de problemas. Un caso notable es el de la distancia Valor Absoluto, cuya fórmula se aborda en esta tesis. Se ha observado que da lugar a predicciones excelentes, comparables a las de una regresión no lineal. Uno de los objetivos de este trabajo ha sido precisamente dar una justificación teórica a este buen comportamiento. En el teorema (2.2.1) se muestra que para todo conjunto "U" de puntos en R(n) existe una configuración de puntos en un espacio euclídeo R(P) que reproduce la matriz ele distancias valor absoluto entre los "U". Seguidamente se realiza el estudio teórico de la estructura de coordenadas principales asociada a esta distancia para "n" puntos sobre la recta real (al ser no bilineal la función distancia, en general "n-1" coordenadas son no triviales). El caso de puntos equidistantes se resuelve analíticamente, partiendo de una configuración euclídea inicial X(o) (convencional, con el único requerimiento de reproducir las distancias valor absoluto entre los puntos dados), y a partir de ella se obtienen las componentes principales. Las coordenadas principales resultan aplicando a la matriz X(o) la rotación resultante. Este método indirecto es más accesible que el usual para la obtención de Coordenadas Principales. En el teorema (2.4.1) se expresan los elementos de la columna "j" de la matriz de coordenadas principales como los valores de una función polinómica de grado "j" en unos puntos "z(i)" fijos. Este teorema se deduce del estudio de una familia paramétrica de matrices cuyo problema de valores y vectores propios se resuelve mediante una ecuación en diferencias. La fórmula de recurrencia se identifica como la de los polinomios de Chehychev. Empleando propiedades de estos polinomios se llega a expresiones explícitas. Estas matrices tienen notables propiedades combinatorias. En particular el teorema (3.3.1) muestra que todos sus vectores propios se obtienen aplicando a1 primero de ellos potencias de una matriz de permutación con signo. Si se dispone de un modelo paramétrico y de una distancia entre individuos estadísticos aplicable a dicho modelo, se puede emplear la versión para variables aleatorias de las funciones discriminantes. La distancia entre individuos más adecuada es la deducida de la Geometría Riemanniana de la variedad de parámetros, que tiene por tensor métrico la "Métrica de Rao". Se han calculado las funciones discriminantes DB para variables aleatorias que siguen algunas distribuciones conocidas. En particular, de la proposición (5.4.2), para variables multinomiales las funciones discriminantes DB coinciden con el tradicional estadístico Ji cuadrado, y de la (5.4.5), para variables normales con matriz de covarianzas común conocida, las funciones discriminantes DB coinciden con las clásicas (lineales) de Fisher. 4)Representación de Poblaciones Se propone una distancia entre poblaciones, obtenida como diferencia de Jensen a partir de promedios sobre las distancias entre los individuos. El teorema (5.5.1) permite interpretarla como distancia euclídea entre los centros de gravedad de los puntos que representan los individuos de cada población. Se demuestra que generaliza la de Mahalanobis, pues coincide con ella en poblaciones normales, si se emplea como distancia entre individuos la deducida de la Geometría Diferencial. Calculando esta distancia para todos los pares de sub-poblaciones se obtiene una matriz, a la que se aplica Multidimensional Scaling, dando lugar a un representación euclídea que generaliza el Análisis Canónico de Poblaciones clásico, es decir, para poblaciones normales se obtienen los mismos resultados que con dicho análisis. Este método no proporciona regiones de confianza para los valores medios de las poblaciones. Se sugiere el empleo de "bootstrap" para dicho cálculo. 5)Aspectos computacionales Se discuten algunos puntos relevantes de la implementación realizada de los algoritmos DB en los programas MULTICUA ®, así como de la estimación "bootstrap" de la distribución de probabilidad de las distancias entre poblaciones, con especial énfasis en las dificultades debidas a las grandes dimensiones de los objetos tratados. 6)Puntos arbitrarios sobre una recta En este caso se llega a una descripción cualitativa de las coordenadas principales, que permite todavía describir la primera coordenada como una dimensión lineal, la segunda como una dimensión cuadrática, la tercera como una dimensión cúbica, etc. La proposición (4.1.1) reduce el problema al estudio de los cambios de signo de las componentes de los vectores propios de una matriz "C". En (4.1.2) se muestra que "C" es oscilatoria, propiedad equivalente a la de tener todos los menores no negativos. Un teorema de Gantmacher sobre matrices oscilatorias da la descripción de los signos. 7)Coordenadas principales de una variable aleatoria uniforme La técnica empleada para obtener las coordenadas principales de un conjunto unidimensional discreto de puntos da lugar a una generalización aplicable a una distribución continua uniforme en el intervalo (0,1). La "configuración euclídea" de partida es un proceso estocástico con parámetro continuo. El cálculo de componentes principales se sustituye por el cálculo de las funciones propias de la función de covarianza del proceso, y de ellas una sucesión (numerable) de variables aleatorias centradas C(j). En (4.2.1) se muestra que estas variables son incorrelacionadas, igualmente distribuidas, y con una sucesión de varianzas sumable, de suma igual a la "variabilidad total" del proceso (traza del núcleo), y por ello el apropiado llamarlas "coordenadas principales de la variable aleatoria uniforme". Aplicando a este modelo de coordenadas principales el esquema de predicción DB se propone una medida de bondad de ajuste de una muestra a una distribución dada. 8)Análisis discriminante DB Las funciones discriminantes DB descritas más arriba pueden obtenerse directamente de los elementos de la matriz de distancias, sin precisar ninguna diagonalización, según resulta de (5.2.1) y (5.2.2). En consecuencia, el cálculo es rápido y efectivo. [eng] Distance Based (DB) Regression and Discrimination methods, proposed by Cuadras, give statistical predictions by exploiting geometrical properties of a Euclidean representation obtained from distances between observations. They are adequate to deal with mixed variables. Choice of a suitable distance function is a critical step. Some "standard" functions, however, fit a wide range of problems, and particularly the Absolute Value distance. This is explained showing that for "n" equidistant points on the real line, elements in the "j"-th row of the principal coordinate matrix are values of a "j"-th degree polynomial function. For arbitrary one-dimensional sets of points a qualitatively analogous result holds. Using results from the theory of random processes, a sequence of random variables is obtained from a continuous uniform distribution on the (0, 1) interval. Their properties show that they deserve the name of "Principal Coordinates". The DB prediction scheme in this case provides a goodness-of-fit measuring technique. DB discriminant functions are evaluated from distances between observations. They have a simple geometrical interpretation in the Euclidean representation of data. For parametric models, distances can be derived from the Differential Geometry of the parametric manifold. Several DB discriminant functions are computed using this approach. In particular, for multinomial variables they coincide with the classic Pearson's Chi Square statistic, and for Normal variables, Fisher's linear discriminant function is obtained. A distance between populations generalizing Mahalanobis' is obtained as a Jensen difference from distances between observations. It can be interpreted in terms of the Euclidean representation. Using Multidimensional Scaling, it originates a Euclidean representation of populations which generalizes the classical Canonical Analysis. Several issues concerning implementation of DB algorithms are discussed, specially difficulties related to the huge dimension of objects involved.
URI:	http://hdl.handle.net/2445/35453
ISBN:	9788469273869
Appears in Collections:	Tesis Doctorals - Departament - Estadística

Files in This Item:

File	Description	Size	Format
JFG_TESIS.pdf		774.17 kB	Adobe PDF	View/Open

Show full item record