Tesis Doctorals - Departament - Estadística
URI permanent per a aquesta col·leccióhttps://hdl.handle.net/2445/35442
Examinar
Enviaments recents
Mostrant 1 - 20 de 37
- TesiComputational modeling of inverting glycosyltransferase reaction mechanisms(Universitat de Barcelona, 2024-12-12) Piniello Castillo, Beatriz; Rovira i Virgili, Carme; Universitat de Barcelona. Facultat de Química[eng] Carbohydrates, often referred to as sugars, are essential biomolecules found in all living organisms. While they are well-known for their role in providing energy, carbohydrates also play critical roles in various other biological processes, including the formation of structural components like plant cell walls and the facilitation of cell communication. This wide array of functions is related to the remarkable diversity of carbohydrates: they are made up of different types of monomers that can be linked together in numerous configurations, creating molecules of varying complexity and size. The high diversity of carbohydrates in Nature also requires a multitude of enzymes responsible for catalyzing reactions such as their synthesis, modification, or hydrolysis. These enzymes, known as carbohydrate-active enzymes (CAZymes), are essential for the correct functioning of cells. In this work, we have focused on a specific type of CAZymes: glycosyltransferases (GTs), which accelerate the formation of new glycosidic bonds. In other words, GTs catalyze the creation of linkages between sugars and other carbohydrates, or other biomolecules such as lipids or proteins. More specifically, we have investigated inverting glycosyltransferases, which catalyze the formation of these new bonds with inversion of the anomeric carbon configuration. The “textbook” mechanism followed by inverting GTs is an SN2 one-step reaction in which the acceptor molecule is deprotonated by a general base residue within the active site. However, the specific details of this mechanism can vary across different enzymes. Our goal is to elucidate the mechanism of selected inverting GTs using computational chemistry methods, primarily classical molecular dynamics, quantum mechanics/molecular mechanics (QM/MM), and metadynamics. Our simulations, in conjunction with experimental results obtained by collaborators from other groups, have revealed the reaction mechanism details of four inverting GTs. These four GTs of interest are of high biomedical and biotechnological importance and are related to the synthesis of protein glycoconjugates. Moreover, some of these enzymes exhibit unique features that set them apart from other inverting GTs, making their study even more compelling. A deeper understanding of their catalytic mechanisms could aid the future development of inhibitors and guide the design of enzyme modifications for biotechnological applications. The first enzyme we study is α-Mannoside β-1,6-N-acetylglucosaminyltransferase V (or MGAT5), an inverting GT that catalyzes the transfer of GlcNAc to developing N-glycans on the surface of proteins. We reconstructed its Michaelis complex and uncovered the details of its mechanism. The second enzyme is protein O-fucosyltransferase 1 (POFUT1). POFUT1 transfers fucose to threonine or serine residues on epidermal growth factor-like (EGF-LD) peptides. We determined the mechanism of the enzyme, particularly the deprotonation of the acceptor threonine in absence of a general base residue in the active site, that we found proceeded through an active site asparagine undergoing tautomerization. The third enzyme studied was non-LEE encoded effector protein B 1 (NleB1). NleB1 catalyzes the transfer of GlcNAc to arginine residues on protein death domains, in contrast to the more common N-glycosylation of asparagine. One of the main questions for this enzyme is how an arginine can perform this reaction, as it is poor nucleophile due to the positive charge of its guanidinium ion. We determined its mechanism using path-metadynamics, a modification on the protocol followed in the other sections of the Thesis. Finally, we studied a bacterial N- glycosyltransferase (NGT). Bacterial NGTs glycosylate asparagine on the surface of peptides using UDP-Glc as donor, as opposed to the more ubiquitous OST enzyme. Here, we reconstruct its Michaelis complex and uncover its catalytic mechanism, that operates without a general base.
Tesi
Support Vector Machines for Survival Analysis: Methods and Variable Relevance = Màquines de Suport Vectorial per Anàlisi de la Supervivència: Mètodes i Rellevància de Variables(Universitat de Barcelona, 2017-07-19) Sanz Ródenas, Héctor; Reverter Comes, Ferran; Universitat de Barcelona. Departament d'Estadística[eng] The process of creating an efficacious malaria vaccine is complex due to the characteristics of the disease that are directly related to the responsible parasite. In the disease-vaccine interaction several aspects need to be taken into account to improve and understand the vaccine and for that reason different types of data need to be analyzed. Current assays technology allows analyzing several proteins simultaneously with a small blood volume. The combination of the medium throughput dataset of some assays and the small sample size of some malaria studies may hinder the use of classical statistical methods. In the context of low number of observations and medium or high number of variables the support vector machines (SVM) models are a powerful tool to analyze sparse data, i.e., data in which the number of predictors is larger or approximately equal to the number of observations, especially when handling binary outcomes. However, biomedical research often involves analysis of time-to-event outcomes. Several methods have been tested in the literature to deal with censored data into the SVM framework. Most of these methods are based on a support vector regression (SVR) approach and results found in the literature suggest no significant differences with Cox proportional hazards model and kernel Cox regression. Another perspective is a SVM for binary classification, however, almost no work has been done into this approach: only SVM learning using privileged information and SVM with uncertain classes have been described. This PhD thesis aims to propose alternative methods and extensions to the ones existing in the binary classification framework, specifically, proposing a conditional survival approach for weighting censored observations, a semi-supervised SVM with local invariances perspective and evaluating a weighted SVM model. Another important aspect in biomedical research is to identify the relevance of the variables in a model, i.e., which variables are important related to the response variable. In the SVM framework most of the work done is related to linear kernels, however, the main advantage of SVM is using non-linear kernels. This PhD thesis aims to propose three approaches based on the Recursive Feature Elimination (RFE) algorithm to rank variables based on non-linear SVM and SVM for survival analysis. Moreover, the proposed algorithms are focused on interpretation and visualization of each one the RFE iterations, allowing to identify relevant variables associated with the response variable and among predictor variables. After evaluating all proposed methods in a simulation study under several scenarios, a real dataset applying these methods has been analyzed: the Mal067 data aims to identify immune responses correlated with protection from malaria that were elicited by the malaria RTS,S vaccine and by natural immunity. All SVM for survival analysis methods have been implemented in R, since neither R packages nor R functions have been found.Tesi
Methods and Models for the Analysis of Biological Signifïcance Based on HighThroughput Data(Universitat de Barcelona, 2014-12-12) Mosquera Mayo, José Luís; Sànchez, Àlex (Sànchez Pla); Oller i Sala, Josep Maria; Universitat de Barcelona. Departament d'Estadística[cat]L'aparició de les tecnologies d'alt rendiment ha generat una quantitat ingent de dades òmiques. Els resultats d'aquests experiment són llargues llistes de gens, que poden ser utilitzats com a biomarcadors. Un dels grans reptes dels investigadors experimentals és atribuir una interpretació o significació biològica a aquests biomarcadors potencials, ja be sigui extraient la informació bioblògica emmagatzemada en recursos com la Gene Ontology (GO) o la Kyoto Encyclopedia of Genes and Genomes (KEGG), o be combinant-les amb altres dades òmiques. Els objectius de la tesis eren: primer, estudiar les propietats matemàtiques de dos tipus de mesures de similaritat semàntica per a explorar categories GO, i segon, classificar i estudiar l'evolució de les eines GO per a l'anàlisi d'enriquiment. La primera mesura de similaritat semàntica considerada, proposada per en Lord et al., es fonamentava en la teoria de grafs, i la segona era un grup de pseudo-distàncies, proposades per Joslyn et al., fonamentades en la teoria dels Partially Ordered Sets (POSETs). L'estudi de les eines GO es va basar en les primeres 26 eines disponibles al web del The GO Consortium. S'ha vist que la mesura d'en Lord et al. és la mateixa mesura que la d'en Resnik, anteriorment publicada. S'ha observat una analogia en la forma de mapejar els gens a la GO via grafs i/o via POSETs. S'han proposat una propietat i un corol·lari que permeten calcular matricialment les la primera mesura de similaritat semàntica. S'ha demostrat que ambdues mesures estan associades a la distància mètrica. A'ha desenvolupat un paquet R, anomenat sims, que permet calcular similaritats semàntiques d'una ontologia arbitraria i comparar perfils de similaritat semàntica de la GO. S'ha proposat un Conjunt de Funcionalitats Estàndard per a classificar eines GO i s'ha desenvolupat un programari web, anomenat SerbGO, dirigit a seleccionar i comparar eines GO. L'estudi estadístic ha revelat que els promotors de les eines GO han introduït millores al llarg del temps, però no s'han detectat models ben definits. S'ha desenvolupat una ontologia, anomenada DeGOT, que proporciona un vocabulari als desenvolupadors per a introduir millores a les eines o dissenyar una de nova.Tesi
lnvestigación comparativa de la eficiencia (COMER): Metanálisis de estudios coste-efectividad sobre distribuciones cópulas(Universitat de Barcelona, 2014-11-05) Crespo Palomo, Carlos; Ríos Alcolea, Martín; Monleón Getino, Toni; Ocaña i Rebull, Jordi; Universitat de Barcelona. Departament d'Estadística[spa]La evaluación económica de tecnologías sanitarias supone un conjunto de herramientas que tienen como finalidad examinar las consecuencias que tiene, en el corto y largo plazo, la utilización de las tecnologías sanitarias en los individuos y en la sociedad en su conjunto. Puesto que existen múltiples alternativas donde asignar dichos recursos, la evaluación económica trata de poner al alcance de los decisores del ámbito sanitario aquella información relevante desde el punto de vista de la eficiencia. Es por ello que la estadística se ha convertido en una pieza clave cada vez más necesaria para mejorar y desarrollar nuevos métodos para la evaluación económica. Actualmente las revisiones sistemáticas y su metanálisis de estudios de evaluación económica consisten en una descripción narrativa de los estudios realizando sólo el metanálisis de cada uno de sus componentes y obviando la relación existente entre costes y efectos. En esta tesis se ha desarrollado un nuevo método para llevar a cabo el metanálisis de estudios coste-efectividad, bautizándolo como COMER (del inglés, Comparative Eficiency Research). El metanálisis propuesto consiste en la estimación del beneficio monetario neto incremental total (TINB), ponderación de los beneficios monetarios netos incremental (INB) de cada estudio a partir de la inversa de la varianza. Para validar el método se estudió cómo incorporar la estructura de dependencia entre costes y efectos mediante las distribuciones cópulas. De tal forma que se simuló la distribución Frank Copula con dependencia positiva donde se asoció a las distribuciones marginales la distribución lognormal para costes y la distribución gamma para desutilidades. Se crearon cohortes hipotéticas variando el tamaño muestral y asumiendo tres escenarios con todas las combinaciones posibles: alternativa coste-efectiva, alternativa no coste-efectiva y alternativa dominante. Se comparó el resultado del COMER con resultado teórico en función del ratio coste-efectividad incremental y el INB, asumiendo un margen de error de 2.000 y 500 unidades monetarias, respectivamente. Adicionalmente, se estimó cual sería el tamaño muestral mínimo para poder obtener mediante COMER una estimación ajustada con un probabilidad alta (>70%). También se evaluó en qué medida el tamaño muestral permite alcanzar la convergencia a la τ de Kendall original. Para poder aplicarse esta aproximación del metanálisis mediante el TINB será necesario que en las evaluaciones económicas futuras se incorpore como resultado la matriz de covarianzas de la diferencia de costes y efectos. En el capítulo 1 de la tesis se hace una revisión de los conceptos de evaluación económica ahondando en qué métodos estadísticos se aplican en cada caso, así como cuál es el uso de los metanálsis. En este mismo capítulo se describen la teoría subyacente en las distribuciones cópulas y la utilización residual en el ámbito de la evaluación económica. En el capítulo 2 se indican tanto el objetivo general como los objetivos específicos de estudiar como incorporar la simulación a nivel de paciente en un estudio coste-efectividad de microsimulación y como incorporar la estructura de correlación en las simulaciones basado en regresiones. En el capítulo 3 se incluyen los informes de los directores de la tesis para los cuatro artículos incluidos en la misma. En el capítulo 4 se realiza la discusión de los cuatro artículos, profundizando en el método COMER. Los artículos propiamente se pueden localizar en el capítulo 6, así como un resumen de los mismos. Se han incorporado dos apéndices con el código en R que permiten ejecutar el método.Tesi
Métodos estadísticos para tratar incertidumbre en estudios de asociación genética: aplicación a CNVs y SNPs imputados(Universitat de Barcelona, 2014-09-18) Subirana Cachinero, Isaac; González Ruiz, Juan Ramón; Monleón Getino, Toni; Oller i Sala, Josep Maria; Universitat de Barcelona. Departament d'Estadística[spa] En los últimos años, se han descubierto un gran número de variantes genéticas de distinta naturaleza, desde las más simples que indican un cambio en un nucleótido (SNPs), hasta otras más complejas referentes al número de copias de un segmento de la cadena de ADN (CNVs). A pesar de que existen otras muchas variantes, como son las inversiones, microsatélites, etc., esta tesis se ha focalizado en los SNPs y en los CNVs, ya que son los dos tipos de variantes más analizadas en los estudios de epidemiología genética. En muchas situaciones, los métodos para analizar el efecto que tienen los SNPs o los CNVs sobre las enfermedades están bien resueltos. Sin embargo, en algunos casos, los SNPs y los CNVs se observan con incertidumbre. Por ejemplo, a veces el genotipo para un SNP no se observa directamente sino que se imputa. A su vez, establecer el número de copias para un CNV se hace de forma indirecta a partir de la señal cuantitativa de su sonda (probe). Esto hace que se requieran métodos estadísticos “no estándar” apropiados para estudiar la asociación entre SNPs imputados o CNVs incorporando esta incertidumbre. En la literatura se han descrito diferentes estrategias para afrontar los estudios de asociación entre una variante genética medida con incertidumbre y una variable respuesta: (i) la estrategia Naive y (ii) la estrategia conocida como Dosage. A grosso modo, la primera no tiene en cuenta la incertidumbre, mientras que la segunda lo hace de forma aproximada. En esta tesis doctoral se proponen y describen analíticamente modelos estadísticos para tratar datos genéticos medidos con incertidumbre que solventen las limitaciones que presentan los métodos existentes. Se demuestra que dichos modelos tienen la característica de incorporar la incertidumbre de forma adecuada en la función de verosimilitud. Además, se han escrito algoritmos numéricos para maximizar la función de verosimilitud de manera eficiente, a fin de poder analizar centenares de miles de variantes genéticas (estudios conocidos como GWAS –Genome Wide Association Studies-). El modelo propuesto es capaz de analizar distintos tipos de variable respuesta: binario (presencia o no de cierta enfermedad), cuantitativa (nivel de colesterol en sangre) ó censurada (tiempo hasta recaída). No sólo se han diseñado técnicas para el análisis de las variantes genéticas de forma individual sino también para pares simultáneamente (interacciones). Todo ello se ha implementado en distintas funciones estructuradas e integradas como parte de un programa de código libre y de uso común en la epidemiología genética como es R. Además, se ha escrito parte del código de las funciones en lenguaje C++ a fin de que los cálculos sean mucho más rápidos. El resultado ha sido la creación de un package de R llamado CNVassoc juntamente con un extenso manual de uso con numerosos ejemplos e instrucciones (vignette). Los artículos que conforman esta tesis son los siguientes: • “Accounting for uncertainty when assessing association between copy number and disease: a latent class model”, donde se presenta y describe el modelo propuesto. • “Genetic association analysis and meta-analysis of imputed SNPs in longitudinal studies”, donde se amplía el modelo al análisis de SNPs imputados en estudios con respuesta del tipo “tiempo hasta evento” (longitudinales). • “Interaction association analysis of imputed SNPs in case control and longitudinal studies”, donde se aplica el modelo a interacciones de pares de SNPs imputados en estudios de casos y controles y en estudios longitudinales. • “CNVassoc: Association analysis of CNV data using R”, en que se describe el package desarrollado e implementado en R junto con su vignette.Tesi
Statistical Methods for the Modelling of Label-Free Shotgun Proteomic Data in Cell Line Biomarker Discovery(Universitat de Barcelona, 2014-07-11) Gregori Font, Josep; Sànchez, Àlex (Sànchez Pla); Villanueva i Cardús, Josep; Ocaña i Rebull, Jordi; Universitat de Barcelona. Departament d'Estadística[cat] En la tesi s'ha desenvolupat, dissenyat i implementat una solució per l'anàlisi de dades de proteòmica comparativa en descobriment de biomarcadors. Específicament la solució s'ha optimitzat per l'anàlisi de secretomes de línies cel•lulars tumorals per LC-MS/MS sense marcatge, i quantificant pel nombre d'espectres de pèptids assignats a cada proteïna. Durant el desenvolupament de la metodologia s'ha demostrat la incidència i rellevància dels efectes batch en l'anàlisi comparatiu de pèptits sense marcar per LC-MS/MS. Així com les característiques que identifiquen un potencial biomarcador com a reproductible. Els models s'han desenvolupat amb l'ajut de dades empíriques obtingudes de mostres amb mescles controlades de proteïnes, i de simulacions. La solució informàtica que implementa el model desenvolupat consta de dos paquets R/Bioconductor, amb les respectives interfícies gràfiques que faciliten el seu ús a no experts. El primer paquet, msmsEDA, consta de funcions útils en l'anàlisi exploratòria de dades, i permet avaluar la qualitat del conjunt de dades d'un experiment de LC-MS/MS basat en comptatge d'espectres, així com explorar l'eventual presència de valors extrems, factors de confusió, o d'efectes batch. El segon paquet, msmsTests, encapsula funcions per la inferència en el descobriment de biomarcadors. El model emprat és un GLM que contempla la inclusió de factors per blocs per la correcció d'efectes batch, i incorpora una normalització generalitzada per offsets que permet la comparació de secretoma al nivell d'una cel•lula. Les distribucions implementades són la de Poisson i la binomial negativa, així com l'extensió de la quasiversemblança. En conjut el model desenvolupat i la implementació informàtica que se'n ha fet permet: • Avaluar la qualitat d'un conjunt de dades de LC-MS/MS. • Identificar valors extrems. • Identificar la presència de factors de confusió o d'efectes batch. • El descobriment de biomarcadors emprant la distribució que millor s'ajusti a les dades. • Assegurar un bon nivell de reproductibilitat mercès a un filtre post-test. Els paquets i llur documentació es troben lliurement disponibles a bioconductor.org, i les interfícies gràfiques a github.com.Tesi
Modelos lineales generalizados geoestadísticos basados en distancias(Universitat de Barcelona, 2013-07-23) Melo Martínez, Oscar Orlando; Mateu, Jorge; Oller i Sala, Josep Maria; Universitat de Barcelona. Departament d'Estadística[spa] En esta tesis se hace una mezcla del método de distancias con los modelos lineales generalizados mixtos tanto en lo espacial como en lo espacio-temporal. Con el empleo de las distancias se logran buenas predicciones y menores variabilidades en el espacio o espacio-tiempo de la región de estudio, provocando todo esto que se tomen mejores decisiones en los diferentes problemas de interés. Se propone un método alternativo para ajustar una variable respuesta tipo beta con dispersión variable usando distancias euclidianas entre los individuos. Se emplea el método de máxima verosimilitud para estimar los parámetros desconocidos del modelo propuesto y se presentan las principales propiedades de estos estimadores. Además, se realiza la inferencia estadística sobre los parámetros utilizando las aproximaciones obtenidas a partir de la normalidad asintótica del estimador de máxima verosimilitud; se desarrolla el diagnóstico y predicción de una nueva observación, y se estudia el problema de datos faltantes utilizando la metodología propuesta. Posteriormente, se propone una solución alterna para resolver problemas como el de prevalencia de Loa loa utilizando distancias euclidianas entre individuos; se describe un modelo lineal generalizado espacial mixto incorporando medidas generales de distancia o disimilaridad que se pueden aplicar a variables explicativas. En este caso, los parámetros involucrados en el modelo propuesto se estiman utilizando máxima verosimilitud mediante el método de Monte Carlo vía cadenas de Markov (MCMC). También se formula un modelo lineal beta espacial mixto con dispersión variable utilizando máxima verosimilitud mediante el método MCMC. El método propuesto se utiliza en situaciones donde la variable respuesta es una razón o proporción que esta relacionada con determinadas variables explicativas. Para este fin, se desarrolla una aproximación utilizando modelos lineales generalizados espaciales mixtos empleando la transformación Box-Cox en el modelo de precisión. Por lo tanto, se realiza el proceso de optimización de los parámetros tanto para modelo espacial de media como para el modelo espacial de dispersión variable. Además, se realiza la inferencia estadística sobre los parámetros utilizando las aproximaciones obtenidas a partir de la normalidad asintótica del estimador de máxima verosimilitud. También se desarrolla el diagnóstico del modelo y la predicción de nuevas observaciones. Por último, el método se ilustra a través de los contenidos de arcilla y magnesio. Adicionalmente, se describe el modelo basado en distancias para la predicción espacio-temporal usando modelos lineales generalizados. Se realiza el proceso de estimación de los parámetros involucrados en el modelo propuesto, mediante el método de ecuaciones de estimación generalizada y la inferencia estadística sobre los parámetros empleando las aproximaciones obtenidas a partir de la normalidad asintótica del estimador de máxima verosimilitud. Además, se desarrolla el diagnóstico del modelo y la predicción de nuevas observaciones. Se realiza una aplicación de la metodología propuesta para el número de acciones armadas estandarizada por cada 1000 km2 de los grupos irregulares FARC-EP y ELN en los diferentes departamentos de Colombia entre los años 2003 a 2009. Finalmente, se presenta un modelo autorregresivo espacial lineal generalizado mixto utilizando el método basado en distancias. Este modelo incluye retrasos tanto espaciales como temporales entre vectores de variables de estado estacionarias. Se utiliza la dinámica espacial de los datos econométricos tipo panel para estimar el modelo propuesto; los parámetros involucrados en el modelo se estiman utilizando el método MCMC mediante máxima verosimilitud. Además, se discute en este capítulo la interacción entre estacionariedad temporal y espacial, y se derivan las respuestas al impulso para el modelo propuesto, lo cual naturalmente depende de la dinámica temporal y espacial del modelo.Tesi
Análisis geoestadístico espacio tiempo basado en distancias y splines con aplicaciones(Universitat de Barcelona, 2012-09-06) Melo Martínez, Carlos Eduardo; Mateu, Jorge; Monleón Getino, Toni; Universitat de Barcelona. Departament d'Estadística[spa] Se propusieron innovaciones en la predicción espacio y espacio-temporal, a partir de métodos geoestadísticos y de funciones de base radial (RBF), considerando métodos basados en distancias. En este sentido, por medio de las distancias entre las variables explicativas, incorporadas específicamente en la regresión basada en distancias, se propusieron modificaciones en: el método kriging universal y en la interpolación con splines espacial y espacio-temporal usando las RBF. El método basado en la distancia se utiliza en un modelo Geoestadístico para estimar la tendencia y la estructura de covarianza. Esta estrategia aprovecha al máximo la información existente, debido a la relación entre las observaciones, mediante el uso de una descomposición espectral de una distancia seleccionada y las coordenadas principales correspondientes. Para el método propuesto kriging universal basado en distancias (DBUK), se realizó un estudio de simulación que permitió comparar la capacidad predictiva del método tradicional kriging universal con respecto a kriging universal basado en distancias; mientras que en la interpolación con Splines espacial y espacio-temporal, los estudios de simulación permitieron comparar el funcionamiento de las funciones de base radial espaciales y espaciotemporales, considerando en la tendencia las coordenadas principales generadas a partir de las variables explicativas mixtas mediante el uso del método basado en distancias. El método propuesto DBUK muestra, tanto en las simulaciones como en las aplicaciones, ventajas en la reducción del error con respecto al método clásico de krigeado universal. Esta reducción de los errores se asocia a una mejor modelización de la tendencia y a un menor error en el ajuste y modelado del variograma, al considerar las coordenadas principales obtenidas a partir de las variables explicativas mixtas. Entre muchas otras posibles causas, el error es generado por omisión de variables y por considerar formas funcionales incorrectas. El estudio de simulación muestra que el método propuesto DBUK es mejor que el método de krigeado universal tradicional ya que se encontró una notoria reducción del error, asociada a un RMSPE más pequeño, esta reducción en general fue superior al 10%. El método DBUK podrá producir una mejor estimación de la variable regionalizada si el número de coordenadas principales se incrementa. Esto es posible, incluyendo las coordenadas principales más significativas tanto en modelo de tendencia como en el variograma; se presenta una aplicación que ilustra este hecho. Los métodos propuestos de interpolación espacial basada en distancias con RBF (DBSIRBF) e interpolación espacio-temporal basada en distancias con RBF (DBSTIRBF) analizados mediante una estructura de krigeado considerando en la tendencia las coordenadas principales, presentan un buen funcionamiento al trabajar con vecindarios grandes, indicando en general que se tendrá un menor error asociado a un RMSPE más pequeño En diversos estudios, la detección de variabilidad entre zonas es una tarea muy difícil, y por lo cual los métodos propuestos DBUK, DBSIRBF y DBSTIRBF son útiles de acuerdo a los resultados obtenidos en la tesis, ya que aprovechan al máximo la información existente asociada a las variables explicativas. Aunque la correlación de las variables explicativas puede ser baja con respecto a la variable respuesta, el punto clave en los métodos propuestos es la correlación entre las coordenadas principales (construida con las variables explicativas) y la variable respuesta. Los métodos propuestos se aplicaron a datos agronómicos (Concentración de calcio medido a una profundidad de 0-20 cm de Brasil) y climatológicos (Temperaturas medias diarias de la Tierra en Croacia en el año 2008). Los resultados de validación cruzada “leave-one-out” mostraron un buen rendimiento de los predictores propuestos, lo cual indica que se pueden utilizar como métodos alternos y validos a los tradicionales para el modelado de variables correlacionadas espacialmente y espacio-temporalmente, considerando siempre covariables en la remoción de la tendencia.Tesi
Contribuciones a la dependencia y dimensionalidad en cópulas(Universitat de Barcelona, 2013-01-18) Díaz, Walter; Cuadras, C. M. (Carlos María); Universitat de Barcelona. Departament d'Estadística[spa] El concepto de dependencia aparece por todas partes en nuestra tierra y sus habitantes de manera profunda. Son innumerables los ejemplos de fenómenos interdependientes en la naturaleza, así como en aspectos médicos, sociales, políticos, económicos, entre otros. Más aún, la dependencia es obviamente no determinística, sino de naturaleza estocástica. Es por lo anterior que resulta sorprendente que conceptos y medidas de dependencia no hayan recibido suficiente atención en la literatura estadística. Al menos hasta 1966, cuando el trabajo pionero de E.L. Lehmann probó el lema de Hoeffding. Desde entonces, se han publicado algunas generalizaciones de este. Nosotros hemos obtenido una generalización multivariante para funciones de variación acotada que agrupa a las planteadas anteriormente, al establecer la relación entre los planteamiento presentados por Quesada-Molina (1992) y Cuadras (2002b) y extendiendo este último al caso multivariante. Uno de los conceptos importante en la interpretación estadística esta relacionada con la dimensión. Es por eso que hemos definido la dimensionalidad geométrica de una distribución conjunta H en función del cardinal del conjunto de correlaciones canónicas de H, si H se puede representar mediante una expansión diagonal. La dimensionalidad geométrica ha sido obtenida para algunas de las familias de cópulas más conocidas. Para determinar la dimensionalidad de algunas de las copulas, se utilizaron métodos numéricos. De acuerdo con la dimensionalidad, hemos clasificado a las cópulas en cuatro grupos: las de dimensión cero, finita, numerable o continua. En la mayoría de las cópulas se encontro que poseen dimensión numerable. Con el uso de dos funciones que satisfacen ciertas condiciones de regularidad, se ha obtenido una extensión generalizada para la cópula Gumbel-Barnett, a la que hemos deducido sus principales propiedades y medidas de dependencia para algunas funciones en particular. La cópula FGM es una de las cópulas con más aplicabilidad en campos como el análisis financiero, y a la que se le han obtenido un gran número de generalizaciones para el caso simétrico. Nosotros hemos obtenido dos nuevas generalizaciones. La primera fue obtenida al adicionar dos distribuciones auxiliares y la segunda generalización es para el caso asimétrico. En está última caben algunas de las generalizaciones existentes. Para ambos casos se han deducido los rangos admisibles de los parámetros de asociación, las principales propiedades y las medidas de dependencia. Demostramos que si se conocen las funciones canónicas de una función de distribución, es posible aproximarla a otra función de distribución a través de combinaciones lineales de las funciones canónicas. Como ejemplo, consideramos la cópula FGM en dos dimensiones, en el sentido geométrico, debido a que se conocen sus funciones canónicas, y hemos comprobado numéricamente que su aproximación a otras cópulas con dimensión numerable es aceptablemente bueno.Tesi
Análisis de datos longitudinales y multivariantes mediante distancias con modelos lineales generalizados(Universitat de Barcelona, 2012-09-06) Melo Martínez, Sandra Esperanza; Cuadras, C. M. (Carlos María); Universitat de Barcelona. Departament d'Estadística[spa] Se propusieron varias metodologías para analizar datos longitudinales (en forma univariante, mediante MANOVA, en curvas de crecimiento y bajo respuesta no normal mediante modelos lineales generalizados) usando distancias entre observaciones (o individuos) con respecto a las variables explicativas con variables respuesta de tipo continuo. En todas las metodologías propuestas al agregar más componentes de la matriz de coordenadas principales se encuentra que se gana en las predicciones con respecto a los modelos clásicos. Por lo cual resulta ser una metodología alternativa frente a la clásica para realizar predicciones. Se probó que el modelo MANOVA con DB y la aproximación univariante longitudinal con DB generan resultados tan robustos como la aproximación de MANOVA clásica y univariante clásica para datos longitudinales, haciendo uso en la aproximación clásica de máxima verosimilitud restringida y mínimos cuadrados ponderados bajo condiciones de normalidad. Los parámetros del modelo univariante con DB fueron estimados por el método de máxima verosimilitud restringida y por mínimos cuadrados generalizados. Para la aproximación MANOVA con DB se uso mínimos cuadrados bajo condiciones de normalidad. Además, se presentó como realizar inferencia sobre los parámetros involucrados en el modelo para muestras grandes. Se explicó también una metodología para analizar datos longitudinales mediante modelos lineales generalizados con distancias entre observaciones con respecto a las variables explicativas, donde se encontraron resultados similares a la metodología clásica y la ventaja de poder modelar datos de respuesta continua no normal en el tiempo. Inicialmente, se presenta el modelo propuesto, junto con las ideas principales que dan su origen, se realiza la estimación de parámetros y el contraste de hipótesis. La estimación se hace aplicando la metodología de ecuaciones de estimación generalizada (EEG). Por medio de una aplicación en cada capítulo se ilustraron las metodologías propuestas. Se ajusto el modelo, se obtuvo la estimación de los diferentes parámetros involucrados, se realizó la inferencia estadística del modelo propuesto y la validación del modelo propuesto. Pequeñas diferencias del método DB con respecto al clásico fueron encontradas en el caso de datos mixtos, especialmente en muestras pequeñas de tamaño 50, resultado obtenido de la simulación. Mediante simulación para algunos tamaños de muestra se encontró que el modelo ajustado DB produce mejores predicciones en comparación con la metodología tradicional para el caso en que las variables explicativas sean mixtas utilizando la distancia de Gower. En tamaños de muestras pequeñas 50, independiente del valor de la correlación, las estructuras de autocorrelación, la varianza y el número de tiempos, usando los criterios de información Akaike y Bayesiano (AIC y BIC). Además, para muestras pequeñas de tamaño 50 se encuentra más eficiente (eficiencia mayor a 1) el método DB en comparación con el método clásico, bajo los diferentes escenarios considerados. Otro resultado importante es que el método DB presenta mejor ajuste en muestras grandes (100 y 200), con correlaciones altas (0.5 y 0.9), varianza alta (50) y mayor número de mediciones en el tiempo (7 y 10). Cuando las variables explicativas son solamente de tipo continuo o categórico o binario, se probó que las predicciones son las mismas con respecto al método clásico. Adicionalmente, se desarrollaron los programas en el software R para el análisis de este tipo de datos mediante la metodología clásica y por distancias DB para las diferentes propuestas en cada uno de los capítulos de la tesis, los cuales se anexan en un CD dentro de la tesis. Se esta trabajando en la creación de una librería en R con lo ya programado, para que todos los usuarios tengan acceso a este tipo de análisis. Los métodos propuestos tienen la ventaja de poder hacer predicciones en el tiempo, se puede modelar la estructura de autocorrelación, se pueden modelar datos con variables explicativas mixtas, binarias, categóricas o continuas, y se puede garantizar independencia en las componentes de la matriz de coordenadas principales mientras que con las variables originales no se puede garantizar siempre independencia. Por último, el método propuesto produce buenas predicciones para estimar datos faltantes, ya que al agregar una o más componentes en el modelo con respecto a las variables explicativas originales de los datos, se puede mejorar el ajuste sin alterar la información original y por consiguiente resulta ser una buena alternativa para el análisis de datos longitudinales y de gran utilidad para investigadores cuyo interés se centra en obtener buenas predicciones.Tesi
Aspectos geométricos de las poblaciones y los individuos estadísticos(Universitat de Barcelona, 1991-04-17) Miñarro Alonso, Antonio; Oller i Sala, Josep Maria; Universitat de Barcelona. Departament d'Estadística[spa] Comenzarnos realizando una aproximación al concepto de modelo estadístico desde el punto de vista geométrico, centrándonos principalmente en consideraciones sobre la introducción de distancias, y en particular estudiando la métrica informacional y sus propiedades. Dada una variedad paramétrica correspondiente a un modelo estadístico, hemos efectuado un estudio del espacio tangente y del espacio tangente dual en un punto a la variedad, introduciendo representaciones adecuadas de los mismos. Tales representaciones han permitido identificar a los elementos del espacio muestral con campos tensoriales covariantes de primer orden en la variedad, mientras que las variables aleatorias pueden ser identificados con campos tensoriales contravariantes también de primer orden. Hemos introducido dos definiciones de distancias, en sentido estricto pseudodistancias, entre valores muestrales basadas ambas en distancias en el espacio tangente dual entre formas lineales asociadas. La primera, a la que denominamos distancia inmediata, es definida a partir de la distancia euclídea en el espacio tangente dual. Se han obtenido expresiones explícitas para la distancia cuando los individuos estadísticos son muestras correspondientes a las distribuciones Poisson, Weibull, Gamma, Exponencial, Binomial, Binomial Negativa, Multinomial, Multinomial negativa, Wald, Logística, Normal univariante y Normal multivariante. Se han estudiarlo ciertas propiedades relacionadas con la distancia inmediata, entre las que destacamos su invarianza frente a cambios de la medida de referencia y transformaciones por estadísticas suficientes, y su no decrecimiento al aumentar el número de parámetros de las variedades. La distancia estructural es definida a partir de la distancia sobre el conjunto imagen del espacio muestral. Se demuestra que coincide con la distancia inmediata si el conjunto imagen es un conjunto convexo y también que dicho conjunto no es convexo si la dimensión del espacio muestral es uno y el número de parámetros de la variedad mayor o igual a dos. Se ha obtenido la expresión explícita para la distancia estructural entre muestras de tamaño uno correspondientes a una distribución normal univariante. Se han estudiado las aplicaciones de las distancias entre individuos a técnicas clásicas de inferencia estadística, definiendo nuevos procedimientos de estimación de parámetros y contraste de hipótesis desde el punto de vista geométrico. Se comprueba cómo utilizando la distancia inmediata se recuperan gran parte de los resultados clásicos, en particular las ecuaciones de verosimilitud y el contraste de hipótesis mediante el test de los multiplicadores de Lagrange. Hemos comprobado también como utilizando en estimación de parámetros la distancia estructural en un ejemplo en que éste difiere de la inmediata, se obtienen resultados que difieren respecto a la máxima verosimilitud clásica y que podemos considerar más acordes con resultados intuitivos al dejar indeterminada la estimación de la varianza trabajando con muestras de tamaño uno de una distribución Normal univariante. Se ha introducido una clase de funciones de densidad de probabilidad que pueden ser caracterizadas en una variedad paramétrica de dimensión finita. Se comprueba que las variedades resultantes son de curvatura constante y positiva. Se han obtenido las expresiones para las geodésicas y la distancia de Rao entre dos distribuciones. Hemos efectuado un estudio probabilístico en varios ejemplos y finalmente consideramos la aplicación de tales familias a la estimación no paramétrica de funciones de densidad gracias a su capacidad de adaptación. Se ha abordado el problema de la estimación de parámetros en las familias anteriormente citadas. Comprobamos los inconvenientes de la estimación máximo verosímil y para subsanarlos hemos propuesto un algoritmo tipo “stepwise” que toma en cuenta la significación de los incrementos de la verosimilitud al modificar el número de parámetros de las familias. Utilizamos diversas simulaciones para comprobar la bondad del algoritmo, obteniendo resultados satisfactorios tanto al trabajar con distribuciones clásicos como con las nuevas familias. Se han comparado los resultados con otros métodos clásicos de estimación no paramétrica, en particular con el método de los Kernel. También se ha estudiado el método de minimizar la esperanza del cuadrado de la distancia estructural entre individuos (MESD). Para poder llevar a cabo tal estudio se ha desarrollado una aproximación a la distinción Riemanniana y se han utilizado técnicas de minimización numérica de funciones de varias variables con restricciones. Se han obtenido algunos ejemplos que muestran un mejor comportamiento de la estimación MESD frente a la MLE. Finalmente se han considerado dos ejemplos prácticos consistentes en la estimación de una función de densidad bimodal a partir de unos datos en forma de histograma y en la clasificación de diversos patrones electroforéticos asimilándolos a funciones de densidad. En limbos ejemplos los resultados parecen validar completamente la metodología empleada.Tesi
Estudi dels trastorns mentals a Europa mitjançant variables latents. Una aplicació sobre la comorbiditat mental(Universitat de Barcelona, 2011-01-14) Almansa Ortiz, Josué; Alonso Caballero, Jordi; Vermunt, Jeroen K.; Monleón Getino, Toni; Universitat de Barcelona. Departament d'Estadística[cat] En aquesta tesi s’apliquen i desenvolupen models estadístics amb variables latents per a l’anàlisi conjunt (multivariant) de trastorns mentals, com a instrument de mesura en estudis epidemiològics. En l’anàlisi multivariant dels trastorns mentals no només es mesura la presència dels trastorns, sinó que també es té en compte les seves associacions, ajustant directament la comorbiditat mental, i permetent quantificar estats de salut psíquica individuals que no es poden observar directament. L’estructura de comorbiditat es construeix a partir d’estudis psiquiàtrics conceptuals previs. S’utilitzen models de tipus IRT (Item Response Theory) per construir les mesures dimensionals de salut mental que no es poden observar directament (les variables latents) a partir de la informació observada, categòrica, sobre els trastorns mentals. Els models de variables latents modelitzen simultàniament les variables observades i els individus. Al llarg d’aquesta tesi es demostra que els trastorns mentals definits categòricament segons el manual DSM-IV responen a fenòmens dimensionals. Els trastorns mentals més rellevants poden agrupar-se en un nombre petit de dimensions, i dins de cada dimensió existeix una gradació dels nivells de salut. Aquests models poden utilitzar-se per descriure nivells de salut mental d’una població en un moment determinat (utilitzant informació sobre trastorns patits en aquell moment) o per a estimar la predisposició a patir trastorns mentals en algun moment de la vida (trastorns vida). En aquesta tesi es realitzen estudis epidemiològics de la salut mental, enfocats en considerar la comorbiditat mental i l’estimació de les dimensions subjacents als trastorns observats, i modelant l’existència d’una classe sense trastorn (‘sana’) i ‘malalta’ dins la població. Les dades consisteixen en una mostra representativa de la població europea (ESEMeD). S’analitza l’estat ‘actual’ de la població per mitjà dels trastorns patits en l’últim any i es desenvolupa una metodologia per analitzar els trastorns vida tenint en compte que es disposa de mesures retrospectives, en les quals la informació sobre aparició de trastorns es troba censurada per la dreta (la gent sense trastorn observat fins al moment de la recollida de dades pot estar encara a risc de patir-lo en el futur). També es formulen i apliquen models on la dimensionalitat latent es mesura de manera discreta-ordinal, en comptes de l’assumpció contínua utilitzada habitualment. Cadascun d’aquests models descriuen diferents aspectes del la salut mental en la població europea.Tesi
Procesos puntuales en el plano y parada óptima(Universitat de Barcelona, 1987-10-01) Arenas Solà, Concepción; Nualart, David, 1951-; Universitat de Barcelona. Departament d'Estadística[spa] Esta memoria abarca esencialmente dos temas. Por una parte contiene la resolución del problema de parada óptima en varias situaciones distintas. Por otra se dedica a un profundo estudio de los procesos puntuales en el plano, con un número finito o infinito numerable de puntos. La formulación clásica del problema de parada óptima en tiempo discreto (siguiendo las ideas de [1]) puede presentarse como sigue. Sea {Z(n),n que pertenece a “In”} una familia de variables aleatorias que representan, por ejemplo, las ganancias de un jugador en instantes sucesivos. Para cada tiempo de paro T, la variable aleatoria Z(T) representa la ganancia obtenida por el jugador, al parar de jugar en el instante T. El problema de parada óptima consiste en encontrar un tiempo de paro T* tal que alcance el supremo de las ganancias esperadas por el jugador, que decide abandonar el juego en ese instante, es decir, encontrar un tiempo de paro T* que le diremos óptimo, tal que E(Z(T*)) = sup {E(Z(T), T tiempo de paro}. Los tres primeros capítulos de esta memoria tratan del problema de parada óptima. En el primero construimos una solución del problema de parada óptima para el caso de procesos con índice discreto unidimensional y con una clase de tiempos de paro satisfaciendo las condiciones exigidas en [2]. Dicha construcción la hacemos mediante una técnica de cambio de tiempo que simplifica los métodos utilizados en [2]. Además, utilizando la misma técnica precedente resolvemos un problema similar para procesos con índice bidimensional discreta, caso no tratado en [2]. También damos ejemplos concretos que ponen de manifiesto la existencia de tales clases. En el segundo capítulo, damos en el caso unidimensional continuo una demostración propia de la caracterización de los tiempos de paro como los elementos extremales del conjunto de variables aleatorias «floues» adaptadas, y mostramos cómo permite esta caracterización resolver el problema de parada óptima. En el caso bidimensional continuo, como contribución al estudio de si una tal caracterización es posible para los puntos de paro, demostramos que éstos son las variables aleatorias «floues», que son los elementos extremales del conjunto imagen por el operador de proyección opcional del conjunto de variables aleatorias «floues». En el tercer capítulo, resolvemos el problema de parada óptima para un proceso, imagen de una familia markoviana bidimensional, construida a partir de dos procesos de Markov, soluciones de sendas ecuaciones diferenciales estocásticas. En la segunda parte de la memoria, expuesta en el capítulo cuarto, nos centramos en los procesos puntuales en el plano. En el caso de dos parámetros, aparte de algunos tipos concretos de procesos puntuales, como el de Poisson (cf. Merzbach-Nualart [3], [4]) la única referencia existente en la literatura sobre el estudio general de tales procesos se ocupa exclusivamente del caso en que el proceso puntual tiene un sólo punto (cf. [5], [6]). El cuarto capítulo de esta memoria dedicado a los procesos puntuales con dos parámetros: tanto en el caso de tener un número finito (mayor o igual que uno) de puntos, como en el de tener un número infinito numerable de puntos. Dado un proceso puntual en estas condiciones, mostramos la forma explícita de su filtración natural asociada y estudiamos sus propiedades. Construimos la forma explícita de los procesos opcionales y de los procesos previsibles, así como de los procesos crecientes opcionales y de los procesos crecientes previsibles. Demostramos, además, que toda martingala uniformemente integrable admite una versión continua por la derecha con límites por la izquierda, no siendo cierto que una tal versión pueda tornarse Este resultado permite considerar las proyecciones opcionales y previsibles de procesos medibles y acotados, de las que estudiamos sus propiedades. También demostramos la existencia de las proyecciones duales para procesos crecientes, estudiamos sus propiedades y construimos la proyección dual previsible de un proceso creciente relativa a una probabilidad absolutamente continua respecto de la probabilidad inducida por el proceso puntual. REFERENCIAS: [1] Neveu, J.: Processus pontuels. Lect. Notes in Math. 598 (1976). [2] Adell, J. A.: Tesis doctoral. Universidad País Vasco. Facultad de Ciencias. (Lejona.) [3] Merzbach, E., Nualart, D.: A martingale approach to point processes in the plane. (to appear in Ann. Probab). [4] Merzbach, E., Nualart, D.: A characterization of the spatial Poisson process and changing time, 1985 (to appear in Ann. Probab.). [5] AI-Hussaini, A., Elliot, J.: Filtrations for the two parameter Jump Process. Journal of multivariate analysis 16,118-139(1985). [6] Mazziotto, G. Szpirglas, J.: Un exemple d'un processus à deux indices sans l'hypothese F.4.Seminaire de Probabilities XV. Lect. Notes in Math. 850 (1979/ 1980).Tesi
Contribución al estudio de la estructura del conjunto de negaciones definidas en un retículo(Universitat de Barcelona, 1974-06-01) Esteva Massaguer, Francesc; Sales Vallés, F. de A. (Francisco de A.), 1914-2005; Universitat de Barcelona. Departament d'Estadística[spa] El presente trabajo fue iniciado como un estudio de las negaciones utilizadas en las diversas lógicas, tema que fue motivado por los trabajos que sobre lógica algebraica vienen desarrollándose en el departamento de Estadística. Partimos de la definición de negación dada por el profesor F. de A. Sales Vallés, que es una aplicación entre ordenados y, en especial, entre retículos, que cumple las condiciones máximas posibles de forma que las negaciones utilizadas en las distintas lógicas sean casos particulares de la definición dada. Dichas negaciones han sido objeto, anteriormente a esta memoria, de varios trabajos de los que se han publicado los del profesor F. de A. Sales Vallés, el de J. Pla y el de F. Esteva. La presente memoria parte de estos trabajos y se dedica al estudio de las negaciones en los retículos completos. En resumen, los resultados que se obtienen son los siguientes: En el capítulo 1 se parte de que la imagen por una negación de un retículo completo es un inf-semirretículo completo que contiene al máximo, y se estudia si, dado cualquier inf-semirretículo que contiene al máximo, existe siempre una negación que lo tenga por imagen. La respuesta es negativa, y se dan condiciones necesarias y suficientes para que la aplicación entre negaciones e inf-semirret!oulos completos que contienen al máximo, sea inyectiva, exhaustiva o biyectiva. As! se ve que esta aplicación es una biyección si, y sólo si, el retículo es una cadena finita. En el capítulo 2 se estudia el conjunto N(L) de todas las negaciones que pueden definirse en un retículo completo. En el apartado 1 se demuestra que N(L) es un retículo completo. En el apartado 2 se dan condiciones, unas necesarias y otras suficientes, para que dicho retículo sea distributivo e infinitamente distributivo. En el apartado 3 se demuestra que la condición necesaria y suficiente para que el retículo sea un álgebra de Boole es que sea atómica, resultado que se completa en el apartado 4 al demostrar que toda álgebra de Boole de negaciones es atómica, así como al hallar la posición ocupada por la complementación del álgebra de Boole en el retículo de las negaciones. Por último, en el apartado. 5 se halla una aplicación entre un álgebra de Boole y el retículo de sus negaciones que es un monomorfismo reticular, y que nos permite, por tanto, sumergir toda álgebra de Boole completa en el retículo de sus negaciones. En el capítulo 3 se recogen y completan diversos resultados hallados en los capítulos anteriores sobre las negaciones en las cadenas completas. Así, en el cap. 2 se da una regla para construir el supremo de dos negaciones y en este capítulo se demuestra que sólo es válida para hallar el supremo de familias finitas de negaciones. También en el cap. 2 se demuestra que si un retículo es completo, atómico y distributivo, el retículo de sus negaciones es distributivo, y en el cap. 3 al demostrar que el retículo de las negaciones de una cadena completa es siempre distributivo, se prueba que la condición dada en el cap. 2 es sólo suficiente. Por último, en una nota se da una demostración del conocido teorema de completación de Mac Neille en el caso de cadenas, utilizando los retículos de negaciones.Tesi
Contribuciones al estudio del problema de la clasificación mediante grafos piramidales(Universitat de Barcelona, 1993-09-30) Capdevila i Marquès, Carles; Arcas Pons, Antoni; Universitat de Barcelona. Departament d'Estadística[spa] En esta memoria se ha desarrollado una metodología para abordar problemas relativos a la clasificación y de un conjunto de objetos o individuos de una determinada población, mediante unas estructuras llamadas "Pirámides", introducidas por E. Diday en 1984, y que pretenden ser una generalización del concepto de Jerarquía, en el sentido de permitir la existencia no de grupos disjuntos o encajados, sino también de grupos solapados, y por tanto permitir clasificaciones en las que los grupos en que queda dividida la población a un determinado nivel, no tengan que ser forzosamente particiones de la misma, como pasa con las clasificaciones inducidas por las Jerarquías, sino que puedan ser recubrimientos. Este tipo de clasificaciones permite pues que un determinado individuo pueda pertenecer a dos grupos de una misma clasificación y por tanto, en la realidad, pueda ser caracterizado por las propiedades de los distintos grupos a los que pertenezca y no por las de un único grupo como en el caso jerárquico, con lo cual este nuevo modelo de clasificación y representación de datos se adaptará a la realidad que aquel. En primer lugar se ha situado este nuevo modelo de representación en el marco del Análisis Multivariante y se han presentado algunos conceptos y resultados ya conocidos, pero imprescindibles para el desarrollo del tema: Caracterización de las matrices asociadas a las disimilaridades piramidales, relación con los preordenes compatibles, etc. Se recuerda que toda disimilaridad ultramétrica es también piramidal y que, en consecuencia, toda Jerarquía Total Indexada es una Pirámide Indexada, con lo cual podemos considerar a los modelos piramidales como una generalización de los modelos jerárquicos. Se ha desarrollado también una nueva formalización de las bases sobre las que se amparan los modelos de representación y clasificación. En este sentido se ha precisado la axiomática y se han dado nuevos teoremas de Existencia y Unicidad de la pirámide inducida por una disimilaridad piramidal y recíprocamente, de la disimilaridad piramidal inducida por una pirámide. Una vez establecidos los resultados teóricos mencionados, se ha profundizado en otros aspectos teóricos conducentes a hacer que los métodos piramidales puedan llegar a ser útiles en la realización de trabajos prácticos como lo han sido los modelos jerárquicos clásicos. En este sentido se ha diseñado un algoritmo de clasificación piramidal, inspirado en el descrito por el propio Diday, convenientemente modificado, con el fin de obtener una pirámide indexada lo más sencilla posible desde el punto de de la representación visual. Se han caracterizado los grupos sobrantes en una pirámide indexada y se ha demostrado que son los únicos que pueden ser eliminados de una pirámide sin que ello suponga pérdida de información sobre la clasificación. Se ha definido un índice de agregación adecuado a los modelos de representación piramidal y se ha demostrado que el algoritmo de clasificación piramidal descrito, utilizando un tal índice de agregación, produce siempre una pirámide indexada en sentido estricto, sin inversiones, sin cruzamientos y sin grupos sobrantes. Finalmente se ha efectuado una programación informática del algoritmo en Turbo Prolog. El programa, llamado PIR. PRO, a partir de una matriz de disimilaridad dada sobre los individuos de la población, efectúa una clasificación piramidal de la misma por los métodos del Mínimo, del Máximo y del UPGMA, obteniéndose como resultado una de las pirámides indexadas correspondientes, la disimilaridad piramidal asociada, el grafo piramidal y como coeficientes de adecuación entre la disimilaridad inicial y la piramidal obtenida, el coeficiente de correlación cofenética (rho) y el coeficiente gamma de Goodman-Kurskal. Debido a las restricciones impuestas en el algoritmo, se establece que el algoritmo piramidal del mínimo produce siempre la jerarquía del mínimo, que como es sabido, es única. Un sencillo experimento de simulación nos confirma la mejora que suponen las representaciones piramidales frente a las ultramétricas, en el sentido de ser próxima la realidad. En problemas reales de clasificación, una vez obtenida la pirámide es necesario evaluar el nivel de adecuación de la estructura piramidal obtenida, a la estructura inicial de los datos. Para ello disponemos de numerosos coeficientes de adecuación, en nuestro caso hemos considerado el coeficiente de correlación cofenética y el de Goodman-Kurskal. A pesar de disponer de estos parámetros, en un caso concreto, es difícil valorar hasta qué punto sus valores realmente significativos. Así pues, seria conveniente encontrar algún criterio que nos permitiese evaluar el nivel de significación de dichos parámetros. En este sentido hemos intentado una validación estadística de los métodos piramidales del mínimo y del máximo así como la obtención de algún criterio evaluar la potencia-eficiencia de los mismos. Debido al desconocimiento de las distribuciones de los estadísticos utilizados (gamma y rho), se han tratado cuestiones inferenciales un punto de vista empírico. Mediante algunas pruebas de simulación por métodos de Monte Carlo se ha tabulado, a partir de la distribución muestral del estadístico gamma, un test de significación de la bondad de ajuste de una representación piramidal por los métodos del mínimo y del máximo. Asimismo se ha establecido que, en general, el método piramidal del máximo recupera mejor una posible estructura piramidal subyacente en la población a clasificar que el método del mínimo, a menos que pueda preverse que la estructura de la población inicial se asemeje a una jerarquía encadenada.Tesi
Contribuciones a la representación de datos multidimensionales mediante árboles aditivos(Universitat de Barcelona, 1986-01-01) Arcas Pons, Antoni; Cuadras, C. M. (Carlos María); Universitat de Barcelona. Departament d'Estadística[spa] En esta tesis se analiza el problema de la representación asociada a un conjunto sobre el que tenemos definida una distancia verificando el axioma del cuarto punto, realizando un estudio formal de los principales aspectos relacionados con este tipo de representaciones tales como una caracterización de las mismas tratando a través de ella las relaciones entre distancias ultramétricas y aditivas. En concreto, se estudia una estructura de variedad diferenciable sobre el conjunto de las distancias aditivas con configuración inferencia en árboles y confección de algoritmos de construcción de árboles aditivos.Tesi
Estudi d'algunes propietats de les martingales contínues amb paràmetre bidimensional(Universitat de Barcelona, 1985-01-01) Utzet i Civit, Frederic; Nualart, David, 1951-; Universitat de Barcelona. Departament d'Estadística[cat] Els processos estocàstics amb paràmetre multidimensional, també anomenats camps aleatoris, apareixen en l'estudi estadístic de fenòmens que evolucionen depenent de n variables (n>1). Per exemple, en un flux turbulent con l'atmosfera, la temperatura o la pressió en un punt depèn de les seves tres coordenades i del temps; o bé en agronomia, en prendre mesures sobre un camp; o la propagació d'ones electro-magnètiques a través d'un medi aleatori. En l'estudi teòric d'aquests processos, les propietats més importants dels processos estocàstics ordinaris que depenen de l'ordre del conjunt d'índexs: la propietat de Markov i el caràcter martingala, es transfereixen amb més o menys dificultat al cas multi-dimensional. Si bé la propietat de martingala s'estén de manera immediata a un procés indexat per un conjunt parcialment ordenat l'estudi de les martingales amb paràmetre multidimensional no cobra vida fins els treballs de Cairoli (1970) i, especialment, els de Wong-Zakai (1974) i Cairoli-Walsh (1975), en els quals la teoria es comença a mostrar madura i amb futur. L'important article de Cairoli-Walsh està motivat per l'estudi dels processos holomorfs, aixó és, processos que, en un cert sentit, tenen derivada respecte del drap brownià. Ara bé, la primera part d'aquest llarg article està dedicada a construir un càlcul estocàstic bidimensional, però no sols respecte al drap brownià, sinó amb martingales afitades en L^. Aleshores defineixen integrals simples, dobles i de línia, i demostren un teorema de Green que relaciona les integrals de línia i de superfície. A partir d'aquell moment, la teoria avança combinant dos fronts. D'una banda, estendre a dos paràmetres els resultats del cas unidimensional: construir una teoria general de processos, localització, desigualtats de Burkholder, fórmula d'Itô; d'altra banda, analitzar les noves definicions i conceptes que ha fet falta anar introduint: diferents tipus de martingales, distintes variacions quadràtiques,... Justament en aquesta segona línia de recerca s'inscriu aquest treball.Tesi
Diferenciació, llei de probabilitat i temps local per a integrals estocàstiques en el pla(Universitat de Barcelona, 1985-01-01) Julià de Ferran, Olga; Nualart, David, 1951-; Universitat de Barcelona. Departament d'Estadística[cat] DE LA TESI: Certs fenòmens físics, per exemple el soroll tèrmic, la temperatura, la pressió i la velocitat del vent en un observatori meteorològic, es formalitzen mitjançant un procés aleatori unidimensional indexat en un interval de la recta real que generalment simbolitza el temps. Hi ha però altres situacions on és més natural considerar famílies de variables aleatòries indexades en una part de R(n) (n>/=2), com són la propagació de les ones en una superfície, la densitat electrònica dins el volum de l'àtom, la temperatura a la superfície de la terra, les tensions mecàniques dins d'un sòlid, etc... El desenvolupament de la teoria dels processos estocàstics a paràmetre multidimensional és relativament recent; no és fins els treballs de Wong i Zakai (1974) i Carioli i Walsh (1975) que aquesta teoria, i en especial la dels processos biparamètrics, adquireix importància. La teoria general dels processos indexats en R(2) no consisteix en una generalització inmediata dels conceptes i resultats obtinguts en el cas uniparamètric. La dificultat que planteja la geometria de l'espai a l'hora de definir nocions com "passat" i "futur" fa que algunes propietats certes en R ja no ho siguin en R i conceptes tan impotants com el de martingala o la propietat de Markov admetin més d'una generalització. Aquest treball s'enmarca en el camp dels processos estocàstics biparamètrics i en especial es centra en les integrals estocàstiques en el pla.Tesi
Problema de martingala i aproximació en llei per difusions amb dos paràmetres(Universitat de Barcelona, 1996-10-01) Florit i Selma, Carmen; Nualart, David, 1951-; Universitat de Barcelona. Departament d'Estadística[cat] DE LA TESI: Aquesta memoria consta de dues parts La primera part està dedicada a l'obtenció d'un criteri local de regularitat de densitats per a vectors que tinguin una llei de probabilitat concentrada en un obert de Rk mitjançant tècniques de càlcul estocàstic de variacions (càlcul de Malliavm). Com aplicació d'aquest criteri es demostra que el suprem al quadrat unitat del drap brownià té una densitat infinitament dif renciable en (0, oo) En la segona part s'obté un resultat d'aproximació de difusions per a una equació estocàstica hiperbólica en el pla governada per un procés de Wiener amb dos paràmetres. La llei límit queda caracteritzada com la solució d'un problema de martingala es demostra l'equivaléncia entre existencia i unicitat de solució feble per a una equació diferencial estocàstica en el pla i existéncia i unicitat de solució del corresponent problema de martingala per a processos amb dos paràmetres.Tesi
Medidas de divergencia en análisis de datos(Universitat de Barcelona, 1987-04-30) Salicrú, Miquel; Cuadras, C. M. (Carlos María); Universitat de Barcelona. Departament d'EstadísticaUn problema interesante que se plantea en análisis de datos es la elección adecuada de medidas que cuantifiquen las analogías y diferencias entre individuos, poblaciones o grupos de poblaciones. De forma general, han sido desarrolladas distintas formas de elección de tales medidas, siendo destacables las medidas que provienen de diferencias intrínsecas entre individuos, las medidas que provienen de consideraciones sobre funciones, de entropía, y las medidas que provienen exclusivamente de consideraciones teóricas. En esta memoria, hemos estudiado estas medidas a partir de la clasificación de medidas de distanciación realizada por Burbea y Rao (1982). En la primera parte (cap. 1, 2 y 3), se presentan las distintas divergencias, se estudian inter-relaciones y se analiza la convexidad. En la segunda parte (cap. 4) se estudian las métricas diferenciales asociadas a divergencias invariantes frente a cambios no singulares de parámetros y variables aleatorias. En la tercera parte (cap. 5 y 6) se analizan las relaciones entre la J-divergencia y las entropías comúnmente utilizadas. Finalmente, en los anexos I y II se presentan los programas utilizados en el cap. 6.