Tesis Doctorals - Departament - Estadística

URI permanent per a aquesta col·leccióhttps://hdl.handle.net/2445/35442

Estadístiques

Examinar

Mostrant 1 - 20 de 37

Computational modeling of inverting glycosyltransferase reaction mechanisms
(Universitat de Barcelona, 2024-12-12) Piniello Castillo, Beatriz; Rovira i Virgili, Carme; Universitat de Barcelona. Facultat de Química
[eng] Carbohydrates, often referred to as sugars, are essential biomolecules found in all living organisms. While they are well-known for their role in providing energy, carbohydrates also play critical roles in various other biological processes, including the formation of structural components like plant cell walls and the facilitation of cell communication. This wide array of functions is related to the remarkable diversity of carbohydrates: they are made up of different types of monomers that can be linked together in numerous configurations, creating molecules of varying complexity and size. The high diversity of carbohydrates in Nature also requires a multitude of enzymes responsible for catalyzing reactions such as their synthesis, modification, or hydrolysis. These enzymes, known as carbohydrate-active enzymes (CAZymes), are essential for the correct functioning of cells. In this work, we have focused on a specific type of CAZymes: glycosyltransferases (GTs), which accelerate the formation of new glycosidic bonds. In other words, GTs catalyze the creation of linkages between sugars and other carbohydrates, or other biomolecules such as lipids or proteins. More specifically, we have investigated inverting glycosyltransferases, which catalyze the formation of these new bonds with inversion of the anomeric carbon configuration. The “textbook” mechanism followed by inverting GTs is an SN2 one-step reaction in which the acceptor molecule is deprotonated by a general base residue within the active site. However, the specific details of this mechanism can vary across different enzymes. Our goal is to elucidate the mechanism of selected inverting GTs using computational chemistry methods, primarily classical molecular dynamics, quantum mechanics/molecular mechanics (QM/MM), and metadynamics. Our simulations, in conjunction with experimental results obtained by collaborators from other groups, have revealed the reaction mechanism details of four inverting GTs. These four GTs of interest are of high biomedical and biotechnological importance and are related to the synthesis of protein glycoconjugates. Moreover, some of these enzymes exhibit unique features that set them apart from other inverting GTs, making their study even more compelling. A deeper understanding of their catalytic mechanisms could aid the future development of inhibitors and guide the design of enzyme modifications for biotechnological applications. The first enzyme we study is α-Mannoside β-1,6-N-acetylglucosaminyltransferase V (or MGAT5), an inverting GT that catalyzes the transfer of GlcNAc to developing N-glycans on the surface of proteins. We reconstructed its Michaelis complex and uncovered the details of its mechanism. The second enzyme is protein O-fucosyltransferase 1 (POFUT1). POFUT1 transfers fucose to threonine or serine residues on epidermal growth factor-like (EGF-LD) peptides. We determined the mechanism of the enzyme, particularly the deprotonation of the acceptor threonine in absence of a general base residue in the active site, that we found proceeded through an active site asparagine undergoing tautomerization. The third enzyme studied was non-LEE encoded effector protein B 1 (NleB1). NleB1 catalyzes the transfer of GlcNAc to arginine residues on protein death domains, in contrast to the more common N-glycosylation of asparagine. One of the main questions for this enzyme is how an arginine can perform this reaction, as it is poor nucleophile due to the positive charge of its guanidinium ion. We determined its mechanism using path-metadynamics, a modification on the protocol followed in the other sections of the Thesis. Finally, we studied a bacterial N- glycosyltransferase (NGT). Bacterial NGTs glycosylate asparagine on the surface of peptides using UDP-Glc as donor, as opposed to the more ubiquitous OST enzyme. Here, we reconstruct its Michaelis complex and uncover its catalytic mechanism, that operates without a general base.
Support Vector Machines for Survival Analysis: Methods and Variable Relevance = Màquines de Suport Vectorial per Anàlisi de la Supervivència: Mètodes i Rellevància de Variables
(Universitat de Barcelona, 2017-07-19) Sanz Ródenas, Héctor; Reverter Comes, Ferran; Universitat de Barcelona. Departament d'Estadística
[eng] The process of creating an efficacious malaria vaccine is complex due to the characteristics of the disease that are directly related to the responsible parasite. In the disease-vaccine interaction several aspects need to be taken into account to improve and understand the vaccine and for that reason different types of data need to be analyzed. Current assays technology allows analyzing several proteins simultaneously with a small blood volume. The combination of the medium throughput dataset of some assays and the small sample size of some malaria studies may hinder the use of classical statistical methods. In the context of low number of observations and medium or high number of variables the support vector machines (SVM) models are a powerful tool to analyze sparse data, i.e., data in which the number of predictors is larger or approximately equal to the number of observations, especially when handling binary outcomes. However, biomedical research often involves analysis of time-to-event outcomes. Several methods have been tested in the literature to deal with censored data into the SVM framework. Most of these methods are based on a support vector regression (SVR) approach and results found in the literature suggest no significant differences with Cox proportional hazards model and kernel Cox regression. Another perspective is a SVM for binary classification, however, almost no work has been done into this approach: only SVM learning using privileged information and SVM with uncertain classes have been described. This PhD thesis aims to propose alternative methods and extensions to the ones existing in the binary classification framework, specifically, proposing a conditional survival approach for weighting censored observations, a semi-supervised SVM with local invariances perspective and evaluating a weighted SVM model. Another important aspect in biomedical research is to identify the relevance of the variables in a model, i.e., which variables are important related to the response variable. In the SVM framework most of the work done is related to linear kernels, however, the main advantage of SVM is using non-linear kernels. This PhD thesis aims to propose three approaches based on the Recursive Feature Elimination (RFE) algorithm to rank variables based on non-linear SVM and SVM for survival analysis. Moreover, the proposed algorithms are focused on interpretation and visualization of each one the RFE iterations, allowing to identify relevant variables associated with the response variable and among predictor variables. After evaluating all proposed methods in a simulation study under several scenarios, a real dataset applying these methods has been analyzed: the Mal067 data aims to identify immune responses correlated with protection from malaria that were elicited by the malaria RTS,S vaccine and by natural immunity. All SVM for survival analysis methods have been implemented in R, since neither R packages nor R functions have been found.
Methods and Models for the Analysis of Biological Signifïcance Based on HighThroughput Data
(Universitat de Barcelona, 2014-12-12) Mosquera Mayo, José Luís; Sànchez, Àlex (Sànchez Pla); Oller i Sala, Josep Maria; Universitat de Barcelona. Departament d'Estadística
[cat]L'aparició de les tecnologies d'alt rendiment ha generat una quantitat ingent de dades òmiques. Els resultats d'aquests experiment són llargues llistes de gens, que poden ser utilitzats com a biomarcadors. Un dels grans reptes dels investigadors experimentals és atribuir una interpretació o significació biològica a aquests biomarcadors potencials, ja be sigui extraient la informació bioblògica emmagatzemada en recursos com la Gene Ontology (GO) o la Kyoto Encyclopedia of Genes and Genomes (KEGG), o be combinant-les amb altres dades òmiques. Els objectius de la tesis eren: primer, estudiar les propietats matemàtiques de dos tipus de mesures de similaritat semàntica per a explorar categories GO, i segon, classificar i estudiar l'evolució de les eines GO per a l'anàlisi d'enriquiment. La primera mesura de similaritat semàntica considerada, proposada per en Lord et al., es fonamentava en la teoria de grafs, i la segona era un grup de pseudo-distàncies, proposades per Joslyn et al., fonamentades en la teoria dels Partially Ordered Sets (POSETs). L'estudi de les eines GO es va basar en les primeres 26 eines disponibles al web del The GO Consortium. S'ha vist que la mesura d'en Lord et al. és la mateixa mesura que la d'en Resnik, anteriorment publicada. S'ha observat una analogia en la forma de mapejar els gens a la GO via grafs i/o via POSETs. S'han proposat una propietat i un corol·lari que permeten calcular matricialment les la primera mesura de similaritat semàntica. S'ha demostrat que ambdues mesures estan associades a la distància mètrica. A'ha desenvolupat un paquet R, anomenat sims, que permet calcular similaritats semàntiques d'una ontologia arbitraria i comparar perfils de similaritat semàntica de la GO. S'ha proposat un Conjunt de Funcionalitats Estàndard per a classificar eines GO i s'ha desenvolupat un programari web, anomenat SerbGO, dirigit a seleccionar i comparar eines GO. L'estudi estadístic ha revelat que els promotors de les eines GO han introduït millores al llarg del temps, però no s'han detectat models ben definits. S'ha desenvolupat una ontologia, anomenada DeGOT, que proporciona un vocabulari als desenvolupadors per a introduir millores a les eines o dissenyar una de nova.
lnvestigación comparativa de la eficiencia (COMER): Metanálisis de estudios coste-efectividad sobre distribuciones cópulas
(Universitat de Barcelona, 2014-11-05) Crespo Palomo, Carlos; Ríos Alcolea, Martín; Monleón Getino, Toni; Ocaña i Rebull, Jordi; Universitat de Barcelona. Departament d'Estadística
[spa]La evaluación económica de tecnologías sanitarias supone un conjunto de herramientas que tienen como finalidad examinar las consecuencias que tiene, en el corto y largo plazo, la utilización de las tecnologías sanitarias en los individuos y en la sociedad en su conjunto. Puesto que existen múltiples alternativas donde asignar dichos recursos, la evaluación económica trata de poner al alcance de los decisores del ámbito sanitario aquella información relevante desde el punto de vista de la eficiencia. Es por ello que la estadística se ha convertido en una pieza clave cada vez más necesaria para mejorar y desarrollar nuevos métodos para la evaluación económica. Actualmente las revisiones sistemáticas y su metanálisis de estudios de evaluación económica consisten en una descripción narrativa de los estudios realizando sólo el metanálisis de cada uno de sus componentes y obviando la relación existente entre costes y efectos. En esta tesis se ha desarrollado un nuevo método para llevar a cabo el metanálisis de estudios coste-efectividad, bautizándolo como COMER (del inglés, Comparative Eficiency Research). El metanálisis propuesto consiste en la estimación del beneficio monetario neto incremental total (TINB), ponderación de los beneficios monetarios netos incremental (INB) de cada estudio a partir de la inversa de la varianza. Para validar el método se estudió cómo incorporar la estructura de dependencia entre costes y efectos mediante las distribuciones cópulas. De tal forma que se simuló la distribución Frank Copula con dependencia positiva donde se asoció a las distribuciones marginales la distribución lognormal para costes y la distribución gamma para desutilidades. Se crearon cohortes hipotéticas variando el tamaño muestral y asumiendo tres escenarios con todas las combinaciones posibles: alternativa coste-efectiva, alternativa no coste-efectiva y alternativa dominante. Se comparó el resultado del COMER con resultado teórico en función del ratio coste-efectividad incremental y el INB, asumiendo un margen de error de 2.000 y 500 unidades monetarias, respectivamente. Adicionalmente, se estimó cual sería el tamaño muestral mínimo para poder obtener mediante COMER una estimación ajustada con un probabilidad alta (>70%). También se evaluó en qué medida el tamaño muestral permite alcanzar la convergencia a la τ de Kendall original. Para poder aplicarse esta aproximación del metanálisis mediante el TINB será necesario que en las evaluaciones económicas futuras se incorpore como resultado la matriz de covarianzas de la diferencia de costes y efectos. En el capítulo 1 de la tesis se hace una revisión de los conceptos de evaluación económica ahondando en qué métodos estadísticos se aplican en cada caso, así como cuál es el uso de los metanálsis. En este mismo capítulo se describen la teoría subyacente en las distribuciones cópulas y la utilización residual en el ámbito de la evaluación económica. En el capítulo 2 se indican tanto el objetivo general como los objetivos específicos de estudiar como incorporar la simulación a nivel de paciente en un estudio coste-efectividad de microsimulación y como incorporar la estructura de correlación en las simulaciones basado en regresiones. En el capítulo 3 se incluyen los informes de los directores de la tesis para los cuatro artículos incluidos en la misma. En el capítulo 4 se realiza la discusión de los cuatro artículos, profundizando en el método COMER. Los artículos propiamente se pueden localizar en el capítulo 6, así como un resumen de los mismos. Se han incorporado dos apéndices con el código en R que permiten ejecutar el método.
Métodos estadísticos para tratar incertidumbre en estudios de asociación genética: aplicación a CNVs y SNPs imputados
(Universitat de Barcelona, 2014-09-18) Subirana Cachinero, Isaac; González Ruiz, Juan Ramón; Monleón Getino, Toni; Oller i Sala, Josep Maria; Universitat de Barcelona. Departament d'Estadística
[spa] En los últimos años, se han descubierto un gran número de variantes genéticas de distinta naturaleza, desde las más simples que indican un cambio en un nucleótido (SNPs), hasta otras más complejas referentes al número de copias de un segmento de la cadena de ADN (CNVs). A pesar de que existen otras muchas variantes, como son las inversiones, microsatélites, etc., esta tesis se ha focalizado en los SNPs y en los CNVs, ya que son los dos tipos de variantes más analizadas en los estudios de epidemiología genética. En muchas situaciones, los métodos para analizar el efecto que tienen los SNPs o los CNVs sobre las enfermedades están bien resueltos. Sin embargo, en algunos casos, los SNPs y los CNVs se observan con incertidumbre. Por ejemplo, a veces el genotipo para un SNP no se observa directamente sino que se imputa. A su vez, establecer el número de copias para un CNV se hace de forma indirecta a partir de la señal cuantitativa de su sonda (probe). Esto hace que se requieran métodos estadísticos “no estándar” apropiados para estudiar la asociación entre SNPs imputados o CNVs incorporando esta incertidumbre. En la literatura se han descrito diferentes estrategias para afrontar los estudios de asociación entre una variante genética medida con incertidumbre y una variable respuesta: (i) la estrategia Naive y (ii) la estrategia conocida como Dosage. A grosso modo, la primera no tiene en cuenta la incertidumbre, mientras que la segunda lo hace de forma aproximada. En esta tesis doctoral se proponen y describen analíticamente modelos estadísticos para tratar datos genéticos medidos con incertidumbre que solventen las limitaciones que presentan los métodos existentes. Se demuestra que dichos modelos tienen la característica de incorporar la incertidumbre de forma adecuada en la función de verosimilitud. Además, se han escrito algoritmos numéricos para maximizar la función de verosimilitud de manera eficiente, a fin de poder analizar centenares de miles de variantes genéticas (estudios conocidos como GWAS –Genome Wide Association Studies-). El modelo propuesto es capaz de analizar distintos tipos de variable respuesta: binario (presencia o no de cierta enfermedad), cuantitativa (nivel de colesterol en sangre) ó censurada (tiempo hasta recaída). No sólo se han diseñado técnicas para el análisis de las variantes genéticas de forma individual sino también para pares simultáneamente (interacciones). Todo ello se ha implementado en distintas funciones estructuradas e integradas como parte de un programa de código libre y de uso común en la epidemiología genética como es R. Además, se ha escrito parte del código de las funciones en lenguaje C++ a fin de que los cálculos sean mucho más rápidos. El resultado ha sido la creación de un package de R llamado CNVassoc juntamente con un extenso manual de uso con numerosos ejemplos e instrucciones (vignette). Los artículos que conforman esta tesis son los siguientes: • “Accounting for uncertainty when assessing association between copy number and disease: a latent class model”, donde se presenta y describe el modelo propuesto. • “Genetic association analysis and meta-analysis of imputed SNPs in longitudinal studies”, donde se amplía el modelo al análisis de SNPs imputados en estudios con respuesta del tipo “tiempo hasta evento” (longitudinales). • “Interaction association analysis of imputed SNPs in case control and longitudinal studies”, donde se aplica el modelo a interacciones de pares de SNPs imputados en estudios de casos y controles y en estudios longitudinales. • “CNVassoc: Association analysis of CNV data using R”, en que se describe el package desarrollado e implementado en R junto con su vignette.
Statistical Methods for the Modelling of Label-Free Shotgun Proteomic Data in Cell Line Biomarker Discovery
(Universitat de Barcelona, 2014-07-11) Gregori Font, Josep; Sànchez, Àlex (Sànchez Pla); Villanueva i Cardús, Josep; Ocaña i Rebull, Jordi; Universitat de Barcelona. Departament d'Estadística
[cat] En la tesi s'ha desenvolupat, dissenyat i implementat una solució per l'anàlisi de dades de proteòmica comparativa en descobriment de biomarcadors. Específicament la solució s'ha optimitzat per l'anàlisi de secretomes de línies cel•lulars tumorals per LC-MS/MS sense marcatge, i quantificant pel nombre d'espectres de pèptids assignats a cada proteïna. Durant el desenvolupament de la metodologia s'ha demostrat la incidència i rellevància dels efectes batch en l'anàlisi comparatiu de pèptits sense marcar per LC-MS/MS. Així com les característiques que identifiquen un potencial biomarcador com a reproductible. Els models s'han desenvolupat amb l'ajut de dades empíriques obtingudes de mostres amb mescles controlades de proteïnes, i de simulacions. La solució informàtica que implementa el model desenvolupat consta de dos paquets R/Bioconductor, amb les respectives interfícies gràfiques que faciliten el seu ús a no experts. El primer paquet, msmsEDA, consta de funcions útils en l'anàlisi exploratòria de dades, i permet avaluar la qualitat del conjunt de dades d'un experiment de LC-MS/MS basat en comptatge d'espectres, així com explorar l'eventual presència de valors extrems, factors de confusió, o d'efectes batch. El segon paquet, msmsTests, encapsula funcions per la inferència en el descobriment de biomarcadors. El model emprat és un GLM que contempla la inclusió de factors per blocs per la correcció d'efectes batch, i incorpora una normalització generalitzada per offsets que permet la comparació de secretoma al nivell d'una cel•lula. Les distribucions implementades són la de Poisson i la binomial negativa, així com l'extensió de la quasiversemblança. En conjut el model desenvolupat i la implementació informàtica que se'n ha fet permet: • Avaluar la qualitat d'un conjunt de dades de LC-MS/MS. • Identificar valors extrems. • Identificar la presència de factors de confusió o d'efectes batch. • El descobriment de biomarcadors emprant la distribució que millor s'ajusti a les dades. • Assegurar un bon nivell de reproductibilitat mercès a un filtre post-test. Els paquets i llur documentació es troben lliurement disponibles a bioconductor.org, i les interfícies gràfiques a github.com.
Modelos lineales generalizados geoestadísticos basados en distancias
(Universitat de Barcelona, 2013-07-23) Melo Martínez, Oscar Orlando; Mateu, Jorge; Oller i Sala, Josep Maria; Universitat de Barcelona. Departament d'Estadística
[spa] En esta tesis se hace una mezcla del método de distancias con los modelos lineales generalizados mixtos tanto en lo espacial como en lo espacio-temporal. Con el empleo de las distancias se logran buenas predicciones y menores variabilidades en el espacio o espacio-tiempo de la región de estudio, provocando todo esto que se tomen mejores decisiones en los diferentes problemas de interés. Se propone un método alternativo para ajustar una variable respuesta tipo beta con dispersión variable usando distancias euclidianas entre los individuos. Se emplea el método de máxima verosimilitud para estimar los parámetros desconocidos del modelo propuesto y se presentan las principales propiedades de estos estimadores. Además, se realiza la inferencia estadística sobre los parámetros utilizando las aproximaciones obtenidas a partir de la normalidad asintótica del estimador de máxima verosimilitud; se desarrolla el diagnóstico y predicción de una nueva observación, y se estudia el problema de datos faltantes utilizando la metodología propuesta. Posteriormente, se propone una solución alterna para resolver problemas como el de prevalencia de Loa loa utilizando distancias euclidianas entre individuos; se describe un modelo lineal generalizado espacial mixto incorporando medidas generales de distancia o disimilaridad que se pueden aplicar a variables explicativas. En este caso, los parámetros involucrados en el modelo propuesto se estiman utilizando máxima verosimilitud mediante el método de Monte Carlo vía cadenas de Markov (MCMC). También se formula un modelo lineal beta espacial mixto con dispersión variable utilizando máxima verosimilitud mediante el método MCMC. El método propuesto se utiliza en situaciones donde la variable respuesta es una razón o proporción que esta relacionada con determinadas variables explicativas. Para este fin, se desarrolla una aproximación utilizando modelos lineales generalizados espaciales mixtos empleando la transformación Box-Cox en el modelo de precisión. Por lo tanto, se realiza el proceso de optimización de los parámetros tanto para modelo espacial de media como para el modelo espacial de dispersión variable. Además, se realiza la inferencia estadística sobre los parámetros utilizando las aproximaciones obtenidas a partir de la normalidad asintótica del estimador de máxima verosimilitud. También se desarrolla el diagnóstico del modelo y la predicción de nuevas observaciones. Por último, el método se ilustra a través de los contenidos de arcilla y magnesio. Adicionalmente, se describe el modelo basado en distancias para la predicción espacio-temporal usando modelos lineales generalizados. Se realiza el proceso de estimación de los parámetros involucrados en el modelo propuesto, mediante el método de ecuaciones de estimación generalizada y la inferencia estadística sobre los parámetros empleando las aproximaciones obtenidas a partir de la normalidad asintótica del estimador de máxima verosimilitud. Además, se desarrolla el diagnóstico del modelo y la predicción de nuevas observaciones. Se realiza una aplicación de la metodología propuesta para el número de acciones armadas estandarizada por cada 1000 km2 de los grupos irregulares FARC-EP y ELN en los diferentes departamentos de Colombia entre los años 2003 a 2009. Finalmente, se presenta un modelo autorregresivo espacial lineal generalizado mixto utilizando el método basado en distancias. Este modelo incluye retrasos tanto espaciales como temporales entre vectores de variables de estado estacionarias. Se utiliza la dinámica espacial de los datos econométricos tipo panel para estimar el modelo propuesto; los parámetros involucrados en el modelo se estiman utilizando el método MCMC mediante máxima verosimilitud. Además, se discute en este capítulo la interacción entre estacionariedad temporal y espacial, y se derivan las respuestas al impulso para el modelo propuesto, lo cual naturalmente depende de la dinámica temporal y espacial del modelo.
Problema de martingala i aproximació en llei per difusions amb dos paràmetres
(Universitat de Barcelona, 1996-10-01) Florit i Selma, Carmen; Nualart, David, 1951-; Universitat de Barcelona. Departament d'Estadística
[cat] DE LA TESI: Aquesta memoria consta de dues parts La primera part està dedicada a l'obtenció d'un criteri local de regularitat de densitats per a vectors que tinguin una llei de probabilitat concentrada en un obert de Rk mitjançant tècniques de càlcul estocàstic de variacions (càlcul de Malliavm). Com aplicació d'aquest criteri es demostra que el suprem al quadrat unitat del drap brownià té una densitat infinitament dif renciable en (0, oo) En la segona part s'obté un resultat d'aproximació de difusions per a una equació estocàstica hiperbólica en el pla governada per un procés de Wiener amb dos paràmetres. La llei límit queda caracteritzada com la solució d'un problema de martingala es demostra l'equivaléncia entre existencia i unicitat de solució feble per a una equació diferencial estocàstica en el pla i existéncia i unicitat de solució del corresponent problema de martingala per a processos amb dos paràmetres.
Contribucions a les desigualtats en regressió i anàlisi multivariant
(Universitat de Barcelona, 2004-02-05) Duran Rúbies, Josep Maria; Cuadras, C. M. (Carlos María); Universitat de Barcelona. Departament d'Estadística
[cat] Aquesta memòria és un recull de diverses desigualtats d'interès principalment en regressió i anàlisi multivariant, les quals en alguns casos s'il·lustren i interpreten gràfícament. En els primers capítols es presenten resultats aparentment desconcertants, com per exemple la desigualtat de Hamilton-Roudledge-Cuadras. els quals ens poden avisar dels perills de l'ús, a la Ileugera, de la regressió lineal múltiple i altres tècniques multivariants. S'estudia també la paradoxa de Simpson i una versió multivariant com és la desigualtat en distàncies Mahalanobis més gran que Pearson. S'ha dedicat també un capítol a l'estudi d'un mètode molt general d'anàlisi multivariant presentat per Cuadras, Atkinson i Fortiana que suposa implícitament la construcció de densitats de probabilitat a partir de distàncies. En la darrera part de la memòria es presenten desigualtats per a la variància d'una funció d'una variable aleatòria que tenen aspecte semblant a la desigualtat de Cramér-Rao, altres relacionades amb la distància de Wasserstein i altres desjgualtats que s'obtenen de la propietat d'acotació de la raó de versemblança.
Contribución al estudio de la estructura del conjunto de negaciones definidas en un retículo
(Universitat de Barcelona, 1974-06-01) Esteva Massaguer, Francesc; Sales Vallés, F. de A. (Francisco de A.), 1914-2005; Universitat de Barcelona. Departament d'Estadística
[spa] El presente trabajo fue iniciado como un estudio de las negaciones utilizadas en las diversas lógicas, tema que fue motivado por los trabajos que sobre lógica algebraica vienen desarrollándose en el departamento de Estadística. Partimos de la definición de negación dada por el profesor F. de A. Sales Vallés, que es una aplicación entre ordenados y, en especial, entre retículos, que cumple las condiciones máximas posibles de forma que las negaciones utilizadas en las distintas lógicas sean casos particulares de la definición dada. Dichas negaciones han sido objeto, anteriormente a esta memoria, de varios trabajos de los que se han publicado los del profesor F. de A. Sales Vallés, el de J. Pla y el de F. Esteva. La presente memoria parte de estos trabajos y se dedica al estudio de las negaciones en los retículos completos. En resumen, los resultados que se obtienen son los siguientes: En el capítulo 1 se parte de que la imagen por una negación de un retículo completo es un inf-semirretículo completo que contiene al máximo, y se estudia si, dado cualquier inf-semirretículo que contiene al máximo, existe siempre una negación que lo tenga por imagen. La respuesta es negativa, y se dan condiciones necesarias y suficientes para que la aplicación entre negaciones e inf-semirret!oulos completos que contienen al máximo, sea inyectiva, exhaustiva o biyectiva. As! se ve que esta aplicación es una biyección si, y sólo si, el retículo es una cadena finita. En el capítulo 2 se estudia el conjunto N(L) de todas las negaciones que pueden definirse en un retículo completo. En el apartado 1 se demuestra que N(L) es un retículo completo. En el apartado 2 se dan condiciones, unas necesarias y otras suficientes, para que dicho retículo sea distributivo e infinitamente distributivo. En el apartado 3 se demuestra que la condición necesaria y suficiente para que el retículo sea un álgebra de Boole es que sea atómica, resultado que se completa en el apartado 4 al demostrar que toda álgebra de Boole de negaciones es atómica, así como al hallar la posición ocupada por la complementación del álgebra de Boole en el retículo de las negaciones. Por último, en el apartado. 5 se halla una aplicación entre un álgebra de Boole y el retículo de sus negaciones que es un monomorfismo reticular, y que nos permite, por tanto, sumergir toda álgebra de Boole completa en el retículo de sus negaciones. En el capítulo 3 se recogen y completan diversos resultados hallados en los capítulos anteriores sobre las negaciones en las cadenas completas. Así, en el cap. 2 se da una regla para construir el supremo de dos negaciones y en este capítulo se demuestra que sólo es válida para hallar el supremo de familias finitas de negaciones. También en el cap. 2 se demuestra que si un retículo es completo, atómico y distributivo, el retículo de sus negaciones es distributivo, y en el cap. 3 al demostrar que el retículo de las negaciones de una cadena completa es siempre distributivo, se prueba que la condición dada en el cap. 2 es sólo suficiente. Por último, en una nota se da una demostración del conocido teorema de completación de Mac Neille en el caso de cadenas, utilizando los retículos de negaciones.
Contribuciones al estudio del problema de la clasificación mediante grafos piramidales
(Universitat de Barcelona, 1993-09-30) Capdevila i Marquès, Carles; Arcas Pons, Antoni; Universitat de Barcelona. Departament d'Estadística
[spa] En esta memoria se ha desarrollado una metodología para abordar problemas relativos a la clasificación y de un conjunto de objetos o individuos de una determinada población, mediante unas estructuras llamadas "Pirámides", introducidas por E. Diday en 1984, y que pretenden ser una generalización del concepto de Jerarquía, en el sentido de permitir la existencia no de grupos disjuntos o encajados, sino también de grupos solapados, y por tanto permitir clasificaciones en las que los grupos en que queda dividida la población a un determinado nivel, no tengan que ser forzosamente particiones de la misma, como pasa con las clasificaciones inducidas por las Jerarquías, sino que puedan ser recubrimientos. Este tipo de clasificaciones permite pues que un determinado individuo pueda pertenecer a dos grupos de una misma clasificación y por tanto, en la realidad, pueda ser caracterizado por las propiedades de los distintos grupos a los que pertenezca y no por las de un único grupo como en el caso jerárquico, con lo cual este nuevo modelo de clasificación y representación de datos se adaptará a la realidad que aquel. En primer lugar se ha situado este nuevo modelo de representación en el marco del Análisis Multivariante y se han presentado algunos conceptos y resultados ya conocidos, pero imprescindibles para el desarrollo del tema: Caracterización de las matrices asociadas a las disimilaridades piramidales, relación con los preordenes compatibles, etc. Se recuerda que toda disimilaridad ultramétrica es también piramidal y que, en consecuencia, toda Jerarquía Total Indexada es una Pirámide Indexada, con lo cual podemos considerar a los modelos piramidales como una generalización de los modelos jerárquicos. Se ha desarrollado también una nueva formalización de las bases sobre las que se amparan los modelos de representación y clasificación. En este sentido se ha precisado la axiomática y se han dado nuevos teoremas de Existencia y Unicidad de la pirámide inducida por una disimilaridad piramidal y recíprocamente, de la disimilaridad piramidal inducida por una pirámide. Una vez establecidos los resultados teóricos mencionados, se ha profundizado en otros aspectos teóricos conducentes a hacer que los métodos piramidales puedan llegar a ser útiles en la realización de trabajos prácticos como lo han sido los modelos jerárquicos clásicos. En este sentido se ha diseñado un algoritmo de clasificación piramidal, inspirado en el descrito por el propio Diday, convenientemente modificado, con el fin de obtener una pirámide indexada lo más sencilla posible desde el punto de de la representación visual. Se han caracterizado los grupos sobrantes en una pirámide indexada y se ha demostrado que son los únicos que pueden ser eliminados de una pirámide sin que ello suponga pérdida de información sobre la clasificación. Se ha definido un índice de agregación adecuado a los modelos de representación piramidal y se ha demostrado que el algoritmo de clasificación piramidal descrito, utilizando un tal índice de agregación, produce siempre una pirámide indexada en sentido estricto, sin inversiones, sin cruzamientos y sin grupos sobrantes. Finalmente se ha efectuado una programación informática del algoritmo en Turbo Prolog. El programa, llamado PIR. PRO, a partir de una matriz de disimilaridad dada sobre los individuos de la población, efectúa una clasificación piramidal de la misma por los métodos del Mínimo, del Máximo y del UPGMA, obteniéndose como resultado una de las pirámides indexadas correspondientes, la disimilaridad piramidal asociada, el grafo piramidal y como coeficientes de adecuación entre la disimilaridad inicial y la piramidal obtenida, el coeficiente de correlación cofenética (rho) y el coeficiente gamma de Goodman-Kurskal. Debido a las restricciones impuestas en el algoritmo, se establece que el algoritmo piramidal del mínimo produce siempre la jerarquía del mínimo, que como es sabido, es única. Un sencillo experimento de simulación nos confirma la mejora que suponen las representaciones piramidales frente a las ultramétricas, en el sentido de ser próxima la realidad. En problemas reales de clasificación, una vez obtenida la pirámide es necesario evaluar el nivel de adecuación de la estructura piramidal obtenida, a la estructura inicial de los datos. Para ello disponemos de numerosos coeficientes de adecuación, en nuestro caso hemos considerado el coeficiente de correlación cofenética y el de Goodman-Kurskal. A pesar de disponer de estos parámetros, en un caso concreto, es difícil valorar hasta qué punto sus valores realmente significativos. Así pues, seria conveniente encontrar algún criterio que nos permitiese evaluar el nivel de significación de dichos parámetros. En este sentido hemos intentado una validación estadística de los métodos piramidales del mínimo y del máximo así como la obtención de algún criterio evaluar la potencia-eficiencia de los mismos. Debido al desconocimiento de las distribuciones de los estadísticos utilizados (gamma y rho), se han tratado cuestiones inferenciales un punto de vista empírico. Mediante algunas pruebas de simulación por métodos de Monte Carlo se ha tabulado, a partir de la distribución muestral del estadístico gamma, un test de significación de la bondad de ajuste de una representación piramidal por los métodos del mínimo y del máximo. Asimismo se ha establecido que, en general, el método piramidal del máximo recupera mejor una posible estructura piramidal subyacente en la población a clasificar que el método del mínimo, a menos que pueda preverse que la estructura de la población inicial se asemeje a una jerarquía encadenada.
Análisis de procedimientos para la evaluación de medicamentos: Bioequivalencia y Farmacogenética.
(Universitat de Barcelona, 2010-02-10) Sánchez Olavarría, María Pilar; Carrasco Jordan, Josep Lluís; Ocaña i Rebull, Jordi; Universitat de Barcelona. Departament d'Estadística
[spa] La incorporación en el mercado farmacéutico de los llamados medicamentos genéricos ha generado una problemática compleja que afecta un gran rango de entidades comenzando por el ámbito de la salud pública hasta llegar a la propia industria farmacéutica. Cuando el período de patente de un fármaco está próximo a expirar, el laboratorio farmacéutico que desarrolló la marca registrada de este producto comúnmente designado como "innovador" o de "referencia" (R) puede intentar desarrollar una nueva formulación o forma farmacéutica, con el mismo principio activo para extender su marca de exclusividad. Paralelamente, otros laboratorios pueden intentar desarrollar marcas genéricas que contienen el mismo principio activo que el producto innovador, formulación de prueba (P). Un tratamiento efectuado con un genérico tiene un coste indudablemente inferior a un medicamento de marca (el mismo principio activo y forma farmacéutica), y esta diferencia se debe principalmente a que el medicamento de marca refleja el costo de la gran inversión para desarrollarlo (estudios clínicos de eficacia y seguridad) que a diferencia del medicamento genérico no lo precisan. Para poder realizar una comparación de estos dos tipos de medicamentos e investigar si son intercambiables se recurre a la "biodisponibilidad" (BD) y "bioequivalencia promedio" (BE). (Zapater et al., 1999). La BE de medicamentos constituye un área en continuo desarrollo. Es una problemática que presenta algunas complejidades, lo que ha generado la necesidad de continuar realizando investigaciones para mejorar entre otros aspectos tan trascendentales como los diseños experimentales y las metodologías estadísticas asociadas a estos diseños. En especial abordaremos el caso de las drogas de alta variabilidad, que constituyen un gran problema para su evaluación en la actualidad. Los objetivos planteados en esta tesis doctoral son los siguientes: a.- Conocer, describir y analizar algunos factores que afectan la evaluación de la bioequivalencia promedio en drogas de alta variabilidad. b.- Describir y aplicar las metodologías clásicas y las más actuales utilizadas en la determinación de la bioequivalencia promedio relacionadas con las drogas de alta variabilidad. c.- Conocer, describir y analizar cómo el carryover asociado a diseños crossover impacta el análisis de la bioequivalencia promedio. d.- Conocer y analizar como el tamaño de muestra de un crossover de y la variabilidad de la droga evaluada afectan la evaluación de la bioequivalencia promedio, tanto en ausencia y presencia de carryover. e.- Describir la problemática asociada al cálculo del factor de similitud en la comparación de dos perfiles de disolución en su aplicación práctica a la bioequivalencia in vitro. f.- Describir los conceptos principales asociados a la Farmacogenética para comprender mejor la complejidad de este tipo de estudios. g.- Crear una base de datos con información de estudios farmacogenéticos efectuados con polimorfismos de nucleótido único (SNP) y variables dicotómicas. h.- Revisar y analizar la base de datos en términos del diseño, aspectos metodológicos y resultados, que pueden influir en el resultado final de un estudio de Farmacogenética. Estos objetivos han dado lugar a una serie de investigaciones, cuyos resultados están plasmados en una serie de artículos citados a continuación: [1] Jordi Ocaña, Ma. Pilar Sánchez O, Alex Sánchez, Josep L. Carrasco J. "On Equivalence and Bioequivalence Testing". 2008. SORT. 32(2):151-176. Con este artículo se han cumplido los objetivos a y b. [2] Ma. Pilar Sánchez O, Carolina Gómez G, Josep L. Carrasco J, Jordi Ocaña, Carlos Von Plessing R, C. Gloria Godoy M, Rolando Reinbach H, Ricardo Godoy R. "Evaluating Average Bioequivalence using methods for high variability drugs: A case study". International Journal of Clinical Pharmacology and Therapeutics, 2008, 46(10):527-537, cumpliendo así con los objetivos propuestos a y b. [3] Ma. Pilar Sánchez O, Jordi Ocaña, Josep Lluís Carrasco. "The Effect of Variability and Carryover on Average Bioequivalence Assessment: A Simulation Study". Enviada "minor revision" a Pharmaceutical Statistics, Octubre 2009. Con este artículo se han cumplido los objetivos definidos en c y d. [4] Albert Cobos, Ma. Pilar Sánchez, Jaume Aguado, Josep L Carrasco. "A systematic review on the methods used in pharmacogenetic studies with binary assessment of treatment response." Enviado a Pharmacogenetics and Genomics, Noviembre de 2009, para verificar los objetivos f, g y h. [5] Jordi Ocaña, Gloria Frutos, Ma. Pilar Sánchez O. "Using the similarity factor f2 in practice. A critical revision and suggestions for its standard error estimation". Chemometrics and Intelligent Laboratory Systems, 2009, 99(1):49-56, cumpliendo de esta forma con el objetivo e de la presente tesis.
The Stochastic wave equation: study of the law and approximations
(Universitat de Barcelona, 2005-02-23) Quer i Sardanyons, Lluís; Sanz-Solé, Marta; Universitat de Barcelona. Departament d'Estadística
[eng] This dissertation is devoted to the study of some aspects of the theory of stochastic partial differential equations. More precisely, we mainly focus on the study of a stochastic wave equation perturbed by some random noise. The contents of the thesis may be split in two parts: firstly, we deal with a stochastic wave equation in spatial dimension three with a random perturbation given by a Gaussian noise. In this case, the main objective is to study the existence and smoothness properties of the density of the solution of the equation. Secondly, we handle a one-dimensional stochastic wave equation controlled by the so called space-time white noise. The main aim here corresponds to discretise the equation with respect to space and then study the convergence of the discretised process to the real solution. In the very first part of the dissertation, we introduce the subject of study, give the main mathematical motivations and summarise the goals that we have been able to attain. For this, as a preliminary part, we give the main definitions and state the main results concerning the theory of stochastic partial differential equations driven by Gaussian noises. We give also the main definitions and state the main criteria concerning the stochastic calculus of variations or Malliavin calculus. After a summary of their contents, the main results of the dissertation are included in several appendices. Indeed, the first work is devoted to the existence of density for the solution to a three-dimensional stochastic wave equation driven by a spatially homogeneous Gaussian noise. The main techniques used to prove this result are given by the Malliavin calculus' theory. Moreover, in order to give sense to the evolution equations satisfied by the Malliavin derivatives, we extend the theory of integration with respect to martingale measures to a Hilbert-valued setting. On the other hand, the main difficulty with respect to the studied cases, where the space dimension is one or two, is the fact that in the three-dimensional case the fundamental solution of the wave equation is no more a function but a distribution. The second work extends the results of the first one in the sense that we prove that the density of the solution at any fixed point not only exists but also is a smooth function. For this, again the techniques of the Malliavin calculus are applied, but with much more effort. In the framework of existence and smoothness of densities of solutions to stochastic partial differential equations, we have also devoted a small part of the thesis in extending some of the known results for the stochastic heat equation to general equations of parabolic type. We jump now to the third and last work that forms the body of the dissertation. Namely, we consider discretisation schemes of a stochastic Dirichlet problem given by a stochastic wave equation in spatial dimension one and driven by the space-time white noise. More precisely, the equation is discretised by means of a finite difference method in space and the random perturbation is formally discretised using an Euler scheme. Then, the main idea is to find out an evolution equation satisfied by the approximation process so as to be able to deal with mean and almost sure convergence to the real solution. Furthermore, we get suitable bounds for the rate of convergence that are tested numerically to be optimal. Eventually, the dissertation concludes with a summary of the contents in Catalan and the bibliography.
Contribuciones a la dependencia y dimensionalidad en cópulas
(Universitat de Barcelona, 2013-01-18) Díaz, Walter; Cuadras, C. M. (Carlos María); Universitat de Barcelona. Departament d'Estadística
[spa] El concepto de dependencia aparece por todas partes en nuestra tierra y sus habitantes de manera profunda. Son innumerables los ejemplos de fenómenos interdependientes en la naturaleza, así como en aspectos médicos, sociales, políticos, económicos, entre otros. Más aún, la dependencia es obviamente no determinística, sino de naturaleza estocástica. Es por lo anterior que resulta sorprendente que conceptos y medidas de dependencia no hayan recibido suficiente atención en la literatura estadística. Al menos hasta 1966, cuando el trabajo pionero de E.L. Lehmann probó el lema de Hoeffding. Desde entonces, se han publicado algunas generalizaciones de este. Nosotros hemos obtenido una generalización multivariante para funciones de variación acotada que agrupa a las planteadas anteriormente, al establecer la relación entre los planteamiento presentados por Quesada-Molina (1992) y Cuadras (2002b) y extendiendo este último al caso multivariante. Uno de los conceptos importante en la interpretación estadística esta relacionada con la dimensión. Es por eso que hemos definido la dimensionalidad geométrica de una distribución conjunta H en función del cardinal del conjunto de correlaciones canónicas de H, si H se puede representar mediante una expansión diagonal. La dimensionalidad geométrica ha sido obtenida para algunas de las familias de cópulas más conocidas. Para determinar la dimensionalidad de algunas de las copulas, se utilizaron métodos numéricos. De acuerdo con la dimensionalidad, hemos clasificado a las cópulas en cuatro grupos: las de dimensión cero, finita, numerable o continua. En la mayoría de las cópulas se encontro que poseen dimensión numerable. Con el uso de dos funciones que satisfacen ciertas condiciones de regularidad, se ha obtenido una extensión generalizada para la cópula Gumbel-Barnett, a la que hemos deducido sus principales propiedades y medidas de dependencia para algunas funciones en particular. La cópula FGM es una de las cópulas con más aplicabilidad en campos como el análisis financiero, y a la que se le han obtenido un gran número de generalizaciones para el caso simétrico. Nosotros hemos obtenido dos nuevas generalizaciones. La primera fue obtenida al adicionar dos distribuciones auxiliares y la segunda generalización es para el caso asimétrico. En está última caben algunas de las generalizaciones existentes. Para ambos casos se han deducido los rangos admisibles de los parámetros de asociación, las principales propiedades y las medidas de dependencia. Demostramos que si se conocen las funciones canónicas de una función de distribución, es posible aproximarla a otra función de distribución a través de combinaciones lineales de las funciones canónicas. Como ejemplo, consideramos la cópula FGM en dos dimensiones, en el sentido geométrico, debido a que se conocen sus funciones canónicas, y hemos comprobado numéricamente que su aproximación a otras cópulas con dimensión numerable es aceptablemente bueno.
Enfoque basado en distancias de algunos métodos estadísticos multivariantes
(Universitat de Barcelona, 2001-10-30) Fortiana Gregori, Josep; Cuadras, C. M. (Carlos María); Universitat de Barcelona. Departament d'Estadística
[spa] 1) Introducción Una de las aplicaciones estadísticas de la Geometría Métrica es la representación de conjuntos, consistente en determinar puntos en un espacio de métrica conocida (frecuentemente euclídea) cuyas distancias reproduzcan exacta o aproximadamente las observadas. Los Métodos de Regresión y Discriminación basados en Distancias, propuestos por Cuadras, proporcionan predicciones estadísticas aplicando propiedades geométricas de una representación euclídea. Tienen la ventaja de permitir el tratamiento de Variables continuas, cualitativas de tipo nominal y ordinal, binarias y, en general, cualquier mixtura de estas variables. Esta memoria es una contribución al estudio de estos métodos de predicción basados en distancias. En lo sucesivo emplearemos la abreviatura "DB" para referirnos él estos métodos. 2) Fundamento teórico de la predicción DB Supongamos que se ha medido una variable respuesta "Y" sobre un conjunto "U" de "n" objetos, definidos por unas coordenadas "Z", y se desea predecir el valor Y(n+l) de esta variable para un nuevo objeto "omega" definido por las coordenadas "Epsilon"(n+1). Aplicando una función distancia adecuada se obtiene una matriz "delta" de distancias entre los objetos "U", y de ella las coordenadas "X" de los "U" en cierto espacio euclídeo RP. Existe una expresión para las coordenadas euclídeas X(n+l) de "omega". Si "Y" es continua (regresión DB), la predicción Y(n+l) se obtiene calculando regresión lineal sobre las variables "X" y aplicando a X(n+1) la ecuación de regresión obtenida. Si "Y" es discreta, con estados que equivalen a sub-poblaciones de "U" (discriminación DB), se asigna "omega" a aquella subpoblación para la cual es mínima la distancia euclídea entre su centro de gravedad y X(n+l). Conviene observar que en la práctica no se emplean en general estas construcciones teóricas, sino cálculos equivalentes. 3) La distancia Valor Absoluto La elección de la función distancia es crítica para estos métodos. Para cada problema concreto se puede elegir una medida de distancia que refleje el conocimiento del modelo. Existen, sin embargo, algunas medidas de distancia "standard", adecuadas a gran número de problemas. Un caso notable es el de la distancia Valor Absoluto, cuya fórmula se aborda en esta tesis. Se ha observado que da lugar a predicciones excelentes, comparables a las de una regresión no lineal. Uno de los objetivos de este trabajo ha sido precisamente dar una justificación teórica a este buen comportamiento. En el teorema (2.2.1) se muestra que para todo conjunto "U" de puntos en R(n) existe una configuración de puntos en un espacio euclídeo R(P) que reproduce la matriz ele distancias valor absoluto entre los "U". Seguidamente se realiza el estudio teórico de la estructura de coordenadas principales asociada a esta distancia para "n" puntos sobre la recta real (al ser no bilineal la función distancia, en general "n-1" coordenadas son no triviales). El caso de puntos equidistantes se resuelve analíticamente, partiendo de una configuración euclídea inicial X(o) (convencional, con el único requerimiento de reproducir las distancias valor absoluto entre los puntos dados), y a partir de ella se obtienen las componentes principales. Las coordenadas principales resultan aplicando a la matriz X(o) la rotación resultante. Este método indirecto es más accesible que el usual para la obtención de Coordenadas Principales. En el teorema (2.4.1) se expresan los elementos de la columna "j" de la matriz de coordenadas principales como los valores de una función polinómica de grado "j" en unos puntos "z(i)" fijos. Este teorema se deduce del estudio de una familia paramétrica de matrices cuyo problema de valores y vectores propios se resuelve mediante una ecuación en diferencias. La fórmula de recurrencia se identifica como la de los polinomios de Chehychev. Empleando propiedades de estos polinomios se llega a expresiones explícitas. Estas matrices tienen notables propiedades combinatorias. En particular el teorema (3.3.1) muestra que todos sus vectores propios se obtienen aplicando a1 primero de ellos potencias de una matriz de permutación con signo. Si se dispone de un modelo paramétrico y de una distancia entre individuos estadísticos aplicable a dicho modelo, se puede emplear la versión para variables aleatorias de las funciones discriminantes. La distancia entre individuos más adecuada es la deducida de la Geometría Riemanniana de la variedad de parámetros, que tiene por tensor métrico la "Métrica de Rao". Se han calculado las funciones discriminantes DB para variables aleatorias que siguen algunas distribuciones conocidas. En particular, de la proposición (5.4.2), para variables multinomiales las funciones discriminantes DB coinciden con el tradicional estadístico Ji cuadrado, y de la (5.4.5), para variables normales con matriz de covarianzas común conocida, las funciones discriminantes DB coinciden con las clásicas (lineales) de Fisher. 4)Representación de Poblaciones Se propone una distancia entre poblaciones, obtenida como diferencia de Jensen a partir de promedios sobre las distancias entre los individuos. El teorema (5.5.1) permite interpretarla como distancia euclídea entre los centros de gravedad de los puntos que representan los individuos de cada población. Se demuestra que generaliza la de Mahalanobis, pues coincide con ella en poblaciones normales, si se emplea como distancia entre individuos la deducida de la Geometría Diferencial. Calculando esta distancia para todos los pares de sub-poblaciones se obtiene una matriz, a la que se aplica Multidimensional Scaling, dando lugar a un representación euclídea que generaliza el Análisis Canónico de Poblaciones clásico, es decir, para poblaciones normales se obtienen los mismos resultados que con dicho análisis. Este método no proporciona regiones de confianza para los valores medios de las poblaciones. Se sugiere el empleo de "bootstrap" para dicho cálculo. 5)Aspectos computacionales Se discuten algunos puntos relevantes de la implementación realizada de los algoritmos DB en los programas MULTICUA ®, así como de la estimación "bootstrap" de la distribución de probabilidad de las distancias entre poblaciones, con especial énfasis en las dificultades debidas a las grandes dimensiones de los objetos tratados. 6)Puntos arbitrarios sobre una recta En este caso se llega a una descripción cualitativa de las coordenadas principales, que permite todavía describir la primera coordenada como una dimensión lineal, la segunda como una dimensión cuadrática, la tercera como una dimensión cúbica, etc. La proposición (4.1.1) reduce el problema al estudio de los cambios de signo de las componentes de los vectores propios de una matriz "C". En (4.1.2) se muestra que "C" es oscilatoria, propiedad equivalente a la de tener todos los menores no negativos. Un teorema de Gantmacher sobre matrices oscilatorias da la descripción de los signos. 7)Coordenadas principales de una variable aleatoria uniforme La técnica empleada para obtener las coordenadas principales de un conjunto unidimensional discreto de puntos da lugar a una generalización aplicable a una distribución continua uniforme en el intervalo (0,1). La "configuración euclídea" de partida es un proceso estocástico con parámetro continuo. El cálculo de componentes principales se sustituye por el cálculo de las funciones propias de la función de covarianza del proceso, y de ellas una sucesión (numerable) de variables aleatorias centradas C(j). En (4.2.1) se muestra que estas variables son incorrelacionadas, igualmente distribuidas, y con una sucesión de varianzas sumable, de suma igual a la "variabilidad total" del proceso (traza del núcleo), y por ello el apropiado llamarlas "coordenadas principales de la variable aleatoria uniforme". Aplicando a este modelo de coordenadas principales el esquema de predicción DB se propone una medida de bondad de ajuste de una muestra a una distribución dada. 8)Análisis discriminante DB Las funciones discriminantes DB descritas más arriba pueden obtenerse directamente de los elementos de la matriz de distancias, sin precisar ninguna diagonalización, según resulta de (5.2.1) y (5.2.2). En consecuencia, el cálculo es rápido y efectivo.
Análisis estadístico multivariante y representación canónica de funciones estimables
(Universitat de Barcelona, 1973-11-02) Cuadras, C. M. (Carlos María); Gardeñes Martín, E.; Universitat de Barcelona. Departament d'Estadística
[spa] Cuando, realizado un análisis de la varianza, el efecto de un factor resulta significativo, para poder tener información sobre las causas de esta significación, se hace necesario conocer la forma en que se diferencian los niveles del factor. Algo parecido podría decirse respecto a las interacciones, con efecto significativo, entre dos o más factores del diseño. El problema, desde un punto de vista general, podría formularse así: dado un diseño multivariante de experimentos, y obtenido un sistema de funciones paramétricas estimables, si son significativamente distintas, ¿cómo se diferencian entre sí? Un primer camino para diferenciar los efectos de un factor (o unas interacciones, o un sistema de funciones paramétricas estimables en general), podría consistir en realizar análisis parciales de la varianza, tomando algunos niveles y prescindiendo de los demás. Esta solución, que exigiría un análisis para cada uno de las posibles combinaciones, es muy engorroso y prácticamente inviable. La utilización de contrastes ortogonales, T-contrastes ó S-contrastes en el caso más general (SCHEFFE, 1959) permite comparar combinaciones lineales de los niveles. Son muy útiles, pero tienen el inconveniente de que exigen la elección de los coeficientes, que puede ser complicado si los tamaños de las muestras de cada una de las celdas del diseño son distintos. Además, su aplicación se limita, en la práctica, a comparar los efectos de un factor principal. Las dificultades y limitaciones de las soluciones anteriores y, en cambio, la sencillez de interpretación que proporciona el análisis canónico de RAO (1952) para representar y diferenciar poblaciones, sugieren la conveniencia de generalizarlo a diseños más complicados, para poder hacer lo mismo con un sistema de funciones paramétricas estimables. En este sentido, el principal objetivo de la presente memoria es la generalización del análisis canónico de poblaciones a un sistema de funciones de funciones paramétricas estimables. Sin embargo, no abordaremos el problema sin antes revisar algunos conceptos del análisis multivariante. Para empezar, y siguiendo a DEMPSTER (1969) emplearemos una notación actualizada que aproveche los recursos del álgebra lineal moderna. Esto nos permitirá, entre otras cosas, exponer de forma algebraica la teoría y estimación de funciones paramétricas, independientemente de cualquier parametrización. Por otra parte, en esta memoria debemos analizar en detalle las relaciones entre la versión algebraica y la versión paramétrica de una función estimable, estableciendo la forma de pasar de una a otra. Además, deseamos obtener, en función de un muestreo, la expresión que optimice la estimación de una función estimable y relacionarla con la estimación que proporciona el teorema de GAUSS-MARKOV. La representación canónica de un sistema de funciones estimables deberá tener las mismas propiedades métricas que el análisis discriminante de RAO (1952). Otro objetivo importante de esta memoria será el obtener una región confidencial exacta (fijando un coeficiente de confianza) para cada función estimable. Finalmente nos proponemos estudiar la representación canónica en el caso de que existan variables concomitantes que influyan en las funciones estimables, y la conexión entre el análisis canónico generalizado y el análisis de coordenadas principales de GOWER (1966).
Optimización en estudios de Monte Carlo en estadística: aplicaciones al contraste de hipótesis
(Universitat de Barcelona, 1996-09-13) Vegas Lozano, Esteban; Ocaña i Rebull, Jordi; Universitat de Barcelona. Departament d'Estadística
[spa] El principal resultado es la presentación de una técnica de optimización en estudios de Monte Carlo en Estadística. Se obtiene un estimador de la esperanza de una variable dicotómica (Y), que tiene una varianza menor que el estimador habitual, la frecuencia relativa. Este estimador optimizado se basa en el conocimiento de otra variable dicotómica (de control), C, correlacionada con Y y de esperanza conocida, E(C). La aplicación de esta técnica es sencilla de implementar. En simulación de Monte Carlo en es relativamente frecuente disponer de tales variables de control. Así, por ejemplo, en estudios de simulación de la potencia de un nuevo test no paramétrico se puede utilizar en ocasiones un test paramétrico comparable, de potencia conocida. Se demuestra que este estimador es insesgado y se obtiene la expresión de su varianza. Se estudiaron varios estimadores de esta varianza, escogiendo a uno de ellos como el más adecuado. Además, se estudia el tanto por ciento de reducción de la varianza del nuevo estimador en comparación con el estimador habitual (frecuencia relativa). Se observan unos valores entre un 40% a un 90% según se incremente el valor de la correlación entre la variable de control (C) y la variable de estudio (Y). Para validar los resultados teóricos anteriores e ilustrar la técnica propuesta se realizaron dos estudios de simulación. El primero sirve para obtener una estimación de la potencia de un nuevo test. Mientras que el segundo es un estudio de simulación general sin ninguna finalidad concreta. Se propuso un nuevo test para resolver el problema de Behrens-Fisher, basado en la distancia de Hao, al cual se le aplica la anterior técnica para conocer su potencia y robustez. Se obtiene una potencia y robustez óptimas. Por último, se exponen dos casos reales, dentro del entorno médico-biológico, donde surge el problema de Behrens-Fisher. En ambos estudios, se realiza un análisis crítico ya que las verdaderas probabilidades de error son distintas de las supuestas debido a ignorar probables diferencias entre varianzas.
Estudi d'algunes propietats de les martingales contínues amb paràmetre bidimensional
(Universitat de Barcelona, 1985-01-01) Utzet i Civit, Frederic; Nualart, David, 1951-; Universitat de Barcelona. Departament d'Estadística
[cat] Els processos estocàstics amb paràmetre multidimensional, també anomenats camps aleatoris, apareixen en l'estudi estadístic de fenòmens que evolucionen depenent de n variables (n>1). Per exemple, en un flux turbulent con l'atmosfera, la temperatura o la pressió en un punt depèn de les seves tres coordenades i del temps; o bé en agronomia, en prendre mesures sobre un camp; o la propagació d'ones electro-magnètiques a través d'un medi aleatori. En l'estudi teòric d'aquests processos, les propietats més importants dels processos estocàstics ordinaris que depenen de l'ordre del conjunt d'índexs: la propietat de Markov i el caràcter martingala, es transfereixen amb més o menys dificultat al cas multi-dimensional. Si bé la propietat de martingala s'estén de manera immediata a un procés indexat per un conjunt parcialment ordenat l'estudi de les martingales amb paràmetre multidimensional no cobra vida fins els treballs de Cairoli (1970) i, especialment, els de Wong-Zakai (1974) i Cairoli-Walsh (1975), en els quals la teoria es comença a mostrar madura i amb futur. L'important article de Cairoli-Walsh està motivat per l'estudi dels processos holomorfs, aixó és, processos que, en un cert sentit, tenen derivada respecte del drap brownià. Ara bé, la primera part d'aquest llarg article està dedicada a construir un càlcul estocàstic bidimensional, però no sols respecte al drap brownià, sinó amb martingales afitades en L^. Aleshores defineixen integrals simples, dobles i de línia, i demostren un teorema de Green que relaciona les integrals de línia i de superfície. A partir d'aquell moment, la teoria avança combinant dos fronts. D'una banda, estendre a dos paràmetres els resultats del cas unidimensional: construir una teoria general de processos, localització, desigualtats de Burkholder, fórmula d'Itô; d'altra banda, analitzar les noves definicions i conceptes que ha fet falta anar introduint: diferents tipus de martingales, distintes variacions quadràtiques,... Justament en aquesta segona línia de recerca s'inscriu aquest treball.
Análisis intrínseco de la estimación puntual
(Universitat de Barcelona, 1994-06-14) Corcuera Valverde, José Manuel; Oller i Sala, Josep Maria; Universitat de Barcelona. Departament d'Estadística
[spa] Razones de coherencia lógica, en el contexto de modelos estadísticos paramétricos, llevan a considerar como estimadores únicamente aquellos que poseen la propiedad de invarianza funcional. Los estimadores resultan así aplicaciones medibles del espacio muestral en la variedad formada por las medidas de probabilidad. Las nociones clásicas de sesgo y varianza resultan ahora inadecuadas para estudiar las propiedades de un estimador al ser dependientes de la parametrización que se utilice para representar el modelo. La distancia Riemanniana proporcionada por la métrica informativa (distancia de Rao) aparece como el análogo natural del error cuadrático. La teoría clásica de estimación es reconstruida desde un punto de vista intrínseco (no dependiente de la parametrización y sin introducir funciones de pérdida ajenas al modelo). Los objetivos de lo que llamamos Análisis Intrínseco son, por un lado, suministrar herramientas invariantes que permitan analizar el comportamiento de un estimador, y por otro obtener resultados análogos a los clásicos y establecer conexiones entre las medidas clásicas no invariantes y las medidas intrínsecas obtenidas. Útiles clásicos de la geometría diferencial: aplicación exponencial, campos de Jacobi y los teoremas de comparación, son usados para definir y estudiar las nociones de sesgo intrínseco y distancia de Rao cuadrático media de un estimador. Otras nociones geométrico-diferenciales como valor medio de un objeto aleatorio en una variedad equipada con una conexión afín y desarrollo de Taylor invariante han tenido que ser desarrolladas. En el marco anterior se ha estudiado el comportamiento local y global de un estimador proporcionando cotas del tipo Cramér-Rao donde aparece el efecto de las curvaturas seccionales de la variedad Riemanniana asociada al modelo. En el estudio del comportamiento global de un estimador se ha hecho uso de métodos variacionales. Se ha estudiado también en qué condiciones la BIackwellización de un estimador produce una mejora del mismo. La noción de completitud ha sido modificada convenientemente para obtener un teorema análogo al clásico teorema de Lehmann- Scheffé. Por último se han estudiado propiedades asintóticas, especialmente en relación con el estimador máximo-verosímil, aplicando los desarrollos de Taylor tensoriales para el estudio de la eficiencia asintótica.
Medidas de divergencia en análisis de datos
(Universitat de Barcelona, 1987-04-30) Salicrú, Miquel; Cuadras, C. M. (Carlos María); Universitat de Barcelona. Departament d'Estadística
Un problema interesante que se plantea en análisis de datos es la elección adecuada de medidas que cuantifiquen las analogías y diferencias entre individuos, poblaciones o grupos de poblaciones. De forma general, han sido desarrolladas distintas formas de elección de tales medidas, siendo destacables las medidas que provienen de diferencias intrínsecas entre individuos, las medidas que provienen de consideraciones sobre funciones, de entropía, y las medidas que provienen exclusivamente de consideraciones teóricas. En esta memoria, hemos estudiado estas medidas a partir de la clasificación de medidas de distanciación realizada por Burbea y Rao (1982). En la primera parte (cap. 1, 2 y 3), se presentan las distintas divergencias, se estudian inter-relaciones y se analiza la convexidad. En la segunda parte (cap. 4) se estudian las métricas diferenciales asociadas a divergencias invariantes frente a cambios no singulares de parámetros y variables aleatorias. En la tercera parte (cap. 5 y 6) se analizan las relaciones entre la J-divergencia y las entropías comúnmente utilizadas. Finalmente, en los anexos I y II se presentan los programas utilizados en el cap. 6.

Examinar

Enviaments recents