Anàlisi in silico de malalties: des de les mutacions fins les xarxes biològiques

Porta Pardo, Eduard

Please use this identifier to cite or link to this item: http://hdl.handle.net/2445/43153

Title:	Anàlisi in silico de malalties: des de les mutacions fins les xarxes biològiques
Author:	Porta Pardo, Eduard
Director/Tutor:	Rojas Mendoza, Ana Maria Cases Díez, Ildefonso Tauler Girona, Albert
Keywords:	Genòmica Bioinformàtica Malalties Mutació (Biologia) Proteïnes Genomics Bioinformatics Diseases Mutation (Biology) Proteins
Issue Date:	5-Mar-2013
Publisher:	Universitat de Barcelona
Abstract:	[eng] In the era of “omics” data, the use of computational approaches to store, integrate and analyze biological information is becoming a priority, particularly in the field of biomedicine and the study of diseases. Bioinformatics methods have been successfully applied to numerous problems derived from this data explosion, such as the integration of experimentally-derived raw data with other sources of biological information in order to analyze it, the identification of features specific for biologically relevant sets of genes (such as those related to disease) or the prioritization of long lists of genes and mutations potentially associated to different phenotypes. In this thesis we will develop a new relational database of genes and mutations associated to disorders where annotations will be mapped to ontologies. By doing so, we will overcome some limitations of existing databases, such as their lack of normalization of annotations. This will provide us an optimal framework to investigate the use of ontologies and enrichment analysis to identify disease-specific mutation features that, hopefully, will help us in understanding some aspects of the underlying molecular biology of these diseases. Finally, we will explore whether networks derived from different types are better are predicting different diseases. Moreover, we will also test several combinations of these networks in order to see if they perform better than the networks alone. [spa] La generación masiva de datos provocada por el incremento en el uso de tecnologías de alcance genómico hace que las técnicas de análisis de datos bioinformáticos sean más necesarias que nunca. En el campo de la identificación de genes y mutaciones asociados a enfermedad, hay dos grupos de técnicas que se están convirtiendo en muy populares para la priorización de listas de genes y mutaciones candidatos: el análisis de enriquecimiento y el uso de redes biológicas. En esta tesis hemos evaluado el uso de estas técnicas para (I) identificar propiedades biológicas que asociadas a mutaciones específicas de ciertas enfermedades y (II) el uso de distintas redes de información biológica y diferentes algoritmos de la teoría de redes para priorizar genes asociados a 5 tipos de enfermedades distintas. Para ello hemos creado una base de datos relacional con información sobre genes y mutaciones asociados a enfermedades y las propiedades biológicas que se alteran en las enfermedades. Todas las anotaciones han sido hechas con ontologías o vocavularios controlados. El análisis de enriquecimiento nos ha permitido identificar propiedades enriquecidas o deplecionadas en mutaciones asociadas a distintas enfermedades. Entre ellas destacan el empobrecimiento en mutaciones asociadas a cáncer en puentes disulfuro, péptidos señal y dominios transmembrana, o el enriquecimiento de mutaciones de cáncer en regions intrínsecamente desesctruturadas, regiones de composición de sesgada y regiones ricas en serina. Nuestra hipótesis es que las propiedades empobrecidas se deben a que su mutación es deleterea para la célula tumoral. Ello se debe a que las células tumorales tienen preactivada una via que puede llevar a apoptosis, la via de respuesta a proteínas malplegadas. La mutación en puentes disulfuro, dominios transmembrana o péptidos señal provoca una acumulación de proteínas en el retículo endoplásmico y una sobractivación de dicha via, provocando la apoptosis de la célula. Por otro lado, creemos que las propiedades enriquecidas en mutaciones de cáncer lo son porqué permiten alterar interacciones proteína-proteína y alterar el proteoma, una propiedad que se ha asociado con propiedades tumorales. En cuanto al uso de redes biológicas para predecir nuevos genes asociados a distintas enfermedades, hemos usado 5 algoritmos distintos, 4 redes con asociaciones derivadas de distintos tipos de información biológica para predecir genes asociados a 5 enfermedades distintas. Los 5 algoritmos usados son: el contaje de vecinos hasta distancias 1, 2 y 3 (DN1, DN y DN3), el Diffusion Kernel (DK) y el caminador aleatorio (RWR). Los 2 últimos pertenecen a un grupo de algoritmos llamados "algoritmos de difusión" y, según publicaciones previas, tienen una mayor capacidad de predicción que los 3 primeros (las variantes del contaje de vecinos). No obstante, según nuestros resultados, esta superioridad no es generalizable y depende en gran medida del tipo de red usada y la enfermedad predecida. Las 4 redes que hemos empleado representan proteínas conectadas por distintos tipos de relaciones: interacciones físicas (que hemos obtenido de HPRD), paralogía (de ENSEMBL), pertenencia a la misma via de señalización o coexpresión en tejido humano sano. El tipo de red más usado con el fin de predecir genes asociados a enfermedad es aquella derivada de datos de interacción, no obstante, nuestros datos demuestran que los otros 3 tipos de redes pueden funcionar tan bien o incluso mejor que ésta para este fin. A continuación hemos tratado de combinar las redes de distinta forma con el fin de mejorar su poder de predicción. Para ello hemos usado distintos algoritmos que pueden ser clasificados en dos grupos en función del momento de combinación de la información: "a priori" (aquellos métodos que combinan las puntuaciones obtenidas para cada gen en las redes independientes, en nuestro caso un clasificador Bayesiano) y "a posteriori" (la combinación de la información se hace antes de usar el algoritmo de redes, en nuestro caso hemos sumado los nodos y las aristas de las redes). De acuerdo a nuestros datos es mejor usar métodos "a priori", ya que el clasificador Bayesiano siempre tiene un menor poder predictivo que la suma de redes. Además, parece que es muy complicado obtener una suma de redes que funcione mejor, en términos de AUC, que la mejor red independiente, ya que sólo para una de las enfermedades, diabetes, hemos encontrado una combinación de redes que cumpliera con estos requisitos. También hemos observado que no existe una correlación entre el número de tipos de información biológica usados para crear la combinación de redes y su capacidad de predicción. Finalmente, hemos comprobado el poder predictivo de una de las mejores combinaciones de redes en un set de datos independiente que hemos obtenido de COSMIC. Este set de datos contiene genes mutados en, al menos, 15 muestras de cáncer colorectal y que no están presentes en nuestra base de datos. Hemos podido predecir estos genes tanto en términos de AUC como en términos de enriquecimiento de "ranking".
Note:	Tesi realitzada a l'Institut de Medicina Predictiva i Personalitzada del Càncer (IMPPC)
URI:	http://hdl.handle.net/2445/43153
Appears in Collections:	Tesis Doctorals - Facultat - Biologia

Files in This Item:

File	Description	Size	Format
EPP_TESI.pdf		4.67 MB	Adobe PDF	View/Open

Show full item record