Binary pathogenicity classification of missense variants through development of quantitative protein-specific predictors

Özkan, Selen

Please use this identifier to cite or link to this item: http://hdl.handle.net/2445/207042

Title:	Binary pathogenicity classification of missense variants through development of quantitative protein-specific predictors
Author:	Özkan, Selen
Director/Tutor:	Cruz, Xavier de la
Keywords:	Ciències de la salut Medicina personalitzada Fenotip Bioinformàtica Aprenentatge automàtic Medical sciences Personalized medicine Phenotype Bioinformatics Machine learning
Issue Date:	1-Dec-2023
Publisher:	Universitat de Barcelona
Abstract:	[eng] Precision medicine aims to provide personalized patient care using genetic data. However, interpreting the phenotypic consequences of genetic variants remains a bottleneck in both clinical and research settings. Computational methods available mostly focus on predicting the binary impact of protein sequence variants (benign/pathogenic). Despite their high predictive power, there still are limitations that affect their reliability. New research efforts are made for approaching the variant prediction problem from a completely different angle: continuous prediction of the molecular impact of variants comparable to the functional assay values. The work in this thesis belongs to this new paradigm. We start by reviewing the status of the pathogenicity predictors to understand their nature, progress, and limitations. We follow this review by focusing on prediction models for two important tumor suppressor genes involved in hereditary breast and ovarian cancers: BRCA1 and BRCA2. We developed two protein-specific predictors for BRCA1 and BRCA2 proteins trying several regression techniques. Using a small set of features and training sets, we show the potential of regression approaches for addressing the prediction of the quantitative impact of variants. These studies led to the main goal of this thesis project: the development of a novel approach for predicting the clinical impact of missense variants based on a fundamental formulation of the problem. First, we train a series of 30 protein-specific regression models using the deep mutational scanning experiments available in the literature and a set of sequence- and structure (AlphaFold)-based input features. We show that our models’ performances display significant predictive ability. VII Second, we extend this protein-specific approach to the clinical genome by developing a general Ensemble Learning based-predictor. For a given variant, this model combines the predictions of a set of representative protein-specific predictors by simply taking their medians. When compared against predictors with similar nature, such as ENVISION, our model showed higher Pearson’s correlations for most of the cases in our dataset. Lastly, we address the final goal of the project: generating binary outcomes from our Ensemble model. The result was subject to a rigorous testing of the resulting methodology in an independent validation dataset against top ranking in silico tools in the field. We see that our methodology reaches a predictive level comparable to that of established binary methods, like REVEL or others. In summary, we show that our approach can be useful for predicting the molecular impact of variants and their potential binary status while keeping a high potential for interpretability. [spa] La medicina de precisión tiene como objetivo brindar atención personalizada al paciente usando datos genéticos. Sin embargo, interpretar las consecuencias fenotípicas de las variantes genéticas sigue siendo un obstáculo tanto en el ámbito clínico como en el de investigación. Los métodos computacionales actuales se centran principalmente en predecir el impacto binario (benigna/patógenica) de las variantes de la secuencia de las proteínas. Pero a pesar de su alto poder predictivo, todavía existen limitaciones que afectan a su fiabilidad. Por ello, se están realizando nuevos esfuerzos de investigación para abordar el problema de la predicción de variantes desde un ángulo diferente: obtener una predicción continua del impacto molecular de variantes comparable a los valores de los ensayos funcionales. El trabajo de esta tesis pertenece a este nuevo paradigma. Comenzamos revisando el estado de los predictores de patogenicidad para comprender su naturaleza, progreso y limitaciones. Continuamos esta revisión centrándonos en los modelos de predicción de dos importantes genes supresores de tumores implicados en el cáncer de mama y de ovario hereditario: BRCA1 y BRCA2. Finalmente, desarrollamos dos predictores específicos de proteínas para BRCA1 y BRCA2 probando varias técnicas de regresión. Utilizando un pequeño conjunto de características descriptivas y conjuntos de entrenamiento, mostramos el potencial de las técnicas de regresión para abordar la predicción del impacto cuantitativo de las variantes. Estos estudios me prepararon para abordar el principal objetivo de esta tesis: el desarrollo de una nueva aproximación para predecir el impacto clínico de las variantes sin sentido basado en una formulación fundamental del problema. Primero, entrenamos una serie de 30 modelos de regresión específicos de proteínas utilizando los experimentos de escaneo mutacional profundo disponibles en la literatura y un conjunto de características descriptivas basadas en secuencia y estructura (AlphaFold). A continuación, mostramos que nuestros modelos tienen una mayor y significativa capacidad predictiva. En segundo lugar, ampliamos esta aproximación específica de proteínas al genoma clínico mediante el desarrollo de un predictor general tipo Ensemble. Para una variante determinada, este modelo combina las predicciones de un conjunto de predictores específicos de proteínas representativos simplemente tomando sus medianas. En comparación con predictores de naturaleza similar, como ENVISION, nuestro modelo mostró mejores correlaciones de Pearson para la mayoría de los casos de nuestro conjunto de datos. Por último, abordamos el objetivo final del proyecto: generar una predicción binaria a partir de nuestro modelo Ensemble. Evaluamos dichas predicciones con un riguroso test con un conjunto de datos de validación independiente y lo comparamos con las mejores herramientas in silico del campo. Los resultados nos muestran que nuestra metodología alcanza un nivel predictivo comparable al de los métodos binarios establecidos, como REVEL u otros. En resumen, mostramos que nuestra aproximación puede ser útil para predecir el impacto molecular de las variantes y su correspondiente estado binario, manteniendo un alto potencial de interpretabilidad.
URI:	http://hdl.handle.net/2445/207042
Appears in Collections:	Tesis Doctorals - Facultat - Biologia

Files in This Item:

File	Description	Size	Format
SO_PhD_THESIS.pdf		24.62 MB	Adobe PDF	View/Open

Show full item record