Treballs Finals de Grau (TFG) - Estadística UB-UPC

URI permanent per a aquesta col·leccióhttps://hdl.handle.net/2445/66467

Treballs Finals del Grau d'Estadística UB-UPC. Grau coordinat per la Facultat d'Economia i Empresa de la Universitat de Barcelona i de la Facultat de Matemàtiques i Estadística (UPC).

Estadístiques

Examinar

Mostrant 1 - 20 de 203

Aprenent dissenys d’experiments a través de Shiny
(2025) Armengol Pachón, Carla; Subirana Cachinero, Isaac
En la present investigació es desenvolupa una interfície interactiva, mitjançant la llibreria Shiny de R, basada en disseny el d’experiments. Per tal de delimitar l’objecte d’estudi, es realitza una aplicació basada en el disseny ANOVA d’un factor fix o aleatori, el disseny ANOVA amb dos factors creuats (ambdós fixos, ambdós aleatoris o un fix i l’altre aleatori), i finalment, el disseny de dos factors niats. Amb la intenció que l’usuari entengui l’estructura de l’aplicació, es presenta un cas pràctic com a guia de la interfície interactiva desenvolupada.
Eines per a l'exploració de mercats immobiliaris: el potencial de les API amb Idealista
(2025) Codina Casals, Enric; Torra Porras, Salvador
En aquest treball s’ha desenvolupat una aplicació en Python amb una interfície gràfica (GUI) que permet explorar el mercat de lloguer a Barcelona, Madrid i Sevilla. L’eina combina estadística descriptiva i models predictius, mostrant gràfics i taules dinàmiques a partir de dades actualitzades mitjançant l’API d’Idealista. El sistema permet seleccionar zones al mapa i configurar filtres com preu o habitacions. El desenvolupament ha inclòs l’optimització de codi, superant reptes tècnics i metodològics, i ha descartat el web scraping per les seves limitacions, apostant per una arquitectura flexible, fiable i escalable
Mètodes de deep learning per a la estimació de la financiació pública en empreses
(2025) Capdevila Masó, Jordi; Ramírez Mitjans, Sergi
Aquest treball se centra en l’estudi dels transformers com a la novetat en el processament del llenguatge natural. Per contextualitzar, s’han analitzat diverses tècniques de vectorització: TF-IDF, com a model basat en freqüències; Word2Vec, com a exemple d’aprenentatge distribuït mitjançant xarxes neuronals, i BERT, com a representació avançada dels transformers. Aquest estudi teòric ha permès entendre les diferències i avantatges dels diferents tipus de vectorització de text. Com a part pràctica, s’ha estudiat el finançament de startups a Catalunya; s’han extret les dades mitjançant web scraping amb Python. Un cop recollides, s’ha fet un procés de neteja i preprocessament. Posteriorment, s’han aplicat les tècniques de vectorització i s’ha reduït la dimensionalitat amb PCA i ACM. Finalment, s’han aplicat models predictius, com XGBoost, SVR i Ridge, i se n’han comparat els resultats per avaluar quin ofereix millor rendiment.
Anàlisi estadística dels factors que condicionen l'admissió a la universitat pública catalana
(2025) Costa López, Judit; Pons Fanals, Ernest
En aquest treball s’estudiaran els diferents factors que influeixen en l’accés a les universitats públiques catalanes el curs 2021-2022, on les bases de dades estan extretes de l’Oficina d’Accés a la Universitat. Els principals objectius d’aquest treball són analitzar i contrastar, mitjançant càlculs i tests estadístics, com i amb quina magnitud afecten les diferents variables pel que fa a la decisió del procés de selecció de la titulació i del procés d’admissió. A partir dels resultats extrets s’arribaran a unes conclusions on veurem quins són els factors més importants estudiats que més relació poden tenir en tot aquest procés.
Assessment of the Resemblance Metrics for Synthetic data validation
(2025) Chen, Xinnuo; Cortés Martínez, Jordi; Fernández Martínez, Daniel
In the context of the constant growth of artificial intelligence, the requirement for large volumes of data has become one of the main challenges. Using synthetic data is a viable alternative for addressing both the scarcity of real data and the need to protect information privacy. For synthetic data to be useful, it is essential to validate that the characteristics of the original data are preserved. This study analyses the reliability of the SPECKS metric for measuring similarity between real and synthetic data in cluster analysis. Several factors affecting the ability of algorithms to repli cate the structure of the original clusters are examined through simulations. The relationship between SPECKS and clustering metrics that allow the similarity of the clusters’ structure to be evaluated is also studied to determine whether SPECKS can be a good indicator of the quality of structural preservation in synthetic data clusters. The results suggest that SPECKS is insensitive to structural changes and is therefore not a suitable metric for evaluating structural quality in cluster analysis.
Proximal Algorithms: ISTA and FISTA for L1-Regularized Regression
(2025) Chen, YingHong; Vegas Lozano, Esteban; Reverter Comes, Ferran
Linear regression models are widely used across fileds like medicine, biology, and economics. This work explores the use of proximal gradient methods, particularly the ISTA and its accelerated version, FISTA, which are simple and efficient algorithms for solving optimization problems with non-differentialble penalties such as L1-norm used in Lasso regression. A package called ProxReg was made to make it easier to use the algorithms. It suports prediction and classification tasks with binary, numeric and multinomial target variables using Lasso regression model. And it also includes Ridge, OLS regression, cross-validation tools, and image reconstruction features. The efficacy and performance of the proposed proximal gradient methods are evaluated by comparing them with the Lasso regression results based on the glmnet package coordinate descent method, using real-world and simulated data.
Natural Language Processing (NLP) para la generación de un índice de sentimiento económico: Una aplicación en los discursos presidenciales de EEUU
(2025) Fernández de Quincoces, Oscar; Torra Porras, Salvador; Ramírez Mitjans, Sergi
Este trabajo de investigación analiza la posible relación entre el sentimiento expresado en los discursos inaugurales de los presidentes de Estados Unidos desde el año 2009 hasta la actualidad y la evolución del índice bursátil SP500. Se realiza un preprocesamiento exhaustivo de los discursos, incluyendo la limpieza, tokenización y extracción de palabras clave. Posteriormente se aplica análisis de sentimiento mediante técnicas de procesamiento del lenguaje natural (NLP) y modelos de lenguaje de gran tamaño (LLM), con el objetivo de cuantificar la tonalidad emocional. Finalmente, se grafican las series temporales del índice SP500 en torno a cada discurso y se calculan las rentabilidades y volatilidades previas y posteriores, con el fin de detectar posibles patrones de correlación entre el contenido emocional y el comportamiento bursátil.
Optimización de carteras de inversión con redes neuronales y algoritmos genéticos
(2025) Galiot Pérez, Jan; Ramírez Mitjans, Sergi; Conti, Dante
La motivación principal de este estudio nace de la curiosidad personal por aplicar los conocimientos adquiridos durante mi formación académica en el complejo ámbito del mercado financiero, un entorno que ofrece una oportunidad para integrar herramientas cuantitativas avanzadas con estrategias de inversión. Este interés me llevó a explorar cómo las técnicas computacionales modernas pueden contribuir a mejorar la optimización de carteras de inversión, buscando enfoques innovadores que superen los métodos tradicionales. Para realizar el estudio, se emplearon datos históricos de los precios semanales de los activos que componen el IBEX 35, el principal índice bursátil de España, organizados en períodos diferenciados de entrenamiento y prueba para garantizar un análisis robusto. El trabajo se centró en comparar el desempeño de las redes neuronales recurrentes de tipo Long Short-Term Memory y algoritmos genéticos como el Non-dominated Sorting Genetic Algoritmo II, con el modelo clásico de Markowitz, basado en la teoría moderna de carteras, para maximizar la rentabilidad ajustada al riesgo. Los resultados muestran que todas las carteras optimizadas superan ampliamente el rendimiento del índice de referencia, destacando el potencial de estas técnicas, especialmente las redes neuronales recurrentes, para modelar relaciones complejas en datos financieros. Esto abre nuevas líneas de investigación, aunque los resultados están limitados al período analizado y podrían variar en diferentes condiciones de mercado.
Diferències de gènere entre la percepció subjectiva de les competències en matemàtiques i el rendiment acadèmic real
(2025) Gómez Jorba, Carla; López-Mayán, Cristina
La investigació prèvia mostra que, en general, els nens tendeixen a percebre’s més competents en les matemàtiques que les noies. Encara que aquestes diferències subjectives no sempre coincideixen amb els estudis acadèmics. En el TFG s’analitzarà la relació entre la bretxa en les percepcions subjectives del rendiment en les matemàtiques i la bretxa real de resultats acadèmics entre nens i nenes. També, s’analitzaran les diferències entre països. Aquest es durà a terme amb les dades més recents de l’avaluació internacional TIMSS. Posteriorment, s’analitzarà si els factors familiars o escolars estan correlacionats amb les diferències observades. Finalment, també s’estudiarà l’evolució de la bretxa de gènere en la percepció subjectiva entre els 9 i 14 anys.
Còpules per a l'estimació conjunta de freqüència i severitat en assegurances d'automòbil
(2025) Larraz Serrano, Marc; Bolancé Losilla, Catalina
En aquest treball s’ha desenvolupat una metodologia per modelar conjuntament la freqüència i la severitat de sinistres de col∙lisió parcial en pòlisses d’automòbil al Brasil mitjançant models marginals (binomial negatiu i lognormal) i còpules (Frank). S’han incorporat covariables com l’edat, el gènere i la marca del vehicle, i s’ha comparat la distribució de pèrdues sota independència i dependència mitjançant simulació de Monte Carlo.
Comparación de modelos de análisis temporal: ARIMA vs Deep learning en predicción económica
(2025) Izquierdo Cruz, Lucía; Pons Fanals, Ernest
La predicción de series temporales de carácter económico ha aumentado su popularidad como herramienta para tomar decisiones de inversión. Comúnmente, los modelos ARIMA han sido utilizados para la predicción de series temporales, ya que ofrecen buenos resultados con pocos datos. No obstante, presentan limitaciones frente a series no lineales o con volatilidad elevada. Este trabajo compara cinco modelos de predicción aplicados a series de precios de cierre de acciones, de frecuencia diaria, de Coca-Cola, Disney, Microsoft y Tesla. Los modelos se pueden separar en: estadísticos (ARIMA y Prophet) y de deep learning (GRU, SegRNN y TiDE). Los resultados muestran que los modelos de deep learning superan, con diferencia, a los modelos estadísticos; especialmente en series más volátiles.
Diagramas acíclics dirigits (DAGs) i reproductibilitat d'estudis observacionals
(2025) Humet Aparici, Carlos Oriol; Cobo, Erik
Fonament En el camp de salut, la majoria dels estudis que es publiquen es basen en dades observades, no experimentals. Aquest tipus d’estudis acostumen a atemptar contra el principi basic de la Ciència: reproducció de mètodes i replicació de resultats. Es vol estudiar si l’ús de gràfics dirigits acíclics pot ajudar a descriure millor els anàlisis estadístics que apliquen models multivariants per esbrinar relacions de causa-efecte entre una intervenció i una resposta. Marc teòric Els diagrames acíclics dirigits són eines visuals que serveixen per representar com es relacionen les diferents variables d’un estudi. Ajuden a veure errors conceptuals, com per exemple, (A) incloure una variable posterior que distorsiona la interpretació de les relacions entre les variables anteriors (biaix de selecció); (B) incloure una variable intermèdia en el camí entre la intervenció i la resposta (mediador) o (C) no tenir en compte una variable prèvia a aquestes que podria dificultar la interpretació (confusió d’efectes) (.../...)
Revisión al Modelo Black-Scholes-Merton desde una perspectiva práctica
(2025) Gómez de la Tía Privat, Marta; Pons Fanals, Ernest
En el presente trabajo indagaremos en la ecuación que revolucionó por completo el sector financiero en 1973 y que, tras casi provocar una crisis financiera a escala global en 1998, aún sigue siendo, con alguna modificación, la piedra angular en la valoración de derivados financieros OTC. Específicamente, revisaremos la problemática con la volatilidad y comprobaremos si la solución que dan las entidades financieras para corregirlo, la volatilidad implícita, es suficiente para cuadrar los precios con los cotizados en mercado. La suposición de volatilidad constante en el modelo Black-Scholes-Merton (BSM) no proporciona una estimación precisa de los precios de mercado de los activos financieros en condiciones de mercado dinámicas y cambiantes. En cambio, el uso de volatilidades implícitas derivadas de los precios de mercado de las opciones ofrece una valoración más ajustada y realista de las opciones, reflejando mejor las expectativas del mercado sobre la volatilidad futura de los activos subyacentes. Por lo tanto, se espera que las volatilidades implícitas se alineen más estrechamente con los precios de mercado en comparación con la suposición de volatilidad constante, destacando las limitaciones del modelo BSM y sugiriendo la necesidad de mejoras en la metodología de valoración de opciones.
Deep Embedding Clustering en R: Implementación y evaluación de DEC, IDEC y DECR
(2025) Reyes Castells, Dídac; Vegas Lozano, Esteban
Este trabajo se centra en la implementación en R de tres algoritmos representativos de Deep Embedding Clustering: DEC, IDEC y DECRA. A través de una revisión teórica del aprendizaje profundo aplicado al clustering no supervisado, se contextualizan los modelos desde sus fundamentos hasta su formulación algorítmica. Cada algoritmo ha sido reimplementado desde su versión original en Python, adaptando las arquitecturas y funciones de pérdida al entorno R mediante los paquetes Keras y TensorFlow, con el objetivo de garantizar consistencia metodológica y facilitar la evaluación comparativa. La experimentación se ha llevado a cabo sobre cinco conjuntos de datos estándar (MNIST, Fashion-MNIST, USPS, CIFAR-10 y Reuters-10K), utilizando métricas como Accuracy y Normalized Mutual Information para validar la calidad del agrupamiento. Los resultados muestran que la implementación propuesta reproduce con fidelidad el comportamiento esperado de los algoritmos, y permiten analizar sus diferencias de rendimiento y estabilidad en distintos escenarios. El código desarrollado, así como los parámetros y resultados, se han documentado para asegurar la reproducibilidad y facilitar futuros trabajos en este campo.
Comparativa métodos de selección de variables
(2025) Soler Carballo, Àlex; Cortés Martínez, Jordi; Tebé, Cristian
La correcta selección de variables es esencial en la construcción de modelos estadísticos, especialmente en contextos de alta dimensionalidad. Este trabajo analiza y compara el rendimiento de seis métodos de selección de variables: regresiones a pasos (en sus variantes), Bootstrap aplicado a la regresión a pasos, Lasso, Elastic Net, Random Forest y Boruta. Para ello, se han diseñado distintitos escenarios (simétricos y asimétricos) y en cada uno de estos, dos escenarios donde en uno no había variables relevantes y en el otro el 50% eran relevantes, generando datos sintéticos artificiales donde se conoce de antemano la relevancia de las variables. Se realizaron un total de 100 simulaciones por escenario, aplicando los métodos y evaluando su eficacia mediante métricas como sensibilidad, especificidad, valor predictivo positivo, valor predictivo negativo y accuracy. Entre los principales resultados, destaca que métodos como Elastic Net y Bootstrap presentan un buen equilibro entre sensibilidad y especificidad cuando la respuesta es simétrica, llegando a valores de 1 y 0.89 en el caso de Elastic Net y de 0.97 y 1 en el caso de Bootstrap. Otras, mientras que técnicas como Boruta, sobresalen por su baja tasa de falsos positivos, no llegando a superar el 3.5% en ninguna de las alternativas usadas de este algoritmo, independientemente de si la respuesta es simétrica o asimétrica. Se concluye que no existe un método universalmente superior, ya que el rendimiento varía según la distribución de la variable respuesta y la magnitud de los efectos.
Models estadístics avançats per a la predicció de viatges diaris: una aplicació amb dades de telefonia mòbil
(2025) Soriano Formigón, Pol; Gasparín Casajust, Paco
Aquest treball desenvolupa un model predictiu per estimar el nombre de viatges diaris entre municipis, a partir de dades massives de telefonia mòbil. L’estudi se centra en els 14 municipis amb més població de la província de Tarragona, seleccionats per la seva rellevància en els fluxos de mobilitat. El model es basa en models lineals generalitzats amb distribució binomial negativa, adequats per gestionar la sobredispersió de les dades de comptatge. Es consideren factors com la distància i les característiques dels viatges i dels viatgers. El model, calibrat i validat amb dades independents, mostra una alta capacitat explicativa i predictiva. Els resultats posen de manifest el valor de les dades massives i dels mètodes estadístics per millorar la planificació del transport i promoure una mobilitat sostenible.
Desenvolupament i comparació de recomanadors d’articles tèxtils i estudi de regles d’associació
(2025) Tarragó Grau, Clara; Ramírez Mitjans, Sergi
Aquest treball consisteix en el desenvolupament d’un sistema recomanador d’articles de roba i l’anàlisi de regles d’associació en les preferències de compra dels usuaris. La principal motivació darrere d’aquest estudi és proporcionar un camí a la transformació digital a l’abast de les petites i mitjanes empreses, amb un enfocament social i d’accessibilitat tecnològica. La implementació d’un sistema de recomanació pot ajudar a gestionar estocs, millorar l’experiència de compra dels usuaris i augmentar les vendes. Els principals objectius d’aquest treball consisteixen en: desenvolupar un model de recomanació d’articles de roba basat en preferències d’usuaris, aplicar tècniques de machine learning per a la recomanació de productes, optimitzar el sistema per oferir recomanacions visuals precises i rellevants, desenvolupar una interfície d’usuari intuïtiva per a la implementació del recomanador i aplicar regles d’associació per estudiar patrons en les preferències de roba dels usuaris. També s’han plantejat alguns objectius transversals: el desenvolupament d’una enquesta interactiva de classificació d’imatges mitjançant Python i Streamlit, l’aprenentatge de nocions bàsiques de Python i de Latex mitjançant Overleaf. Hem conseguit desenvolupar una enquesta interactiva on es recollien variables demogràfiques dels usuaris, i se’ls demanava que fessin un rànquing de 10 imatges de peces de roba. Cada usuari veia 10 imatges diferents, escollides de manera aleatòria d’una base de dades comú de 100 imatges. Un cop recollides les dades, hem començat treballant amb 4 subtipus de recomanadors dins el filtratge col·laboratiu: enfocament user-based, enfocament item-based, Singular Value Decomposition i Alternating Least Squares. Pels dos primers enfocaments s’ha començat amb un plantejament senzill, treballant només amb les dades dels rànquings. Posteriorment, s’han complementat amb característiques demogràfiques dels usuaris, pel cas user-based, i amb característiques de les peces de roba i similitud d’imatges, pel cas item-based. Comparant el plantejament senzill versus el plantejament híbrid en cada cas, hem pogut verificar mitjançant testos estadístics que els plantejaments híbrids proporcionen recomanacions més precises. Així doncs, els quatre sistemes recomanadors finals amb els que hem treballat han estat: enfocament user-based híbrid, enfocament item-based híbrid, Singular Value Decomposition i Alternating Least Squares. No s’han trobat diferències estadísticament significatives entre aquests quatre models, però el que presenta recomanacions més acurades és l’enfocament user-based híbrid. S’ha conduït una prova àcida en una mostra reduïda d’individus per verificar aquest model: se’ls feia respondre l’enquesta inicial i, un cop enviats els rànquings, les dades eren processades pel recomanador user-based híbrid i retornava les top-3 recomanacions, que l’usuari havia de puntuar. La puntuació mitjana obtiguda de les recomanacions ha estat un 8,2/10, consolidant la seva precisió. Finalment, s’han estudiat possibles regles d’associació en les preferències de roba dels usuaris enquestats, però no s’han detectat regles rellevants per l’estudi.
Correspondencia entre Demandas Ciudadanas y Propuestas Políticas en España: Un Análisis de Sentimientos, tópicos y tendencias en RRSS
(2025) Valor Lassalle, Manuel Esteban; Conti, Dante
Este trabajo analiza la sintonía entre los discursos de los partidos políticos y las preocupaciones ciudadanas expresadas en Twitter durante los ciclos electorales generales de España en 2019 y 2023. A partir de un enfoque comparativo y longitudinal, se exploran las similitudes y diferencias temáticas y emocionales entre los programas electorales y el debate público en redes sociales. La metodología empleada combina técnicas de minería de texto y procesamiento del lenguaje natural como el análisis de sentimientos, el modelado de tópicos (LDA), la comparación semántica mediante LSA y la representación léxica con matrices TF-IDF, todo ello desarrollado ntegramente en el entorno RStudio. Como principal aportación se propone un Score de Afinidad. Un índice interpretativo que integra la polaridad emocional de los ciudadanos y la correlación textual con los programas para estimar el grado de alineamiento discursivo. Este indicador permite evaluar de forma más ajustada la conexión entre la oferta política y la demanda ciudadana, especialmente en contextos lingüísticos y temáticos Heterogéneos. Los resultados muestran una desconexión significativa en temas sensibles como sanidad o vivienda, donde la ciudadanía expresa alta preocupación emocional sin un reflejo proporcional en los discursos políticos. Por el contrario, se detecta mayor afinidad en ejes como la polarización o la seguridad, donde los partidos recogen parcialmente el clima emocional expresado en redes. Además, se observa una evolución discursiva relevante entre los dos periodos analizados, con un desplazamiento temático hacia cuestiones más sociales en ciertos partidos. En conjunto, el estudio evidencia la utilidad de enfoques mixtos y comparativos para comprender el desfase (o sintonía) entre representantes y representados en el ecosistema digital. Asimismo, abre nuevas líneas para el análisis automatizado del discurso político y su conexión con la opinión pública.
Assessing and reducing bias for a Bayesian AB test
(2025) Vásquez Carreras, Auba; Bas Serrano, Joan ; Peña Pizarro, Víctor
Working with data from Free To Play videogames, we usually have heavy-tailed distributions that can be quite complex to study. When performing AB tests to evaluate certain changes in the games, the different users’ spending behaviour might lead to a pretest bias that can affect the results. Our aim is to find a way to analyze the tests that considers the information from the users before entering the test but also takes into account the pretest bias. We will study the current method used to analyze AB tests at the company and identify some of its problems, such as the use of the probability to beat the control group as a metric. We will also explore some variance reduction techniques, such as CUPED, to get better results focusing on the ARPU and Conversion.
Análisis metodológico de las proyecciones de población en España
(2025) Ramírez Moraleda, Víctor M.; Villavicencio, Francisco
El presente trabajo de fin de grado pretende, principalmente, realizar una revisión crítica de la metodología desarrollada por el Instituto Nacional de Estadística (INE) para las proyecciones de población, en general, y las proyecciones de mortalidad, en particular. Cada dos años, el INE realiza encuestas entre expertos en demografía española para conocer su opinión acerca de la evolución futura de la población española. La información recogida en dichas encuestas contribuye a estimar los principales parámetros para las proyecciones de población como son la mortalidad, la fecundidad o la esperanza de vida en el nacimiento, entre otros. Sin embargo, y circunscribiéndonos al ámbito de la mortalidad, existen múltiples modelos estadísticos para la proyección de las tasas de mortalidad que pueden proporcionar estimaciones más exactas que las opiniones de los expertos. Así pues, se van a ajustar tres métodos para proyectar la mortalidad en España a partir de los datos del INE y de la Human Mortality Database (HMD): Lee-Carter, Li-Lee y Double Gap. Las predicciones obtenidas se usarán para proyectar la esperanza de vida y se compararán los resultados obtenidos con los publicados por el INE.

Examinar

Enviaments recents