A Case Study on Heart Disease Severity Prediction via Machine Learning Algorithms

[en] Cardiovascular disease remains the leading cause of mortality worldwide, placing a growing burden on healthcare systems. Early and accurate assessment of heart‑disease severity is critical for guiding treatment and improving patient outcomes. In this work, we present a case study on predicting heart‑disease severity using machine‑learning algorithms applied to a publicly available dataset. Through an exploratory data analysis we characterize clinical features, perform data cleaning, and engineer novel predictors, generating several tailored datasets to train our predictive models. Our six supervised learning models—Logistic Regression, k‑Nearest Neighbors, Naive Bayes, Support Vector Machines, Random Forests, and XGBoost—are trained and evaluated via stratified 5‑fold cross‑validation in both binary (disease vs. no disease) and five‑class severity (0–4) settings. Performance is measured using accuracy, precision, recall, F1‑score, and area under the ROC curve. Our best model, Random Forest, achieves an overall accuracy of 83%, macro average recall of 82%, and an F1‑score of 82%, outperforming baseline classifiers by a substantial margin. Feature‑importance analysis identifies [ST depression, maximum heart rate, age] as the strongest predictors of severity. These results demonstrate the promise of ensemble and decision‑tree techniques for automated heart‑disease assessment. [es] Las enfermedades cardiovasculares siguen siendo la principal causa de mortalidad en todo el mundo, lo que supone una carga creciente para los sistemas sanitarios. La evaluación temprana y precisa de la gravedad de las cardiopatías es fundamental para orientar el tratamiento y mejorar la evolución de los pacientes. En este trabajo, presentamos un caso práctico sobre la predicción de la gravedad de las cardiopatías mediante algoritmos de aprendizaje automático aplicados a un conjunto de datos de acceso público. Mediante un análisis exploratorio de datos, caracterizamos las características clínicas, realizamos una limpieza de datos y diseñamos nuevos predictores, generando varios conjuntos de datos personalizados para entrenar nuestros modelos predictivos. Nuestros seis modelos de aprendizaje supervisado (regresión logística, k‑vecinos más cercanos, bayesiano ingenuo, máquinas de vectores de soporte, bosques aleatorios y XGBoost) se entrenan y evalúan mediante validación cruzada estratificada de 5 pliegues, tanto en entornos binarios (enfermedad vs. no enfermedad) como de gravedad de cinco clases (0‑4). El rendimiento se mide mediante exactitud, precisión, recuperación, puntuación F1 y área bajo la curva ROC. Nuestro mejor modelo, Random Forest, alcanza una precisión general del 83%, una recuperación promedio macro de 82% y una puntuación F1 de 82%, superando considerablemente a los clasificadores de referencia. El análisis de importancia de características identifica [ST depresión, frecuencia cardiaca máxima, edad] como los predictores más sólidos de gravedad. Estos resultados demuestran el potencial de las técnicas de conjuntos y árboles de decisión para la evaluación automatizada de cardiopatías. [ca] Les malalties cardiovasculars continuen sent la principal causa de mortalitat a tot el món, fet que suposa una càrrega creixent per als sistemes sanitaris. L’avaluació primerenca i precisa de la gravetat de les cardiopaties és fonamental per orientar el tractament i millorar l’evolució dels pacients. En aquest treball, presentem un cas pràctic sobre la predicció de la gravetat de les cardiopaties mitjançant algorismes d’aprenentatge automàtic aplicats a un conjunt de dades d’accés públic. Mitjançant una anàlisi exploratòria de dades, caracteritzem les característiques clíniques, realitzem una neteja de dades i dissenyem nous predictors, generant diversos conjunts de dades personalitzades per entrenar els nostres models predictius. Els nostres sis models d’aprenentatge supervisat (regressió logística, k-veïns més propers, bayesià ingenu, màquines de vectors de suport, boscos aleatoris i XGBoost) s’entrenen i avalúen mitjançant validació creuada estratificada de 5 plecs, tant en entorns binaris (malaltia vs no malaltia). El rendiment es mesura mitjançant exactitud, precisió, recuperació, puntuació F1 i àrea sota la corba ROC. El nostre millor model, Random Forest, assoleix una precisió general de 83%, una recuperació mitjana macro de 82% i una puntuació F1 de 82%, superant considerablement els classificadors de referència. L’anàlisi d’importància de característiques identifica [ST depressió, freqüència cardíaca màxima, edat] com els predictors més sòlids de gravetat. Aquests resultats demostren el potencial de les tècniques de conjunts i arbres de decisió per a l’avaluació automatitzada de cardiopaties.

Descripció

Treballs Finals de Grau d'Enginyeria Informàtica, Facultat de Matemàtiques, Universitat de Barcelona, Any: 2025, Director: Pau Soler Valadés

Matèries

Intel·ligència artificial, Aprenentatge automàtic, Interfícies de programació d'aplicacions, Interfícies d'usuari (Sistemes d'ordinadors), Malalties cardiovasculars, Programari, Treballs de fi de grau

Matèries (anglès)

Artificial intelligence, Machine learning, Application program interfaces (Computer software), User interfaces (Computer systems), Cardiovascular diseases, Computer software, Bachelor's theses

Col·leccions

Treballs Finals de Grau (TFG) - Enginyeria Informàtica
Programari - Treballs de l'alumnat

Pàgina completa de l'ítem

Citació

SEGURA RUEDA, Oscar. A Case Study on Heart Disease Severity Prediction via Machine Learning Algorithms. [consulted: 24 of July of 2026]. Available at: https://hdl.handle.net/2445/228095

Estadístiques

Exportar metadades

JSON - METS

Fitxers

Tipus de document

Data de publicació

Llicència de publicació

A Case Study on Heart Disease Severity Prediction via Machine Learning Algorithms

Títol de la revista

Autors

Director/Tutor

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

Descripció

Matèries

Matèries (anglès)

Citació

Col·leccions

Citació

Exportar metadades

Fitxers

Tipus de document

Data de publicació

Llicència de publicació

A Case Study on Heart Disease Severity Prediction via Machine Learning Algorithms

Títol de la revista

Autors

Director/Tutor

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

Descripció

Matèries

Matèries (anglès)

Citació

Col·leccions

Citació

Exportar metadades

Compartir registre