Comparativa métodos de selección de variables
| dc.contributor.advisor | Cortés Martínez, Jordi | |
| dc.contributor.advisor | Tebé, Cristian | |
| dc.contributor.author | Soler Carballo, Àlex | |
| dc.date.accessioned | 2026-01-20T07:48:19Z | |
| dc.date.available | 2026-01-20T07:48:19Z | |
| dc.date.issued | 2025 | |
| dc.description | Treballs Finals de Grau en Estadística UB-UPC, Facultat d'Economia i Empresa (UB) i Facultat de Matemàtiques i Estadística (UPC), Curs: 2024-2025, Tutor: Jordi Cortés Martínez i Cristian Tebe Cordomi | |
| dc.description.abstract | La correcta selección de variables es esencial en la construcción de modelos estadísticos, especialmente en contextos de alta dimensionalidad. Este trabajo analiza y compara el rendimiento de seis métodos de selección de variables: regresiones a pasos (en sus variantes), Bootstrap aplicado a la regresión a pasos, Lasso, Elastic Net, Random Forest y Boruta. Para ello, se han diseñado distintitos escenarios (simétricos y asimétricos) y en cada uno de estos, dos escenarios donde en uno no había variables relevantes y en el otro el 50% eran relevantes, generando datos sintéticos artificiales donde se conoce de antemano la relevancia de las variables. Se realizaron un total de 100 simulaciones por escenario, aplicando los métodos y evaluando su eficacia mediante métricas como sensibilidad, especificidad, valor predictivo positivo, valor predictivo negativo y accuracy. Entre los principales resultados, destaca que métodos como Elastic Net y Bootstrap presentan un buen equilibro entre sensibilidad y especificidad cuando la respuesta es simétrica, llegando a valores de 1 y 0.89 en el caso de Elastic Net y de 0.97 y 1 en el caso de Bootstrap. Otras, mientras que técnicas como Boruta, sobresalen por su baja tasa de falsos positivos, no llegando a superar el 3.5% en ninguna de las alternativas usadas de este algoritmo, independientemente de si la respuesta es simétrica o asimétrica. Se concluye que no existe un método universalmente superior, ya que el rendimiento varía según la distribución de la variable respuesta y la magnitud de los efectos. | |
| dc.format.extent | 81 p. | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.uri | https://hdl.handle.net/2445/225770 | |
| dc.language.iso | spa | |
| dc.rights | cc-by-nc-nd (c) Soler Carballo, 2025 | |
| dc.rights.accessRights | info:eu-repo/semantics/openAccess | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc/4.0/ | |
| dc.subject.classification | Variables (Matemàtica) | cat |
| dc.subject.classification | Anàlisi de regressió | cat |
| dc.subject.classification | Estadística | cat |
| dc.subject.classification | Treballs de fi de grau | cat |
| dc.subject.other | Variables (Mathematics) | eng |
| dc.subject.other | Regression analysis | eng |
| dc.subject.other | Statistics | eng |
| dc.subject.other | Bachelor's theses | eng |
| dc.title | Comparativa métodos de selección de variables | |
| dc.type | info:eu-repo/semantics/bachelorThesis |
Fitxers
Paquet original
1 - 1 de 1