A comparative analysis of tree-based models classifying imbalanced breath alcohol data

When applied to binary data, most classification algorithms behave well provided the dataset is balanced. However, when one single class includes the majority of cases, a good predictive performance for the minority class is not easy to achieve. We examine the strengths and weaknesses of three tree-based models when dealing with imbalanced data.We also explore sampling and cost sensitive methods as strategies for improving machine learning algorithms. An application to a large dataset of breath alcohol content tests performed in Catalonia (Spain) to detect drunk drivers is shown. The Random Forest method proved to be the model of choice if a high performance is required, while down- sampling strategies resulted in a significant reduction in computing time. When predicting alcohol impairment, the area of control (built-up or not), hour of day and drivers age were the most relevant variables for classification.

Matèries

Consum d'alcohol, Mostreig (Estadística), Algorismes

Matèries (anglès)

Drinking of alcoholic beverages, Sampling (Statistics), Algorithms

Col·leccions

Articles publicats en revistes (Econometria, Estadística i Economia Aplicada)

Pàgina completa de l'ítem

Citació

ALCAÑIZ, Manuela, SANTOLINO, Miguel and RAMON, Lluís. A comparative analysis of tree-based models classifying imbalanced breath alcohol data. Boletín de Estadística e Investigación Operativa. 2017. Vol. 33, num. 3, pags. 189-222. ISSN 1889-3805. [consulted: 25 of July of 2026]. Available at: https://hdl.handle.net/2445/120281

Estadístiques

Exportar metadades

JSON - METS

Fitxers

Tipus de document

Versió

Data de publicació

Tots els drets reservats

A comparative analysis of tree-based models classifying imbalanced breath alcohol data

Títol de la revista

Autors

Director/Tutor

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

Matèries

Matèries (anglès)

Citació

Col·leccions

Citació

Exportar metadades

Fitxers

Tipus de document

Versió

Data de publicació

Tots els drets reservats

A comparative analysis of tree-based models classifying imbalanced breath alcohol data

Títol de la revista

Autors

Director/Tutor

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

Matèries

Matèries (anglès)

Citació

Col·leccions

Citació

Exportar metadades

Compartir registre