Please use this identifier to cite or link to this item: http://hdl.handle.net/2445/124307
Title: Guide to Spark Machine Learning for credit scoring
Author: Orgaz Expósito, Álvaro
Director/Tutor: Pérez Marín, Ana María
Bolancé Losilla, Catalina
Keywords: Estadística
Aprenentatge automàtic
Risc de crèdit
Treballs de fi de grau
Statistics
Machine learning
Credit risk
Bachelor's theses
Issue Date: Jul-2018
Abstract: (eng) This bachelor’s degree thesis aims to develop a predictive analytics guide for credit fraud detection using the Big Data tool Spark. Thus, the essence of this project is structured in three main linked sections which combine theory and practice. The first part is a description of the problem and concepts about credit risk as well as its historical context. The second section contains a theoretical research in predictive algorithms, frequently known as machine learning1 or artificial intelligence2 models. The third part is a real case practical application of the studied models for predicting the probability of default for a given dataset. However, nowadays one of the most common problems in predictive analytics is the huge amount of available data, and it gives meaning to the concept of Big Data. Thus, this project will use the tool Spark, which is an engine for processing Big Data.
(cat) Aquest projecte final de grau pretén desenvolupar una guia sobre algoritmes predictius aplicats a la detecció del frau creditici utilitzant una eina de Big Data anomenada Spark. Així doncs, l'essència d'aquest projecte s'estructura en tres seccions enllaçades les quals combinen teoria i pràctica. La primera part és una descripció del problema i conceptes sobre el risc creditici així com el seu context històric. La segona secció conté una investigació teòrica en algoritmes predictius, freqüentment vinculats als conceptes d’aprenentatge automàtic o models d’intel·ligència artificial. La tercera part és una aplicació pràctica dels models estudiats a un cas real per predir la probabilitat d’impagament per a un determinat conjunt de dades. Malgrat això, actualment un dels problemes més comuns en els projectes d’algoritmes predictius és la gran quantitat de dades disponibles, la qual cosa dóna sentit al concepte del Big Data. Així doncs, aquest projecte utilitzarà l'eina Spark, la qual és un motor de processament de grans quantitats de dades. En conclusió, aquesta tesi final de grau serà un manual per aquells usuaris que vulguin aprendre sobre: la detecció i gestió del risc creditici amb algoritmes predictius; la teoria que hi ha darrere els principals algoritmes en l’àrea de l’aprenentatge automàtic i la intel·ligència artificial; i l’aplicació d’aquests a un cas real des del plantejament del problema fins a la presa de decisions (incloent-hi el codi de programació necessari).
Note: Treballs Finals de Grau en Estadística UB-UPC, Facultat d'Economia i Empresa (UB) i Facultat de Matemàtiques i Estadística (UPC), Curs: 2017-2018, Tutors: Ana María Pérez Marín; Catalina Bolancé Losilla
URI: http://hdl.handle.net/2445/124307
Appears in Collections:Treballs Finals de Grau (TFG) - Estadística UB-UPC

Files in This Item:
File Description SizeFormat 
Bachelor degree thesis by Álvaro Orgaz Expósito.pdf1.18 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons