Ramírez Mitjans, SergiCapdevila Masó, Jordi2026-02-042026-02-042025https://hdl.handle.net/2445/226609Treballs Finals de Grau en Estadística UB-UPC, Facultat d'Economia i Empresa (UB) i Facultat de Matemàtiques i Estadística (UPC), Curs: 2024-2025, Tutor: Sergi Ramírez MitjansAquest treball se centra en l’estudi dels transformers com a la novetat en el processament del llenguatge natural. Per contextualitzar, s’han analitzat diverses tècniques de vectorització: TF-IDF, com a model basat en freqüències; Word2Vec, com a exemple d’aprenentatge distribuït mitjançant xarxes neuronals, i BERT, com a representació avançada dels transformers. Aquest estudi teòric ha permès entendre les diferències i avantatges dels diferents tipus de vectorització de text. Com a part pràctica, s’ha estudiat el finançament de startups a Catalunya; s’han extret les dades mitjançant web scraping amb Python. Un cop recollides, s’ha fet un procés de neteja i preprocessament. Posteriorment, s’han aplicat les tècniques de vectorització i s’ha reduït la dimensionalitat amb PCA i ACM. Finalment, s’han aplicat models predictius, com XGBoost, SVR i Ridge, i se n’han comparat els resultats per avaluar quin ofereix millor rendiment.78 p.application/pdfcatcc-by-nc-nd (c) Capdevila Masó, 2025http://creativecommons.org/licenses/by-nc-nd/4.0/Aprenentatge automàticAnàlisi vectorialEstadísticaTreballs de fi de grauMachine learningVector analysisStatisticsBachelor's thesesMètodes de deep learning per a la estimació de la financiació pública en empresesinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccess