Please use this identifier to cite or link to this item: https://hdl.handle.net/2445/221335
Title: Models estadístics i neuronals per a traducció automàtica: n-grames, models ocults de Màrkov i Transformadors
Author: Queral Martínez, Manel
Director/Tutor: Florit i Selma, Carmen
Seguí Mesquida, Santi
Keywords: Xarxes neuronals (Informàtica)
Processos de Markov
Traducció automàtica
Teoria de la informació
Programari
Treballs de fi de grau
Neural networks (Computer science)
Markov processes
Machine translating
Information theory
Computer software
Bachelor's theses
Issue Date: 14-Jan-2025
Abstract: Machine translation is the process of generating a translated output text in a target language from an initial input text in a source language without human intervention. Early machine translation systems were based on statistical models that calculated the probabilities of an output sentence given the initial input sentence, selecting as the translation the one with the highest probability. The origins of this field lie in the area of Information Theory, where techniques designed to model message transmission through channels were adapted to capture the nature of language and provide a technical approach to tasks that had previously been considered purely humanistic. The first models of this type were based on sequences of n-words, known as n-grams, which eventually evolved into models based on Markov chains that analyzed transitions between elements. These later models allowed the implicit inference of syntactic and grammatical structures. With the advent of artificial intelligence techniques and the general improvement of hardware, statistical models were replaced by neural models based on neural networks, which promised better results through learning methods and massive training datasets. In 2017, the introduction of the Transformer model marked a significant qualitative leap in the efficiency of these systems, forming the foundation of today’s state-of-the-art models, which produce remarkable results. The objective of this work is to provide an introductory analysis of various statistical models used in the early days of machine translation as well as the Transformer model, offering a comparative view of the evolution in the techniques employed. To support this analysis, an introduction to probability concepts and information theory, which are crucial for understanding the functioning of the studied models, is also provided. Additionally, the implementation of a variant of the Transformer, MarianMT, is presented as an instructive example of a modern training pipeline.
La traducció automàtica és el procés de generar un text de sortida en un idioma destí a partir d’un text inicial d’entrada en un idioma origen sense intervenció humana. Els primers programes de traducció automàtica estaven basats en models estadístics que calculaven les probabilitats d’una frase d’output a partir de la frase donada inicialment, donant com a traducció aquella amb probabilitat màxima. L’origen d’aquest camp prové de l’àrea de la Teoria de la Informació, on les tècniques aplicades per a modelar la transmissió de missatges a través de canals van ser adaptades per a poder capturar la naturalesa del llenguatge i oferir una aproximació tècnica a tasques que fins al moment s’havien considerat purament humanístiques. Els primers models d’aquest tipus van ser basats en seqüències de n-paraules anomenades n-grames, que a la llarga van evolucionar en models basats en cadenes de Màrkov segons la transició entre elements. Aquests últims van permetre començar a inferir de manera implícita estructures sintàctiques i gramaticals. Amb l’adveniment de les tècniques d’intel·ligència artificial i la millora general del hardware, els models estadístics van ser substituïts per models neuronals, basades en xarxes neuronals que prometien obtenir millors resultats a partir de mètodes d’aprenentatge i conjunts de dades d’entrenament massius. El 2017 la introducció del model Transformador (Transformer ) es va generar un salt qualitatiu notable en l’eficiència d’aquests models, generant la base dels models que actualment es consideren l’state-of-the-art que produeixen resultats sorprenents. L’objectiu d’aquest treball és fer una anàlisi introductòria diversos models estadístics emprats en els inicis de la traducció automàtica i també del model Transformador; per a poder oferir una visió comparativa de l’evolució en les tècniques emprades. Com a base en això, s’ofereix una introducció a conceptes de probabilitats i teoria de la informació que són crucials per a entendre el funcionament dels models estudiats. A més, s’ofereix una implementació d’una variant del transformador MarianMT com a exemple instructiu d’un pipeline d’entrenament modern.
Note: Treballs Finals de Grau d'Enginyeria Informàtica, Facultat de Matemàtiques, Universitat de Barcelona, Any: 2025, Director: Carmen Florit i Selma i Santi Seguí Mesquida
URI: https://hdl.handle.net/2445/221335
Appears in Collections:Treballs Finals de Grau (TFG) - Enginyeria Informàtica
Treballs Finals de Grau (TFG) - Matemàtiques
Programari - Treballs de l'alumnat

Files in This Item:
File Description SizeFormat 
codi.zipCodi font32.26 kBzipView/Open
tfg_Queral_Martínez_Manel.pdfMemòria911.69 kBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons