Recreant la presa de decisions humana mitjançant aprenentatge per reforç

dc.contributor.advisorCos Aguilera, Ignasi
dc.contributor.authorPirla Torrell, Martı́
dc.date.accessioned2024-11-29T07:10:10Z
dc.date.available2024-11-29T07:10:10Z
dc.date.issued2024-07-11
dc.descriptionTreballs Finals de Grau d'Enginyeria Informàtica, Facultat de Matemàtiques, Universitat de Barcelona, Any: 2024, Director: Ignasi Cos Aguileraca
dc.description.abstract[ca] En aquest projecte estudiem les dades que va recollir el Michael DePass de com un conjunt de subjectes feien un exercici intentant trobar com aconseguir la màxima recompensa. Els subjectes repetien l’exercici un total de 300 vegades, en el qual havien d’escollir entre dos estı́muls en una pantalla. A través d’aquests 300 intents, els subjectes havien de descobrir quins estı́muls escollir per aconseguir la millor recompensa possible. Amb aquestes dades, interpretarem el seu comportament i aplicarem aprenentatge per reforç al mateix problema per comparar les diferències en la presa de decisions entre l’algorisme de Q-learning i els subjectes. Finalment, l’objectiu és ajustar els hiperparàmetres d’un agent de Q-learning per aconseguir que el seu comportament s’assimili al màxim al dels subjectes humans. [en] In this project, we study the data collected by Michael DePass on how a group of subjects performed a task aimed at obtaining the maximum reward. The subjects repeated the task a total of 300 times, in which they had to choose between two stimuli presented on a screen. Over these 300 attempts, the subjects needed to figure out which stimuli to select to achieve the best possible reward. With this data, we will interpret their behavior and apply reinforcement learning to the same problem to compare the differences in optimal decision-making strategies. Finally, the goal is to fit the hyperparameters of a Q-learning agent to make its behavior closely resemble that of the human subjects.ca
dc.format.extent50 p.
dc.format.mimetypeapplication/pdf
dc.identifier.urihttps://hdl.handle.net/2445/216825
dc.language.isocatca
dc.rightsmemòria: cc-nc-nd (c) Martı́ Pirla Torrell, 2024
dc.rightscodi: GPL (c) Martı́ Pirla Torrell, 2024
dc.rights.accessRightsinfo:eu-repo/semantics/openAccessca
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.rights.urihttp://www.gnu.org/licenses/gpl-3.0.ca.html*
dc.sourceTreballs Finals de Grau (TFG) - Enginyeria Informàtica
dc.subject.classificationAprenentatge per reforç (Intel·ligència artificial)ca
dc.subject.classificationAlgorismes computacionalsca
dc.subject.classificationAprenentatge automàticca
dc.subject.classificationProgramarica
dc.subject.classificationTreballs de fi de grauca
dc.subject.otherReinforcement learningen
dc.subject.otherComputer algorithmsen
dc.subject.otherMachine learningen
dc.subject.otherComputer softwareen
dc.subject.otherBachelor's thesesen
dc.titleRecreant la presa de decisions humana mitjançant aprenentatge per reforçca
dc.typeinfo:eu-repo/semantics/bachelorThesisca

Fitxers

Paquet original

Mostrant 1 - 2 de 2
Carregant...
Miniatura
Nom:
tfg_pirla_torrell_marti.pdf
Mida:
3.21 MB
Format:
Adobe Portable Document Format
Descripció:
Memòria
Carregant...
Miniatura
Nom:
codi.zip
Mida:
46.7 MB
Format:
ZIP file
Descripció:
Codi font