Please use this identifier to cite or link to this item: https://hdl.handle.net/2445/216225
Title: Desenvolupament d’eines de IA pel reconeixement de menjar en imatges
Author: Li, Junjie
Director/Tutor: Radeva, Petia
Keywords: Aplicacions mòbils
Visió per ordinador
Processament digital d'imatges
Aliments
Programari
Treballs de fi de grau
Mobile apps
Computer vision
Digital image processing
Food
Computer software
Bachelor's theses
Issue Date: 10-Jun-2024
Abstract: [en] The rapid development of technology has significantly transformed various aspects of human life, including how we interact with food through digital platforms. This thesis focuses on two main objectives: developing an iOS Software Development Kit (SDK) for capturing data related to food for a model of food volume and quantity estimation, and enhancing an Image Transformer Network for recognition and classification of food. In the first part of the thesis, we present the design and implementation of a powerful tool that allows users to capture data necessary for food volume and quantity estimation. Our method is implemented through a SDK collecting camera frame information, classifies, and processes these frames to gather accurate data about the food items. By analyzing the center of the scene and the angle formed between the first frame and the center, the necessary images are captured to support this estimation. We implemented various algorithms to dynamically detect, calculate, and update the scene center and to calculate the angles in real-time. These angles are categorized into different ranges to ensure the best data capture. After a detailed analysis of the system requirements, we conducted a comprehensive design. Key components of the SDK, including the acquisition and processing of camera frames, the interface design for sending data to the server, and the user interface design, are discussed. Through rigorous testing and optimization, we ensured the performance and usability of the SDK. The second part of the thesis builds on previous research to optimize the accurate recognition and classification of food using an Image Transformer Network. A deep learning-based visual recognition model was trained on a diverse and extensive food image dataset. We explored various model architectures and optimization strategies to improve the accuracy and efficiency of the recognition system. This process included data collection and preprocessing, model selection, training methods, and hyperparameter tuning. The trained models were then evaluated against the food classification dataset owned by LogMeal. Finally, we discussed the deployment and practical application of the models in real-world scenarios. By combining these two innovative approaches, this thesis provides a comprehensive solution for digital food data capture and recognition. It makes contributions to mobile application development and Image Transformer Network-based image recognition. The integration of the SDK with the visual recognition model opens up new avenues for applications in food identification, health, dining experiences, and diet management. [ca] El ràpid desenvolupament de la tecnologia ha transformat significativament diversos aspectes de la vida humana, incloent-hi la nostra interacció amb els aliments a través de plataformes digitals. Aquesta tesi se centra en dos objectius principals: desenvolupar un Software Development Kit (SDK) per a iOS per capturar dades relacionades amb els aliments per a un model d’estimació de volum i quantitat d’aliments, i millorar una Image Transformer Network per al reconeixement i classificació d’aliments. En la primera part de la tesi, presentem el disseny i la implementació d’una eina poderosa que permet als usuaris capturar dades necessàries per a l’estimació del volum i la quantitat d’aliments. El nostre mètode s’implementa mitjançant un SDK que recull informació dels fotogrames de la càmera, classifica i processa aquests fotogrames per recopilar dades precisos sobre els aliments. En analitzar el centre de l’escena i l’angle format entre el primer fotograma i el centre, es capturen les imatges necessàries per donar suport a aquest estimació. Vam implementar diversos algoritmes per detectar, calcular i actualitzar dinàmicament el centre de l’escena i per calcular els angles en temps real. Aquests angles es categoritzen en diferents rangs per assegurar la millor captura de dades. Després d’una anàlisi detallada dels requisits del sistema, vam dur a terme un disseny integral. Es discuteixen els components clau del SDK, inclosa l’adquisició i el processament de fotogrames de la càmera, el disseny de la interfície per enviar dades al servidor i el disseny de la interfície d’usuari. A través de proves rigoroses i optimització, vam assegurar el rendiment i la usabilitat del SDK. La segona part de la tesi es basa en investigacions prèvies per optimitzar el reconeixement i la diferenciació precisa dels aliments utilitzant una Image Transformer Network. Es va entrenar un model de reconeixement visual basat en aprenentatge profund en un conjunt de dades d’imatges d’aliments divers i extens. Vam explorar diverses arquitectures de models i estratègies d’optimització per millorar la precisió i l’eficiència del sistema de reconeixement. Aquest procés va incloure la recopilació i preprocessament de dades, la selecció de models, els mètodes d’entrenament i l’ajust d’hiperparàmetres. Els models entrenats es van avaluar enfront del conjunt de dades de classificació d’aliments propietat de LogMeal. Finalment, vam discutir el desplegament i l’aplicació pràctica dels models en escenaris del món real. Combinant aquests dos enfocaments innovadors, aquesta tesi proporciona una solució integral per a la captura i el reconeixement digital de dades alimentàries. Contribueix al desenvolupament d’aplicacions mòbils i al reconeixement d’imatges basat en xarxes de transformadors d’imatges. La integració del SDK amb el model de reconeixement visual obre noves vies per a aplicacions en identificació d’aliments, salut, experiències gastronòmiques i gestió de dietes.
Note: Treballs Finals de Grau d'Enginyeria Informàtica, Facultat de Matemàtiques, Universitat de Barcelona, Any: 2024, Director: Petia Radeva i Marc Bolaños Solà
URI: https://hdl.handle.net/2445/216225
Appears in Collections:Treballs Finals de Grau (TFG) - Enginyeria Informàtica
Programari - Treballs de l'alumnat

Files in This Item:
File Description SizeFormat 
tfg_li_junjie.pdfMemòria6.48 MBAdobe PDFView/Open
codi.zipCodi font1.2 MBzipView/Open


This item is licensed under a Creative Commons License Creative Commons