WaveFood: Wavelets CNN Food Segmentation
| dc.contributor.advisor | Clop, Albert | |
| dc.contributor.advisor | Radeva, Petia | |
| dc.contributor.advisor | AlMughrabi, Ahmad | |
| dc.contributor.author | Fernández Gómez, David | |
| dc.date.accessioned | 2026-03-25T14:00:08Z | |
| dc.date.available | 2026-03-25T14:00:08Z | |
| dc.date.issued | 2026-01-15 | |
| dc.description | Treballs Finals de Grau d'Enginyeria Informàtica, Facultat de Matemàtiques, Universitat de Barcelona, Any: 2026, Director: Albert Clop Ponte, Ahmad AlMughrabi i Petia Ivanova Radeva | |
| dc.description.abstract | (English) Semantic food segmentation faces unique challenges due to high intraclass variance and amorphous, organic shapes. While Convolutional Neural Networks (CNNs) are a very powerful tool, they typically require massive computational resources to handle such texture complexities. Our work proposes WaveFood, a novel Deep Learning framework integrating Spectral Image Representation, based on the hypothesis that CNNs benefit from deeper spectral representations than the canonical spatial representation used by humans. Benchmarked against a robust CCNet baseline on the FoodSeg103 dataset, our experiments show that the rigid, axis-aligned Haar Wavelets are unsuitable for food. In contrast, Zernike approaches yield accuracy surpassing the baseline. Notably, the orthonormal Zernike Moments proved superior to the custom MRA wavelet approach, surpassing the baseline’s accuracy by 0.87%, 1.74% and 0.14% in mIoU, mAcc and aAcc correspondingly, while reducing training time by approximately 22%. Furthermore, our Multi-Level architecture significantly lowers VRAM usage by approximately 23%, maintaining baseline accuracy, validating spectral features as a superior efficiency-performance alternative to raw image data. The source code is available at: 2. (Catalan) La segmentació semàntica d’aliments presenta reptes únics a causa de l’alta variància intra-classe i les formes orgàniques i amorfes. Tot i que les Xarxes Neuronals Convolucionals (CNNs) són una eina molt potent, sovint requereixen recursos computacionals massius per gestionar aquestes complexitats de textura. El nostre treball proposa WaveFood, un nou framework de Deep Learning que integra la Representació d’Imatge Espectral, basat en la hipòtesi que les CNNs es beneficien de representacions espectrals més profundes que la representació espacial canònica utilitzada pels humans. Avaluat en el dataset FoodSeg103 contra un baseline robust CCNet, els nostres experiments demostren que la naturalesa rígida de les Wavelets de Haar i la seva alineació amb els eixos són inadequades per al menjar. En canvi, els enfocaments de Zernike proporcionen una precisió que supera la del baseline per 0.87%, 1.74% and 0.14% en mIoU, mAcc and aAcc corresponentment. Destaca especialment que els Moments ortonormals de Zernike han resultat superiors a l’enfocament personalitzat de wavelets MRA, superant la precisió del baseline i reduint el temps d’entrenament aproximadament un 22%. A més, la nostra arquitectura Multi-Nivell redueix significativament l’ús de VRAM un 23% aproximadament, mantenint la precisió del baseline, validant les característiques espectrals com una alternativa superior en eficiència i rendiment a les dades d’imatge originals El codi relacionat es pot trobar a: 2. | |
| dc.format.extent | 111 p. | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.uri | https://hdl.handle.net/2445/228504 | |
| dc.language.iso | eng | |
| dc.rights | memòria: cc by-nc-nd (c) David Fernández Gómez, 2026 | |
| dc.rights | codi: Apache (c) David Fernández Gómez, 2026 | |
| dc.rights.accessRights | info:eu-repo/semantics/openAccess | |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/deed.ca | |
| dc.rights.uri | http://www.apache.org/licenses/LICENSE-2.0 | |
| dc.subject.classification | Textura dels aliments | |
| dc.subject.classification | Xarxes semàntiques (Teoria de la informació) | |
| dc.subject.classification | Xarxes neuronals convolucionals | |
| dc.subject.classification | Xarxes neuronals (Informàtica) | |
| dc.subject.classification | David Fernández Gómez | |
| dc.subject.classification | Programari | |
| dc.subject.classification | Treballs de fi de grau | |
| dc.subject.other | Food texture | |
| dc.subject.other | Semantic networks (Information theory) | |
| dc.subject.other | Convolutional neural networks | |
| dc.subject.other | Neural networks (Computer science) | |
| dc.subject.other | Computer software | |
| dc.subject.other | Bachelor's theses | |
| dc.title | WaveFood: Wavelets CNN Food Segmentation | |
| dc.type | info:eu-repo/semantics/bachelorThesis |
Fitxers
Paquet original
1 - 2 de 2
Carregant...
- Nom:
- TFG_Fernandez_Gomez_David.pdf
- Mida:
- 16.53 MB
- Format:
- Adobe Portable Document Format