Carregant...
Tipus de document
Treball de fi de grauData de publicació
Llicència de publicació
Si us plau utilitzeu sempre aquest identificador per citar o enllaçar aquest document: https://hdl.handle.net/2445/228504
WaveFood: Wavelets CNN Food Segmentation
Títol de la revista
Autors
Director/Tutor
ISSN de la revista
Títol del volum
Recurs relacionat
Resum
(English) Semantic food segmentation faces unique challenges due to high intraclass variance and amorphous, organic shapes. While Convolutional Neural Networks (CNNs) are a very powerful tool, they typically require massive computational resources to handle such texture complexities. Our work proposes WaveFood, a novel Deep Learning framework integrating Spectral Image Representation, based on the hypothesis that CNNs benefit from deeper spectral representations than the canonical spatial representation used by humans. Benchmarked against a robust CCNet baseline on the FoodSeg103 dataset, our experiments show that the rigid, axis-aligned Haar Wavelets are unsuitable for food. In contrast, Zernike approaches yield accuracy surpassing the baseline. Notably, the orthonormal Zernike Moments proved superior to the custom MRA wavelet approach, surpassing the baseline’s accuracy by 0.87%, 1.74% and 0.14% in mIoU, mAcc and aAcc correspondingly, while reducing training time by approximately 22%. Furthermore, our Multi-Level architecture significantly lowers VRAM usage by approximately 23%, maintaining baseline accuracy, validating spectral features as a superior efficiency-performance alternative to raw image data. The source code is available at: 2.
(Catalan) La segmentació semàntica d’aliments presenta reptes únics a causa de l’alta variància intra-classe i les formes orgàniques i amorfes. Tot i que les Xarxes Neuronals Convolucionals (CNNs) són una eina molt potent, sovint requereixen recursos computacionals massius per gestionar aquestes complexitats de textura. El nostre treball proposa WaveFood, un nou framework de Deep Learning que integra la Representació d’Imatge Espectral, basat en la hipòtesi que les CNNs es beneficien de representacions espectrals més profundes que la representació espacial canònica utilitzada pels humans. Avaluat en el dataset FoodSeg103 contra un baseline robust CCNet, els nostres experiments demostren que la naturalesa rígida de les Wavelets de Haar i la seva alineació amb els eixos són inadequades per al menjar. En canvi, els enfocaments de Zernike proporcionen una precisió que supera la del baseline per 0.87%, 1.74%
and 0.14% en mIoU, mAcc and aAcc corresponentment. Destaca especialment que els Moments ortonormals de Zernike han resultat superiors a l’enfocament personalitzat de wavelets MRA, superant la precisió del baseline i reduint el temps d’entrenament aproximadament un 22%. A més, la nostra arquitectura Multi-Nivell redueix significativament l’ús de VRAM un 23% aproximadament, mantenint la precisió del baseline, validant les característiques espectrals com una alternativa superior en eficiència i rendiment a les dades d’imatge originals El codi relacionat es pot trobar a: 2.
Descripció
Treballs Finals de Grau d'Enginyeria Informàtica, Facultat de Matemàtiques, Universitat de Barcelona, Any: 2026, Director: Albert Clop Ponte, Ahmad AlMughrabi i Petia Ivanova Radeva
Citació
Citació
FERNÁNDEZ GÓMEZ, David. WaveFood: Wavelets CNN Food Segmentation. [consulta: 1 de abril de 2026]. [Disponible a: https://hdl.handle.net/2445/228504]