Tipus de document

Treball de fi de grau

Data de publicació

Llicència de publicació

memòria: cc by-nc-nd (c) Eshaan Mittal, 2026
Si us plau utilitzeu sempre aquest identificador per citar o enllaçar aquest document: https://hdl.handle.net/2445/228574

Challenging Forgets in Tabular Neural Networks: A Comparative Analysis of Noise-Based Unlearning Methods and Forget Set Structure

Títol de la revista

Director/Tutor

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

[en] As a machine learning models is trained, it encodes information from the training data into learned parameters, creating challenges when individuals exercise their right to data deletion under frameworks such as the General Data Protection Regulation. Complete model retraining without the targeted samples represents the theoretically optimal solution, yet this approach imposes prohibitive computational costs for production systems handling frequent deletion requests. Machine unlearning has emerged as an alternative paradigm that modifies model parameters to remove the influence of specific training samples without requiring full retraining. This thesis investigates noise-based machine unlearning strategies applied to TabNet, an attention-based neural network architecture for tabular data processing. The central research question examines how the structural composition of forget sets, particularly class distribution, determines unlearning effectiveness. Five strategies are evaluated: Gaussian noise injection, Laplacian noise injection, adaptive gradient-weighted noise, layer-wise progressive noise, and gradient-based unlearning through gradient ascent. Experiments employ the Adult Income dataset with four forget request scenarios designed to systematically vary class balance. The Married scenario removes individuals with married civil spouse status, yielding 44.6% positive class composition. The Executives scenario targets managerial occupations with 48.4% positive class. The HighEarnProf scenario employs geometric selection of high-earning professionals, producing 100% positive class composition (complete single-class imbalance). The RandomBalanced scenario creates a stratified random sample with exactly 50% from each class (perfect balance). This design enables rigorous analysis of the relationship between class composition and unlearning outcomes. Results establish that class balance within the forget set constitutes the primary determinant of unlearning success. Balanced scenarios achieve forget accuracy in the 0.59-0.67 range. The HighEarnProf scenario with complete class imbalance initially appears to exhibit anti-learning, with forget accuracy falling to approximately 0.14-0.23. However, comparison with gold standard models (retrained from scratch without the forget data) reveals that this low accuracy represents successful unlearning rather than failure: the gold standard achieves similarly low accuracy (0.16) on these samples, indicating they are edge cases that were memorized during training. Unlearning successfully removes this memorization, causing the model to generalize naturally. Laplacian noise injection demonstrates the strongest performance on balanced scenarios, while all strategies perform equivalently on imbalanced cases. Computational efficiency represents a practical advantage, with noise-based methods completing in 3.5-17 seconds compared to 28-67 seconds for full retraining, representing speedup factors of 1.8-10.6 times for the Adult Income dataset. For larger models and datasets, this efficiency gap would be substantially greater. These findings establish that practitioners must analyze forget set class distribution prior to applying noise-based unlearning, as structural properties fundamentally constrain achievable outcomes regardless of strategy selection. The aim of this thesis is to provide a better understanding of structure-dependent unlearning limitations and practical insights for GDPR-compliant machine learning deployments. [es] Mientras un modelo de aprendizaje automático se entrena, codifica información de los datos de entrenamiento en parámetros aprendidos, creando desafíos cuando los individuos ejercen su derecho a la eliminación de datos bajo marcos normativos como el Reglamento General de Protección de Datos. El reentrenamiento completo del modelo sin las muestras objetivo representa la solución teóricamente óptima, sin embargo, este enfoque impone costos computacionales prohibitivos para sistemas de producción que manejan solicitudes frecuentes de eliminación. El machine unlearning ha surgido como un paradigma alternativo que modifica los parámetros del modelo para eliminar la influencia de muestras de entrenamiento específicas sin requerir reentrenamiento completo. Esta tesis investiga estrategias de machine unlearning basadas en ruido aplicadas a TabNet, una arquitectura de red neuronal basada en atención para el procesamiento de datos tabulares. La pregunta central de investigación examina cómo la composición estructural de los conjuntos de olvido, particularmente la distribución de clases, determina la efectividad del desaprendizaje. Se evalúan cinco estrategias: inyección de ruido Gaussiano, inyección de ruido Laplaciano, ruido adaptativo ponderado por gradiente, ruido progresivo por capas y desaprendizaje basado en gradientes mediante ascenso de gradiente. Los experimentos emplean el conjunto de datos Adult Income con cuatro escenarios de solicitud de olvido diseñados para variar sistemáticamente el balance de clases. El escenario Married elimina individuos con estado civil de casado, produciendo 44.6% de composición de clase positiva. El escenario Executives se dirige a ocupaciones gerenciales con 48.4% de clase positiva. El escenario HighEarnProf emplea selección geomètrica de profesionales de altos ingresos, produciendo 100% de composición de clase positiva (desequilibrio completo de clase única). El escenario RandomBalanced crea una muestra aleatoria estratificada con exactamente 50% de cada clase (balance perfecto). Este diseño permite un análisis riguroso de la relación entre composición de clases y resultados del desaprendizaje. Los resultados establecen que el balance de clases dentro del conjunto de olvido constituye el determinante principal del éxito del desaprendizaje. Los escenarios balanceados alcanzan precisión de olvido en el rango de 0.59-0.67. El escenario HighEarnProf con desequilibrio completo de clases inicialmente parece exhibir anti-aprendizaje, con precisión de olvido cayendo a aproximadamente 0.14-0.23. Sin embargo, la comparación con modelos gold standard (reentrenados desde cero sin los datos de olvido) revela que esta baja precisión representa desaprendizaje exitoso en lugar de fracaso: el gold standard alcanza precisión similarmente baja (0.16) en estas muestras, indicando que son casos atípicos que fueron memorizados durante el entrenamiento. El desaprendizaje elimina exitosamente esta memorización, causando que el modelo generalice naturalmente. La inyección de ruido Laplaciano demuestra el rendimiento más fuerte en escenarios balanceados, mientras que todas las estrategias funcionan equivalentemente en casos desequilibrados. La eficiencia computacional representa una ventaja práctica, con métodos basados en ruido completando en 3.5-17 segundos comparado con 28-67 segundos para reentrenamiento completo, representando factores de aceleración de 1.8-10.6 veces para el conjunto de datos Adult Income. Para modelos y conjuntos de datos más grandes, esta brecha de eficiencia sería sustancialmente mayor. Estos hallazgos establecen que los profesionales deben analizar la distribución de clases del conjunto de olvido antes de aplicar desaprendizaje basado en ruido, ya que las propiedades estructurales restringen fundamentalmente los resultados alcanzables independientemente de la selección de estrategia. La tesis contribuye tanto comprensión teórica de las limitaciones del desaprendizaje dependientes de la estructura como conocimientos prácticos para implementaciones de aprendizaje automático conformes con el RGPD. [ca] Quan un model d’aprenentatge automàtic s’entrena, codifica informació de les dades d’entrenament en paràmetres apresos, creant reptes quan els individus exerceixen el seu dret a l’eliminació de dades sota marcs normatius com el Reglament General de Protecció de Dades. El reentrenament complet del model sense les mostres objectiu representa la solució teòricament òptima, però aquest enfocament imposa costos computacionals prohibitius per a sistemes de producció que gestionen sol·licituds freqüents d’eliminació. El machine unlearning ha sorgit com un paradigma alternatiu que modifica els paràmetres del model per eliminar la influència de mostres d’entrenament específiques sense requerir reentrenament complet. Aquesta tesi investiga estratègies de machine unlearning basades en soroll aplicades a TabNet, una arquitectura de xarxa neuronal basada en atenció per al processament de dades tabulars. La pregunta central de recerca examina com la composició estructural dels conjunts d’oblit, particularment la distribució de classes, determina l’efectivitat del desaprenentatge. S’avaluen cinc estratègies: injecció de soroll Gaussià, injecció de soroll Laplacià, soroll adaptatiu ponderat per gradient, soroll progressiu per capes i des aprenentatge basat en gradients mitjançant ascens de gradient. Els experiments empren el conjunt de dades Adult Income amb quatre escenaris de sol·licitud d’oblit dissenyats per variar sistemàticament el balanç de classes. L’escenari Married elimina individus amb estat civil de casat, produint 44.6% de composició de classe positiva. L’escenari Executives es dirigeix a ocupacions gerencials amb 48.4% de classe positiva. L’escenari HighEarnProf empra selecció geomètrica de professionals d’alts ingressos, produint 100% de composició de classe positiva (desequilibri complet de classe única). L’escenari RandomBalanced crea una mostra aleatòria estratificada amb exactament 50% de cada classe (balanç perfecte). Aquest disseny permet una anàlisi rigorosa de la relació entre composició de classes i resultats del desaprenentatge. Els resultats estableixen que el balanç de classes dins del conjunt d’oblit constitueix el determinant principal de l’èxit del desaprenentatge. Els escenaris balançats assoleixen precisió d’oblit en el rang de 0.59-0.67. L’escenari HighEarnProf amb desequilibri complet de classes inicialment sembla exhibir anti-aprenentatge, amb precisió d’oblit caient a aproximadament 0.14-0.23. No obstant això, la comparació amb models gold Standard (reentrenats des de zero sense les dades d’oblit) revela que aquesta baixa precisió representa desaprenentatge exitós en lloc de fracas: el gold standard assoleix precisió similarment baixa (0.16) en aquestes mostres, indicant que són casos atípics que van ser memoritzats durant l’entrenament. El desaprenentatge elimina exitosament aquesta memorització, causant que el model generalitzi naturalment. La injecció de soroll Laplacià demostra el rendiment més fort en escenaris balançats, mentre que totes les estratègies funcionen equivalentment en casos desequilibrats. L’eficiència computacional representa un avantatge pràctic, amb mètodes basats en soroll completant en 3.5-17 segons comparat amb 28-67 segons per a reentrenament complet, representant factors d’acceleració de 1.8-10.6 vegades per al conjunt de dades Adult Income. Per a models i conjunts de dades més grans, aquesta bretxa d’eficiència seria substancialment més gran. Aquests resultats estableixen que els professionals han d’analitzar la distribució de classes del conjunt d’oblit abans d’aplicar desaprenentatge basat en soroll, ja que les propietats estructurals restringeixen fonamentalment els resultats assolibles independentment de la selecció d’estratègia. La tesi contribueix tant comprensió teòrica de les limitacions del desaprenentatge dependents de l’estructura com coneixements pràctics per a implementacions d’aprenentatge automàtic conformes amb el RGPD.

Descripció

Treballs Finals de Grau d'Enginyeria Informàtica, Facultat de Matemàtiques, Universitat de Barcelona, Any: 2026, Director: Nahuel Norberto Statuto Perez

Citació

Citació

MITTAL, Eshaan. Challenging Forgets in Tabular Neural Networks: A Comparative Analysis of Noise-Based Unlearning Methods and Forget Set Structure. [consulted: 2 of June of 2026]. Available at: https://hdl.handle.net/2445/228574

Exportar metadades

JSON - METS

Compartir registre