Carregant...
Miniatura

Tipus de document

Tesi

Versió

Versió publicada

Data de publicació

Llicència de publicació

cc by-nc (c) Riera Molina, Carles Roger, 2025
Si us plau utilitzeu sempre aquest identificador per citar o enllaçar aquest document: https://hdl.handle.net/2445/227399

Training More Efficient Neural Networks

Títol de la revista

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

[eng] This thesis centers on a critical reassessment of standard practices in the training and pruning of deep neural networks, with the ultimate goal of exploring more efficient, interpretable, and theoretically grounded alternatives. Traditionally, deep learning models rely on a range of architectural and optimization techniques-such as residual connections (ResNet) or batch normalization-that, while effective in facilitating training and improving convergence, can introduce significant limitations. These methods often promote the use of overparameterized networks, where many parameters are underused or entirely inactive, and where certain training data points are effectively ignored, producing zero outputs or gradients. In this context, the first objective of the thesis is to show that it is possible to train neural networks effectively and robustly without relying on these conventional strategies, as long as both parameters and data are more fully utilized. This goal is realized through the introduction of two contributions: Linked Neurons and Jumpstart. Linked Neurons represent a family of activation functions that combine various nonlinear behaviors while sharing parameters, ensuring that every weight receives meaningful gradients and avoiding the problem of dead units. This enables improved model performance without increasing network size. In parallel, Jumpstart is a regularization technique designed to penalize both dead and purely linear units, thereby promoting effective nonlinear activation across all neurons. This regularization ensures that every unit contributes actively to the learning process, improving gradient flow and enabling more efficient use of training data. This mechanism not only enhances the capacity utilization of the model but also allows for the training of deeper networks without the need for traditional architectural crutches such as ResNet or BatchNorm-fulfilling one of the thesis's core objectives. The second objective is to revisit the Lottery Ticket Hypothesis (LTH), which posits that within a randomly initialized neural network, there exist subnetworks-or "winning tickets"-that can be trained in isolation to achieve performance comparable to the full model. However, this hypothesis currently depends on iterative pruning and the rewinding of selected weights to their original initialization, introducing a strong dependency on initialization and a significant computational overhead. With the integration of Jumpstart, the thesis demonstrates that both rewinding and iterative pruning can be eliminated, as enhanced gradient flow reduces sensitivity to initialization and allows sparse networks to be trained directly. Finally, the third objective of the thesis is to replace heuristic pruning strategies-such as magnitude-based pruning-that lack theoretical justification and may harm model performance. In response, the thesis propases a novel pruning algorithm based on the analysis of how each unit permutes the dataset samples. This method identifies and removes redundant units while preserving the original decision function of the model, yielding a sparse yet functional representation of the network. Taken together, this thesis offers an alternative and complementary vision to current deep learning practice, addressing efficiency, robustness, and theoretical grounding in the training and compression of deep neural networks.
[cat] Aquesta tesi té com a eix central el replantejament crític de les practiques estàndard utilitzades en l'entrenament i la poda de xarxes neuronals profundes, amb l' objectiu final d'explorar alternatives més eficients, interpretables i teòricament fonamentades. Tradicionalment, els models d'aprenentatge profund depenen d'una sèrie de tècniques arquitectòniques i d'optimització, com ara les connexions residuals (ResNet) o la normalització per lots (Batch Normalization), que si bé han demostrat ser útils per facilitar el procés d'entrenament i millorar la convergència, poden introduir limitacions importants. Aquestes tècniques afavoreixen l'ús de xarxes sobreparametritzades, on molts paràmetres són poc o gens utilitzats, i on determinades dades d'entrenament són efectivament ignorades, ja que produeixen sortides nul·les o sense gradient. En aquest context, el primer objectiu de la tesi consisteix a demostrar que és possible entrenar xarxes neuronals de manera efectiva i robusta sense recórrer a aquestes estratègies convencionals, sempre que es faci un ús més complet tant dels paràmetres com de les dades. Aquesta idea es materialitza en la introducció de dues contribucions: les Linked Neurons i Jumpstart. Les Linked Neurons són una família de funcions d'activació que combinen diversos perfils no lineals compartint els mateixos paràmetres, garantint així que cada pes rebi gradients significatius i evitant la presencia d'unitats martes. Això permet millorar el rendiment del model sense incrementar-ne la mida. Paral·lelament, Jumpstart és una tècnica de regularització dissenyada per penalitzar unitats martes o purament lineals, fomentant així una activació no lineal efectiva en totes les neurones. Aquesta regularització assegura que cada unitat contribueixi activament al procés d'aprenentatge, facilitant un millar flux de gradients i una utilització més eficient del conjunt de dades. Aquest mecanisme no només afavoreix un millar aprofitament de la capacitat del model, sinó que permet entrenar xarxes més profundes sense necessitat de tècniques com ResNet o BatchNorm, tot complint un dels objectius centrals de la tesi. El segon objectiu consisteix a revisar en profunditat la Hipòtesi del Bitllet Guanyador (Lottery Ticket Hypothesis, LTH), que postula que dins d'una xarxa neuronal inicialitzada aleatòriament existeixen subconjunts de pesos, anomenats "bitllets guanyadors", que poden ser entrenats independentment amb un rendiment comparable al model complet. Tanmateix, aquesta hipòtesi requereix actualment processos de poda iterativa i la reinicialització dels pesos seleccionats al seu estat original, la qual cosa implica una dependència important de la inicialització i un cost computacional elevat. Amb la incorporació de Jumpstart, la tesi demostra que és possible eliminar tant la necessitat de reinicialitzar com la de realitzar múltiples cicles de poda, ja que el reforç; del flux de gradients redueix la sensibilitat a la inicialització i permet entrenar xarxes esparsificades de manera directa. Finalment, el tercer objectiu de la tesi és reemplaçar les tècniques de poda basades en heurístiques, com ara la poda per magnitud, que manquen de base teòrica i poden comprometre el rendiment. En resposta, es proposa un algorisme de poda innovador basat en l'anàlisi de com cada unitat de la xarxa permuta les mostres del conjunt de dades. Aquest mètode identifica i elimina unitats redundants tot preservant la funció de decisió original del model, extraient així una representació esparsa però funcional de la xarxa. En conjunt, aquesta tesi proposa una visió alternativa i complementaria a la practica actual de l'aprenentatge profund, abordant de manera integrada l'eficiència, la robustesa i la fonamentació teòrica en l'entrenament i compressió de xarxes neuronals profundes.

Citació

Citació

RIERA MOLINA, Carles roger. Training More Efficient Neural Networks. [consulta: 27 de febrer de 2026]. [Disponible a: https://hdl.handle.net/2445/227399]

Exportar metadades

JSON - METS

Compartir registre