Marre de régler les taux d’apprentissage ? Découvrez DoG un optimiseur simple et sans paramètre soutenu par des garanties théoriques solides

Tired of adjusting learning rates? Discover DoG, a simple optimizer without parameters supported by strong theoretical guarantees.

Des chercheurs de l’Université de Tel Aviv proposent une formule de taille de pas dynamique SGD sans réglage, appelée Distance sur les gradients (DoG), qui ne dépend que des quantités empiriques sans paramètre de taux d’apprentissage. Ils montrent théoriquement qu’une légère variation de la formule DoG permettrait de converger vers des gradients stochastiques localement bornés.

Un processus stochastique nécessite un paramètre optimisé, et le taux d’apprentissage reste difficile. Les méthodes précédentes réussies comprennent la sélection d’un taux d’apprentissage approprié à partir des travaux antérieurs. Des méthodes telles que les méthodes de gradient adaptatif nécessitent que le paramètre de taux d’apprentissage soit réglé. Une optimisation sans paramètre ne nécessite pas d’ajustement, car les algorithmes sont conçus pour atteindre un taux de convergence quasi-optimal sans connaissance préalable du problème.

Les chercheurs de l’Université de Tel Aviv adoptent les idées clés de Carmon et Hinder et développent un calendrier de taille de pas sans paramètre. Ils montrent que lors de l’itération de DoG, il existe une forte probabilité que DoG atteigne un taux de convergence logarithmique. Cependant, DoG n’est pas toujours stable. Ses itérations peuvent s’éloigner davantage de l’optimisation. Ainsi, ils utilisent une variante de DoG, qu’ils appellent T-DoG, dans laquelle la taille de pas est plus petite d’un facteur logarithmique. Ils obtiennent une forte probabilité, ce qui garantit la convergence.

Leurs résultats, comparés à SGD, montrent qu’avec un calendrier de taille de pas cosinus et un apprentissage basé sur le réglage, DoG atteint rarement une amélioration de l’erreur relative de plus de 5%, mais pour les problèmes convexes, la différence relative d’erreur est inférieure à 1%, ce qui est étonnant. Leur théorie prédit également que DoG fonctionne de manière cohérente sur une large plage de sensibilité. Les chercheurs ont également utilisé des modèles de langage transformer affinés pour tester l’efficacité de DoG dans la compréhension du langage naturel moderne (NLU).

Les chercheurs ont également réalisé des expériences limitées sur la principale plate-forme de test de perfectionnement avec ImageNet comme tâche secondaire. Celles-ci sont plus coûteuses à régler avec une augmentation de l’échelle. Ils ont affiné le modèle CLIP et l’ont comparé à DoG et L-DoG. Ils constatent que les deux algorithmes fonctionnent significativement moins bien. Cela est dû à un budget d’itération insuffisant.

Les chercheurs ont expérimenté l’entraînement d’un modèle à partir de zéro avec une moyenne polynomiale. DoG fonctionne bien par rapport à SGD, avec un momentum de 0,9 et un taux d’apprentissage de 0,1. En comparaison avec d’autres méthodes sans réglage, DoG et L-DoG offrent de meilleures performances sur la plupart des tâches.

Bien que les résultats de DoG soient prometteurs, des travaux supplémentaires sont nécessaires pour ces algorithmes. Des techniques bien établies telles que le momentum, les taux d’apprentissage pré-paramétrés et l’annulation du taux d’apprentissage doivent être combinées avec DoG, ce qui s’avère être un défi tant sur le plan théorique qu’expérimental. Leurs expériences suggèrent une connexion à la normalisation par lots, qui peut même conduire à des méthodes d’entraînement robustes.

Enfin, leur théorie et leurs expériences suggèrent que DoG a le potentiel de permettre des économies significatives de calcul actuellement consacrées au réglage du taux d’apprentissage, avec peu ou pas de perte de performances.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Le monde naturel donne du pouvoir au futur de la vision par ordinateur

Un système logiciel open source vise à améliorer la formation des systèmes de vision par ordinateur en générant rapid...

AI

La construction de meilleurs modèles commence par la réexamination des métriques

Les chercheurs ont souligné l'importance de mesurer les performances des modèles d'intelligence artificielle générati...

AI

Des chercheurs de l'Université Johns Hopkins Medicine ont développé un modèle d'apprentissage automatique pour le calcul précis de la nécrose de l'ostéosarcome.

Dans le domaine de l’oncologie, l’évaluation de l’efficacité de la chimiothérapie chez les patients...

AI

Comment optimiser votre pipeline d'entrée de données DL avec un opérateur personnalisé PyTorch

Cet article est le cinquième d'une série d'articles sur le sujet de l'analyse de performance et de l'optimisation des...