Gated recurrent unit explications - GRU/

Explications simples et approfondies avec les maths

Author Profile - Paul Claret

By Paul Claret

10 minutes read - 06/12/24

Le troisème et derneir type de model que l’on va voir ensemble pour les données séquentielles. Je vais passer très vite dessus puisque le principe est très très similaire aux LSTM

L’architecture

gated recurrent network

La différence avec les LSTM est que:

La update gate

Le but de cette porte est de déterminer 2 choses à la fois: quelles informations oublier et ajouter. Pour le cacul, on retrouve une addition entre le hidden state et input: xtht1 qui est ensuite mis dans la fonction sigmoid: σ(W.xtU.ht1). Les W et U sont des matrices de poids classiques. Cette sortie est utilisé ensuita dans le calcul de la reset gate mais aussi remuliplié au hidden state. Donc: ht1σ(xtht1).

La reset gate

La reset gate est conçue pour contrôler combien d’informations provenant du hidden state précédent (ht1) doivent être “oubliées” ou réinitialisées. Cela aide à limiter l’impact des gradients explosifs ou évanescents.

Comme pour la update gate, le calcul implique une combinaison linéaire suivie d’une activation sigmoïde :

rt=σ(Wrxt+Urht1+br)

Ensuite, cette valeur rt est multipliée élément par élément avec ht1, pour “filtrer” les informations passées pertinentes. Le résultat est combiné à l’entrée xt avant d’être passé dans une fonction tanh pour générer le hidden state actuel :

ht2=tanh(Wxt+U(rtht1)+b)

Enfin, le nouveau hidden state est obtenu en interpolant entre l’ancien ht1 et le candidat h~t, selon la valeur de zt :

ht=(1zt)ht1+ztht2

Principe final

Le GRU fusionne deux mécanismes essentiels : se souvenir et oublier. Grâce à ses deux portes, il peut décider dynamiquement quelles informations conserver ou négliger à chaque étape temporelle. Cette simplicité relative par rapport aux LSTM, combinée à une efficacité calculatoire, rend les GRU particulièrement utiles pour traiter des données séquentielles lorsque les ressources ou les temps de calcul sont limités.

Conclusion

Les Gated Recurrent Units sont une version simplifiée mais puissante des LSTM. Leur architecture, basée sur deux portes principales, permet de traiter efficacement des séquences de données tout en réduisant le risque de problèmes liés aux gradients. En raison de leur simplicité et de leur rapidité, ils sont souvent préférés dans des contextes où les performances computationnelles sont critiques. Que ce soit pour des tâches de traitement du langage naturel ou de séries temporelles, les GRU sont un choix robuste et performant.

Quelques liens supplémentaires pour les curieux:

https://towardsdatascience.com/understanding-gru-networks-2ef37df6c9be

https://ieeexplore.ieee.org/document/9631548

Human Activity Recognition Method Based on Edge Computing-Assisted and GRU Deep Learning Network

https://medium.com/@anishnama20/understanding-gated-recurrent-unit-gru-in-deep-learning-2e54923f3e2

Vous voulez apprendre l'IA en autonomie ?

Si vous êtes nouveau sur mon site, je vous invite à aller voir ma page sur Roadmap IA qui regroupe tous mes articles dans l'ordre pour vous facilitez l'apprentissage.