Gated recurrent unit explications - GRU/
Explications simples et approfondies avec les maths
By Paul Claret
10 minutes read - 06/12/24
Le troisème et derneir type de model que l’on va voir ensemble pour les données séquentielles. Je vais passer très vite dessus puisque le principe est très très similaire aux LSTM
L’architecture
La différence avec les LSTM est que:
Ils ne contiennent pas de cell state
Ce sont les hidden state (
) qui transportent l’informationil y a 2 gates: update et reset
Ils sont plus rapide que les LSTM (moins d’opérations aussi)
La update gate
Le but de cette porte est de déterminer 2 choses à la fois: quelles
informations oublier et ajouter. Pour le cacul, on retrouve une addition
entre le hidden state et input:
La reset gate
La reset gate est conçue pour contrôler combien
d’informations provenant du hidden state précédent (
Comme pour la update gate, le calcul implique une combinaison linéaire suivie d’une activation sigmoïde :
Ensuite, cette valeur
Enfin, le nouveau hidden state est obtenu en interpolant
entre l’ancien
Principe final
Le GRU fusionne deux mécanismes essentiels : se souvenir et oublier. Grâce à ses deux portes, il peut décider dynamiquement quelles informations conserver ou négliger à chaque étape temporelle. Cette simplicité relative par rapport aux LSTM, combinée à une efficacité calculatoire, rend les GRU particulièrement utiles pour traiter des données séquentielles lorsque les ressources ou les temps de calcul sont limités.
Conclusion
Les Gated Recurrent Units sont une version simplifiée mais puissante des LSTM. Leur architecture, basée sur deux portes principales, permet de traiter efficacement des séquences de données tout en réduisant le risque de problèmes liés aux gradients. En raison de leur simplicité et de leur rapidité, ils sont souvent préférés dans des contextes où les performances computationnelles sont critiques. Que ce soit pour des tâches de traitement du langage naturel ou de séries temporelles, les GRU sont un choix robuste et performant.
Quelques liens supplémentaires pour les curieux:
https://towardsdatascience.com/understanding-gru-networks-2ef37df6c9be
https://ieeexplore.ieee.org/document/9631548
Human Activity Recognition Method Based on Edge Computing-Assisted and GRU Deep Learning Network
https://medium.com/@anishnama20/understanding-gated-recurrent-unit-gru-in-deep-learning-2e54923f3e2
Vous voulez apprendre l'IA en autonomie ?
Si vous êtes nouveau sur mon site, je vous invite à aller voir ma page sur Roadmap IA qui regroupe tous mes articles dans l'ordre pour vous facilitez l'apprentissage.