Démystification de l’attention: la construire à partir de zéro

 Démystification de l’attention: la construire à partir de zéro


Auteur (s): Marcello Politi

Publié à l’origine sur Vers l’IA.

Une plongée douce dans la façon dont l’attention aide les réseaux de neurones à se souvenir mieux et à oublier moinsPhoto de Codioful (anciennement Gradienta) sur unclash

Le mécanisme d’attention est souvent associé à l’architecture du transformateur, mais il était déjà utilisé dans les RNN. Dans la traduction machine ou les tâches MT (par exemple, anglais-italien), lorsque vous souhaitez prédire le prochain mot italien, vous avez besoin de votre modèle pour vous concentrer ou faire attention, sur les mots anglais les plus importants qui sont utiles pour faire une bonne traduction.

Image de https://medium.com/swlh/a-simple-verview-of-RNNLSTM-and-astention-mécanisme-9e844763d07b

Je n’entrerai pas dans les détails des RNN, mais l’attention a aidé ces modèles à atténuer le problème du gradient de fuite et à capturer des dépendances plus à long terme entre les mots.

À un certain moment, nous avons compris que la seule chose importante était le mécanisme d’attention et l’ensemble RNN L’architecture était exagérée. Par conséquent, l’attention est tout ce dont vous avez besoin!

L’attention classique indique où les mots dans la séquence de sortie doivent concentrer l’attention par rapport aux mots de la séquence d’entrée. Ceci est important dans les tâches de séquence à séquence comme MT.

L’auto-attention est un type d’attention spécifique. Il fonctionne entre deux éléments dans la même séquence. Il fournit des informations sur la façon dont les mots sont «corrélés» dans la même phrase.

Pour un jeton (ou un mot) donné dans une séquence, l’auto-attention génère une liste de poids d’attention correspondant à tous les autres jetons de la séquence. Ce… Lisez le blog complet gratuitement sur Medium.

Publié via Vers l’IA



Source link

Related post