(R) Deltaproduct: Amélioration du suivi de l’État dans les RNN linéaires via des produits de ménage

 (R) Deltaproduct: Amélioration du suivi de l’État dans les RNN linéaires via des produits de ménage


https://openreview.net/forum?id=nvb60szj5c

Twitter / x: https://x.com/juen_sims/status/1905628609714286687

Auteurs: Julien Siems *, Timur Carstensen *, Arber Zela, Frank Hutter, Massimiliano Pontil, Riccardo Grazzi * (* Contribution égale)

Abstrait: Les réseaux de neurones récurrents linéaires (RNN linéaires) sont devenus des alternatives compétitives aux transformateurs pour la modélisation de séquences, offrant une formation efficace et une inférence linéaire. Cependant, les architectures existantes sont confrontées à un compromis fondamental entre l’expressivité et l’efficacité, dictés par la structure de leurs matrices de transition de l’État. Alors que les matrices diagonales utilisées dans des architectures comme le mamba, le GLA ou le MLSTM donnent un temps d’exécution rapide, ils souffrent d’une expressivité gravement limitée. Pour y remédier, des architectures récentes telles que (fermée) Deltanet et RWKV-7 ont adopté une structure diagonale plus RANK-1, permettant un mélange de canaux de jeton simultané, qui surmonte certaines limitations d’expressivité avec seulement une légère diminution de l’efficacité de l’entraînement. S’appuyant sur l’interprétation de la récidive de Deltanet comme effectuant une étape de descente de gradient en ligne par jeton sur une perte de rappel associative, nous introduisons Deltaproduct, qui prend plutôt plusieurs étapes (NH) par jeton. Cela conduit naturellement à des matrices en diagonale plus de rang de rang de rang, formées comme des produits des transformations de ménages généralisées NH, fournissant un mécanisme accordable pour équilibrer l’expressivité et l’efficacité et une récurrence stable. Grâce à des expériences approfondies, nous démontrons que la deltaproduct atteint des capacités supérieures de suivi de l’État et de modélisation du langage tout en présentant une extrapolation de longueur considérablement améliorée par rapport à Deltanet. De plus, nous renforçons également le fondement théorique de Deltanet en prouvant qu’il peut résoudre les problèmes de mot de groupe dièdre en seulement deux couches.

https://preview.redd.it/k4mq9js81mre1.png?width=2792&format=png&auto=webp&s=b0e42d71fee09cc6867e667f72b80fc2472baba3cc

soumis par / u / yossarian_1234
(lien) (Commentaires)



Source link

Related post