(R) le Gamechanger du mécanisme d’attention de l’interprète

 (R) le Gamechanger du mécanisme d’attention de l’interprète


Je viens de savoir que les modèles SOTA AI comme Bigbird, Linformer et Reformer utilisent l’architecture de l’interprète
L’objectif principal du Interprète + faveur + mécanisme d’attention devait réduire la complexité de l’espace et du temps
Le changeur de jeu pour réduire la complexité de l’espace était Somme préfixe

La somme du préfixe effectue essentiellement des calculs à la volée en réduisant l’espace mémoire, ceci est très efficace par rapport à l’original "L’attention est tout ce dont vous avez besoin" Le mécanisme d’attention de Softmax de Paper où le masquage est utilisé pour obtenir une matrice triangulaire inférieure et cette matrice triangulaire inférieure est stockée, ce qui entraîne une complexité de mémoire quadratique …

C’est Sacrément bien

Un organisme sait-il ce que les modèles SOTA actuels tels que Chatgpt 4O, Gemini 2.5 Pro utilisent comme mécanisme de base (comme le mécanisme d’attention) bien qu’ils ne soient pas open source, afin que n’importe qui puisse faire une supposition

soumis par / u / thenonarch776
(lien) (Commentaires)



Source link

Related post