(R) GuidedQuant: Boost Méthodes PTQ par couche en utilisant le guidage de perte finale (QWEN3, GEMMA3, LLAMA3.3 / 2 ~ Quantification 4 bits) (ICML 2025)

 (R) GuidedQuant: Boost Méthodes PTQ par couche en utilisant le guidage de perte finale (QWEN3, GEMMA3, LLAMA3.3 / 2 ~ Quantification 4 bits) (ICML 2025)


Papier (ICML 2025): https://arxiv.org/abs/2505.07004

Code: https://github.com/snu-mllab/guidedQuant

Collection de câlins: 2 ~ 4 bits Quantisés QWEN3-32B, GEMMA-3-27B-IT, LLAMA-3.1-8B-INSTRUCT, LLAMA-3.3-70B-INSTRUCT → Lien

Tl; dr: Stage guidé Boose les méthodes PTQ par couche en intégrant le guidage des pertes finaux dans l’objectif. Nous présentons également LNQun algorithme de quantification scalaire non uniforme qui est garanti pour diminuer monotone la valeur d’objectif de quantification.

Démo:

Exemple qualitatif Sortie du modèle LLAMA-3.3-70B-70B 2 bits, fonctionnant sur un seul GPU RTX 3090.

Résumé:

Objectif Guidedquant Poids les erreurs de sortie par couche avec gradients de fonctionnement en ce qui concerne la perte finale. Cela correspond aux informations de Fisher à bloc-diagonales qui préserve les dépendances intra-canaux. Ainsi, GuidedQuant montre un avantage sur les méthodes PTQ par couche (par exemple, GPTQ) et les méthodes de Fisher diagonales (par exemple, Squeezellm)

https://preview.redd.it/cbjtos9g9r4f1.jpg?width=640&format=pjpg&auto=webp&s=dc7079d4c3219a0a304ea40394f7fa88d5f5dada

Stage guidé L’objectif peut être branché sur n’importe quel backend PTQ par couche, améliorant les méthodes de pointe à travers le scalaire en poids uniquement, le vecteur de poids uniquement et la quantification de poids et d’activation.

https://preview.redd.it/gobxvr2s9r4f1.jpg?width=640&format=pjpg&auto=webp&s=582cd05e87b6c1fdcc9ea2782b454defe755c197

Nous introduisons davantage LNQ: une méthode de quantification non uniforme qui alterne un Mise à jour du livre de codes en forme de forme fermée et un Mise à jour de l’attribution des coordonnéesdonnant une propriété de descente prouvable

Billet de blog: https://jusjinuk.me/blog/uidedquant/

En tant que fans de longue date de la communauté, nous espérons que vous trouverez notre travail intéressant et que vous attendez vos commentaires!

Merci!

soumis par / u / jusjinuk
(lien) (Commentaires)



Source link

Related post