(R) Transfert d’intégration de l’architecture croisée pour la modélisation des récompenses: une étude contrôlée de la généralisation

Dans Modélisation des récompenses et Optimisation des préférences Pipelines, il est courant de former des modèles à partir de zéro ou de réutiliser des architectures complètes pré-entraînées. Mais le rôle du Couche d’intégration elle-mêmesurtout lorsqu’il est réutilisé indépendamment entre les architectures est restée sous-explorée. Ce document présente un étude empirique contrôlée Sur la question de savoir si des intégres pré-entraînés à partir d’une architecture de modèle (par exemple, transformateur, griffin, statique) peuvent être transférés dans un modèle de récompense en aval complètement séparé, soit congelé ou entraînant. Tous les modèles en aval ont été entraînés à partir de zéro, et seule la couche d’incorporation variait d’une condition à l’autre. C’est un question non évidente. Des mesures de formation standard comme précision ou perte— Même sur les données de test tendu – peut GAPS GÉNÉRISATION. Par exemple, dans nos expériences, l’intégration de référence aléatoire a atteint la meilleure précision de formation et la perte de formation la plus faible, mais elle a effectué le pire hors distribution (OOD) Données d’évaluation. Des intérêts pré-entraînés, en particulier lorsqu’ils sont congelés, ont souvent eu une perte d’entraînement plus élevée mais une généralisation de l’OOD significativement meilleure. Cela illustre un compromis utile: Les intérêts qui apparaissent sous-optimaux dans le domaine peuvent mieux généraliser lorsqu’ils sont réutilisés dans de nouveaux domaines – une considération importante dans la modélisation des récompenses, où les données de temps de test sont souvent sensiblement différentes du corpus de formation. Toutes les configurations ont été formées sous le Même architecture, données et conditions d’optimisationvariant uniquement la source d’incorporation et s’il était gelé. Les résultats montrent que biais architecturaux en amont—Pasé dans des espaces d’incorporation pré-entraînés – peut s’améliorer généralisationmême lorsqu’aucun gradient ne circule dans les intérêts pendant l’entraînement. Je partage ceci ici pour recueillir les commentaires techniques de la communauté. Je n’ai pas d’affiliation académique – c’est un travail entièrement indépendant – une critique constructive, des articles connexes ou des idées d’expériences de suivi sont les bienvenues et encouragées. (Avertissement: écrit par un humain, édité avec Chatgpt) soumis par / u / arkamedus |