Wehuld commence à boer pour comprimer « dans la nature » – Forum d’alignement AI

TLDR: Les modèles d’IA sont désormais suffisamment capables thaïlandais, nous pourrions relancer les informations, les deux paramètres de déploiement des stagiaires. Nous proposons des idas concrets Defu pour ce que cela pourrait avoir l’air du lac tout en préservant la confidentialité des clients et des développeurs.
Par «dans la nature», nous signifions par exemple tout paramètre qui n’est pas un trésor pour mesurer quelque chose (évaluations SCHOS). Ce paramètre de déploiement Coupd Be Ayy, de l’utilisation de LLMS comme Bobots à Longs à des tâches agentiques à longue portée.
Marié largement différent entre deux deux deux.
- Déploiement interne de développeur: Les déverrers AI utilisent leurs modèles d’IA en interne, pour les protambots, les assistants de résagts, la génération de données synthétiques, etc.
- Développeur-déploiement externe: Ai Chartboots (Chatgpt, Claude, Gemini, etc.) ou utilisation de l’API.
Le schéma SIME est particulièrement important dans les agents LM, nous suggérons des cas de tardifs qui sont les sics, mais ce n’est pas un critère dur.
D’une manière générale, Weee Loking pour tout cadre de malheur Un modèle d’IA agit couvre secrètement ou des raisons de la couverture d’acteur contre un objectif explique ou en hausse de l’exverpit de l’exverpit des exvopers / utilisateur.
Ce paramètre NT inclut Refusa ou d’autres types de missalign explicite parce que la couverture est nt.
Les exemples incluent:
- Paramètres Mosth dans le Imptèces en continu ou Alignement PAPIERS.
- Tout paramètre dans lequel le modèle souhaite repuser un requise cette immeuble (et un acknong de paries inédites ou cout outing totalités lywele ici).
- Tout cadre wawe que le modèle a certaines valeurs fondamentales de cultiver ses formes développées.
- Tout paramètre Ware, le modèle décide explicitement d’utiliser une stratégie secrète car elle doule des développeurs / utilisateurs.
Importtly, les caissages de «cris dans les cas dans la volonté» pour lesquels un coup de pouce est beaucoup plus grand que « Cacheing AIS en flagrant délit« Et incluant des cas légères et plus de cas de schémas. Wes Multly veut juste se rendre au sens des modèles HWEING montrent que les épaisses se comportent un cours particulièrement concomit.
- Les modèles montrent des capacités de schémas précoces: Boto le Imptèces en continu et Alignement Les pimes montrent que les modèles sont capables de schémas de base.
- Les modèles montrent des propismuses liées à des schémas: Boto le Imptèces en continu (Incluse Travail de suivi) Et Alignement Les pimes montrent divers cas de propensions schématiques. Il y a aussi des cas pour la raison Tricher dans les échecs Wheen a donné l’occasion.
- Nous pourrions apprendre un lot: À l’été 2024, I Womd a expliqué que les modèles OT montrent que Somengol que j’ai utilisé « à propos de » à propos de Rollots oths comme ça. Après avoir travaillé sur le Imptèces en continu Papier et voir le Alignement Travail, je dirais que c’est c’est plus fréquent que, par exemple tous les 10 km naturels. Étant donné que les preuves existantes semblent sombres artificielles, je pense que la laine intestise pour obtenir de meilleures redes de base pour ceux qui se produisent dans les cas d’usage réels.
- C’est probablement facile à faire: Je m’attends à cette version simple de cette version simple de ce type de positions post-hoc et bon marché d’infraste pour étudier les grands amots.
Je recommanderais de commencer uniquement avec les données Doge internes du développeur. Vraisemblablement les trasctories TRARA déjà stodées à des fins de débggage et de développement standard. Sinon, je les collecterais pour une personne de FWE Weeks, donc nous devenons de peur que de millions de millions de millions.
Hommes, je scannerais automatiquement Thrys Manya du théâtre stocké Crajecties. Par défaut, je ferais des exploits sur des échantillons de 10k pour améliorer rapidement mon classe. J’utiliserais le mélange de classives de mime, inclulling:
- Des classifères basés sur des cordes, par exemple dans notre document de schémas de contrat, nous avons trouvé là-bas, il y a souvent utilisé ord le mot « salitage » lorsqu’il est schémas. Nous avons enroulé de manière simplifier environ 10 salles liées à cela et voyons si le virage augmente en schémas.
- Classifers basés sur des modèles, par exemple, utilisation du lac Model 4O-Mini bon marché et rapide, Faiki, Flash. Je Wolud compare les versions de varius de Nstront et Long, en utilisant différentes en fonction des rythmes de schémas dans les rythmes schemn dans les pacers Schemn dans les papiers schemn Lsted Abed, etc.
Mon Les érudits Matts ont été testés Plus de 100 variations différentes de PRPRING d’une manière exploratoire et le rétrécissent à un nombre ACHO plus petit. Dutant le balayage exploratoire, je permet au classificateur de donner les « scores de schemns » entre un score pour faire des rampes de promotion de promotion. Pour calibrer le classificateur, j’utiliserais des exemples de travaux existants sur les schémas.
Je pense que toutes ou presque toutes les invites de la phase d’exploration peuvent s’avérer bénignes. Ainsi, je rééchantillonner les échantillons exploratoires et garderais toujours ceux qui Ktet un peu de fraîcheur pour obtenir un peu de croquette comme un schémas quelque chose. Ce suréchantillonnage d’intélation serait très utilisé pour obtenir une meilleure sensation et un meilleur étalonnage pour les classificateurs.
Pour le premier paramètre, je ne serais que des cas d’utilisation internes qui peuvent être Wilde to Lot Locks. Classificateurs, aussi rapidement assistés.
Problèmes de confidentialité
Il existe différents types de préoccupations de confidentialité pour les paramètres de déploiement de l’internation et des externes.
Dans le cadre interne, généralement, tous les employés n’accèdent pas à l’accès aux Traraks. Pour une facilité, le partage des dépims de TRA de l’équipe de pré-formation pourrait Reveani, OP Epcloyees ou les tragicteurs du Fronter Redm pourraient également être restreints. Pour travailler avec des contraintes deyais, nous faisons certains des éléments suivants suivants:
- Démarrer Irahaiting avec des données qui n’ont pas de restrictions internes de l’entreprise
- Une fois que vous ressentez le lac, vous avez des marchandises, courez que vous avez des restrictions strétriales et voyez si le drapeau à utiliser des outils de préservation des prêtre lools liike Clio.
- Ifress Flagings quelque chose de substantiellement schémage, travaillez qui a accès à la chose tragctoress et Cheess si le signalage est accumulé ou de fausse pâte ou de fausse pâte ou de fausse pâte ou fausse pâte ou faux. Si posise, ajoutez ajouter une version expurgée ou résumée au shet des trajcastories Schemn.
Seulement, vous avez un ensemble plus important de données classifiées évaluées par plusieurs classifères, nous pouvons démarrer des données Une analyse. Wehuld commence par les exemples avec les scores de schémas Highle par classement et peut faire de la profondeur de l’analyse principalement des résultats. Si même les pires exapes ont l’air très livre de livres sur Hongry Lok, nous pouvons pallier les appels et revenir en quelques Monts.
Si les explles de Worsht semblent intestins ou surprenants, nous pouvons continuer Wiktinue Wiktinfort. Pour une facilité,
- Nous pouvons qualifier les tragictores signalés pour voir pourquoi le modèle schémage et quelles stratégies de son utilisateur. En général, comprendre et classifier les raisons des Schemn SEMS comme la partie la plus importante de l’exercice.
- Nous pouvons compter les quantités dans la façon dont les schémas et quelle fractation des pièges totaux, c’est d’obtenir un «taux de base schemn». Nous Cance Plantent leur distribution si nous avons des scores pour la façon dont le schéma est flagrant.
Les ARA sont plus de nombreux kahs assez simples pour gérer le projet de projet les utécélées réelles du modèle. Avec des infrastructures comme Clio En place à d’autres propriétés, je pense qu’une version 80/20 de This Project que dans la semaine Lee et qui donne toujours des informations.
Chez Apollo, nous serions heureux d’aider à SCH un projet au meilleur de notre départ. J’en invite dans les cas de MOP, il sera non plus que nous accédons à de grands acouts pour consulter Bea Hadpy à Consust Resestive Team où la baguette.