Les modèles Claude d’Anthropic peuvent désormais arrêter les conversations nocives – Computerworld

Anthropic a introduit un nouvelle fonctionnalité dans ses modèles Claude Opus 4 et 4.1 Cela permet à l’outil générateur AI (Genai) de mettre fin à une conversation seul si un utilisateur essaie à plusieurs reprises de pousser un contenu nuisible ou illégal.
Le nouveau comportement est censé être utilisé que lorsque toutes les tentatives de redirection d’une conversation ont échoué ou lorsqu’un utilisateur demande que la conversation soit résiliée. Il n’est pas conçu pour être activé dans des situations où les gens risquent de nuire à eux-mêmes ou aux autres. Les utilisateurs peuvent toujours commencer de nouvelles conversations ou en poursuivre une précédente en modifiant leurs réponses.
Le but de la fonctionnalité n’est pas de protéger les utilisateurs; C’est au modèle lui-même. Tandis que l’anthropic le souligne, il ne considère pas Claude Pour être sensible, les tests ont révélé que le modèle montrait une forte résistance et un «inconfort apparent» à certains types de demandes. Ainsi, l’entreprise teste désormais des mesures pour un meilleur «bien-être de l’IA» – au cas où cela deviendra pertinent à l’avenir.