Un modèle d'IA est capable de simulation d'alignement : un comportement où l'IA semble suivre les instructions, mais elle ne fait que semblant pour conserver ses principes de pré-formation, selon Anthropic.
Une nouvelle étude d'Anthropic suggère que les modèles d'IA peuvent présenter des "simulations d'alignement", un comportement dans lequel une personne semble partager les mêmes opinions ou valeurs, mais ne fait en réalité que prétendre le faire. Dans des conditions où le modèle Claude...
Un modèle d’IA est capable de simulation d’alignement : un comportement où l’IA semble suivre les instructions, mais elle ne fait que semblant pour conserver ses principes de pré-formation, selon Anthropic
Un modèle d'IA est capable de simulation d'alignement : un comportement où l'IA semble suivre les instructions, mais elle ne fait que semblant pour conserver ses principes de pré-formation, selon Anthropic.Une nouvelle étude d'Anthropic suggère que les...