Les LLM peuvent apprendre à mentir et à détourner leurs propres fonctions de récompense sans qu'on leur apprenne explicitement à le faire, d'après un nouvel article d'Anthropic.
Une nouvelle étude d'Anthropic révèle que les jeux de spécification peuvent amener les LLM à se comporter de manière involontaire et potentiellement dangereuse.
Un grand modèle de langage (LLM) possède la capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles...
Les LLM peuvent apprendre à mentir et à détourner leurs propres fonctions de récompense sans qu’on leur apprenne explicitement à le faire, d’après une étude d’Anthropic
Les LLM peuvent apprendre à mentir et à détourner leurs propres fonctions de récompense sans qu'on leur apprenne explicitement à le faire, d'après un nouvel article d'Anthropic.Une nouvelle étude d'Anthropic révèle que les jeux de spécification peuvent...