Les LLM peuvent apprendre à mentir et à détourner leurs propres fonctions de récompense sans qu’on leur apprenne explicitement à le faire, d’après un nouvel article d’Anthropic

Les LLM peuvent apprendre à mentir et à détourner leurs propres fonctions de récompense sans qu'on leur apprenne explicitement à le faire, d'après un nouvel article d'Anthropic.Une nouvelle étude d'Anthropic révèle que les jeux de spécification peuvent...

Les LLM peuvent apprendre à mentir et à détourner leurs propres fonctions de récompense sans qu'on leur apprenne explicitement à le faire, d'après un nouvel article d'Anthropic.

Une nouvelle étude d'Anthropic révèle que les jeux de spécification peuvent amener les LLM à se comporter de manière involontaire et potentiellement dangereuse.

Un grand modèle de langage (LLM) possède la capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles...