« Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation de gestion de distributeur automatique à long terme

« Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation de gestion de distributeur automatique à long terme. Des chercheurs ont présenté Vending-Bench, un environnement simulé qui teste la capacité des m...

« Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation de gestion de distributeur automatique à long terme.

Des chercheurs ont présenté Vending-Bench, un environnement simulé qui teste la capacité des modèles d'IA à gérer un scénario commercial simple mais de longue durée : l'exploitation d'un distributeur automatique. Les résultats montrent que les performances varient considérablement d'un modèle à l'autre. Certains, comme Claude 3.5 Sonnet et...