« Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation de gestion de distributeur automatique à long terme.
Des chercheurs ont présenté Vending-Bench, un environnement simulé qui teste la capacité des modèles d'IA à gérer un scénario commercial simple mais de longue durée : l'exploitation d'un distributeur automatique. Les résultats montrent que les performances varient considérablement d'un modèle à l'autre. Certains, comme Claude 3.5 Sonnet et...
« Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation de gestion de distributeur automatique à long terme
« Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation de gestion de distributeur automatique à long terme. Des chercheurs ont présenté Vending-Bench, un environnement simulé qui teste la capacité des m...