Même les modèles les plus performants tels que GPT-5, Grok-4 et Claude-4.0-Sonnet présentent des limites de performance significatives, selon une étude de Salesforce AI Research

Même les modèles les plus performants tels que GPT-5, Grok-4 et Claude-4.0-Sonnet présentent des limites de performance significatives, selon une étude de Salesforce AI ResearchSalesforce AI Research a introduit un nouveau benchmark qui soumet les gran...

Même les modèles les plus performants tels que GPT-5, Grok-4 et Claude-4.0-Sonnet présentent des limites de performance significatives, selon une étude de Salesforce AI Research

Salesforce AI Research a introduit un nouveau benchmark qui soumet les grands modèles de langage à des tâches liées au Model Context Protocol. Les résultats des tests révèlent un écart important entre le battage médiatique autour des modèles et leurs performances opérationnelles. Même les modèles les plus performants tels...