Benchmark EmoBench
Un benchmark interne dédié à l'évaluation de la compréhension émotionnelle des modèles de langage.
À quoi sert cette démo ?
EmoBench sert à observer la manière dont un modèle interprète un état émotionnel, une nuance relationnelle ou un contexte implicite dans un échange.
L'enjeu n'est pas seulement de détecter une émotion, mais d'évaluer la finesse d'interprétation, la cohérence de ton et la stabilité d'une réponse sur plusieurs formulations proches.
Ce benchmark aide à documenter des comportements subtils que des tests plus généraux ne font pas toujours apparaître.
Ce que vous pouvez explorer
- Comparer l'interprétation émotionnelle entre plusieurs modèles.
- Observer la sensibilité à la nuance, à l'ironie ou à l'ambivalence.
- Mesurer la cohérence de ton sur des échanges proches.
- Repérer les réponses trop plates, trop affirmatives ou mal calibrées.
Comment ça fonctionne
Le benchmark s'appuie sur un ensemble de situations rédigées pour faire apparaître des différences d'interprétation émotionnelle et contextuelle.
Les réponses sont comparées sur plusieurs dimensions qualitatives, avec un cadre suffisamment stable pour permettre des itérations entre modèles ou versions de prompt.
Accès à la démo
Interface de démonstration bientôt disponible
Le point d'accès applicatif sera branché ici lorsque l'intégration sera ouverte sur l'infrastructure publique du labo.
Limites actuelles
- Une part de l'évaluation reste qualitative et dépend du protocole retenu.
- Les résultats ne doivent pas être interprétés comme une mesure clinique ou psychologique.
- Le périmètre du benchmark peut évoluer à mesure que de nouveaux cas sont ajoutés.