Expérimental

Benchmark EmoBench

Un benchmark interne dédié à l'évaluation de la compréhension émotionnelle des modèles de langage.

À quoi sert cette démo ?

EmoBench sert à observer la manière dont un modèle interprète un état émotionnel, une nuance relationnelle ou un contexte implicite dans un échange.

L'enjeu n'est pas seulement de détecter une émotion, mais d'évaluer la finesse d'interprétation, la cohérence de ton et la stabilité d'une réponse sur plusieurs formulations proches.

Ce benchmark aide à documenter des comportements subtils que des tests plus généraux ne font pas toujours apparaître.

Ce que vous pouvez explorer

  • Comparer l'interprétation émotionnelle entre plusieurs modèles.
  • Observer la sensibilité à la nuance, à l'ironie ou à l'ambivalence.
  • Mesurer la cohérence de ton sur des échanges proches.
  • Repérer les réponses trop plates, trop affirmatives ou mal calibrées.

Comment ça fonctionne

Le benchmark s'appuie sur un ensemble de situations rédigées pour faire apparaître des différences d'interprétation émotionnelle et contextuelle.

Les réponses sont comparées sur plusieurs dimensions qualitatives, avec un cadre suffisamment stable pour permettre des itérations entre modèles ou versions de prompt.

Accès à la démo

Interface de démonstration bientôt disponible

Le point d'accès applicatif sera branché ici lorsque l'intégration sera ouverte sur l'infrastructure publique du labo.

Accéder à la démo

Limites actuelles

  • Une part de l'évaluation reste qualitative et dépend du protocole retenu.
  • Les résultats ne doivent pas être interprétés comme une mesure clinique ou psychologique.
  • Le périmètre du benchmark peut évoluer à mesure que de nouveaux cas sont ajoutés.