Comparaison

Benchmarks

Des protocoles d'évaluation conçus pour comparer des modèles, des comportements et des réponses sur des critères explicites.

Benchmarks disponibles

En construction

Benchmark EmoBench

Examiner la cohérence de ton, la stabilité émotionnelle et la qualité d'interprétation dans des échanges simulés.

En construction

Benchmark Multi-LLM

Comparer plusieurs LLM sur la précision, la structure de réponse et les compromis entre coût, vitesse et fiabilité.