Text to Speech
Une démonstration de synthèse vocale locale, pensée pour des essais rapides avec des modèles légers et contrôlables.
À quoi sert cette démo ?
Cette démonstration permet d'évaluer une chaîne de synthèse vocale légère, exécutée localement, sans dépendre d'un service distant.
Elle sert à observer la qualité perçue d'une voix sur des critères simples : articulation, débit, naturel et régularité d'un rendu à l'autre.
L'intérêt principal est la rapidité d'itération et le contrôle, plus que la recherche d'une voix parfaitement réaliste.
Ce que vous pouvez explorer
- Tester différentes formulations et longueurs de texte.
- Comparer le rendu de plusieurs voix ou réglages locaux.
- Mesurer le compromis entre vitesse de génération et qualité perçue.
- Observer le comportement sur des contenus techniques ou peu naturels.
Comment ça fonctionne
Le texte fourni est transmis à un moteur de synthèse local basé sur Piper, choisi pour sa légèreté et sa rapidité d'exécution sur une infrastructure sobre.
La chaîne privilégie un traitement simple et direct afin de pouvoir itérer rapidement sur les voix, les paramètres et les cas d'usage testés.
Accès à la démo
Interface de démonstration bientôt disponible
Le point d'accès applicatif sera branché ici lorsque l'intégration sera ouverte sur l'infrastructure publique du labo.
Limites actuelles
- Le naturel de la voix reste inférieur à celui de solutions plus lourdes ou plus récentes.
- La qualité peut varier selon la langue, le texte et le modèle vocal sélectionné.
- Cette démonstration ne reflète pas encore un pipeline audio complet de production.