Speech to Text
Un espace d'expérimentation pour la transcription rapide de la parole à l'aide d'un modèle Whisper léger.
À quoi sert cet outil ?
Cette page documente un outil employé dans le labo pour mesurer ce qu'un modèle léger de reconnaissance vocale permet dans un contexte de test rapide.
Il est conçu pour examiner la qualité de transcription sans infrastructure lourde, avec un intérêt particulier pour les enregistrements courts ou exploratoires.
L'objectif est d'identifier les cas où une transcription locale et simple suffit, et ceux où elle atteint rapidement ses limites.
Ce que nous pouvons explorer
- Transcrire des extraits audio courts avec un délai réduit.
- Observer l'impact du bruit ou d'une diction imparfaite.
- Comparer les résultats selon la langue ou la qualité d'enregistrement.
- Évaluer la pertinence d'un modèle Whisper tiny pour des essais locaux.
Comment ça fonctionne
Les fichiers audio sont transmis à un pipeline de transcription basé sur Whisper tiny, choisi ici pour sa rapidité et son faible coût d'exécution.
Le traitement privilégie une boucle d'expérimentation courte, adaptée à des essais fréquents plutôt qu'à des transcriptions longues ou à forte exigence de précision.
Accès
Accès restreint
Interface réservée aux expérimentations audio du labo. L'accès n'est pas ouvert au public.
Usage réservé aux expérimentations internes du labo.
Limites actuelles
- La précision diminue rapidement en présence de bruit, d'accents marqués ou d'audio compressé.
- Le modèle utilisé reste volontairement léger et n'est pas optimisé pour des cas complexes.
- L'interface finale d'accès n'est pas ouverte publiquement.