Expérimental

Compréhension de PDF

Un espace de test pour extraire, analyser et interroger le contenu de documents PDF à l'aide d'OCR et de modèles de langage.

À quoi sert cette démo ?

Cette démonstration sert à examiner la manière dont un système IA lit un document PDF, reconstitue son contenu utile et répond à des questions ciblées.

Elle est particulièrement utile pour les documents bruités, scannés ou mal structurés, où la qualité de l'extraction conditionne fortement la qualité des réponses.

Le but est d'identifier les limites de compréhension documentaire avant toute intégration dans un usage plus opérationnel.

Ce que vous pouvez explorer

  • Tester l'extraction de texte sur des PDF natifs ou scannés.
  • Comparer la qualité des réponses selon la structure du document.
  • Vérifier la capacité à retrouver une information précise dans un contenu long.
  • Observer l'impact d'un OCR imparfait sur l'analyse finale.

Comment ça fonctionne

Le document est d'abord converti en texte exploitable. Lorsqu'il s'agit d'un scan ou d'un document image, un passage OCR avec Tesseract est utilisé pour reconstituer le contenu.

Le texte extrait est ensuite segmenté puis transmis à un modèle de langage pour des tâches d'analyse, de recherche ciblée ou de question-réponse contextuel.

Accès à la démo

Interface de démonstration bientôt disponible

Le point d'accès applicatif sera branché ici lorsque l'intégration sera ouverte sur l'infrastructure publique du labo.

Accéder à la démo

Limites actuelles

  • Les PDF très dégradés ou mal numérisés peuvent produire un texte partiel.
  • La structure logique d'un document n'est pas toujours conservée correctement.
  • Les réponses du modèle restent dépendantes de la qualité de l'extraction initiale.