Extraire et structurer des informations à partir de documents PDF

Équipe d’ingénierie fondatrice et directeur technique fractionnaire pour une startup

DéFI

Extraire le texte des documents de couverture d’assurance (preuves d’assurance) disponibles uniquement sous forme de PDF, avec des formats et des sources variables, le rendant compréhensible par sa mise en page. Il était essentiel de convertir ces données à un format structuré pour qu’elles soient assujetties à de multiples usages, dont celui de rendre les données plus accessibles au public.

SOLUTION

Ensuite, nous avons exploité une fonctionnalité de pointe en apprentissage automatique pour restructurer et normaliser le texte brut afin d’en tirer des avantages précis. De plus, nous avons développé des outils pour normaliser les noms des prestations dans tous les documents, ce qui permet de fournir des informations structurées par le biais d’une API conviviale.

RéSULTAT

Des centaines de documents ont été ingérés, couvrant différents types de documents, totalisant des centaines de prestations. Les informations clés sont extraites automatiquement et faciles à intégrer dans diverses applications. Les fonctionnalités de base sont présentement utilisées dans cinq produits différents.

DéFI

SOLUTION

RéSULTAT

Prêt à commencer quelque chose de grand?