Pourquoi la résumation IA n’est pas réglée : leçons issues de la gestion de dossiers juridiques

« Fais juste demander à ChatGPT de résumer ça !»"

Cette phrase résonne dans d’innombrables réunions de stratégie en IA, et elle reflète une radicale simplification. Bien que les modèles de type « LLM » modernes disposent de fenêtres de contexte impressionnantes, nos récents projets avec des organisations de justice ont révélé pourquoi la création de résumé de documents reste une des implémentations d’IA les plus difficiles — et pourquoi réussir requiert bien plus que de la technologie puissante.

Nous avons collaboré avec deux organisations gérant des dossiers juridiques complexes : Recidiviz (qui aide des agents de libération conditionnelle à comprendre les besoins des clients) et Mobile Pathways (qui assiste des avocats en immigration dans la préparation de dossiers). Toutes deux faisaient face au même défi : extraire des « insights » clés à partir de centaines de notes de dossier couvrant des années d’historique.

Le problème de l’alignement des parties prenantes

Avant d’aborder les défis techniques, Mobile Pathways nous a appris que définir ce qu’est un « bonne résumé » est souvent la partie la plus difficile. Les exigences initiales tablaient sur des résumés détaillés sous forme de paragraphes, mais une fois montrés à un ensemble plus large d’experts métier, ceux-ci les ont trouvés trop verbeux et difficiles à lire.

Le vrai défi : les parties prenantes savent rarement ce qu’elles veulent tant qu’elles ne l’ont pas vu. Quand un intervenant priorise une couverture exhaustive, un autre demande un produit concis et actionnable. Cet écart n’est pas un problème technique — c’est un problème organisationnel que peu d’ingénierie de « prompt » peut résoudre.

Notre solution : recueil de besoins en plusieurs itérations avec toutes les parties prenantes présentes. Nous avons traité la définition du résumé comme un processus de conception itératif, pas comme une spécification unique. Cette phase d’alignement a pris plus de temps que l’implémentation technique, mais elle était cruciale pour l’adoption.

Le paradoxe de la fenêtre de contexte

De façon contre-intuitive, des fenêtres de contexte plus larges ont souvent empiré nos résumés, pas amélioré. En traitant des dossiers de plus de 700 notes couvrant des années d’historique juridique pour Recidiviz, nous avons rencontré deux problèmes critiques :

Perdu au milieu : Même quand toutes les notes tenaient dans la fenêtre de contexte, les LLM manquaient systématiquement l’information critique enfouie dans le milieu de longs inputs. Demandez à un LLM « Ce dossier de 50 000 tokens mentionnait-il des problèmes de logement ? » et il pourrait répondre « non » avec confiance alors que l’information se trouve clairement au token 25 000.

Chaos non déterministe : Même avec une température à zéro, le traitement de millions de tokens introduisait assez de variance pour que des inputs identiques produisent des résumés très différents. Cela rendait l’évaluation systématique très difficile et pouvait miner la confiance des utilisateurs.

La solution n’était pas une plus grande fenêtre de contexte — c’était un filtrage plus intelligent.

L’expériment de filtrage

Nous avons testé systématiquement différentes approches pour identifier l’information pertinente avant la production du résumé pour Recidiviz :

Scénario 0 : échec par force brute

Alimenter directement toutes les notes dans le modèle produisait des résumés incomplets et inconséquents. Le mécanisme d’attention ne pouvait pas efficacement prioriser les informations pertinentes à travers des centaines de notes.

Scénario 1 : classification « sans-exemple » avec BERT

Cette classification montrait une certaine amélioration mais passait à côté des contextes juridiques nuancés. Plus important encore, les coûts de réglage affinaient rendaient cette approche non viable commercialement comparée aux alternatives génératives.

Scénario 2 : filtrage basé sur les « vecteurs d’« embedding »

Le « vector similarity matching » offrait une efficacité computationnelle et un réglage facile mais omettait les notes contenant des informations pertinentes exprimées différemment de nos requêtes catégoriques.

Scénario 3 : classification de phrases avec un gros modèle

Utiliser un modèle pour classer des phrases individuelles montrait du potentiel mais perdait un contexte crucial en fragmentant les notes. Le traitement de sortie structurée introduisait aussi des erreurs.

Scénario 4 : catégorisation au niveau des notes (option retenue)

Notre approche finale utilisait un modèle plus petit pour catégoriser les notes complètes, puis un modèle plus grand pour produire le résumé. Cela préservait le contexte tout en réduisant le bruit — nous avons atteint une précision de résumé de 90 % dans les catégories emploi, logement et réhabilitation.

La « connaissance du domaine » comme code

Nos deux projets ont confirmé que la production de résumés dans un contexte juridique ne se réduit pas à traiter du texte — c’est un défi de représentation des connaissances :

Expansion des acronymes : Les documents juridiques sont denses en abréviations spécialisées qui embrouillent les modèles. Nous avons construit des dictionnaires de correspondance pour développer les termes avant traitement.

Restructuration de contexte : Des résumés efficaces ne sont pas seulement plus courts — ils sont restructurés autour des besoins décisionnels. Les agents de libération conditionnelle avaient besoin d’informations différentes des avocats de la défense.

Définition itérative : Les exigences du résumé ont évolué via les retours d’intervenants. Ce qui apparaissait comme exhaustif pour les cadres se révélait écrasant pour les praticiens qui avaient besoin d’aperçus actionnables, pas d’une couverture exhaustive.

Disponibilité des experts et défis d’évaluation

Nos deux projets ont révélé la rareté du temps des experts métier pour l’évaluation. Chez Recidiviz nous avons passé une semaine complète avec des experts à annoter seulement six dossiers. Mobile Pathways avait encore des contraintes plus strictes — des avocats très occupés avaient une disponibilité minimale pour évaluer le système.

L’innovation Mobile Pathways : Nous avons développé un système de « LLM-as-judge » validé par l’avocat pour appliquer leurs critères d’évaluation. Cela permettait une évaluation continue de la qualité sans interrompre constamment le travail juridique.

L’approche Recidiviz : Nous avons construit un cadre d’évaluation en ligne combinant plusieurs métriques : détection d’hallucinations, correction de résumation, scores de fidélité, alignement des « prompts » — en utilisant à la fois le LLM comme juge et des métriques classiques de « NLP ». Ces éléments combinés produisent un score de confiance pondéré qui corrèle fortement avec la performance hors ligne tout en permettant une surveillance continue en production.

Les deux approches ont résolu le même problème fondamental : comment maintenir la qualité quand la « ground truth » est coûteuse et le temps des experts limité.

Pourquoi ça compte

Notre expérience dans ces deux projets révèle que la résumation prête pour la production exige de relever des défis sur plusieurs dimensions :

Filtrage systématique : les fenêtres de contexte seules ne résolvent pas la surcharge d’information.
Intégration de domaine : la connaissance spécialisée doit être encodée, pas seulement invoquée par un « prompt ».
Alignement des parties prenantes : les exigences émergent par itération, pas par spécification unique.
Rareté des experts : les systèmes d’évaluation doivent fonctionner avec une disponibilité limitée des experts métier.
Observabilité en production : dans des environnements à enjeux élevés, il faut une surveillance complète et une évaluation robuste.

Le mot de la fin

La résumation n’est pas réglée parce que ce n’est pas purement un problème technique. Le succès exige de comprendre la complexité du domaine, de réaliser des expérimentations systématiques et de mettre en place des approches d’évaluation innovantes. Les organisations qui implémentent la résumation IA devraient prévoir un budget pour une itération intensive et une intégration profonde du domaine — pas seulement des appels API.

Le retour sur investissement est significatif : Recidiviz et Mobile Pathways ont tous deux réalisé d’importantes économies de temps pour les experts qui, auparavant, passaient des heures à examiner manuellement des historiques de dossiers. Mais y parvenir a requis de traiter la résumation comme le défi complexe et multifacette qu’elle est réellement.

Intéressé(e) à comprendre comment Toboggan Labs peut aider votre organisation à naviguer des défis similaires dans l’implémentation IA ? Contactez-nous pour discuter de votre cas d’usage spécifique.