Agents prêts pour la production : construire une autonomie fiable en santé

Construire un agent autonome peut ne nécessiter que quelques lignes de code grâce au rythme actuel des progrès de l'IA, mais le déployer en production, notamment dans le domaine de la santé, requiert une approche différente.

Comme l’a souligné Andrew Ng, le « Grand-père de l’IA » : « Presque aucun des flux de travail agents pratiques et commercialement précieux d’aujourd’hui n’a été construit selon cette méthode simple... Construire un agent fiable aujourd’hui demande bien plus de structure pour le guider. »

Dans le cas d’un système de suivi d’observance de traitement que nous avons aidé à livrer, faire raisonner un LLM sur des données patients était la partie facile, mais le faire raisonner de manière fiable, à grande échelle, dans un environnement réglementé était assurément le défi.

Le défi de la production

L’écart entre les « démonstrations agentiques » et les « agents en production » concerne le contrôle. Il ne s’agit pas simplement de donner à un LLM un accès libre à la base de données et le laisser décider quoi faire. Faire des recommandations de qualité à partir de véritables données patients nécessite :

Des flux de données déterministes (ce que l’agent voit et quand)
Un raisonnement contraint (analyses complexes dans des paramètres définis)
Une supervision humaine (des experts qui vérifient les résultats avant toute action)
Des pistes d’audit (comprendre précisément ce qui a mené à chaque décision)

Architecture plutôt qu’autonomie

En construisant ce système agentique pour générer des recommandations visant à améliorer l’observance médicamenteuse, chaque composant devait disposer d’une autonomie encadrée, adaptée à son niveau de risque :

Un planificateur déclenche des traitements en lots à intervalles définis
Une file SQS fournit des données patients structurées (profil médical, historique des communications, taux d’observance, recommandations cliniques)
Un worker consomme la file et interroge un modèle LLM de raisonnement
Les résultats sont envoyés vers Snowflake pour révision par des experts dans une application web
Les recommandations validées sont transmises vers les canaux appropriés

Cette architecture d’orchestration contrôle le moment où les agents interviennent, les données auxquelles ils accèdent, et la façon dont les sorties circulent dans le système. Le raisonnement se fait de façon autonome ; l’exécution, non. De plus, cette configuration permet d’intégrer d’autres agents spécialisés, comme la voix ou l’email, pour des cas d’usage précis tels que l’approche virtuelle d’évaluation du risque de santé et des obstacles à l’observance.

Pourquoi l’autonomie encadrée fonctionne

Les principaux avantages de ce niveau d’ingénierie de production sont :

Fiabilité : Des pipelines déterministes permettent un comportement prévisible, ce qui est difficile à obtenir quand les agents ont accès à tout.
Autonomie adaptée au risque : Le moteur de recommandation possède une grande complexité de raisonnement mais un risque opérationnel faible (exécutions planifiées, données contrôlées). Les agents vocaux ou email auraient une complexité d’interaction élevée mais évoluent selon des protocoles cliniques.

Principal enseignement : Les agents en production ne visent pas l’autonomie maximale mais l’autonomie adaptée à chaque composant, avec la structure garantissant la fiabilité et la flexibilité future tout en préservant les capacités de raisonnement qui font la valeur des LLM.

Agents prêts pour la production : construire une autonomie fiable en santé

Becks Simpson

Le défi de la production

Architecture plutôt qu’autonomie

Pourquoi l’autonomie encadrée fonctionne

Prêt à commencer quelque chose de grand?