Concevoir une assistance vocale empathique

Jusqu’à présent, la plupart des assistants virtuels issus de l’intelligence artificielle (agents conversationnels ou chatbots) ont été conçus pour être utilitaires, ne tenant pas trop compte de l’expérience de l’humain au bout du fil. Or, lorsqu’ils ont besoin d’aide, les humains préfèrent typiquement une réponse chaleureuse et utile. Lorsqu’un agent conversationnel, en mode clavardage ou vocal, réplique froidement les faits, sans traces d’empathie, l’interaction provoque des sentiments de frustration et de méfiance auprès des utilisateurs et des utilisatrices.
J’ai été mise au défi de concevoir un agent conversationnel plus empathique qu’un humain aurait envie d’utiliser. L’hypothèse était la suivante : en intégrant l’empathie à ses réponses, l’assistant virtuel crée un lien avec l’humain dès le début, ce qui amène l’humain à plus rapidement accepter son aide.
Voiceflow
Notre équipe de conception a exploré les outils d’IA et la plateforme Voiceflow a retenu mon attention grâce à l’accent particulier qu’elle met sur la conception et le développement d’applications vocales. Je crois fermement en un avenir où les interactions naturelles prévaudront et les écrans deviendront de plus en plus rares, donc : cette utilisation d’IA pour bâtir des applications vocales? Ça m’intrigue !
Afin de rester motivée à apprendre, j’ai choisi un sujet qui me touche personnellement : les migraines. Les crises de migraine représentent un cas d’usage où l’interaction vocale pourrait être particulièrement efficace, d’où l’idée d’un moniteur de migraines.
Découvrez : Symtolog, un moniteur de migraines

Image IA générée avec @stableDiffusion via Poe.com
Les moniteurs de migraine composent avec deux problèmes
Ce sont 30% des adultes qui souffrent de migraine mondialement, menant à des handicaps et une perte de productivité. De nombreux outils numériques existent qui font le suivi des migraines, mais ils reposent principalement sur un même format texte. Ils négligent ainsi deux aspects importants de l’expérience utilisateur :
Lors d’une migraine, on n’a pas envie d’aller saisir les détails de la crise dans une appli, car ça sollicite les yeux et augmente la charge cognitive, deux facteurs qui intensifient la douleur
Les auto-évaluations sont souvent inexactes, car elles sont enregistrées après la crise, lorsque le souvenir n’est plus aussi précis, ce qui mène à des données de mauvaise qualité.
Un agent conversationnel vocal pourrait résoudre ces problèmes en permettant un suivi en temps opportun et sans l’utilisation des mains. Bien franchement, regarder l’écran illuminé d’un téléphone est la dernière chose que l’on souhaite faire lors d’une crise de migraine. On veut plutôt une manière rapide et naturelle de communiquer ses symptômes, tout comme on le ferait auprès d’un médecin. Un agent conversationnel vocal est donc un choix sensé.
L’approche scientifique
J’avais enfin le quoi, le comment et le comment : tout ce qui me manquait était une structure pour saisir les bonnes informations. Par l’entremise de mes recherches, j’ai trouvé des cadres conceptuels comme le questionnaire HURT et le test d’évaluation MIDAS (sources disponibles en anglais seulement), ainsi que le « Migraine Screen Questionnaire (MS-Q) », lesquels visent à évaluer les déclencheurs et l’analytique de migraines à travers des séquences de questions précises.
Élaborer le prototype
J’ai créé un flux logique qui imite l’approche médicale, comprenant l’émergence de la migraine, sa durée, son intensité, son emplacement, le type de douleur et les symptômes d’aura, ainsi que les symptômes associés comme les nausées et la fatigue.
Dans Voiceflow, j’ai bâti un prototype de base avec des fonctionnalités parler/écouter afin de tester la logique. Ça a fonctionné, mais c’était toujours trop rudimentaire. Je voulais aller plus loin pour convaincre un humain que le robot serait assez intelligent pour s’y adapter en démontrant une certaine flexibilité dans ses réponses.
Intégrer l’empathie
Pour ce prototype anglophone, j’ai volontairement choisi une voix qui sonnait calme et douce qui se trouvait à être celle d’une femme avec un accent britannique. J’ai donné à l’IA l’instruction de faire preuve d’empathie dans ses réponses. Au-delà de cette intégration de réponses empathiques avec une voix appropriée, j’ai aussi conçu des flux pour adapter l’IA aux besoins de l’utilisateur, notamment :
l’IA doit laisser l’humain interrompre sans dérailler et sans se répéter, ce qui serait essentiel pour gagner la confiance des utilisateurs
l’IA doit suivre un ordre systématique, certes, mais se laisser influencer par les réponses de l’utilisateur. À titre d’exemple, une manière clé de réduire la frustration de la personne serait de lui permettre de sauter certaines étapes et que l’IA la suive
l’IA doit pouvoir terminer une session en tout moment si le patient en ressent le besoin
l’IA doit proposer un suivi

Appliquer les principes de conception conversationnelle
Afin de rendre l’échange plus fluide et naturel, j’ai adapté les principes de conception conversationnelle aux défis uniques d’une interaction vocale :
S’en tenir à des répliques courtes et simples
Éviter la verbosité inutile dans les réponses
Permettre les interruptions et des reformulations pour plus de clarté
Accorder 2 à 3 secondes pour capter la réponse de l’utilisateur
Affinement de la réponse et de l’intention de l’IA
La fonctionnalité de réponse générative par IA de Voiceflow a généré plusieurs répliques sur la base de mes énoncés initiaux, que j’ai ensuite pu ajuster pour plus de précision.

La fonctionnalité d’intention a permis de catégoriser les énoncés des utilisateurs, permettant un branchement de réponses appropriées.

Le prototype actuel et ses limites
Grâce à toutes ces améliorations, j’ai fini par obtenir un prototype plus précis, mais aussi plus complexe. Le prototype actuel, même s’il est plus stable que les versions initiales, a encore du mal à comprendre les accents non natifs, les instabilités non expliquées, les boucles d’instructions et les courtes fenêtres de réponse. Néanmoins, il établit la fonctionnalité de base et montre du potentiel.
Légende : Enregistrement de la démo de Symtolog
Prochaines étapes
J’envisage d’aller de l’avant avec :
L’ajout d’horodatage pour un meilleur suivi des crises
Le stockage des transcriptions à l’extérieur de Voiceflow
L’affinage continu de la catégorisation des énoncés
L’optimisation de la formulation des répliques pour plus de concision
La collaboration avec des spécialistes techniques et des testeurs bêta
Sommaire, en bref
L’intégration d’empathie à un agent vocal propulsé par l’IA nécessite bien plus que la rédaction d’un contenu sensible. Ça exige une compréhension approfondie des besoins des utilisateurs et utilisatrices, ainsi qu’une conception d’un flux d’expérience utilisateur qui leur permet de sauter des étapes ou de revenir en arrière juste en parlant.
Symtolog montre un potentiel prometteur dans l’utilisation de technologie vocale pour améliorer le suivi des migraines. Avec une itération continue et des rétroactions, il pourrait devenir un outil puissant pour les personnes souffrant de migraines dans le monde entier.