Dialogues interactifs avec les robots – Conception et développement

Les entreprises ont récemment commencé à utiliser les chatbots dans le service à la clientèle. Cependant, les robots interactifs offrent des possibilités dans les conversations avec les clients qui surpassent largement les chatbots conventionnels. Dans son article, Christoph Spindler présente les possibilités de dialogue avec les robots et explique la mise en œuvre d’un cas concret d’utilisation.

Auteur Christian Spindler

Date 29.08.2018

Temps de lecture 12 Minutes

Ce blog est un approfondissement de mon article récemment publié Robots humanoïdes dans les interactions avec les clients (en Allemand). L’article traite des détails techniques conceptuels pour la réalisation de dialogues interactifs avec des robots. Cela pourrait être particulièrement judicieux pour les personnes souhaitant rendre l’approche client de leur entreprise plus intéressante et efficace grâce à la technologie.

Les humanoïdes ou les robots de type humain ouvrent de nouvelles voies à l’interaction homme-machine (IHM). Leurs divers canaux de communication leur permettent de réagir à la parole ainsi qu’au toucher ou à la saisie sur les écrans tactiles associés. Ils permettent une communication sur le plan émotionnel comme aucun autre produit technique.

L’article se fonde sur notre expérience avec les robots NAO et Pepper du fabricant Softbank Robotics au cours des derniers mois. L’article présente les possibilités de dialogue avec les robots et explique la mise en œuvre d’un cas concret d’utilisation.

Présentation de NAO/Pepper en tant que partenaires du dialogue physique

Pepper et NAO sont deux versions de robots humanoïdes qui ont éveillé la curiosité du marché ces dernières années. Les robots peuvent voir, parler et se déplacer dans l’espace. Pepper dispose également d’une tablette pouvant afficher des contenus tels que des vidéos ou des sites web, permettant ainsi à son homologue humain de consulter des informations. Les modules Ethernet et WLAN permettent aux robots de se connecter aux réseaux. En principe, ils peuvent ainsi être étendus à volonté dans leur éventail de fonctions. De nombreuses applications supportées par Pepper et NAO peuvent également être implémentées avec du matériel et des logiciels conventionnels. Les robots humanoïdes, cependant, combinent l’interaction dans une expérience globale que nous appelons Holobotics.

La conception d’un chatbot reposant sur une plate-forme robot

Les chatbots instantanés, tels que ceux utilisés sur les sites Web pour améliorer le service à la clientèle, sont très fonctionnels de nos jours. L’interaction avec les chatbots est de plus en plus possible grâce au langage naturel. Lors du portage d’un chatbot basé sur le Web sur un robot (et selon la conception du dialogue par la parole, et non par le texte), nous observons à quel point les attentes des utilisateurs de l’intelligence artificielle augmentent. Avec la même logique de chat, le désir d’une conversation en langage naturel, même au-delà du sujet réel du dialogue (mot-clé small talk), est beaucoup plus fort qu’avec un chatbot ordinaire sur un site web. Ceci doit être pris en compte lors de la conception des dialogues avec des robots.

Une hiérarchie des dialogues avec les robots

Semblables aux interfaces homme-machine classiques des ordinateurs portables ou des téléphones mobiles, les robots humanoïdes peuvent être utilisés pour mettre en œuvre diverses applications de complexité variable. La figure suivante illustre une possibilité de catégorisation de ces applications.

À gauche, vous pouvez voir les applications de faible complexité. À droite, la complexité des applications augmente, que ce soit par l’ajout de canaux d’interaction (d’abord une tablette, puis tablette + langage, etc.) ou par la difficulté de la tâche : Un dialogue fondé sur des règles est plus simple qu’un small talk non structuré.

J’aimerais illustrer les étapes présentées à l’aide d’un exemple : Une cliente, appelons-la Heidi, fait l’expérience d’un robot serveur dans un restaurant.

Commençons par la tâche la plus facile, à gauche : Heidi aimerait choisir un menu de la carte. Cela correspond à la recherche d’informations à partir d’une sélection donnée et peut se faire, par exemple, en affichant le menu sur la tablette. Il n’y a pas d’exigences techniques spécifiques pour ce cas, sauf que le menu doit être disponible sur le robot et que la tablette doit l’afficher.
Submergée par le choix, Heidi souhaite s’intéresser aux plats végétariens en particulier. Techniquement, cela correspondrait au deuxième cas d’une recherche structurée basée sur une requête. Heidi peut adresser verbalement cette requête au robot, qui ne comprend que le mot « végétarien », classe les menus selon les ingrédients et affiche ensuite la sélection correspondante sur la tablette.
La situation devient plus complexe lorsque Heidi veut se limiter aux plats verts. Les ingrédients ne permettent malheureusement pas de déterminer la couleur d’un plat. Cependant, les photos des plats sont stockées dans le robot, qui peut désormais accéder à ces informations non structurées via des procédures de reconnaissance d’images. Une sélection de plats végétariens verts apparaît sur la tablette.
Malheureusement, Heidi est encore indécise et demande au robot ce qu’il lui recommanderait. La cliente fait désormais appel aux compétences de small talk du serveur-robot. Un bon small talk n’est pas structuré, spontané et créatif. Ce sont des compétences qui ne peuvent pas être bien programmées par des règles. Même les méthodes modernes qui utilisent l’apprentissage profond pour la génération de la parole et du dialogue atteignent encore ici des limites perceptibles.
Heidi finit par se décider et se fait ensuite servir par le robot. Le robot doit se déplacer en toute sécurité dans un environnement dynamique, mal éclairé (c’est un restaurant d’ambiance) et éviter de faire tomber les plats ou de freiner trop fort. Si nous confions le service à un robot humanoïde plutôt qu’un robot de transport spécialisé, cette tâche est des plus complexes.

Cette catégorisation est utile parce qu’elle permet d’adapter les nouveaux besoins des clients aux structures existantes et donc de développer des logiciels ciblés et modulaires pour la mise en œuvre des exigences et de mieux en estimer les coûts. Il ne prétend pas à l’exhaustivité : Nous attendons avec impatience vos commentaires, vos suggestions et vos expériences personnelles.

Dans les lignes qui suivent, je décris un exemple qui a été élaboré dans le cadre de cette catégorisation.

Un Taxbot avec NAO

Le processus

Nous sommes maintenant dans un scénario fiscal. La recherche de textes juridiques pertinents pour évaluer une situation fiscale peut prendre beaucoup de temps et nécessite des connaissances spécialisées. En même temps, le droit fiscal est relativement bien structuré et se prête donc aux requêtes automatisées. Nous avons mis en place un robot de droit fiscal interactif pour un questionnement spécifique à des fins de démonstration. La question est la suivante : “Un agent à l’étranger représente-t-il un établissement stable pour mon entreprise ?” Nous voulons poser cette question oralement à notre robot et attendons une réponse ainsi qu’une justification sur la base du texte légal. Les faits peuvent être modélisés comme un arbre de décision avec plusieurs distinctions de cas. Nous classons la tâche dans la catégorie 3, recherche non structurée, basée sur des requêtes.

dialog mit robotern

Cette photo montre notre mise en œuvre du Taxbot avec NAO. Le robot s’intéresse à la situation et continuera ses questions jusqu’à ce que toutes les informations nécessaires, telles que le pays concerné, l’année, etc. aient été fournies. Ces informations sont ensuite transférées dans une base de connaissances qui recherche les textes juridiques appropriés. Les passages du texte seront fournis avec le contexte et finalement présentés par le NAO. L’utilisateur est guidé tout au long du processus de questionnement et, après une courte “pause de réflexion”, reçoit une réponse appropriée, de manière fluide.

La réalisation technique

L’ensemble du processus a été mis en œuvre en plusieurs modules indépendants. L’accueil au début de l’interaction a été mis en œuvre dans l’interface graphique Choreograph du fabricant. Pour la reconnaissance vocale des réponses de l’utilisateur, nous avons testé et utilisé le logiciel du robot ainsi que l’API Google Speech dans différentes conditions environnementales. La reconnaissance vocale traduit la langue enregistrée en mots et les renvoie sur notre serveur. Si l’entrée a été suffisamment comprise, les mots sont maintenant transférés à notre système de connaissances. Il s’agit d’un système d’experts linguistiques auquel un corpus de lois fiscales pertinentes a été remis à l’avance. Le système expert recherche ces lois à l’aide de méthodes linguistiques et trouve les extraits pertinents.

Toutes les interfaces entre les modules ainsi que le contrôle de l’API Google Speech ont été implémentés avec Python.

Perspective

Dans l’exemple décrit, la portée fonctionnelle de NAO a été considérablement étendue par l’intégration de composants via des API. De plus, la communication s’est faite par l’intermédiaire d’un serveur qui jouait le rôle de médiateur entre le NAO et les fournisseurs externes. Cette architecture permet une flexibilité maximale tout en maintenant des normes de sécurité élevées, car le robot n’est pas directement connecté à Internet.

Dans un article de blog suivant, j’approfondirai l’utilisation de Pepper et NAO derrière les pare-feu d’entreprise et présenterai notre cas d’utilisation WelcomeBot.

Je serais ravi si cet article pouvait éveiller votre curiosité pour les robots humanoïdes comme Pepper et le concept Holobotics.

L’intelligence artificielle chez Digicomp

L’utilisation et l’application de l’intelligence artificielle peut considérablement modifier des modèles commerciaux existants. Jetez un coup œil sur les possibilités qu’offre l’intelligence artificielle.

Christian Spindler

Après des études de physique à l'Université de Wurtzbourg et l'obtention de son diplôme en 2005, Christian Spindler a approfondi ses connaissances dans divers postes en Data Science et Machine Learning. En 2014, il a également obtenu son MBA à l'Université de Saint-Gall, complétant son expertise scientifique par un savoir-faire économique. Christian Spindler dirige depuis deux ans la division IoT et robotique de PriceWaterhouseCooper.