April 21, 2026
Un projet IA ne s'arrête pas au lancement : évaluation et suivi en production
Lecture de 5min
Ecrit par :
Frédéric Carbonnelle
C'est le dernier article de cette série sur le développement d'une IA d'entreprise qui fonctionne réellement. Après la préparation des données et les choix stratégiques, il reste une étape que beaucoup d'entreprises sous-estiment, et que chez Sparkle, nous considérons comme non négociable : l'évaluation et le monitoring.
C'est paradoxalement l'étape qu'on est le plus tenté de bâcler. Le bot est en ligne, les premières réponses semblent bonnes, on a envie de passer à la suite. Mais c'est exactement cette étape qui détermine si votre projet IA va tenir dans la durée.
Évaluer un bot, ce n'est pas comme tester un site web
Quand on livre un site web ou une application, le test est relativement simple. Le bouton fonctionne ou pas. La page s'affiche ou pas. Le résultat est binaire et visible.
Avec un chatbot IA, c'est une autre histoire. La réponse peut sembler correcte sans l'être. Elle peut être partiellement juste. Elle peut être juste aujourd'hui et fausse demain si les données changent. Et surtout, chaque amélioration apportée sur un type de question peut dégrader les résultats sur un autre type. C'est ce qu'on appelle l'overfitting.
- On ne peut pas se contenter de poser quelques questions et de valider "ça a l'air bon".
- Il faut une méthode structurée, avec des critères mesurables et des processus reproductibles.
C'est un point sur lequel Sparkle ne fait aucun compromis. La validation de la qualité n'est pas une option, c'est un maillon essentiel de la chaîne de développement.
La méthode : des centaines de questions, pas trois
Concrètement, voici comment nous procédons. Pour chaque bot (ou chaque "personnalité" du bot s'il en a plusieurs), nous créons un set de questions de test. Selon la complexité, cela va de 100 à 500 questions, couvrant les cas normaux, les cas limites, les pièges et les formulations inhabituelles.
Ensuite, nous ne générons pas une réponse par question. Nous en générons plusieurs. L'IA n'est pas déterministe : la même question peut donner des réponses légèrement différentes à chaque fois. En ne testant qu'une seule occurrence, on peut tomber sur un coup de chance ou de malchance. Ce qu'on cherche, c'est la qualité moyenne, pas un résultat ponctuel.
Le volume devient rapidement important : 200 questions × 3 réponses × 2 personnalités = 1 200 réponses à évaluer. C'est pour cela qu'on utilise d'abord un juge IA, un autre modèle dont le rôle est d'évaluer automatiquement les réponses sur des critères objectifs : pertinence, exactitude, complétude, ton. Cela produit un premier score structuré sur base de métriques standards, auxquelles s'ajoutent des métriques spécifiques définies avec le client, parce que chaque projet a ses propres exigences.
Mais le juge IA n'a pas le dernier mot. L'expert métier a toujours le dernier mot. C'est le client qui connaît son domaine, ses subtilités, ses exceptions. L'IA fait le tri, l'humain valide.
Un portail pour que l'évaluation se fasse vraiment
Nous avons constaté un problème récurrent : on livre un bot, on demande au client d'évaluer les réponses, et on obtient un silence. Pas par manque de volonté, mais par manque de temps et d'outils adaptés. Personne n'a envie de parcourir un fichier Excel de 500 lignes pour noter des réponses. Le résultat, c'est que l'évaluation est repoussée, morcelée, et finalement incomplète.
C'est pour résoudre ce problème que Sparkle a développé un portail d'évaluation dédié. L'outil est mobile-friendly et pensé pour être utilisé en quelques minutes par jour. Le responsable du projet identifie ses testeurs, les personnes dans l'entreprise qui connaissent le sujet. Le système distribue intelligemment les réponses à évaluer : chaque testeur reçoit un lot gérable, sous forme de cartes à évaluer et noter, d'« incorrect » à « très bien ».
L'objectif est simple : un minimum de temps passé par le client pour un maximum de résultats. Un travail qui prenait parfois des semaines (quand il se faisait) se boucle maintenant en une journée. Nous avons même intégré la possibilité de laisser des commentaires, quelque chose qui était auparavant si pénible que personne ne le faisait. Aujourd'hui, les testeurs le font naturellement, parce que l'outil est pensé pour ça.
Ce portail donne au client une visibilité complète sur la qualité de son bot et son évolution dans le temps. Dans l'article précédent [LIEN], nous posions une question à adresser à tout prestataire IA : "Comment mesurez-vous la qualité ?" Un prestataire qui affirme simplement que "Vous pouvez tester le bot" ou encore, après une mise à jour, que "le bot fonctionne mieux" ne suffit pas. Il faut pouvoir le démontrer, avec des chiffres, pas des impressions.
Monitorer ce qui se passe dans la tête du bot
L'évaluation structurée intervient avant et pendant le développement. Mais une fois le bot en production, les utilisateurs trouvent toujours des angles morts. Des formulations auxquelles on n'avait pas pensé, des contextes particuliers, des situations ambiguës. C'est inévitable.
Et c'est là que le monitoring entre en jeu.
Monitorer un agent IA, ce n'est pas simplement enregistrer les questions et les réponses. Entre la question de l'utilisateur et la réponse du bot, il se passe énormément de choses invisibles : quels outils l'agent a utilisés, quels mots-clés il a cherchés, quelles informations il a récupérées, combien d'itérations il a faites avant de répondre.
Sans visibilité sur tout cela, quand un utilisateur signale un problème, il est impossible de savoir d'où il vient. Le bot a-t-il halluciné, c'est-à-dire inventé une réponse ? Ou n'a-t-il tout simplement pas trouvé la bonne information dans son contexte ? Les deux situations existent, mais elles ne se traitent pas du tout de la même manière.
Rappelons également que les agents modernes disposent d'une certaine autonomie. Sans transparence sur cette autonomie (sur ce que le bot a fait et pourquoi), il est impossible de diagnostiquer les problèmes, surtout lorsque le contexte est spécifique à un utilisateur et donc difficile à reproduire.
Chez Sparkle, nous utilisons OpenTelemetry, un standard ouvert qui permet de tracer l'ensemble des activités du bot à travers différents systèmes. Chaque action de l'agent est enregistrée : quel outil il a appelé, quelle requête il a envoyée, quel contexte il a reçu en retour, et comment il a construit sa réponse. Quand un problème survient, on peut rembobiner et identifier exactement où le système a déraillé.
On ne saute aucune étape
S'il y a une conviction qui traverse cette série d'articles, c'est celle-ci :
- Un projet IA d'entreprise, cela ne s'improvise pas.
- Des données bien préparées. Des choix stratégiques assumés. Une évaluation rigoureuse. Un monitoring en continu.
Ce sont les quatre piliers d'un projet IA qui fonctionne réellement. Aucun raccourci.
La dernière étape, celle de la validation et du suivi, est souvent celle qu'on est le plus tenté de négliger. Mais c'est exactement cette étape qui transforme un prototype prometteur en un outil fiable sur lequel vos équipes peuvent compter au quotidien.
C'est notre métier chez Sparkle : construire des systèmes IA d'entreprise en ne sautant aucune étape, surtout pas les dernières. Si vous avez un projet en tête, ou un bot qui ne donne pas encore les résultats espérés, parlons-en.
Article précédent : Coût, vitesse, qualité : les choix stratégiques
Premier article : Méfiez-vous des IA naïves
Ecrit par :
Publié le
Partager l'article
Actualités
Nos autres articles

Méfiez-vous des IA naïves : pourquoi un simple RAG ne suffit pas
Un RAG naïf (documents dans une base vectorielle sans traitement) donne l'illusion d'un assistant IA fonctionnel. Mais entre une démo impressionnante et un outil d'entreprise fiable, il y a un monde. Et c'est ce monde-là que Sparkle construit.




