Comment fonctionnent vraiment les agents IA sur les chantiers

Demandez à la plupart des gens ce qu'est un agent IA, et ils vous décriront un robot conversationnel. Vous tapez une question, il vous répond, la réponse a l'air sûre d'elle, et voilà le produit.

Sur un chantier, ce modèle mental s'effondre vite. Une réponse assurée au sujet de la QRT 204 qui est fausse, vieille de trois semaines ou tout simplement inventée n'est pas un petit bogue. C'est le genre de chose qu'on finit par citer dans une réunion, puis dans un courriel, puis dans une réclamation.

Le modèle de langage qui écrit la phrase est la partie la plus facile à construire du système. C'est aussi la moins importante quand il s'agit de savoir si on peut se fier à ce qu'il dit.

Le changement de perspective à saisir est le suivant : l'intelligence d'un agent IA ne réside pas dans sa façon de parler. Elle réside dans tout ce qui se passe avant qu'on l'autorise à le faire.

Un modèle de langage est une bouche, pas un cerveau

Un grand modèle de langage est remarquablement doué pour reconnaître des motifs. À partir d'une invite, il produit un texte qui ressemble statistiquement au genre de texte qui devrait suivre. Il le fait qu'il ait déjà vu ou non votre projet, vos QRT ou votre échéancier.

On l'oublie facilement parce que le résultat se lit si naturellement. Demandez directement à un modèle « quel est le statut de la QRT 204 sur le chantier de la rue Mill », et il peut répondre avec aisance, en y attachant un statut plausible, une date plausible et un nom plausible. Rien de tout cela n'a à être vrai. Le modèle ne ment pas comme une personne ment. Il fait exactement ce pour quoi il a été conçu : poursuivre le motif.

La bouche : génère du langage, couramment et à la demande, peu importe ce qu'elle sait réellement.
Le cerveau : décide de ce dont la bouche a le droit de parler, à partir de ce qui se trouve réellement dans le dossier du projet.

Un agent IA, c'est le système bâti autour du modèle pour fournir cette deuxième partie. Le modèle ne voit jamais une question à froid. Au moment où il génère quoi que ce soit, le cerveau a déjà déterminé ce que la question demande vraiment, quelles preuves sont pertinentes et s'il y en a assez pour répondre de façon responsable.

Le premier travail de l'agent : comprendre ce qu'on lui demande

Deux questions peuvent se ressembler et exiger un travail complètement différent.

« Quel est le statut de la QRT 204 » est une simple consultation. Il existe un enregistrement, il comporte un champ de statut, la réponse est un problème de récupération de fait.

« Pourquoi accusons-nous du retard sur la charpente du niveau 3 » n'est pas une consultation. Aucun document unique ne contient cette réponse. Il faut rassembler des QRT, des directives de changement, des rapports journaliers et des activités de l'échéancier, puis raisonner sur l'ensemble pour dégager une tendance.

Le premier geste d'un agent consiste à classer le type de question qu'il a devant lui, avant même d'essayer de répondre à l'une ou l'autre. C'est la détection d'intention : acheminer la question vers le bon type de recherche, plutôt que de soumettre chaque question à la même recherche générique en espérant que ça marche.

Dans la pratique, ça se complique. Un seul message contient souvent plus d'une question (« quel est le statut de la QRT 204, et a-t-elle eu un effet sur l'échéancier de la charpente »), et l'agent doit reconnaître les deux, traiter chacune selon ses propres termes et réunir les résultats dans une seule réponse. Ratez cette étape, et tout ce qui suit repose sur de mauvaises fondations, peu importe la qualité de la recherche ou du modèle.

	Robot conversationnel	Agent
Première étape	Envoie la question directement au modèle	Classe le type de question
Source de la réponse	Les données d'entraînement du modèle et l'invite	Le dossier du projet, récupéré à la demande
Plusieurs questions dans un même message	N'en répond souvent qu'à une, ou les mélange	Détecte et traite chacune séparément
Quand il n'a pas de réponse	Génère quand même quelque chose de plausible	Peut décider de ne pas répondre

C'est aussi, discrètement, ce que sont bien des « copilotes IA » greffés à des logiciels de construction existants. Une fenêtre de clavardage apparaît dans le coin d'un outil familier, et on dirait la colonne « agent ». En dessous, ce n'est souvent qu'un modèle auquel on a branché une boîte de recherche : aucune vraie classification de ce qui est demandé, aucun suivi des liens entre les enregistrements, aucun moyen d'admettre qu'il n'a rien trouvé. Ça ressemble à un agent. Ça se comporte comme un robot conversationnel.

Ensuite, il va chercher les preuves, comme le ferait une personne

Une fois que l'agent sait ce qu'on lui demande, il doit aller chercher les preuves, et c'est une série de décisions, pas une simple boîte de recherche. Cette question exige-t-elle une consultation de document, une recherche en suivant les liens entre enregistrements connexes, une interrogation de l'échéancier, ou une combinaison des trois ?

C'est ici que la structure du projet fait le gros du travail. Une QRT est liée à la directive qui y a répondu. Une directive est liée à l'activité de l'échéancier qu'elle a touchée. Une demande de changement est liée à l'ordre de changement qu'elle est devenue. L'agent n'a pas besoin de deviner ces liens à partir de la seule similarité textuelle. Il peut les suivre, comme une personne tirerait un fil d'un document au suivant.

L'agent comme cerveau : une question traverse la détection d'intention, puis la recherche dans les documents, les enregistrements liés et l'échéancier, passe par une vérification des sources, et n'atteint qu'ensuite le modèle de langage, qui produit une réponse appuyée par des sources — L'agent décide quoi vérifier, suit les liens et ne répond qu'une fois les preuves réunies.

Ce que veut vraiment dire « appel d'outils » ici

Quand on dit qu'un agent « appelle des outils », on veut dire que le modèle décide lui-même, en plein raisonnement, de quelles étapes de recherche il a besoin. Il pourrait consulter d'abord l'échéancier, constater que le retard remonte à une QRT, puis aller chercher cette QRT et la directive qui l'a suivie, avant d'en avoir assez pour répondre.

C'est aussi ici que l'étape de classification du début porte ses fruits. Une consultation de statut peut n'exiger qu'une seule recherche ciblée. Une question en « pourquoi » peut devoir suivre trois ou quatre liens entre des enregistrements connexes avant d'avoir de quoi dire quelque chose d'utile. L'agent décide combien de liens suffisent, et quand s'arrêter.

Le vrai travail du cerveau : savoir dire « je ne sais pas »

Voici la vérité inconfortable au sujet des générations précédentes de ces assistants : quand ils ne trouvaient pas de document pertinent, ils répondaient souvent quand même. Nous l'avons constaté avec une question aussi simple que « quelle est la révision actuelle des devis mécaniques du niveau 4 ». Une version antérieure de l'assistant n'a rien trouvé d'à jour dans ses résultats de recherche, et a répondu malgré tout, en citant une révision remplacée des mois plus tôt. Le modèle ne fonctionnait pas mal. Rien dans le système ne vérifiait si « nous n'avons rien trouvé d'à jour » devait produire une réponse tout court.

Une mauvaise réponse qui arrive instantanément et qui sonne juste est plus dangereuse qu'une réponse lente, parce que personne ne revérifie ce qu'il croit déjà.

Comparaison côte à côte de deux réponses à la même question : une supposition assurée sans source, et une réponse appuyée qui cite la QRT 204, la Directive 18 et une activité de l'échéancier, et qui signale ce qu'elle ne peut pas confirmer — Même question, deux rapports différents à la vérité.

La solution n'est pas un modèle plus intelligent. C'est un système qui vérifie ses propres preuves avant de parler. Si l'étape de recherche revient maigre, contradictoire ou qu'elle ne couvre tout simplement pas la question, le travail de l'agent est de le dire, de pointer ce qu'il a trouvé et de suggérer où une personne devrait regarder ensuite. C'est une réponse moins satisfaisante qu'un paragraphe assuré. C'est aussi la seule sorte de réponse autour de laquelle ça vaut la peine de bâtir un flux de travail.

C'est la différence entre un assistant parfois impressionnant et un assistant fiable et utile. L'impressionnant, c'est une démo. Le fiable, c'est quelque chose sur quoi un chargé de projet peut agir sans devoir d'abord le revérifier dans les fichiers sources, parce que les fichiers sources sont là, dans la réponse.

Ce qui s'en vient

La prochaine étape pour ces agents n'est pas un modèle plus gros. Ce sont des chaînes de raisonnement plus longues : un agent qui suit une question d'une QRT à la directive qui y a répondu, à l'activité de l'échéancier qu'elle a touchée, jusqu'à l'ordre de changement qu'elle a produit, le tout d'un seul trait, sans perdre le fil ni les sources en chemin. On passe de « poser une question, obtenir une réponse » à « poser une question, le regarder enquêter ».

C'est la direction que prennent les agents de Storia : non pas une bouche plus rapide, mais un cerveau mieux informé derrière chacun d'eux, un cerveau qui traite les documents et les enregistrements de votre projet comme quelque chose à analyser et à relier, et non simplement à consulter un à la fois.

Amin Bayatpour Ingénieur IA chez Storia, spécialisé en GenAI, RAG et systèmes agentiques. Écrivez à info@storiatechnologies.com pour voir comment ce type de raisonnement se retrouve dans les agents de Storia.

Amin Bayatpour

AI Engineer | GenAI | LLM | RAG | Agentic Systems, Storia

Une question sur cet article ? Écrivez-nous à info@storiatechnologies.com.

Se connecter sur LinkedIn →

L'intelligence d'un agent IA ne tient pas à sa façon de parler

Un modèle de langage est une bouche, pas un cerveau

Le premier travail de l'agent : comprendre ce qu'on lui demande

Ensuite, il va chercher les preuves, comme le ferait une personne

Le vrai travail du cerveau : savoir dire « je ne sais pas »

Ce qui s'en vient

Articles connexes

Bâtir un graphe de connaissances de construction fiable

Les réclamations se gagnent dans le rapport quotidien

Les événements de réclamation, trouvés pendant que la piste est chaude

Restez à l’affût de l’intelligence de construction