Article extrait de la lettre d’information Café IA n°25
Les IA sont devenues de plus en plus intégrées aux moteurs de recherche, ainsi qu’à nos gestes de recherche plus largement. Que vous utilisiez directement des IA comme ChatGPT ou Perplexity pour chercher des informations, ou que vous ayez simplement constaté la présence des « AI Overviews » de Gemini dans Google, de Copilot dans Bing, ou encore via nombre d’autres acteurs tiers, vous effectuez peut-être une recherche assistée par IA, sans forcément en avoir conscience.
Chercher : une rapide histoire de la recherche web
Mais qu’est-ce qu’une recherche exactement ? Avant les moteurs de recherche, pour trouver les informations relatives à un serveur distant sur le web il fallait en connaitre l’adresse afin d’effectuer une requête WHOIS (« qui est », un protocole permettant d’obtenir des informations sur un nom de domaine ou une adresse IP). Aux débuts d’internet, alors que le réseau ne reliait qu’une poignée de serveurs et qu’il n’existait que très peu de sites web, il était également possible de recenser et donc de rechercher manuellement les sites pour trouver leurs identifiants. Tim Berners-Lee, inventeur du Web, a ainsi hébergé une liste des premiers sites existants sur le serveur de CERN (le Centre européen pour la recherche nucléaire – on peut en voir un exemple datant de 1992 ici). Très vite, des organisations ont commencé à publier des pages d’actualités intitulées « What’s New! », comme celle-ci, datant de 1994, recensant les nouvelles entrées. Apparaissent également les premières listes recherchables, comme « Archie », un outil de recherche créé en 1990 par un groupe d’étudiants en informatique à l’Université McGill à Montréal. C’est ainsi qu’est né le concept d’un moteur de recherche : une méthode permettant de trouver plus facilement les sites web.
Seymour, Frantsvog et Kumar, chercheurs de l’Université de Minot State, identifient trois fonctionnalités principales des moteurs de recherche modernes : le crawling, l’indexing, et le searching. Le searching (la recherche) est la fonctionnalité la plus ancienne : elle permet d’utiliser quelques paramètres, comme des mots-clés, pour identifier des sites pertinents. Les premiers moteurs de recherche se contentaient de proposer des sites web connus, listés par nom, un peu comme chercher une recette dans un livre de recettes. Les premiers outils, tels qu’Archie, Veronica, Jughead et le W3Catalog, ne cherchaient que par noms des fichiers ou de sites ; ils ne disposaient pas d’index des contenus, et ne pouvaient donc pas effectuer de recherche à l’intérieur des pages elles-mêmes.
L’indexing (l’indexation) permet de créer une base de données plus complexe, contenant des informations extraites des contenus des pages web référencées ainsi que les liens entre différents sites. Les premiers index, apparus en 1993, sont essentiellement des bases de données qui stockent des informations provenant des pages web (texte, images, liens), lesquelles sont ensuite analysées pour identifier les mots-clés, cartographier les relations entre les pages et créer un format de stockage permanent. Si une recherche simple ressemble à feuilleter un livre de recettes pour trouver un plat précis, les index permettent de repérer toutes les recettes utilisant un ingrédient donné, et de les organiser selon des critères.
Pour alimenter ces bases plus complètes, le crawling (l’exploration) a été développé afin de recenser automatiquement les informations disponibles sur les sites web. Pour chaque page et site, certaines informations sont enregistrées – notamment l’URL et le titre de la page, les liens vers d’autres pages, ainsi qu’une sélection de mots-clés. WebCrawler, lancé en 1994, fut l’un des premiers moteurs de recherche à combiner crawler et index, mais plusieurs autres le rejoignirent rapidement. Google, devenu l’emblème de la recherche en ligne depuis plusieurs décennies, est arrivé tard sur la scène, vers 1998, avec l’innovation de classer les sites non pas simplement en fonction du nombre d’occurrences des termes recherchés, mais selon la pertinence de chaque site, déterminée par le nombre et l’importance de ses pages, et surtout en valorisant leur pertinence par le nombre de liens vers les pages.
Enfin, l’utilisateur saisit sa requête, et le moteur utilise son index et sa base liée pour générer une liste de résultats. À ce stade, il peut appliquer un algorithme pour classer ces résultats selon différents critères, comme la date ou la pertinence perçue.
Ce que chercher avec une IA transforme
Les principes de base d’une IA ne sont pas si différents. Les entreprises qui développent des IA envoient leurs crawlers (leurs programmes d’exploration et d’indexation des pages) à la découverte de sites et de pages, comme avec les moteurs traditionnels.
Cependant, c’est à ce stade que le processus se distingue de celui des moteurs de recherche traditionnels.
Tout d’abord, les crawlers des IA ont un appétit beaucoup plus vorace : ils ne font pas qu’indexer et explorer, ils collectent (on parle de scraping) pour transformer ou réutiliser les données collectées dans un autre contexte, par exemple pour alimenter l’entraînement des Grands modèles de langage (LLM) de l’IA. Cette collecte plus massive inclut de plus en plus de données personnelles et de contenus protégés par la propriété intellectuelle. Les crawlers de Perplexity AI, par exemple, sont connus pour être particulièrement agressifs, ignorant toute demande de la part des sites à ne pas indexer leurs contenus. Plutôt que de se limiter à construire un simple index, les LLM cherchent à effectuer une analyse statistique à grande échelle. Le résultat de ce processus est donc un LLM entraîné, capable de générer des réponses à partir des patterns appris dans ces vastes ensembles de données
Deuxième différence : alors que les crawlers des moteurs classiques poursuivent leur exploration en continu, mettant constamment à jour leurs bases de données, les LLM actuels ont des difficultés à « apprendre » en continu. Cela signifie que chaque modèle entraîné possède une date limite fixe ; au-delà de cette date, les informations nouvelles ou mises à jour ne sont plus prises en compte.
Troisième différence : lorsque nous saisissons une requête dans un chatbot, celui-ci utilise son modèle pour analyser la demande et décider de la manière de la traiter. C’est pourquoi il est possible de donner des instructions comme « Présente-moi une liste de… » ou « Réponds en espagnol ». À ce moment, l’IA peut choisir de générer une réponse en s’appuyant uniquement sur les éléments contenus dans son modèle, sans consulter de sources externes.
Mais, dès l’intégration étendue des recherches web dans les chatbots en 2024, si le modèle y est enclin, il peut choisir d’effectuer une recherche sur Internet grâce à la Retrieval-augmented Generation (RAG, génération à enrichissement contextuel). Dans ce cas, la recherche s’appuie souvent sur un moteur traditionnel : par exemple, ChatGPT utilise notamment Bing pour ses recherches, déléguant ainsi à ce moteur l’ensemble du processus « traditionnel » décrit précédemment.
Une fois la recherche terminée, la plupart des chatbots ne renvoient pas directement les résultats à l’utilisateur, mais les transmettent d’abord à leur propre modèle pour traitement supplémentaire. Pour la deuxième fois, le LLM digère ces informations afin de produire une réponse générée à partir de son modèle. Cette étape peut donner lieu à des résultats sous différents formats, notamment sous forme de textes longs. C’est ainsi qu’une recherche via un chatbot se déroule.
Il existe une version finale de cette routine : les moteurs de recherche traditionnels qui proposent une fonctionnalité IA, comme les AI Overviews de Google, Search Assist de DuckDuckGo ou Copilot de Bing. La portée de ces outils peut varier, car leur intégration dans les interfaces en ligne devient de plus en plus complexe. Dans l’ensemble, ils permettent d’effectuer une recherche assistée par IA dans l’interface existante d’un moteur traditionnel, puis de traiter la liste des résultats affichée à côté avec un LLM pour produire une réponse écrite. Cette production n’est pas réellement un résumé comme on pourrait le penser, puisqu’elle reste générée par un LLM et combine les données présentes dans le modèle, les résultats de recherche, et parfois même des informations ajoutées manuellement par des humains.
Mettre les résultats de recherche sous IA en perspective
Tout d’abord, l’intégration des LLM dans les recherches peut permettre aux utilisateurs de raffiner plus facilement leurs requêtes ; il n’est pas nécessaire de connaître les termes exacts pour trouver les informations souhaitées.
Mais en même temps, cela représente une déstabilisation du monde de la recherche existant. Un rapport d’AI Forensics de novembre 2025, « Governing AI Search » (la gouvernance des recherches avec IA) identifie plusieurs aspects importants.
Tout d’abord, ce sont précisément les mêmes capacités qui rendent la recherche plus « facile » qui peuvent aussi la détourner. La possibilité de « raffiner » automatiquement les termes de recherches implique nécessairement une étape d’interprétation, avec tous les biais qui y sont associés. De plus, la présentation d’une seule réponse générée plutôt qu’un choix parmi une sélection de résultats soulève la question de savoir comment identifier la « bonne » réponse, ou une bonne représentation des différentes perspectives possibles. Cela pose des problèmes majeurs de désinformation et d’informations nocives, comme l’illustrent récemment les conseils médicaux trompeurs produits par certains chatbots (même pour des chatbots censés être dédiés, comme s’en inquiétaient des chercheurs à l’encontre de ChatGPT Health qui échoue à reconnaître des urgences médicales). Ces problèmes, déjà présents dans les moteurs traditionnels et faisant l’objet de nombreuses régulations en Europe, sont amplifiés et exacerbés par le fonctionnement et la conception des chatbots.
Plus largement, sur le plan économique, les recherches IA semblent « scier la branche sur laquelle elles sont assises ». Un modèle économique s’est développé autour du trafic en ligne, les sites web dépendant des visiteurs provenant des moteurs de recherche. C’est la raison pour laquelle la position d’un site dans les classements est cruciale, et a donné naissance à une véritable industrie, celle du SEO (Search Engine Optimisation, l’optimisation des résultats des moteurs de recherche). Les chatbots menacent cet écosystème en fournissant souvent des réponses directes, sans nécessiter de clic ni de visite vers un autre site. Pourtant, comme nous l’avons vu, ces chatbots dépendent eux-mêmes des sites web et des résultats de recherche pour générer leurs réponses.
Le détournement du modèle économique existant fait déjà l’objet d’enquêtes de concurrence en Europe. Le régulateur britannique, la Competition and Markets Authority (CMA), a publié des recommandations pour garantir une attribution approfondie des contenus utilisés dans les recherches IA, en distinguant les informations provenant de tiers, et en instituant un opt-out d’utilisation du contenu pour les éditeurs. Il reste toutefois à voir à quel point ces mesures seront efficaces, étant donné la tendance des modèles d’IA à mélanger les informations issues de différentes sources dans une seule réponse.
C’est dans cette logique que les discussions sur la désignation des « éditeurs » – et donc la responsabilité des contenus en ligne – prennent de plus en plus d’importance. La régulation existante en Europe repose sur le principe selon lequel les intermédiaires (les médias sociaux notamment) qui ne produisent pas de contenu mais partagent celui des autres ne peuvent généralement pas être tenus responsables de ce contenu. Le Règlement sur les services numériques (DSA, Digital Services Act), catégorise les services intermédiaires en trois types, selon leur niveau de contrôle sur les contenus : les « simples transports » (mere conduits), les « mises en cache », et les « hébergeurs ». Des catégories supplémentaires et plus contraignantes sont définies pour les fournisseurs de très grandes plateformes en ligne (VLOPs, Very Large Online Platforms) et pour les très grands moteurs de recherche en ligne (VLOSEs, Very Large Online Search Engines). Chaque catégorie implique certaines obligations pour rester exonérée de responsabilité, notamment en termes de non-modification des données et de suppression des contenus illicites. Cependant, le rapport d’AI Forensics souligne qu’il devient de plus en plus évident que les services d’IA ne se prêtent pas facilement à ces catégorisations, étant donné qu’ils ont la capacité non seulement de trouver des liens, mais aussi d’héberger des informations et de produire des contenus. De plus, alors que certains services sont couverts par la désignation de VLOSE, comme Copilot en raison de sa proximité à Bing, d’autres comme Gemini ne le sont pas.
AI Forensics note que les services d’IA prennent en effet des décisions éditoriales, et ne peuvent donc pas être considérés comme de simples intermédiaires. Les effets de cette « édition » sont déjà visibles : un rapport récent du régulateur de la presse au Royaume-Uni a révélé que certaines sources, y compris des journaux et sites politiquement plus extrêmes comme la chaine d’extrême droite, GB News, sont utilisées et rendues visibles beaucoup plus fréquemment que d’autres.
Même s’ils étaient catégorisés en tant qu’éditeurs, les remèdes ne seraient pas toujours évidents. La « modération » des résultats repose actuellement sur les services eux-mêmes, avec des pratiques pouvant intervenir au niveau du système, du compte utilisateur, ou par des modifications après publication. Étant donné que chaque production générée peut être unique, la détection repose jusqu’ici sur l’analyse de mots ou de phrases clés, ou sur un algorithme qui cherche à évaluer le contenu selon son sujet. Le rapport note que la mise en place de cette modération peut être aussi simple qu’un élément dans le code HTML du modèle qui formule une réponse du type « Je ne peux pas répondre à ce sujet » lorsqu’une production est jugée problématique. Plus largement, cela soulève la question de la régulation des comportements ou des contenus, et du rôle des IA dans cette dynamique où il existe une interaction entre le comportement de l’utilisateur et les contenus générés. Bien que le Règlement sur l’IA (AIA, AI Act) de l’UE de 2024 aborde la responsabilité au niveau du système, un vide subsiste entre la régulation des contenus dans le DSA, et la régulation des systèmes dans l’AIA.
En même temps, ces outils reposent toujours sur des LLM, qui s’appuient sur les données d’entraînement parfois problématiques et controversées en termes d’accès et de réutilisation. Nous sommes désormais dans une logique où les IA n’ont pas « lu » tous qu’ils prétendent d’avoir lu, tout en ayant « lu » ce qu’ils prétendent de ne pas avoir lu !
De plus, tous ces changements se produisent dans une certaine opacité : avec les recherches effectuées dans un chabot, les usages deviennent plus difficiles à observer. Alors que les tendances pour chaque sujet sont publiques avec certains moteurs traditionnels (comme chacun peut le voir, par exemple, avec Google Trends sur Google), certaines obligations de transparence dans le DSA obligent la disponibilité des paramètres de recherche. Or, la compréhension des usages des IA dépend encore des communications ponctuelles des entreprises qui les développent.
Alors, que faire ? Le rapport d’AI Forensics plaide pour une approche combinée utilisant à la fois le DSA et l’AIA pour clarifier les obligations applicables aux recherches IA, notamment un meilleur accès aux données pour les chercheurs et davantage d’études sur les impacts à long terme de ces systèmes. Pour nous en tant qu’individus, il convient tout d’abord de prendre quelques minutes pour mieux comprendre les interfaces et les options disponibles. Par exemple, si nous cherchons les conseils médicaux, la boîte AI Overviews n’est pas forcément l’outil le plus fiable.
Plus généralement, une meilleure compréhension de ces outils – y compris les outils de recherche traditionnels – nous permet de choisir celui qui correspond le mieux à nos besoins et préférences. Mais cela suppose de savoir comment utiliser ces moteurs IA selon leurs capacités. Les entreprises technologiques introduisent des changements en silence (comme nous le disions en évoquant les changements des modalités de recommandation sur Linked-in) ; ce qui nécessite de chacun un renforcement de ses capacités informatives, alors même que l’IA nous dessaisit en détournant nos outils de recherche.







