Imagine quelqu’un qui a lu toutes les bibliothèques universitaires de Suisse réunies. Il peut répondre à presque toutes tes questions de culture générale. Mais si tu lui demandes ce qui s’est passé chez toi la semaine dernière, ou ce qui figure dans tes documents internes, il ne sait pas. Il n’était pas là, et personne ne lui a montré. Voilà le RAG expliqué simplement : c’est précisément la limite que cette technique vient combler.
C’est exactement le problème avec ChatGPT ou Claude : ils ont été entraînés sur des milliards de textes jusqu’à une certaine date, et c’est tout. Ils ne connaissent pas ton entreprise, ta documentation, tes PDF internes. Pour comprendre le RAG, il faut d’abord accepter cette limite.
Le RAG expliqué simplement : un accès à ta bibliothèque personnelle
RAG signifie Retrieval-Augmented Generation (génération augmentée par récupération). En pratique :
- Tu poses une question
- Le système cherche dans tes documents les passages les plus pertinents
- Il les colle dans le contexte envoyé au modèle
- Le modèle répond en s’appuyant sur ces passages
C’est comme si, avant de répondre, ton génie allait chercher les trois pages les plus utiles dans ta bibliothèque et les lisait en vitesse.
Pourquoi pas juste lui donner tous les documents d’un coup ?
Parce que les modèles ont une limite de mémoire de travail, ce qu’on appelle la fenêtre de contexte. Tu ne peux pas lui donner 10 000 pages à digérer en une fois. Le RAG résout ça en sélectionnant uniquement ce qui est pertinent pour cette question précise.
Un exemple concret
Le site d’une commune met en place un chatbot. Sans RAG, le modèle invente des réponses sur les horaires de la déchetterie. Avec RAG, il cherche d’abord dans le PDF des horaires officiels, et cite la source. Plus d’hallucination sur les faits locaux. Et pour les infos qui ne tolèrent pas l’erreur (un numéro de téléphone, un nom, une adresse), on peut combiner le RAG avec un petit annuaire de référence pour que la bonne info ressorte à coup sûr.
L’idée n’est pas nouvelle : elle a été décrite en 2020 par Lewis et al. Aujourd’hui, dès qu’un chatbot répond à partir d’une base documentaire précise (un PDF interne, une FAQ, un wiki), il y a du RAG derrière.
En résumé
| LLM seul | LLM + RAG | |
|---|---|---|
| Connaissance générale | ✅ | ✅ |
| Tes documents internes | ❌ | ✅ |
| Données récentes | ❌ | ✅ (si indexées) |
| Risque d’hallucination sur les faits | élevé | réduit |
Comprendre le RAG, c’est comprendre pourquoi les LLMs deviennent vraiment utiles dans un contexte métier réel. La qualité de la recherche et des documents sources reste déterminante.
