C'est quoi le RAG (en 30 secondes)
RAG = Retrieval-Augmented Generation. En français : on donne à l'IA accès à VOS documents pour qu'elle réponde avec VOS données, pas avec ses connaissances générales.
Sans RAG : vous posez une question à ChatGPT, il répond avec ce qu'il sait (son entraînement). C'est souvent à côté de la plaque pour votre métier.
Avec RAG : l'IA cherche d'abord dans vos docs (contrats, FAQ interne, process, fiches produit), trouve les passages pertinents, puis formule une réponse basée sur CES passages.
C'est la différence entre un stagiaire qui débarque et un stagiaire qui a lu tous vos dossiers 📚
L'architecture (simplifié)
Le RAG, c'est 3 briques :
Brique 1 : Les embeddings
Vos documents sont transformés en vecteurs numériques (des listes de nombres). Chaque paragraphe devient un point dans un espace mathématique. Les paragraphes qui parlent du même sujet sont proches dans cet espace.
Concrètement : vous prenez votre FAQ de 200 questions, chaque Q/R est convertie en vecteur via un modèle d'embedding (OpenAI text-embedding-3-small à 0.02$/1M tokens, ou un modèle open source gratuit).
Brique 2 : Le vector store
Ces vecteurs sont stockés dans une base spécialisée. Quand quelqu'un pose une question, la question est aussi convertie en vecteur, et la base retrouve les passages les plus proches.
Les options :
- pgvector : Extension PostgreSQL - Gratuit - Pour ceux qui ont déjà Postgres
- Qdrant : Dédié, open source - Gratuit (self-hosted) / 25$/mois (cloud) - Performance + filtrage avancé
- Pinecone : SaaS managé - Gratuit (limité) / 70$/mois - Zéro maintenance, US
- ChromaDB : Léger, Python - Gratuit - Prototypage rapide
Notre reco pour une PME : pgvector si vous avez déjà Postgres, Qdrant self-hosted sinon.
Brique 3 : Le LLM
Le modèle de langage qui formule la réponse. Il reçoit la question + les passages trouvés par le vector store, et génère une réponse contextualisée.
Coûts API LLM par mois (usage PME, ~5 000 requêtes/mois) :
- GPT-4o : ~30-80€
- Claude 3.5 Sonnet : ~25-60€
- Mistral Large : ~15-40€
- Modèle open source (self-hosted) : 0€ + coût GPU (~50-200€)
Le flux complet
Question utilisateur
↓
Embedding de la question (0.001€)
↓
Recherche dans le vector store (instantané)
↓
Top 5 passages les plus pertinents
↓
Prompt au LLM : "Voici les documents, réponds à cette question"
↓
Réponse sourcée
Coût par requête : ~0.005 à 0.02€. Sur 5 000 requêtes/mois : 25-100€/mois.
Les 3 erreurs qui ruinent un RAG
1. Mettre tous ses docs en vrac
Le RAG n'est pas magique. Si vous balancez 10 000 PDFs non structurés, il va trouver des passages semi-pertinents et générer des réponses moyennes.
La solution : structurez vos docs. Une FAQ bien rédigée > 500 pages de process mal formatés. Découpez en chunks de 300-500 mots avec du contexte.
2. Pas de système de "je ne sais pas"
Par défaut, un LLM répond TOUJOURS. Même quand il sait pas. Il invente. C'est les hallucinations.
La solution : dans le prompt système, ajoutez une instruction claire : "Si les documents fournis ne contiennent pas la réponse, dis 'Je n'ai pas cette information dans ma base'. Ne jamais inventer." Et mettez un score de confiance sur la recherche vectorielle - en dessous d'un seuil, ne répondez pas.
3. Jamais mettre à jour la base
Vos docs changent. Vos process évoluent. Si le RAG répond avec des infos de 6 mois, c'est pire que pas de RAG.
La solution : un pipeline de mise à jour automatique. Quand un doc change dans Notion/Drive/SharePoint, les embeddings se mettent à jour. Avec n8n, ça se fait en un workflow de 5 nodes.
Quand NE PAS faire du RAG
- Moins de 20 questions récurrentes → une FAQ statique suffit
- Données ultra-sensibles sans infra self-hosted → le risque de fuite est trop élevé
- Pas de process documenté → le RAG a besoin de docs. Si tout est dans la tête de Jean-Pierre, commencez par documenter avant d'automatiser
- Budget < 50€/mois → le ROI sera difficile à atteindre
Comment on le déploie chez Agenexa
Notre stack RAG type :
- Ingestion : n8n récupère les docs (Notion API, Google Drive, upload manuel)
- Chunking : découpage intelligent (par section, 400 mots max)
- Embedding : OpenAI
text-embedding-3-small(le moins cher, suffisant dans 90% des cas) - Stockage : Qdrant (self-hosted sur le même VPS que n8n)
- Query : API endpoint qui reçoit la question, cherche, et appelle Claude pour la réponse
- Interface : chat intégré dans le site/app du client, ou Slack bot
Délai de déploiement : 2-4 semaines Coût setup : à partir de 1 200€ Coût mensuel : 50-150€ (API + hébergement)