C'est quoi le RAG (en 30 secondes)
RAG = Retrieval-Augmented Generation. En français : on donne à l'IA accès à VOS documents pour qu'elle réponde avec VOS données, pas avec ses connaissances générales.
Sans RAG : vous posez une question à ChatGPT, il répond avec ce qu'il sait (son entraînement). C'est souvent à côté de la plaque pour votre métier.
Avec RAG : l'IA cherche d'abord dans vos docs (contrats, FAQ interne, process, fiches produit), trouve les passages pertinents, puis formule une réponse basée sur CES passages.
C'est la différence entre un stagiaire qui débarque et un stagiaire qui a lu tous vos dossiers.
L'essentiel :
- Un systeme RAG pour PME coute entre 50 et 200 EUR/mois en fonctionnement, avec un setup initial a partir de 4 500 EUR
- 50 a 100 documents bien structures suffisent pour demarrer - la qualite prime sur la quantite
- Le cout par requete est de 0.005 a 0.02 EUR, soit 25-100 EUR/mois pour 5 000 requetes
- Les 3 erreurs fatales : docs en vrac, pas de systeme "je ne sais pas", et base jamais mise a jour
- Notre recommandation : commencez avec pgvector + Claude Haiku pour un prototype en 2-3 jours, puis iterez sur la qualite des documents
Comment fonctionne l'architecture RAG ?
Le RAG, c'est 3 briques :
Brique 1 : Les embeddings
Vos documents sont transformés en vecteurs numériques (des listes de nombres). Chaque paragraphe devient un point dans un espace mathématique. Les paragraphes qui parlent du même sujet sont proches dans cet espace.
Concrètement : vous prenez votre FAQ de 200 questions, chaque Q/R est convertie en vecteur via un modèle d'embedding (OpenAI text-embedding-3-small à 0.02$/1M tokens, ou un modèle open source gratuit).
Brique 2 : Le vector store
Ces vecteurs sont stockés dans une base spécialisée. Quand quelqu'un pose une question, la question est aussi convertie en vecteur, et la base retrouve les passages les plus proches.
Les options :
- pgvector : Extension PostgreSQL - Gratuit - Pour ceux qui ont déjà Postgres
- Qdrant : Dédié, open source - Gratuit (self-hosted) / 25$/mois (cloud) - Performance + filtrage avancé
- Pinecone : SaaS managé - Gratuit (limité) / 70$/mois - Zéro maintenance, US
- ChromaDB : Léger, Python - Gratuit - Prototypage rapide
Notre reco pour une PME : pgvector si vous avez deja Postgres, Qdrant self-hosted sinon. Ce type d'architecture fait partie de nos missions d'agents IA sur mesure.
Stack RAG par budget
| Budget mensuel | Embedding | Vector store | LLM | Orchestration | Cout total |
|---|---|---|---|---|---|
| < 50 EUR/mois | OpenAI text-embedding-3-small | pgvector (existant) | Claude Haiku | n8n self-hosted | 30-50 EUR |
| 50-150 EUR/mois | OpenAI text-embedding-3-small | Qdrant self-hosted | Claude Sonnet | n8n self-hosted | 80-150 EUR |
| 150-300 EUR/mois | Cohere embed-multilingual | Qdrant Cloud | Claude Sonnet | n8n Cloud | 150-250 EUR |
| 300+ EUR/mois | Modele custom fine-tune | Qdrant dedie | GPT-4o + Claude Sonnet (routing) | n8n + monitoring custom | 300-500 EUR |
Notre recommandation pour la plupart des PME : le stack a 80-150 EUR/mois. C'est le meilleur rapport qualite/prix. En dessous, la qualite des reponses souffre. Au-dessus, le gain marginal est faible sauf cas specifiques.
Brique 3 : Le LLM
Le modèle de langage qui formule la réponse. Il reçoit la question + les passages trouvés par le vector store, et génère une réponse contextualisée.
Coûts API LLM par mois (usage PME, ~5 000 requêtes/mois) :
- GPT-4o : ~30-80€
- Claude 3.5 Sonnet : ~25-60€
- Mistral Large : ~15-40€
- Modèle open source (self-hosted) : 0€ + coût GPU (~50-200€)
Le flux complet
Question utilisateur
↓
Embedding de la question (0.001€)
↓
Recherche dans le vector store (instantané)
↓
Top 5 passages les plus pertinents
↓
Prompt au LLM : "Voici les documents, réponds à cette question"
↓
Réponse sourcée
Cout par requete : ~0.005 a 0.02 EUR. Sur 5 000 requetes/mois : 25-100 EUR/mois.
Besoin d'evaluer si le RAG est adapte a votre cas ? On analyse votre contexte en 30 minutes - diagnostic gratuit.
Quelles erreurs eviter avec un RAG ?
1. Mettre tous ses docs en vrac
Le RAG n'est pas magique. Si vous balancez 10 000 PDFs non structurés, il va trouver des passages semi-pertinents et générer des réponses moyennes.
La solution : structurez vos docs. Une FAQ bien rédigée > 500 pages de process mal formatés. Découpez en chunks de 300-500 mots avec du contexte.
2. Pas de système de "je ne sais pas"
Par défaut, un LLM répond TOUJOURS. Même quand il sait pas. Il invente. C'est les hallucinations.
La solution : dans le prompt système, ajoutez une instruction claire : "Si les documents fournis ne contiennent pas la réponse, dis 'Je n'ai pas cette information dans ma base'. Ne jamais inventer." Et mettez un score de confiance sur la recherche vectorielle - en dessous d'un seuil, ne répondez pas.
3. Jamais mettre à jour la base
Vos docs changent. Vos process évoluent. Si le RAG répond avec des infos de 6 mois, c'est pire que pas de RAG.
La solution : un pipeline de mise à jour automatique. Quand un doc change dans Notion/Drive/SharePoint, les embeddings se mettent à jour. Avec n8n, ça se fait en un workflow de 5 nodes.
Quand le RAG n'est-il pas la bonne solution ?
- Moins de 20 questions recurrentes -> une FAQ statique suffit. Pas besoin d'IA pour 20 questions.
- Donnees ultra-sensibles sans infra self-hosted -> le risque de fuite est trop eleve. Deployez d'abord l'infra, puis le RAG.
- Pas de process documente -> le RAG a besoin de docs. Si tout est dans la tete de Jean-Pierre, commencez par documenter avant d'automatiser.
- Budget < 50 EUR/mois -> le ROI sera difficile a atteindre. Investissez dans la documentation d'abord.
- Documents non structures (scans, images, tableaux complexes) -> le RAG standard galere avec ca. Il faut une etape d'OCR et de parsing qui ajoute de la complexite et du cout.
RAG vs alternatives : comment choisir ?
| Besoin | Solution adaptee | Pourquoi |
|---|---|---|
| < 20 questions recurrentes | FAQ statique (page web) | Gratuit, instantane, zero maintenance |
| 20-100 questions, docs stables | Chatbot avec base de regles | Simple, previsible, pas d'hallucinations |
| 100+ questions, docs evoluent | RAG | Flexible, scalable, repond a l'inattendu |
| Style/ton specifique a integrer | Fine-tuning | Le modele "apprend" votre facon de parler |
| Volume tres eleve, tache repetitive | Fine-tuning + RAG | Combinaison pour qualite et pertinence maximales |
4 scenarios concrets de RAG en PME
Scenario 1 : Support client e-commerce
Contexte : un site e-commerce recoit 200 questions/jour par chat. 60% sont des questions sur les conditions de livraison, retours, tailles. La FAQ existe mais personne ne la lit.
Solution RAG : chatbot branche sur la FAQ, les conditions generales et les fiches produit. Le bot repond en 2 secondes au lieu des 4h de delai moyen du support humain.
Stack recommande : pgvector + Claude Haiku + widget chat integre. Budget : ~40 EUR/mois.
Resultat attendu : 50-70% des questions resolues sans intervention humaine.
Scenario 2 : Base de connaissances interne (cabinet de conseil)
Contexte : un cabinet de 20 consultants passe 2-3h/semaine a chercher des methodologies, templates et precedents dans des dossiers partages. 500+ documents sur Google Drive.
Solution RAG : interface de recherche interne branchee sur le Drive. Le consultant pose sa question en langage naturel et obtient les passages pertinents avec les liens vers les documents sources.
Stack recommande : Qdrant + Claude Sonnet + Slack bot. Budget : ~100 EUR/mois.
Resultat attendu : temps de recherche divise par 5, meilleure capitalisation du savoir.
Scenario 3 : Onboarding des nouveaux employes
Contexte : chaque nouvel employe pose les memes 50 questions pendant ses premieres semaines. Le manager passe 10h a repondre a chaque onboarding.
Solution RAG : chatbot "buddy" branche sur le wiki interne, le reglement interieur, les process RH. Le nouvel employe pose ses questions 24/7 sans deranger personne.
Stack recommande : pgvector + Claude Haiku + interface web simple. Budget : ~30 EUR/mois.
Resultat attendu : temps manager reduit de 80%, onboarding plus rapide et homogene.
Scenario 4 : Assistance technique terrain
Contexte : des techniciens terrain doivent consulter des manuels de maintenance de 200+ pages sur leur telephone pour diagnostiquer des pannes.
Solution RAG : application mobile ou chatbot WhatsApp. Le technicien decrit le symptome, le RAG trouve la procedure de diagnostic dans le manuel.
Stack recommande : Qdrant + Mistral Large + API WhatsApp. Budget : ~80 EUR/mois.
Resultat attendu : temps de diagnostic divise par 3, moins d'erreurs de procedure.
Besoin d'un RAG adapte a votre metier ? On evalue la faisabilite en 30 min - c'est gratuit.
Comment Agenexa deploie un RAG pour ses clients ?
Notre stack RAG type :
- Ingestion : n8n récupère les docs (Notion API, Google Drive, upload manuel)
- Chunking : découpage intelligent (par section, 400 mots max)
- Embedding : OpenAI
text-embedding-3-small(le moins cher, suffisant dans 90% des cas) - Stockage : Qdrant (self-hosted sur le même VPS que n8n)
- Query : API endpoint qui reçoit la question, cherche, et appelle Claude pour la réponse
- Interface : chat intégré dans le site/app du client, ou Slack bot
Delai de deploiement : 2-4 semaines Cout setup : a partir de 4 500 EUR - voir nos tarifs pour le detail des formules Cout mensuel : 50-150 EUR (API + hebergement)
Notre verdict final
Le RAG est la maniere la plus rapide et la moins chere de rendre une IA utile avec VOS donnees. Pas besoin de fine-tuning, pas besoin de modele custom. 50-100 documents bien structures et un stack a 80-150 EUR/mois suffisent pour transformer un chatbot generique en assistant metier pertinent.
En une phrase : si vos equipes passent du temps a chercher des infos dans des docs, le RAG va leur rendre des heures chaque semaine.
Chez Agenexa, on deploie des systemes RAG au quotidien pour nos clients PME. On n'est pas neutres - mais on est honnetes. La cle du succes c'est la qualite des documents, pas la complexite de la technique. Parlons de votre contexte.
Consultez nos offres ou decouvrez nos services d'agents IA.
Pour comprendre comment choisir entre modeles open source et proprietaires pour votre LLM, lisez aussi Open source vs closed source en IA pour PME. Et pour une vue complete sur les agents IA en PME, consultez notre guide sur les agents IA.