Combien coûte un système RAG pour une PME ?

Entre 50 et 200€/mois en fonctionnement (API LLM + vector store + orchestration). Le setup initial dépend de la complexité : 1 200 à 4 000€ chez Agenexa.

Faut-il beaucoup de documents pour que le RAG marche ?

Non. 50-100 documents bien structurés suffisent pour démarrer. La qualité prime sur la quantité. Un RAG sur 50 docs propres bat un RAG sur 10 000 docs en vrac.

Le RAG peut-il inventer des réponses ?

Oui, c'est le risque principal (hallucination). Mais un RAG bien configuré cite ses sources et dit 'je ne sais pas' quand l'info n'est pas dans la base.

RAG en PME : comment brancher une IA sur vos docs internes - Blog Agenexa

C'est quoi le RAG (en 30 secondes)

RAG = Retrieval-Augmented Generation. En français : on donne à l'IA accès à VOS documents pour qu'elle réponde avec VOS données, pas avec ses connaissances générales.

Sans RAG : vous posez une question à ChatGPT, il répond avec ce qu'il sait (son entraînement). C'est souvent à côté de la plaque pour votre métier.

Avec RAG : l'IA cherche d'abord dans vos docs (contrats, FAQ interne, process, fiches produit), trouve les passages pertinents, puis formule une réponse basée sur CES passages.

C'est la différence entre un stagiaire qui débarque et un stagiaire qui a lu tous vos dossiers 📚

L'architecture (simplifié)

Le RAG, c'est 3 briques :

Brique 1 : Les embeddings

Vos documents sont transformés en vecteurs numériques (des listes de nombres). Chaque paragraphe devient un point dans un espace mathématique. Les paragraphes qui parlent du même sujet sont proches dans cet espace.

Concrètement : vous prenez votre FAQ de 200 questions, chaque Q/R est convertie en vecteur via un modèle d'embedding (OpenAI text-embedding-3-small à 0.02$/1M tokens, ou un modèle open source gratuit).

Brique 2 : Le vector store

Ces vecteurs sont stockés dans une base spécialisée. Quand quelqu'un pose une question, la question est aussi convertie en vecteur, et la base retrouve les passages les plus proches.

Les options :

pgvector : Extension PostgreSQL - Gratuit - Pour ceux qui ont déjà Postgres
Qdrant : Dédié, open source - Gratuit (self-hosted) / 25$/mois (cloud) - Performance + filtrage avancé
Pinecone : SaaS managé - Gratuit (limité) / 70$/mois - Zéro maintenance, US
ChromaDB : Léger, Python - Gratuit - Prototypage rapide

Notre reco pour une PME : pgvector si vous avez déjà Postgres, Qdrant self-hosted sinon.

Brique 3 : Le LLM

Le modèle de langage qui formule la réponse. Il reçoit la question + les passages trouvés par le vector store, et génère une réponse contextualisée.

Coûts API LLM par mois (usage PME, ~5 000 requêtes/mois) :

GPT-4o : ~30-80€
Claude 3.5 Sonnet : ~25-60€
Mistral Large : ~15-40€
Modèle open source (self-hosted) : 0€ + coût GPU (~50-200€)

Le flux complet

Question utilisateur
    ↓
Embedding de la question (0.001€)
    ↓
Recherche dans le vector store (instantané)
    ↓
Top 5 passages les plus pertinents
    ↓
Prompt au LLM : "Voici les documents, réponds à cette question"
    ↓
Réponse sourcée

Coût par requête : ~0.005 à 0.02€. Sur 5 000 requêtes/mois : 25-100€/mois.

Les 3 erreurs qui ruinent un RAG

1. Mettre tous ses docs en vrac

Le RAG n'est pas magique. Si vous balancez 10 000 PDFs non structurés, il va trouver des passages semi-pertinents et générer des réponses moyennes.

La solution : structurez vos docs. Une FAQ bien rédigée > 500 pages de process mal formatés. Découpez en chunks de 300-500 mots avec du contexte.

2. Pas de système de "je ne sais pas"

Par défaut, un LLM répond TOUJOURS. Même quand il sait pas. Il invente. C'est les hallucinations.

La solution : dans le prompt système, ajoutez une instruction claire : "Si les documents fournis ne contiennent pas la réponse, dis 'Je n'ai pas cette information dans ma base'. Ne jamais inventer." Et mettez un score de confiance sur la recherche vectorielle - en dessous d'un seuil, ne répondez pas.

3. Jamais mettre à jour la base

Vos docs changent. Vos process évoluent. Si le RAG répond avec des infos de 6 mois, c'est pire que pas de RAG.

La solution : un pipeline de mise à jour automatique. Quand un doc change dans Notion/Drive/SharePoint, les embeddings se mettent à jour. Avec n8n, ça se fait en un workflow de 5 nodes.

Quand NE PAS faire du RAG

Moins de 20 questions récurrentes → une FAQ statique suffit
Données ultra-sensibles sans infra self-hosted → le risque de fuite est trop élevé
Pas de process documenté → le RAG a besoin de docs. Si tout est dans la tête de Jean-Pierre, commencez par documenter avant d'automatiser
Budget < 50€/mois → le ROI sera difficile à atteindre

Comment on le déploie chez Agenexa

Notre stack RAG type :

Ingestion : n8n récupère les docs (Notion API, Google Drive, upload manuel)
Chunking : découpage intelligent (par section, 400 mots max)
Embedding : OpenAI text-embedding-3-small (le moins cher, suffisant dans 90% des cas)
Stockage : Qdrant (self-hosted sur le même VPS que n8n)
Query : API endpoint qui reçoit la question, cherche, et appelle Claude pour la réponse
Interface : chat intégré dans le site/app du client, ou Slack bot

Délai de déploiement : 2-4 semaines Coût setup : à partir de 1 200€ Coût mensuel : 50-150€ (API + hébergement)

On évalue si le RAG est pertinent pour vous en 30 min.

RAG en PME : comment brancher une IA sur vos docs internes

C'est quoi le RAG (en 30 secondes)

L'architecture (simplifié)

Brique 1 : Les embeddings

Brique 2 : Le vector store

Brique 3 : Le LLM

Le flux complet

Les 3 erreurs qui ruinent un RAG

1. Mettre tous ses docs en vrac

2. Pas de système de "je ne sais pas"

3. Jamais mettre à jour la base

Quand NE PAS faire du RAG

Comment on le déploie chez Agenexa

Questions fréquentes sur cet article.

Articles similaires

Créer un agent IA de support client en 2026 : le guide complet

Agent IA sur mesure : pourquoi les PME font le saut en 2026

n8n vs Make vs Zapier : le comparatif honnête 2026

Trouvez la tâche qui vous coûte le plus cher à faire à la main.

30 minutes pour savoir si on peut vous aider.