Aller au contenu principal
Guide technique9 min22 avril 2026Par Steven Copy

RAG en PME : comment brancher une IA sur vos docs internes

Guide technique RAG pour PME. Architecture, outils (Qdrant, pgvector), coûts réels, erreurs à éviter. Rendez votre IA utile avec vos propres données.

RAG en PME : comment brancher une IA sur vos docs internes

C'est quoi le RAG (en 30 secondes)

RAG = Retrieval-Augmented Generation. En français : on donne à l'IA accès à VOS documents pour qu'elle réponde avec VOS données, pas avec ses connaissances générales.

Sans RAG : vous posez une question à ChatGPT, il répond avec ce qu'il sait (son entraînement). C'est souvent à côté de la plaque pour votre métier.

Avec RAG : l'IA cherche d'abord dans vos docs (contrats, FAQ interne, process, fiches produit), trouve les passages pertinents, puis formule une réponse basée sur CES passages.

C'est la différence entre un stagiaire qui débarque et un stagiaire qui a lu tous vos dossiers.

L'essentiel :

  • Un systeme RAG pour PME coute entre 50 et 200 EUR/mois en fonctionnement, avec un setup initial a partir de 4 500 EUR
  • 50 a 100 documents bien structures suffisent pour demarrer - la qualite prime sur la quantite
  • Le cout par requete est de 0.005 a 0.02 EUR, soit 25-100 EUR/mois pour 5 000 requetes
  • Les 3 erreurs fatales : docs en vrac, pas de systeme "je ne sais pas", et base jamais mise a jour
  • Notre recommandation : commencez avec pgvector + Claude Haiku pour un prototype en 2-3 jours, puis iterez sur la qualite des documents

Comment fonctionne l'architecture RAG ?

Le RAG, c'est 3 briques :

Brique 1 : Les embeddings

Vos documents sont transformés en vecteurs numériques (des listes de nombres). Chaque paragraphe devient un point dans un espace mathématique. Les paragraphes qui parlent du même sujet sont proches dans cet espace.

Concrètement : vous prenez votre FAQ de 200 questions, chaque Q/R est convertie en vecteur via un modèle d'embedding (OpenAI text-embedding-3-small à 0.02$/1M tokens, ou un modèle open source gratuit).

Brique 2 : Le vector store

Ces vecteurs sont stockés dans une base spécialisée. Quand quelqu'un pose une question, la question est aussi convertie en vecteur, et la base retrouve les passages les plus proches.

Les options :

  • pgvector : Extension PostgreSQL - Gratuit - Pour ceux qui ont déjà Postgres
  • Qdrant : Dédié, open source - Gratuit (self-hosted) / 25$/mois (cloud) - Performance + filtrage avancé
  • Pinecone : SaaS managé - Gratuit (limité) / 70$/mois - Zéro maintenance, US
  • ChromaDB : Léger, Python - Gratuit - Prototypage rapide

Notre reco pour une PME : pgvector si vous avez deja Postgres, Qdrant self-hosted sinon. Ce type d'architecture fait partie de nos missions d'agents IA sur mesure.

Stack RAG par budget

Budget mensuelEmbeddingVector storeLLMOrchestrationCout total
< 50 EUR/moisOpenAI text-embedding-3-smallpgvector (existant)Claude Haikun8n self-hosted30-50 EUR
50-150 EUR/moisOpenAI text-embedding-3-smallQdrant self-hostedClaude Sonnetn8n self-hosted80-150 EUR
150-300 EUR/moisCohere embed-multilingualQdrant CloudClaude Sonnetn8n Cloud150-250 EUR
300+ EUR/moisModele custom fine-tuneQdrant dedieGPT-4o + Claude Sonnet (routing)n8n + monitoring custom300-500 EUR

Notre recommandation pour la plupart des PME : le stack a 80-150 EUR/mois. C'est le meilleur rapport qualite/prix. En dessous, la qualite des reponses souffre. Au-dessus, le gain marginal est faible sauf cas specifiques.

Brique 3 : Le LLM

Le modèle de langage qui formule la réponse. Il reçoit la question + les passages trouvés par le vector store, et génère une réponse contextualisée.

Coûts API LLM par mois (usage PME, ~5 000 requêtes/mois) :

  • GPT-4o : ~30-80€
  • Claude 3.5 Sonnet : ~25-60€
  • Mistral Large : ~15-40€
  • Modèle open source (self-hosted) : 0€ + coût GPU (~50-200€)

Le flux complet

Question utilisateur
    ↓
Embedding de la question (0.001€)
    ↓
Recherche dans le vector store (instantané)
    ↓
Top 5 passages les plus pertinents
    ↓
Prompt au LLM : "Voici les documents, réponds à cette question"
    ↓
Réponse sourcée

Cout par requete : ~0.005 a 0.02 EUR. Sur 5 000 requetes/mois : 25-100 EUR/mois.

Besoin d'evaluer si le RAG est adapte a votre cas ? On analyse votre contexte en 30 minutes - diagnostic gratuit.

Quelles erreurs eviter avec un RAG ?

1. Mettre tous ses docs en vrac

Le RAG n'est pas magique. Si vous balancez 10 000 PDFs non structurés, il va trouver des passages semi-pertinents et générer des réponses moyennes.

La solution : structurez vos docs. Une FAQ bien rédigée > 500 pages de process mal formatés. Découpez en chunks de 300-500 mots avec du contexte.

2. Pas de système de "je ne sais pas"

Par défaut, un LLM répond TOUJOURS. Même quand il sait pas. Il invente. C'est les hallucinations.

La solution : dans le prompt système, ajoutez une instruction claire : "Si les documents fournis ne contiennent pas la réponse, dis 'Je n'ai pas cette information dans ma base'. Ne jamais inventer." Et mettez un score de confiance sur la recherche vectorielle - en dessous d'un seuil, ne répondez pas.

3. Jamais mettre à jour la base

Vos docs changent. Vos process évoluent. Si le RAG répond avec des infos de 6 mois, c'est pire que pas de RAG.

La solution : un pipeline de mise à jour automatique. Quand un doc change dans Notion/Drive/SharePoint, les embeddings se mettent à jour. Avec n8n, ça se fait en un workflow de 5 nodes.

Quand le RAG n'est-il pas la bonne solution ?

  • Moins de 20 questions recurrentes -> une FAQ statique suffit. Pas besoin d'IA pour 20 questions.
  • Donnees ultra-sensibles sans infra self-hosted -> le risque de fuite est trop eleve. Deployez d'abord l'infra, puis le RAG.
  • Pas de process documente -> le RAG a besoin de docs. Si tout est dans la tete de Jean-Pierre, commencez par documenter avant d'automatiser.
  • Budget < 50 EUR/mois -> le ROI sera difficile a atteindre. Investissez dans la documentation d'abord.
  • Documents non structures (scans, images, tableaux complexes) -> le RAG standard galere avec ca. Il faut une etape d'OCR et de parsing qui ajoute de la complexite et du cout.

RAG vs alternatives : comment choisir ?

BesoinSolution adapteePourquoi
< 20 questions recurrentesFAQ statique (page web)Gratuit, instantane, zero maintenance
20-100 questions, docs stablesChatbot avec base de reglesSimple, previsible, pas d'hallucinations
100+ questions, docs evoluentRAGFlexible, scalable, repond a l'inattendu
Style/ton specifique a integrerFine-tuningLe modele "apprend" votre facon de parler
Volume tres eleve, tache repetitiveFine-tuning + RAGCombinaison pour qualite et pertinence maximales

4 scenarios concrets de RAG en PME

Scenario 1 : Support client e-commerce

Contexte : un site e-commerce recoit 200 questions/jour par chat. 60% sont des questions sur les conditions de livraison, retours, tailles. La FAQ existe mais personne ne la lit.

Solution RAG : chatbot branche sur la FAQ, les conditions generales et les fiches produit. Le bot repond en 2 secondes au lieu des 4h de delai moyen du support humain.

Stack recommande : pgvector + Claude Haiku + widget chat integre. Budget : ~40 EUR/mois.

Resultat attendu : 50-70% des questions resolues sans intervention humaine.

Scenario 2 : Base de connaissances interne (cabinet de conseil)

Contexte : un cabinet de 20 consultants passe 2-3h/semaine a chercher des methodologies, templates et precedents dans des dossiers partages. 500+ documents sur Google Drive.

Solution RAG : interface de recherche interne branchee sur le Drive. Le consultant pose sa question en langage naturel et obtient les passages pertinents avec les liens vers les documents sources.

Stack recommande : Qdrant + Claude Sonnet + Slack bot. Budget : ~100 EUR/mois.

Resultat attendu : temps de recherche divise par 5, meilleure capitalisation du savoir.

Scenario 3 : Onboarding des nouveaux employes

Contexte : chaque nouvel employe pose les memes 50 questions pendant ses premieres semaines. Le manager passe 10h a repondre a chaque onboarding.

Solution RAG : chatbot "buddy" branche sur le wiki interne, le reglement interieur, les process RH. Le nouvel employe pose ses questions 24/7 sans deranger personne.

Stack recommande : pgvector + Claude Haiku + interface web simple. Budget : ~30 EUR/mois.

Resultat attendu : temps manager reduit de 80%, onboarding plus rapide et homogene.

Scenario 4 : Assistance technique terrain

Contexte : des techniciens terrain doivent consulter des manuels de maintenance de 200+ pages sur leur telephone pour diagnostiquer des pannes.

Solution RAG : application mobile ou chatbot WhatsApp. Le technicien decrit le symptome, le RAG trouve la procedure de diagnostic dans le manuel.

Stack recommande : Qdrant + Mistral Large + API WhatsApp. Budget : ~80 EUR/mois.

Resultat attendu : temps de diagnostic divise par 3, moins d'erreurs de procedure.

Besoin d'un RAG adapte a votre metier ? On evalue la faisabilite en 30 min - c'est gratuit.

Comment Agenexa deploie un RAG pour ses clients ?

Notre stack RAG type :

  1. Ingestion : n8n récupère les docs (Notion API, Google Drive, upload manuel)
  2. Chunking : découpage intelligent (par section, 400 mots max)
  3. Embedding : OpenAI text-embedding-3-small (le moins cher, suffisant dans 90% des cas)
  4. Stockage : Qdrant (self-hosted sur le même VPS que n8n)
  5. Query : API endpoint qui reçoit la question, cherche, et appelle Claude pour la réponse
  6. Interface : chat intégré dans le site/app du client, ou Slack bot

Delai de deploiement : 2-4 semaines Cout setup : a partir de 4 500 EUR - voir nos tarifs pour le detail des formules Cout mensuel : 50-150 EUR (API + hebergement)

Notre verdict final

Le RAG est la maniere la plus rapide et la moins chere de rendre une IA utile avec VOS donnees. Pas besoin de fine-tuning, pas besoin de modele custom. 50-100 documents bien structures et un stack a 80-150 EUR/mois suffisent pour transformer un chatbot generique en assistant metier pertinent.

En une phrase : si vos equipes passent du temps a chercher des infos dans des docs, le RAG va leur rendre des heures chaque semaine.

Chez Agenexa, on deploie des systemes RAG au quotidien pour nos clients PME. On n'est pas neutres - mais on est honnetes. La cle du succes c'est la qualite des documents, pas la complexite de la technique. Parlons de votre contexte.

Consultez nos offres ou decouvrez nos services d'agents IA.

Pour comprendre comment choisir entre modeles open source et proprietaires pour votre LLM, lisez aussi Open source vs closed source en IA pour PME. Et pour une vue complete sur les agents IA en PME, consultez notre guide sur les agents IA.

Diagnostic gratuit

Discutons de votre projet lors d'un échange de 30 min.

FAQ

Questions fréquentes sur cet article.

Pas la réponse que vous cherchez ?

Posez-la au diagnostic

Entre 50 et 200€/mois en fonctionnement (API LLM + vector store + orchestration). Le setup initial dépend de la complexité : 4 500 à 10 000€ chez Agenexa.

Non. 50-100 documents bien structurés suffisent pour démarrer. La qualité prime sur la quantité. Un RAG sur 50 docs propres bat un RAG sur 10 000 docs en vrac.

Oui, c'est le risque principal (hallucination). Mais un RAG bien configuré cite ses sources et dit 'je ne sais pas' quand l'info n'est pas dans la base.

Le RAG donne au modèle accès à vos documents en temps réel - il cherche puis répond. Le fine-tuning modifie le modèle lui-même en l'entraînant sur vos données. Le RAG est plus simple, moins cher, et les docs se mettent à jour facilement. Le fine-tuning est pertinent quand vous avez besoin que le modèle intègre un style ou une logique métier spécifique.

2-4 semaines pour un système complet (ingestion, chunking, vector store, API, interface). 2-3 jours pour un prototype fonctionnel. La phase la plus longue est la préparation des documents, pas la technique.

Oui. Les modèles d'embedding récents (OpenAI, Cohere, Mistral) gèrent très bien le français. La qualité de la recherche vectorielle est comparable à l'anglais.

Partiellement. Le RAG standard fonctionne avec du texte. Pour les images et tableaux, il faut une étape d'extraction préalable (OCR, parsing de tableaux). Les modèles multimodaux comme GPT-4o peuvent analyser les images directement mais c'est plus complexe et plus cher.

Prêt ?

Trouvez la tâche qui vous coûte le plus cher à faire à la main.

Audit gratuit en 30 minutes. On identifie ensemble le premier process à automatiser et les gains concrets à en tirer.

Gratuit30 minVisio

30 minutes pour savoir si on peut vous aider.

On regarde ensemble où vous perdez du temps et ce qu'on peut automatiser. Pas de livrable, pas de devis : un échange honnête.