12 optimisations · 5 catégories

Toutes les optimisations RAG produites pour Mnemia.

Un RAG performant n'est pas un seul modèle bien choisi : c'est un pipeline de dizaines de décisions, mesurées et améliorées en continu. Voici les nôtres — chacune éprouvée sur nos bancs d'évaluation.

ingestion

Ingestion documentaire

Lecture, découpage et indexation fiable de vos documents — y compris les classeurs Excel multi-feuilles et les supports PPTX.

Chunker xlsx spécifique « block-first »

Comprendre vraiment vos tableaux Excel — multi-feuilles, multi-exercices.

Pipeline de découpage en blocs avec détection automatique d'en-têtes via scoring multi-critères (densité textuelle, présence de bordures, ratio cellules vides). Les sections de tableaux croisés dynamiques sont préfixées par leur contexte. Sérialisation lisible « Ligne N : Header = Valeur » pour que le LLM ait toujours le rappel des colonnes.

Questions d'agrégation pluriannuelle (CA par exercice, marges multi-zones) répondues correctement
Plus aucun chunk vide ou tronqué au milieu d'une ligne — un chunk = un bloc sémantique cohérent
S'auto-adapte au format de chaque feuille (financier, RH, technique)

Vos classeurs Excel multi-feuilles enfin compris : agrégations pluriannuelles fiables, plus aucun chunk tronqué au milieu d'une ligne.

Lecteur pptx + xlsx augmentés

Ce que certains RAG ne lisent pas, Mnemia le lit.

Patch du BasicReader Verba : implémentation manquante de load_pptx_file via python-pptx (slides, notes, titres). Pour les xlsx, sérialisation « Ligne N : Header = Valeur » plus lisible que la matrice brute upstream — l'IA conserve le contexte des colonnes à chaque chunk.

Supports PowerPoint réellement interrogeables (titre, contenu, notes du speaker)
Tableaux Excel cités avec leurs en-têtes dans les réponses
Compatible avec les formats Office mixtes d'un parc d'entreprise

PowerPoint et Excel réellement lus — titres, contenu, notes du speaker, tableaux avec en-têtes — là où les RAG standards calent.

Mnemia Watcher développé en Rust

L'indexation ne se bloque plus jamais sur un fichier corrompu.

Mnemia Watcher écrit en Rust qui surveille les dossiers cibles. Phase 6 : garde-fou fichier > 1000 chunks, timeout par fichier, skip automatique après 2 échecs successifs, UI tray avec bouton « Réessayer » manuel. Menu contextuel Windows pour indexer un fichier ou un dossier d'un clic droit.

Un PDF scanné défectueux ne stoppe pas tout le pipeline
Indexation en arrière-plan, jamais bloquante pour l'utilisateur
Intégration Explorer Windows : clic droit → « Indexer dans Mnemia »

Une indexation qui ne se bloque jamais : fichiers surveillés, ré-indexés à chaque modification, et fichiers corrompus écartés automatiquement.

retrieval

Récupération sémantique

Trouver les bons passages, même quand la question utilise un vocabulaire différent des documents.

Query rewriting

Ré-écriture de la question utilisateur en langage RAG-friendly avant de lancer la recherche.

Réécriture systématique de la question par un LLM léger avant de la passer au retrieval. La requête réécrite intègre les synonymes métier, normalise les noms propres et explicite les contraintes implicites (période, entité). Indispensable quand le vocabulaire utilisateur diverge du vocabulaire des documents.

+4 points de précision vs baseline sur le banc d'éval de 45 questions
Réponses correctes même sur des formulations colloquiales (language parlé quotidien)
Compatible avec n'importe quel LLM en backend

La question de l'utilisateur traduite en requête optimale avant la recherche — on retrouve ce que les mots exacts auraient manqué.

Reranking bge-m3

Un second passage qui réordonne les chunks par pertinence réelle.

Après le retrieval vectoriel top-K (k=20-30), reranker bge-m3 cross-encoder appliqué au sous-ensemble. Le LLM ne reçoit alors que les 5-8 chunks les plus pertinents, ordonnés par score sémantique fin. Service rerank-api dédié, GPU si disponible.

Le LLM n'est plus pollué par des chunks faiblement pertinents
Réponses plus concises et factuelles
Combiné au query rewriting : 97.5 % de réussite sur le banc d'évalualtion pdf

Un second tri qui ne garde que les passages vraiment pertinents : le LLM répond sur le signal, plus sur le bruit.

Embedder LocalTorch propriétaire

Vectorisation GPU directe — sans Ollama, sans crash.

Plugin goldenverba-enterprise développé par Haapii Services: embedders LocalTorch pour bge-m3, bgem3 et gpt-oss/qwen3. Charge les modèles directement via torch + transformers, exploite le GPU local.

Latence d'embedding divisée par 3 vs Ollama
Stabilité prouvée sur ingestion de milliers de fichiers
Détection GPU lors de l'assistant d'installation

Vectorisation GPU locale, 3× plus rapide qu'Ollama et sans freeze — même sur des milliers de documents.

generation

Génération outillée

Une IA qui calcule sur vos données plutôt que d'imaginer — appels d'outils explicites plutôt que d'hallucinations.

RAG Agentique avec appels d'outils

Une IA qui réalise des calculs sur vos données — pas qui imagine la réponse.

Generator Verba étendu en mode tool-calling. 9 outils exposés au LLM : search_rag (mode CLI), filter_rows, aggregate_field, top_n, group_by, sum_values, parse_chunks, inspect_corpus, list_field_names. Règles de prompt fortes : précédence absolue de search_rag, lecture directe de chunks_preview, matching all_words pour les noms propres, couverture exhaustive multi-feuilles pour l'agrégation pluriannuelle.

Pas d'hallucinations sur les chiffres : ils sont recalculés à partir des chunks
Réponses traçables : le LLM expose les outils appelés et leurs paramètres
Gère naturellement les questions d'agrégation (« total CA 2023-2025 »)

Une IA qui calcule sur vos données au lieu d'inventer les chiffres — chaque agrégation est traçable et reproductible.

infrastructure

Infrastructure souveraine

Tout tourne en local sur votre poste Windows. Vos données ne sortent jamais — installation en un clic grâce à une licence signée.

Installateur Windows Next-Next-Finish

Aucun prérequis. Aucune ligne de commande. Aucun Docker.

Installeur Inno Setup signé EV avec pages wizard custom (licence, GPU + torch, mirror bge-m3, Ollama optionnel). Python 3.11 embeddable + venv préconfiguré, Weaviate embedded 1.26.6, Next.js export statique, FastAPI gateway. Tout est unifié sous un launcher Rust supervisor (4 process orchestrés) tournant comme service Windows LocalSystem.

Déploiement en moins de 10 minutes sur un poste Windows 11
Pas d'admin réseau à mobiliser
Désinstallation propre, données préservées dans C:\ProgramData\Mnemia\

Tout le pipeline RAG dans un seul fichier .exe d'assistant à l'installation : ni Docker, ni Python, ni admin réseau — opérationnel en moins de 10 minutes.

Licence cryptographique signée et chiffrée Ed25519

Activation cryptographique vérifiable au boot — pas de cracker.

Génération d'un fichier .lic JSON signé avec ed25519-dalek (clé publique embarquée dans le launcher Rust). Champs : client_name, email, issued_at, expires_at, features. Validation au démarrage : payload + signature 64 octets ; refus de démarrage si invalide. Outil mnemia-licgen pour la génération de la licence en interne Haapii Services.

Activation hors-ligne — aucun ping serveur cloud requis
Multi-features (core, enterprise) pour modèle commercial granulaire
Génération en 1 commande côté Haapii Services pour chaque poste utilisateur ou en licences groupées.

Activation cryptographique hors-ligne : aucun serveur cloud à pinger, aucune licence crackable, multi-features pour un modèle commercial granulaire.

Open core sous EULA Mnemia

Le meilleur de l'Open Source, sous une licence commerciale claire.

Base Open Source embarquée sous licences d'origine (goldenverba, Weaviate BSD-3, Python PSF, torch BSD, bge-m3 MIT, Next.js MIT). Surcouche propriétaire Haapii Services (goldenverba-enterprise, mnemia-watcher, mnemia-chat, mnemia-launcher, mnemia-licgen) sous EULA Mnemia. Packaging unifié dans un installeur unique.

Transparence totale sur la stack Open Source embarquée
Innovations Haapii Services (chunker xlsx spécifique, RAG agent, LocalTorch, ...) sécurisées
Conforme aux licences amont — aucun risque juridique

Le meilleur de l'open source, sécurisé par une surcouche propriétaire sous licence claire — transparence totale, aucun risque juridique.

evaluation

Mesure & amélioration continue

Banc d'évaluation de 90 questions et 2 corpus de référence : chaque optimisation est mesurée, pas supposée.

Workbench RAG (banc d'évaluation)

Chaque optimisation est mesurée, pas supposée.

Suite d'évaluation reproductible : 45 questions V1 + 45 questions V2 sur 107 PDFs FinePDFs (fra) et 50 fichiers représentatifs (docx, xlsx, pptx, pdf) issus du corpus entreprise Haapii Services. Runners multi-modèles et multi-providers: OpenAI, OpenRouter, Cerebras, Ollama ou LocalTorch local. Génération synthétique de cas xlsx extremes.

Boucle de progrès chiffrée — chaque release améliore un nombre, pas une impression
Comparatifs cloud vs local impartiaux pour le choix client
Benchmarks reproductibles côté client

Chaque optimisation est validée par un score sur banc d'évaluation reproductible — pas par une intuition.

Comparatif modèles locaux vs cloud

Vous choisissez le bon compromis souveraineté / performance.

Bancs de mesure avec modèles locaux open-weight sur NVidia RTX 5090 : gpt-oss:20b (20B params, ~13 Go, ~13 s/q, ~75.6 %) et qwen3.5:27b (27B params, ~17 Go, ~19 s/q, ~73 %). Comparaison avec modèles open-weight sur cloud dédié Cerebras: gpt-oss:120b (120B params, ~64 Go, ~4 s/q, ~84.4 %) et deepseek-v4-pro (1.6T/49B Activated params, ~865 Go, ~7 s/q, ~93.2 %). Sélection du modèle exposée dans la Settings UI du chat (tier standard / deep / custom).

100 % local possible avec le modele ouvert gpt-oss:20B sur un PC récent ou avec gpt-oss:120B sur NVidia DGX Spark ou Apple Mac Studio : aucune donnée ne sort. Attention : le temps par requête dépend grandement de la performance du GPU.
Mode hybride : embedder local + LLM local pour des questions de difficultés simples/moyennes + LLM cloud pour l'approfondissement de questions complexes
Quantification et tailles documentées pour planifier le GPU client

Local ou cloud dédié : vous choisissez le bon compromis souveraineté / performance, chiffres à l'appui.

Passez à l'action

Et si on lançait Mnemia sur vos documents ?

Nous installons une instance Mnemia sur l'un de vos postes ou un environnement de test, indexons un échantillon de votre corpus et vous montrons les réponses obtenues sur vos vraies données — en 1 à 2 jours, sans engagement.

Demander une démo Voir les prix

Démo en 1 à 2 jours

Sans engagement

Réponse sous 48 h

Contact

1-2 jours

Démo live

Vos données