Toutes les optimisations RAG produites pour Mnemia.
Un RAG performant n'est pas un seul modèle bien choisi : c'est un pipeline de dizaines de décisions, mesurées et améliorées en continu. Voici les nôtres — chacune éprouvée sur nos bancs d'évaluation.
ingestion
Ingestion documentaire
Lecture, découpage et indexation fiable de vos documents — y compris les classeurs Excel multi-feuilles et les supports PPTX.
Chunker xlsx spécifique « block-first »
Comprendre vraiment vos tableaux Excel — multi-feuilles, multi-exercices.
Pipeline de découpage en blocs avec détection automatique d'en-têtes via scoring multi-critères (densité textuelle, présence de bordures, ratio cellules vides). Les sections de tableaux croisés dynamiques sont préfixées par leur contexte. Sérialisation lisible « Ligne N : Header = Valeur » pour que le LLM ait toujours le rappel des colonnes.
- Questions d'agrégation pluriannuelle (CA par exercice, marges multi-zones) répondues correctement
- Plus aucun chunk vide ou tronqué au milieu d'une ligne — un chunk = un bloc sémantique cohérent
- S'auto-adapte au format de chaque feuille (financier, RH, technique)
Lecteur pptx + xlsx augmentés
Ce que certains RAG ne lisent pas, Mnemia le lit.
Patch du BasicReader Verba : implémentation manquante de load_pptx_file via python-pptx (slides, notes, titres). Pour les xlsx, sérialisation « Ligne N : Header = Valeur » plus lisible que la matrice brute upstream — l'IA conserve le contexte des colonnes à chaque chunk.
- Supports PowerPoint réellement interrogeables (titre, contenu, notes du speaker)
- Tableaux Excel cités avec leurs en-têtes dans les réponses
- Compatible avec les formats Office mixtes d'un parc d'entreprise
Mnemia Watcher développé en Rust
L'indexation ne se bloque plus jamais sur un fichier corrompu.
Mnemia Watcher écrit en Rust qui surveille les dossiers cibles. Phase 6 : garde-fou fichier > 1000 chunks, timeout par fichier, skip automatique après 2 échecs successifs, UI tray avec bouton « Réessayer » manuel. Menu contextuel Windows pour indexer un fichier ou un dossier d'un clic droit.
- Un PDF scanné défectueux ne stoppe pas tout le pipeline
- Indexation en arrière-plan, jamais bloquante pour l'utilisateur
- Intégration Explorer Windows : clic droit → « Indexer dans Mnemia »
retrieval
Récupération sémantique
Trouver les bons passages, même quand la question utilise un vocabulaire différent des documents.
Query rewriting
Ré-écriture de la question utilisateur en langage RAG-friendly avant de lancer la recherche.
Réécriture systématique de la question par un LLM léger avant de la passer au retrieval. La requête réécrite intègre les synonymes métier, normalise les noms propres et explicite les contraintes implicites (période, entité). Indispensable quand le vocabulaire utilisateur diverge du vocabulaire des documents.
- +4 points de précision vs baseline sur le banc d'éval de 45 questions
- Réponses correctes même sur des formulations colloquiales (language parlé quotidien)
- Compatible avec n'importe quel LLM en backend
Reranking bge-m3
Un second passage qui réordonne les chunks par pertinence réelle.
Après le retrieval vectoriel top-K (k=20-30), reranker bge-m3 cross-encoder appliqué au sous-ensemble. Le LLM ne reçoit alors que les 5-8 chunks les plus pertinents, ordonnés par score sémantique fin. Service rerank-api dédié, GPU si disponible.
- Le LLM n'est plus pollué par des chunks faiblement pertinents
- Réponses plus concises et factuelles
- Combiné au query rewriting : 97.5 % de réussite sur le banc d'évalualtion pdf
Embedder LocalTorch propriétaire
Vectorisation GPU directe — sans Ollama, sans crash.
Plugin goldenverba-enterprise développé par Haapii Services: embedders LocalTorch pour bge-m3, bgem3 et gpt-oss/qwen3. Charge les modèles directement via torch + transformers, exploite le GPU local.
- Latence d'embedding divisée par 3 vs Ollama
- Stabilité prouvée sur ingestion de milliers de fichiers
- Détection GPU lors de l'assistant d'installation
generation
Génération outillée
Une IA qui calcule sur vos données plutôt que d'imaginer — appels d'outils explicites plutôt que d'hallucinations.
RAG Agentique avec appels d'outils
Une IA qui réalise des calculs sur vos données — pas qui imagine la réponse.
Generator Verba étendu en mode tool-calling. 9 outils exposés au LLM : search_rag (mode CLI), filter_rows, aggregate_field, top_n, group_by, sum_values, parse_chunks, inspect_corpus, list_field_names. Règles de prompt fortes : précédence absolue de search_rag, lecture directe de chunks_preview, matching all_words pour les noms propres, couverture exhaustive multi-feuilles pour l'agrégation pluriannuelle.
- Pas d'hallucinations sur les chiffres : ils sont recalculés à partir des chunks
- Réponses traçables : le LLM expose les outils appelés et leurs paramètres
- Gère naturellement les questions d'agrégation (« total CA 2023-2025 »)
infrastructure
Infrastructure souveraine
Tout tourne en local sur votre poste Windows. Vos données ne sortent jamais — installation en un clic grâce à une licence signée.
Installateur Windows Next-Next-Finish
Aucun prérequis. Aucune ligne de commande. Aucun Docker.
Installeur Inno Setup signé EV avec pages wizard custom (licence, GPU + torch, mirror bge-m3, Ollama optionnel). Python 3.11 embeddable + venv préconfiguré, Weaviate embedded 1.26.6, Next.js export statique, FastAPI gateway. Tout est unifié sous un launcher Rust supervisor (4 process orchestrés) tournant comme service Windows LocalSystem.
- Déploiement en moins de 10 minutes sur un poste Windows 11
- Pas d'admin réseau à mobiliser
- Désinstallation propre, données préservées dans C:\ProgramData\Mnemia\
Licence cryptographique signée et chiffrée Ed25519
Activation cryptographique vérifiable au boot — pas de cracker.
Génération d'un fichier .lic JSON signé avec ed25519-dalek (clé publique embarquée dans le launcher Rust). Champs : client_name, email, issued_at, expires_at, features. Validation au démarrage : payload + signature 64 octets ; refus de démarrage si invalide. Outil mnemia-licgen pour la génération de la licence en interne Haapii Services.
- Activation hors-ligne — aucun ping serveur cloud requis
- Multi-features (core, enterprise) pour modèle commercial granulaire
- Génération en 1 commande côté Haapii Services pour chaque poste utilisateur ou en licences groupées.
Open core sous EULA Mnemia
Le meilleur de l'Open Source, sous une licence commerciale claire.
Base Open Source embarquée sous licences d'origine (goldenverba, Weaviate BSD-3, Python PSF, torch BSD, bge-m3 MIT, Next.js MIT). Surcouche propriétaire Haapii Services (goldenverba-enterprise, mnemia-watcher, mnemia-chat, mnemia-launcher, mnemia-licgen) sous EULA Mnemia. Packaging unifié dans un installeur unique.
- Transparence totale sur la stack Open Source embarquée
- Innovations Haapii Services (chunker xlsx spécifique, RAG agent, LocalTorch, ...) sécurisées
- Conforme aux licences amont — aucun risque juridique
evaluation
Mesure & amélioration continue
Banc d'évaluation de 90 questions et 2 corpus de référence : chaque optimisation est mesurée, pas supposée.
Workbench RAG (banc d'évaluation)
Chaque optimisation est mesurée, pas supposée.
Suite d'évaluation reproductible : 45 questions V1 + 45 questions V2 sur 107 PDFs FinePDFs (fra) et 50 fichiers représentatifs (docx, xlsx, pptx, pdf) issus du corpus entreprise Haapii Services. Runners multi-modèles et multi-providers: OpenAI, OpenRouter, Cerebras, Ollama ou LocalTorch local. Génération synthétique de cas xlsx extremes.
- Boucle de progrès chiffrée — chaque release améliore un nombre, pas une impression
- Comparatifs cloud vs local impartiaux pour le choix client
- Benchmarks reproductibles côté client
Comparatif modèles locaux vs cloud
Vous choisissez le bon compromis souveraineté / performance.
Bancs de mesure avec modèles locaux open-weight sur NVidia RTX 5090 : gpt-oss:20b (20B params, ~13 Go, ~13 s/q, ~75.6 %) et qwen3.5:27b (27B params, ~17 Go, ~19 s/q, ~73 %). Comparaison avec modèles open-weight sur cloud dédié Cerebras: gpt-oss:120b (120B params, ~64 Go, ~4 s/q, ~84.4 %) et deepseek-v4-pro (1.6T/49B Activated params, ~865 Go, ~7 s/q, ~93.2 %). Sélection du modèle exposée dans la Settings UI du chat (tier standard / deep / custom).
- 100 % local possible avec le modele ouvert gpt-oss:20B sur un PC récent ou avec gpt-oss:120B sur NVidia DGX Spark ou Apple Mac Studio : aucune donnée ne sort. Attention : le temps par requête dépend grandement de la performance du GPU.
- Mode hybride : embedder local + LLM local pour des questions de difficultés simples/moyennes + LLM cloud pour l'approfondissement de questions complexes
- Quantification et tailles documentées pour planifier le GPU client
Passez à l'action
Et si on lançait Mnemia sur vos documents ?
Nous installons une instance Mnemia sur l'un de vos postes ou un environnement de test, indexons un échantillon de votre corpus et vous montrons les réponses obtenues sur vos vraies données — en 1 à 2 jours, sans engagement.