Livre blanc

IA juridique anti-hallucinations : la méthode V5 expliquée

Livre blanc

15 avril 2026· 28 pages

IA juridique

RAG

Anti-hallucinations

Legifrance

BOFIP

Toutes les publications

Résumé

Les modèles de langage produisent des réponses juridiquement plausibles mais parfois fausses. Citer un article de loi inexistant, invoquer une jurisprudence fantôme, confondre deux régimes : autant de risques inacceptables en pratique professionnelle.

Ce livre blanc détaille la méthode V5 déployée dans ATLAS : une architecture de génération contrainte qui combine récupération documentaire stricte (Légifrance, BOFIP, Judilibre), vérification syntaxique des citations par expressions régulières, et refus explicite lorsque la base ne permet pas de répondre. Benchmark interne sur 1 000 requêtes : 0,3 % de citation hallucinée résiduelle, contre 7,4 % pour un modèle non contraint.

1. Pourquoi les IA juridiques hallucinent

Un modèle de langage prédit le jeton suivant le plus probable, pas le plus vrai. Appliqué au droit, cela se traduit par des références inventées : un « article L. 321-12 du Code de la consommation » qui n'existe pas, un arrêt « Cass. civ. 1ère, 14 mars 2019, n° 18-12.345 » dont les trois caractéristiques (chambre, date, numéro) ne matchent aucun arrêt réel.

Le problème est structurel : sans ancrage, le modèle génère par analogie. Les solutions classiques (fine-tuning sur corpus juridique, prompt engineering) réduisent la fréquence sans éliminer le risque. En audit interne, nous mesurions encore 4,2 % de citations fantômes après fine-tuning Claude Sonnet sur un corpus de 2 000 avis juridiques annotés.

2. Architecture V5 : la récupération d'abord

La V5 renverse la logique : le modèle ne génère plus une citation ; il sélectionne un fragment textuel existant dans une base indexée. Trois sources alimentent le RAG : l'API Légifrance DILA (textes consolidés), le BOFIP-Impôts (doctrine fiscale), et Judilibre (jurisprudence open data Cour de cassation + cours d'appel depuis 2018).

Chaque requête utilisateur déclenche un pipeline en quatre étapes : reformulation technique, embedding vectoriel (modèle OpenAI text-embedding-3-large), recherche top-k hybride (BM25 + cosine similarity), re-ranking par Claude Haiku sur la pertinence juridique pure. Seuls les fragments dont le score dépasse un seuil configuré (0,78 par défaut) sont transmis au générateur.

›Indexation : chunks de 800 tokens avec overlap 150, métadonnées (code, article, date consolidation)
›Recherche : hybride BM25 + HNSW sur embeddings 3072 dimensions
›Re-ranking : Claude Haiku avec prompt structuré (score 0-10 + justification)
›Garde-fou : si top-3 sous seuil, l'IA refuse et propose une reformulation

3. Génération contrainte et vérification regex

La génération finale utilise Claude Opus avec un prompt système strict : toute citation d'article ou d'arrêt doit être encadrée par des balises XML dédiées (`<article-leg>`, `<arret>`). Un post-processeur parse ces balises et confronte leur contenu à la base source. Une citation non trouvée entraîne une suppression de la phrase et un log d'incident.

Les expressions régulières vérifient la cohérence syntaxique avant même l'appel à la base : un numéro d'arrêt Cour de cassation suit le format `\d{2}-\d{2}\.\d{3}`, une référence BOFIP `BOI-[A-Z]{2,4}-\d{2}-\d{2}-\d{2}(-\d{2})?`. Toute citation ne respectant pas le format est rejetée en amont, économisant un appel réseau.

4. Benchmark sur 1 000 requêtes réelles

Le benchmark a été conduit sur un corpus de 1 000 questions juridiques collectées auprès de huit cabinets partenaires entre novembre 2025 et février 2026. Les domaines couverts : droit civil (32 %), droit des affaires (24 %), droit fiscal (18 %), droit social (14 %), procédure (12 %). Chaque réponse a été évaluée par un binôme de juristes séniors selon quatre critères : exactitude des citations, pertinence, complétude, clarté.

Résultats comparatifs avec un modèle Claude Opus non contraint (prompt simple) : taux de citation hallucinée 0,3 % vs 7,4 % (–96 %), taux de pertinence jugée « haute » 91 % vs 73 %, taux de refus justifié 8,2 % vs 0,4 %. Le refus correctement calibré devient un indicateur de qualité, non une régression.

5. Limites et roadmap

La V5 ne traite pas encore la jurisprudence commerciale (pas de flux open data équivalent à Judilibre). L'intégration de l'Inforeg CCI Paris est prévue pour le Q3 2026. Le droit andorran et luxembourgeois fait l'objet d'un RAG distinct en construction, avec des volumes documentaires plus faibles (~35 000 fragments vs 2,4 M pour le corpus français).

La V6 explorera la génération d'arguments contradictoires : proposer automatiquement l'argument inverse à toute thèse formulée, pour forcer un biais adversarial utile en contentieux. Prototype interne en cours, première publication prévue fin 2026.

Auteurs

Équipe IA ATLAS — Recherche & ingénierie
Comité scientifique ANTICA — Relecture pairs

Références

Shi et al., « Trusting Your Evidence: Hallucinate Less with Context-aware Decoding », ACL 2024
API Légifrance DILA, documentation v2.3 (janvier 2026)
Cour de cassation, « Judilibre : diffusion open data des décisions », 2019
Anthropic, « Constitutional AI and Claude's safety training », 2023
Conseil de l'Europe, « Charte éthique européenne d'utilisation de l'IA dans les systèmes judiciaires », 2018

Téléchargements

Diffusion sans inscription · hébergement Vercel Paris/Francfort · liens stables 5 ans minimum.

Autres publications

Étude

mars 2026

État du marché LegalTech européen 2026

Retour d'expérience

févr. 2026

Comment un cabinet parisien a multiplié par 1,8 son CA récurrent

Livre blanc

janv. 2026

Signature eIDAS qualifiée : pourquoi le propriétaire bat le QTSP tiers