03Votre IA est un actif, pas un abonnement

Modèle Maison

Distillation et fine-tuning d'un SLM (Mistral / Qwen / Gemma) sur votre corpus. Le modèle vous appartient.

Le problème que ça résout

Vous payez chaque mois OpenAI ou Anthropic pour répéter les mêmes tâches sur votre corpus métier. Le coût grimpe avec le volume. À chaque évolution de leur API, vos prompts cassent. Vous n'avez aucun actif IA à votre actif comptable, juste des charges récurrentes — et aucune capitalisation sur la connaissance que vous avez injectée.

Ce que nous livrons

Nous distillons et fine-tunons un Small Language Model open-source (Mistral 7B, Qwen 2.5 7B, Gemma 2 9B) sur votre corpus métier. Le modèle final est votre propriété : poids, code d'entraînement, pipeline de mise à jour. Coût d'inférence divisé par 10 à 100, latence prévisible, déployable on-prem, et capitalisé à votre bilan.

Pourquoi c'est durable

Anti-lock-in pur. Les SLM 7B-14B rivalisent avec les modèles frontière sur des tâches étroites bien spécifiées, pour un coût d'inférence et de souveraineté incomparable.

Méthodologie

01.Audit patrimoine data
Cartographie de vos sources : documents, tickets, transcripts, code, base de connaissance. Évaluation de la volumétrie utilisable, qualité, droits d'auteur, exigences RGPD pour entraînement.
02.Définition du cas d'usage
Spécification rigoureuse du périmètre : entrées, sorties attendues, métriques de succès, baselines (GPT-4o, Claude). Construction d'un dataset d'évaluation tenu de côté.
03.Préparation des données
Nettoyage, dédoublonnage, anonymisation des données personnelles, structuration en paires d'entraînement (instruction/réponse, RAG, classification, extraction). Pipeline reproductible.
04.Fine-tuning et évaluation
Choix du modèle de base, LoRA / QLoRA / DPO selon le cas. Itérations sur hyperparamètres. Évaluation systématique sur dataset de test + comparaison aux baselines. Itération jusqu'à atteindre l'objectif.
05.Déploiement et serving
Quantification GGUF pour déploiement on-prem, ou conteneurisation pour cloud privé. API privée, monitoring de qualité, A/B testing en production.
06.Industrialisation et MLOps
Pipeline d'entraînement continu (CI sur dataset versionné), évaluation automatique à chaque release, rollback en cas de drift, alertes sur métriques de production.

Livrables

Audit patrimoine data + cartographie sources
Dataset d'entraînement et d'évaluation versionné
Modèle fine-tuné (poids + tokenizer + config)
Code d'entraînement reproductible (notebooks + scripts)
Pipeline MLOps (CI dataset, évaluation auto, déploiement)
Monitoring qualité en production (métriques + alertes)
Documentation technique + transmission équipe
Plan de réentraînement périodique

Pour qui · délais · conformité

Profil idéal

Éditeurs de logiciels intégrant de l'IA dans leur produit, ETI avec un patrimoine documentaire dense (juridique, technique, scientifique), cabinets professionnels à fort volume répétitif, structures cherchant à transformer une charge OpenAI mensuelle en actif amortissable.

Délais

Audit : 2 semaines. POC : 6 à 10 semaines. Industrialisation : 3 à 5 mois additionnels.

Cadre de conformité

Si le fine-tuning constitue une « modification substantielle » au sens de l'Art. 53 AI Act, vous pouvez devenir fournisseur GPAI vous-même. Le contrat de mission précise le rôle de chaque partie : Diamond Solutions est sous-traitant fournisseur ; le client devient fournisseur final du modèle livré. La documentation d'entraînement (Annexe XI) est produite par défaut. L'entraînement sur données personnelles déclenche les obligations RGPD : DPIA, base légale, droits des personnes, durée de conservation — couverts par le DPA fourni.

Tarifs

Audit patrimoine1 900 € HT

POC Modèle Maison12 000 € HT

Industrialisation25 000 € HT

Les tarifs s'entendent hors taxes. Devis personnalisé après cadrage. Paiement par tiers (30 % cadrage, 40 % livraison intermédiaire, 30 % livraison finale) ou mensuel selon préférence.

Questions fréquentes

Quelle volumétrie de données minimum ?+

Pour un POC LoRA : 500 à 5 000 paires d'entraînement de qualité suffisent souvent. Pour un fine-tuning complet : 10 000 à 100 000 paires. La qualité prime sur la quantité — 1 000 exemples bien construits valent mieux que 100 000 bruts.

Le modèle final pourra-t-il faire ce que fait GPT-4 ?+

Sur votre cas d'usage spécifique : oui, et souvent mieux. Sur des tâches généralistes ou de raisonnement complexe inédit : non, il restera plus étroit. Le contrat de mission cible explicitement votre périmètre — pas la généralité.

Que se passe-t-il quand un nouveau Mistral / Qwen / Llama sort ?+

Le pipeline d'industrialisation est conçu pour rejouer l'entraînement sur la nouvelle base avec votre dataset versionné. Compter 2 à 4 semaines pour porter et valider sur le nouveau modèle de base.

Et le RGPD ?+

Si votre corpus contient des données personnelles, l'entraînement constitue un traitement RGPD à part entière : DPIA, base légale (le plus souvent intérêt légitime ou exécution d'un contrat), information des personnes, droits Art. 17 (effacement) à anticiper. Couvert par le DPA fourni en début de mission.

Peut-on entraîner sur des données concurrents ou web public ?+

Le scraping de contenu protégé sans licence reste à votre risque côté droit d'auteur. Diamond Solutions n'entraîne pas sur de telles données par défaut — uniquement sur votre patrimoine ou des sources sous licence claire.

Quel coût d'inférence après industrialisation ?+

Sur un modèle 7B Q4 self-hosted : ~0,001 € par requête contre ~0,01-0,03 € chez OpenAI. À volume élevé, l'économie couvre l'investissement initial en moins de 12 mois.

Autres offres Diamond Solutions

01 · EU AI Act + ISO 42001 ready

Compliance Pack

02 · Souverain. Air-gapped. Vôtre.

AI On-Prem

04 · Connecter l'IA à votre vrai SI

Integration Layer

05 · Vos agents IA, sous les projecteurs

Production Monitor

06 · L'IA qui voit et qui écoute votre métier

Vision / Voice

Discutons de votre projet

Le diagnostic flash de 5 minutes vous donne un score, un plan d'action en 3 points et un calendrier — par email, sans engagement. Ou réservez un appel directement.

Diagnostic gratuit Réserver 30 min