Modèle Maison
Distillation et fine-tuning d'un SLM (Mistral / Qwen / Gemma) sur votre corpus. Le modèle vous appartient.
Le problème que ça résout
Vous payez chaque mois OpenAI ou Anthropic pour répéter les mêmes tâches sur votre corpus métier. Le coût grimpe avec le volume. À chaque évolution de leur API, vos prompts cassent. Vous n'avez aucun actif IA à votre actif comptable, juste des charges récurrentes — et aucune capitalisation sur la connaissance que vous avez injectée.
Ce que nous livrons
Nous distillons et fine-tunons un Small Language Model open-source (Mistral 7B, Qwen 2.5 7B, Gemma 2 9B) sur votre corpus métier. Le modèle final est votre propriété : poids, code d'entraînement, pipeline de mise à jour. Coût d'inférence divisé par 10 à 100, latence prévisible, déployable on-prem, et capitalisé à votre bilan.
Pourquoi c'est durable
Anti-lock-in pur. Les SLM 7B-14B rivalisent avec les modèles frontière sur des tâches étroites bien spécifiées, pour un coût d'inférence et de souveraineté incomparable.
Méthodologie
01.Audit patrimoine data
Cartographie de vos sources : documents, tickets, transcripts, code, base de connaissance. Évaluation de la volumétrie utilisable, qualité, droits d'auteur, exigences RGPD pour entraînement.
02.Définition du cas d'usage
Spécification rigoureuse du périmètre : entrées, sorties attendues, métriques de succès, baselines (GPT-4o, Claude). Construction d'un dataset d'évaluation tenu de côté.
03.Préparation des données
Nettoyage, dédoublonnage, anonymisation des données personnelles, structuration en paires d'entraînement (instruction/réponse, RAG, classification, extraction). Pipeline reproductible.
04.Fine-tuning et évaluation
Choix du modèle de base, LoRA / QLoRA / DPO selon le cas. Itérations sur hyperparamètres. Évaluation systématique sur dataset de test + comparaison aux baselines. Itération jusqu'à atteindre l'objectif.
05.Déploiement et serving
Quantification GGUF pour déploiement on-prem, ou conteneurisation pour cloud privé. API privée, monitoring de qualité, A/B testing en production.
06.Industrialisation et MLOps
Pipeline d'entraînement continu (CI sur dataset versionné), évaluation automatique à chaque release, rollback en cas de drift, alertes sur métriques de production.
Livrables
- Audit patrimoine data + cartographie sources
- Dataset d'entraînement et d'évaluation versionné
- Modèle fine-tuné (poids + tokenizer + config)
- Code d'entraînement reproductible (notebooks + scripts)
- Pipeline MLOps (CI dataset, évaluation auto, déploiement)
- Monitoring qualité en production (métriques + alertes)
- Documentation technique + transmission équipe
- Plan de réentraînement périodique
Pour qui · délais · conformité
Profil idéal
Éditeurs de logiciels intégrant de l'IA dans leur produit, ETI avec un patrimoine documentaire dense (juridique, technique, scientifique), cabinets professionnels à fort volume répétitif, structures cherchant à transformer une charge OpenAI mensuelle en actif amortissable.
Délais
Audit : 2 semaines. POC : 6 à 10 semaines. Industrialisation : 3 à 5 mois additionnels.
Cadre de conformité
Si le fine-tuning constitue une « modification substantielle » au sens de l'Art. 53 AI Act, vous pouvez devenir fournisseur GPAI vous-même. Le contrat de mission précise le rôle de chaque partie : Diamond Solutions est sous-traitant fournisseur ; le client devient fournisseur final du modèle livré. La documentation d'entraînement (Annexe XI) est produite par défaut. L'entraînement sur données personnelles déclenche les obligations RGPD : DPIA, base légale, droits des personnes, durée de conservation — couverts par le DPA fourni.
Tarifs
Les tarifs s'entendent hors taxes. Devis personnalisé après cadrage. Paiement par tiers (30 % cadrage, 40 % livraison intermédiaire, 30 % livraison finale) ou mensuel selon préférence.
Questions fréquentes
Quelle volumétrie de données minimum ?+
Pour un POC LoRA : 500 à 5 000 paires d'entraînement de qualité suffisent souvent. Pour un fine-tuning complet : 10 000 à 100 000 paires. La qualité prime sur la quantité — 1 000 exemples bien construits valent mieux que 100 000 bruts.
Le modèle final pourra-t-il faire ce que fait GPT-4 ?+
Sur votre cas d'usage spécifique : oui, et souvent mieux. Sur des tâches généralistes ou de raisonnement complexe inédit : non, il restera plus étroit. Le contrat de mission cible explicitement votre périmètre — pas la généralité.
Que se passe-t-il quand un nouveau Mistral / Qwen / Llama sort ?+
Le pipeline d'industrialisation est conçu pour rejouer l'entraînement sur la nouvelle base avec votre dataset versionné. Compter 2 à 4 semaines pour porter et valider sur le nouveau modèle de base.
Et le RGPD ?+
Si votre corpus contient des données personnelles, l'entraînement constitue un traitement RGPD à part entière : DPIA, base légale (le plus souvent intérêt légitime ou exécution d'un contrat), information des personnes, droits Art. 17 (effacement) à anticiper. Couvert par le DPA fourni en début de mission.
Peut-on entraîner sur des données concurrents ou web public ?+
Le scraping de contenu protégé sans licence reste à votre risque côté droit d'auteur. Diamond Solutions n'entraîne pas sur de telles données par défaut — uniquement sur votre patrimoine ou des sources sous licence claire.
Quel coût d'inférence après industrialisation ?+
Sur un modèle 7B Q4 self-hosted : ~0,001 € par requête contre ~0,01-0,03 € chez OpenAI. À volume élevé, l'économie couvre l'investissement initial en moins de 12 mois.
Autres offres Diamond Solutions
Discutons de votre projet
Le diagnostic flash de 5 minutes vous donne un score, un plan d'action en 3 points et un calendrier — par email, sans engagement. Ou réservez un appel directement.