02Pour la criticité 1. Souverain. Air-gapped. Vôtre.

AI On-Prem

Déploiement Ollama + modèles quantifiés sur votre matériel pour les flux criticité 1 — santé BPF, défense, secret professionnel, propriété industrielle critique. Données qui ne sortent jamais de votre réseau, Cloud Act hors-jeu, RGPD par design.

Diagnostic gratuit Réserver 30 min

Le problème que ça résout

Vos données ne peuvent pas sortir de votre réseau : secret professionnel d'avocat, secret médical, secret-défense, propriété industrielle, données de R&D. ChatGPT et Claude transitent et stockent sur des serveurs hors-UE, soumis au Cloud Act. Les CGU des fournisseurs SaaS ne couvrent pas votre exposition réelle.

Ce que nous livrons

Nous installons sur votre matériel — workstation, serveur, ou cluster HA — un stack Ollama avec les meilleurs modèles open-source quantifiés (Mistral, Qwen, Llama 3, Gemma). Interface web interne sécurisée, intégration LDAP/SSO, monitoring local, mises à jour packagées. Aucun appel sortant. Vos prompts restent à l'intérieur de votre réseau, point.

Pourquoi c'est durable

Claude et ChatGPT ne tournent pas air-gapped. Les flux criticité 1 (santé BPF, défense, juridique, recherche pharma) exigent une exécution sur sol français — un SaaS US ne peut structurellement pas répondre. Pour les autres flux, on garde Claude / GPT encadrés (offre Compliance Pack).

Méthodologie

01.Audit infrastructure
Évaluation de votre matériel existant, contraintes réseau, exigences sécurité (ANSSI, secret défense, HDS si applicable). Recommandation hardware si nécessaire.
02.Sélection des modèles
Benchmark sur vos cas d'usage réels avec un échantillon de prompts représentatifs. Sélection des modèles 7B-70B selon le compromis qualité/latence/VRAM. Quantification GGUF Q4-Q8 selon hardware.
03.Installation et hardening
Déploiement Ollama + interface web (Open WebUI ou custom), reverse proxy avec TLS interne, isolation réseau, durcissement OS. Aucun appel sortant : seul le monitoring local fonctionne.
04.Intégration SI
Intégration LDAP/Active Directory pour le SSO, connecteurs vers vos systèmes internes (NAS, GED, intranet), API privée pour vos applications métier.
05.Formation et passation
Formation des équipes IT (1 jour) et des utilisateurs finaux (1/2 jour). Documentation d'exploitation et runbook d'incident.
06.Maintenance
Suivi mensuel : mises à jour modèles (nouveaux SOTA tous les 3-4 mois), patches sécurité, monitoring usage, ajustement des contextes systèmes.

Livrables

Architecture documentée (réseau, sécurité, modèles)
Stack Ollama + interface web installé et durci
Intégration LDAP / SSO configurée
Connecteurs vers vos systèmes internes (1-3 inclus)
Documentation d'exploitation + runbook d'incident
Formation IT + utilisateurs finaux
Procédure de mise à jour modèles
SLA de monitoring (option Cluster HA)

Pour qui · délais · conformité

Profil idéal

Cabinets d'avocats et notaires (secret professionnel), cabinets médicaux et laboratoires (secret médical, HDS), entreprises sous secret-défense, deeptech avec propriété industrielle critique, ETI industrielles ne pouvant pas exposer leur R&D, cabinets d'expertise comptable au-delà d'un certain volume.

Délais

3 à 6 semaines pour Soft only, 6 à 10 semaines pour Hardware inclus, 10 à 16 semaines pour Cluster HA.

Cadre de conformité

Le déploiement on-prem écarte de fait les transferts hors UE et le Cloud Act. Pour le secret médical, la certification HDS de l'hébergeur n'est pas requise puisque l'hébergement est interne. Pour les marchés défense, l'air-gap est nécessaire mais peut ne pas suffire — l'homologation finale relève de votre RSSI et du SGDSN. Diamond Solutions ne détient pas la certification HDS et ne se substitue pas à un hébergeur de santé : la mission concerne le déploiement de l'IA sur votre infra.

Tarifs

Soft only3 500 € HT + 400 €/mois

Hardware inclus8 500 € HT + 600 €/mois

Cluster HA15 000 - 35 000 € HT

Les tarifs s'entendent hors taxes. Devis personnalisé après cadrage. Paiement par tiers (30 % cadrage, 40 % livraison intermédiaire, 30 % livraison finale) ou mensuel selon préférence.

Questions fréquentes

Quel matériel faut-il ?+

Pour 5-15 utilisateurs avec un modèle 14B Q4 : workstation RTX 5090 (32 Go VRAM) ~5 000 €. Pour 50 utilisateurs avec 70B Q4 : serveur 2× A100 ou 4× RTX 5090 ~30 000 €. Pour HA et concurrence : cluster Kubernetes 4-8 nœuds ~80 000 € et plus.

Quels modèles peut-on déployer ?+

Tous les modèles open-source : Mistral Small/Large, Qwen 2.5, Llama 3.x, Gemma 2, DeepSeek, Phi-3. La sélection dépend de votre cas d'usage (raisonnement, code, langues européennes, vision).

Est-ce vraiment hors-ligne ?+

Oui, dès l'installation finale. Les modèles sont téléchargés une fois en environnement temporaire, puis l'infra peut être déconnectée d'Internet. Les mises à jour passent par un poste passerelle ou un dépôt interne.

Quelle qualité par rapport à GPT-4 ?+

Sur des tâches étroites bien spécifiées (rédaction métier, RAG, classification), un modèle 14B-70B fine-tuné rivalise avec GPT-4. Sur du raisonnement complexe inédit, l'écart se ressent. Le test de votre cas d'usage réel pendant la phase de benchmark est inclus.

Qui exploite et maintient l'infra ?+

Votre équipe IT, avec le runbook que nous fournissons. Si vous n'avez pas d'équipe IT, le contrat de maintenance mensuel inclut le monitoring distant et les interventions.

Et si vous fermez votre activité ?+

Vous gardez l'infra, le code, les modèles, la documentation. Aucune dépendance à Diamond Solutions au-delà du contrat de maintenance optionnel. C'est le principe du moat : vous l'avez. Vous le gardez.

Autres offres Diamond Solutions

01 · EU AI Act + ISO 42001 ready

Compliance Pack

03 · Votre IA est un actif, pas un abonnement

Modèle Maison

04 · Connecter l'IA à votre vrai SI

Integration Layer

05 · Vos agents IA, sous les projecteurs

Production Monitor

06 · L'IA qui voit et qui écoute votre métier

Vision / Voice

Discutons de votre projet

Le diagnostic flash de 5 minutes vous donne un score, un plan d'action en 3 points et un calendrier — par email, sans engagement. Ou réservez un appel directement.

Diagnostic gratuit Réserver 30 min