EU AI Act exécutoire 2 août 2026
Diamond Solutions
02Souverain. Air-gapped. Vôtre.

AI On-Prem

Déploiement Ollama + modèles quantifiés sur votre matériel. Données qui ne sortent jamais de votre réseau — Cloud Act hors-jeu, RGPD par design, secret professionnel préservé.

Le problème que ça résout

Vos données ne peuvent pas sortir de votre réseau : secret professionnel d'avocat, secret médical, secret-défense, propriété industrielle, données de R&D. ChatGPT et Claude transitent et stockent sur des serveurs hors-UE, soumis au Cloud Act. Les CGU des fournisseurs SaaS ne couvrent pas votre exposition réelle.

Ce que nous livrons

Nous installons sur votre matériel — workstation, serveur, ou cluster HA — un stack Ollama avec les meilleurs modèles open-source quantifiés (Mistral, Qwen, Llama 3, Gemma). Interface web interne sécurisée, intégration LDAP/SSO, monitoring local, mises à jour packagées. Aucun appel sortant. Vos prompts restent à l'intérieur de votre réseau, point.

Pourquoi c'est durable

ChatGPT et Claude ne tournent pas air-gapped. Les marchés publics défense, santé et juridique exigent une exécution sur sol français — un SaaS US ne peut structurellement pas répondre.

Méthodologie

  1. 01.Audit infrastructure

    Évaluation de votre matériel existant, contraintes réseau, exigences sécurité (ANSSI, secret défense, HDS si applicable). Recommandation hardware si nécessaire.

  2. 02.Sélection des modèles

    Benchmark sur vos cas d'usage réels avec un échantillon de prompts représentatifs. Sélection des modèles 7B-70B selon le compromis qualité/latence/VRAM. Quantification GGUF Q4-Q8 selon hardware.

  3. 03.Installation et hardening

    Déploiement Ollama + interface web (Open WebUI ou custom), reverse proxy avec TLS interne, isolation réseau, durcissement OS. Aucun appel sortant : seul le monitoring local fonctionne.

  4. 04.Intégration SI

    Intégration LDAP/Active Directory pour le SSO, connecteurs vers vos systèmes internes (NAS, GED, intranet), API privée pour vos applications métier.

  5. 05.Formation et passation

    Formation des équipes IT (1 jour) et des utilisateurs finaux (1/2 jour). Documentation d'exploitation et runbook d'incident.

  6. 06.Maintenance

    Suivi mensuel : mises à jour modèles (nouveaux SOTA tous les 3-4 mois), patches sécurité, monitoring usage, ajustement des contextes systèmes.

Livrables

  • Architecture documentée (réseau, sécurité, modèles)
  • Stack Ollama + interface web installé et durci
  • Intégration LDAP / SSO configurée
  • Connecteurs vers vos systèmes internes (1-3 inclus)
  • Documentation d'exploitation + runbook d'incident
  • Formation IT + utilisateurs finaux
  • Procédure de mise à jour modèles
  • SLA de monitoring (option Cluster HA)

Pour qui · délais · conformité

Profil idéal

Cabinets d'avocats et notaires (secret professionnel), cabinets médicaux et laboratoires (secret médical, HDS), entreprises sous secret-défense, deeptech avec propriété industrielle critique, ETI industrielles ne pouvant pas exposer leur R&D, cabinets d'expertise comptable au-delà d'un certain volume.

Délais

3 à 6 semaines pour Soft only, 6 à 10 semaines pour Hardware inclus, 10 à 16 semaines pour Cluster HA.

Cadre de conformité

Le déploiement on-prem écarte de fait les transferts hors UE et le Cloud Act. Pour le secret médical, la certification HDS de l'hébergeur n'est pas requise puisque l'hébergement est interne. Pour les marchés défense, l'air-gap est nécessaire mais peut ne pas suffire — l'homologation finale relève de votre RSSI et du SGDSN. Diamond Solutions ne détient pas la certification HDS et ne se substitue pas à un hébergeur de santé : la mission concerne le déploiement de l'IA sur votre infra.

Tarifs

Soft only3 500 € HT + 400 €/mois
Hardware inclus8 500 € HT + 600 €/mois
Cluster HA15 000 - 35 000 € HT

Les tarifs s'entendent hors taxes. Devis personnalisé après cadrage. Paiement par tiers (30 % cadrage, 40 % livraison intermédiaire, 30 % livraison finale) ou mensuel selon préférence.

Questions fréquentes

Quel matériel faut-il ?+

Pour 5-15 utilisateurs avec un modèle 14B Q4 : workstation RTX 5090 (32 Go VRAM) ~5 000 €. Pour 50 utilisateurs avec 70B Q4 : serveur 2× A100 ou 4× RTX 5090 ~30 000 €. Pour HA et concurrence : cluster Kubernetes 4-8 nœuds ~80 000 € et plus.

Quels modèles peut-on déployer ?+

Tous les modèles open-source : Mistral Small/Large, Qwen 2.5, Llama 3.x, Gemma 2, DeepSeek, Phi-3. La sélection dépend de votre cas d'usage (raisonnement, code, langues européennes, vision).

Est-ce vraiment hors-ligne ?+

Oui, dès l'installation finale. Les modèles sont téléchargés une fois en environnement temporaire, puis l'infra peut être déconnectée d'Internet. Les mises à jour passent par un poste passerelle ou un dépôt interne.

Quelle qualité par rapport à GPT-4 ?+

Sur des tâches étroites bien spécifiées (rédaction métier, RAG, classification), un modèle 14B-70B fine-tuné rivalise avec GPT-4. Sur du raisonnement complexe inédit, l'écart se ressent. Le test de votre cas d'usage réel pendant la phase de benchmark est inclus.

Qui exploite et maintient l'infra ?+

Votre équipe IT, avec le runbook que nous fournissons. Si vous n'avez pas d'équipe IT, le contrat de maintenance mensuel inclut le monitoring distant et les interventions.

Et si vous fermez votre activité ?+

Vous gardez l'infra, le code, les modèles, la documentation. Aucune dépendance à Diamond Solutions au-delà du contrat de maintenance optionnel. C'est le principe du moat : vous l'avez. Vous le gardez.

Autres offres Diamond Solutions

Discutons de votre projet

Le diagnostic flash de 5 minutes vous donne un score, un plan d'action en 3 points et un calendrier — par email, sans engagement. Ou réservez un appel directement.

Diagnostic AI Act gratuit