À qui s'adresse ce guide — DSI, CTO, responsables infra ou ML qui évaluent le déploiement on-premise d'une solution IA. Vous y trouverez architecture type, coût réel par taille, étapes, pièges et un retour d'expérience concret d'un cabinet d'avocats parisien.
Pourquoi le self-hosted IA explose en 2026
En deux ans, le self-hosted d'intelligence artificielle est passé de "exotique" à "standard pour les entreprises matures". Trois facteurs expliquent cette bascule :
- La maturité des modèles open source : Llama 4, Mistral Large 3, Qwen 3 72B rivalisent techniquement avec GPT-5 et Claude 5.
- L'accessibilité des GPU : les NVIDIA H100, L40S et l'arrivée des puces dédiées inférence (Groq, Cerebras) rendent le coût d'entrée supportable pour une PME.
- La pression réglementaire : l'AI Act européen et la sensibilité croissante aux transferts de données hors UE poussent vers la maîtrise complète.
Les 5 scénarios qui justifient le self-hosted
1. Données hautement confidentielles
Santé (dossiers médicaux), finance (secret bancaire), juridique (secret professionnel), défense, R&D stratégique. L'envoi à une API tierce est soit illégal soit inacceptable en termes de gouvernance.
2. Volume très élevé
Au-delà de 500 k à 1 M tokens/jour récurrents, le coût d'une API propriétaire devient prohibitif. Un déploiement H100 80GB amorti sur 2 ans coûte ~1,50 €/h, équivalent à ~3 M tokens Llama 4 70B.
3. Latence critique
Applications temps réel (trading, chirurgie assistée, robotique) : la latence d'une API externe (~500 ms-2 s) est inacceptable. Un modèle local sur GPU dédié descend sous les 100 ms.
4. Dépendance fournisseur inacceptable
Secteur public, OIV (opérateurs d'importance vitale), entreprises stratégiques. Dépendre d'OpenAI ou Anthropic = risque souverain insupportable.
5. Fine-tuning métier
Besoin d'adapter un modèle avec vos données propres sur le long terme. Les API propriétaires proposent un fine-tuning limité et coûteux.
Architecture type d'un déploiement self-hosted
Matériel recommandé (2026)
- Petit déploiement (PME <50 users) : 1× NVIDIA L40S (48 Go VRAM) ou 1× H100 80 Go. Llama 4 8B quantisé Q4 ou Mistral Small 7B. Budget ~15-25 k€ serveur + ~200 €/mois électricité/cooling.
- Déploiement moyen (50-500 users) : 2× H100 80 Go ou 4× L40S. Permet Llama 4 70B quantisé ou Mistral Large 3. Budget ~60-100 k€ matériel.
- Déploiement grand compte : cluster 8+ H100 ou DGX Grace Blackwell. Llama 4 405B, Qwen 3 72B en float16, plusieurs modèles en parallèle. Budget 200-500 k€+.
Stack logicielle standard
- Serveur inférence : vLLM (haute performance), Ollama (simplicité), LocalAI (compatibilité OpenAI), ou Text Generation Inference (Hugging Face).
- Orchestration : Kubernetes avec GPU operator, ou Docker Compose pour les petits déploiements.
- Frontend : Open WebUI (fork du projet populaire), Moon AI self-hosted (solution commerciale clé en main), ou LibreChat.
- Cache et RAG : Redis pour le cache, vector DB (ChromaDB, Qdrant, Weaviate) pour la recherche sémantique.
- Monitoring : Prometheus + Grafana, ou Helicone pour le tracking LLM spécifique.
Réseau et sécurité
Un déploiement self-hosted correct isole le service IA du reste du SI via un VLAN dédié. Accès utilisateurs via reverse proxy (Traefik, nginx) avec authentification SSO (Okta, Keycloak). Chiffrement des poids au repos (LUKS), chiffrement des communications (TLS 1.3). Audit logs centralisés.
Coût réel : calculs détaillés
Scénario PME 100 utilisateurs, 50 k requêtes/jour
| Poste | Coût année 1 | Coût année 2+ |
|---|---|---|
| Serveur H100 80 Go (amorti 3 ans) | 16 500 € | 16 500 € |
| Stockage 10 To NVMe + 50 To HDD | 4 500 € | 0 |
| Électricité + cooling (1,2 kW × 24/7) | 3 000 € | 3 000 € |
| Licence Moon AI self-hosted (si pris) | 12 000 € | 12 000 € |
| Administration (0,2 FTE) | 15 000 € | 15 000 € |
| Total annuel | ~51 000 € | ~46 500 € |
Équivalent en API propriétaire pour le même volume : ~60-80 k€/an minimum. Break-even atteint la première année, économie significative dès la deuxième.
Étapes de déploiement en entreprise
Phase 1 : Audit et choix (2-4 semaines)
Cartographie des cas d'usage prioritaires. Sélection du modèle cible (performance / coût / licence). Benchmark sur vos données réelles (via Moon AI ou plateforme de test).
Phase 2 : Proof of Concept (1-2 mois)
Déploiement sur un serveur de dev. Test avec 10-20 utilisateurs pilotes. Mesure qualité réponses, latence, coûts. Ajustements du prompt engineering et du fine-tuning si nécessaire.
Phase 3 : Production (1-2 mois)
Setup production : haute dispo, monitoring, backups, SSO, logs. Formation utilisateurs. Documentation interne. Gouvernance (politique d'usage acceptable, comités éthiques si applicable).
Phase 4 : Scale (en continu)
Ajout de GPU selon charge. Fine-tuning continu sur vos nouvelles données. Ajout de modèles complémentaires spécialisés.
Pièges fréquents et comment les éviter
Piège 1 : sous-dimensionner le GPU
Tentation de démarrer petit (RTX 4090). Problème : vous êtes bloqué à des modèles 7B quantisés, médiocres pour l'usage pro. Investir dans un vrai serveur 48-80 Go VRAM dès le départ, quitte à attendre 3 mois.
Piège 2 : négliger le réseau
Un cluster multi-GPU nécessite du réseau InfiniBand ou au minimum du 25 GbE. Sous-estimer ce point bloque les performances en inférence distribuée.
Piège 3 : ignorer le prompt engineering
Un Llama 4 70B mal prompté performe moins bien qu'un GPT-5 bien prompté. Investir du temps dans la conception des system prompts métier.
Piège 4 : oublier la gouvernance
Qui a le droit d'utiliser l'IA ? Pour quels usages ? Qui audite ? Politique d'usage acceptable dès le Go production.
Piège 5 : faire seul
Un projet self-hosted IA nécessite des compétences croisées : ML, infra, sécurité. Ne pas sous-estimer le besoin de formation ou d'accompagnement externe.
Options pour accélérer : solutions clé en main
Moon AI Self-Hosted
Stellarr Studio propose Moon AI en version on-premise : l'ensemble de la stack (UI, backend, orchestration multi-modèles, Moon Guard, workflows, connecteurs) déployée chez vous. Support inclus, mises à jour régulières, SLA contractuel. Alternative au build-from-scratch.
OVH AI Endpoints
Compromis intéressant : les modèles tournent sur infrastructure OVH française, vous gérez via API. Pas du "vrai" self-hosted mais souveraineté française garantie.
Scaleway AI
Équivalent français chez Scaleway. Bonnes performances, pricing compétitif.
Retour d'expérience : cas concret
Un cabinet juridique parisien (150 salariés) a déployé Moon AI self-hosted sur serveur 2×H100 en janvier 2026. Résultats 6 mois après :
- 3 500 requêtes/jour en moyenne, pic à 6 000.
- Temps gagné estimé : 25 % sur rédaction de mémos, 40 % sur analyse de jurisprudence.
- Coût total année 1 : 58 k€ (matériel + admin). ROI atteint au 7e mois.
- Aucune fuite de données (audit externe confirmé). Conformité RGPD + CNB validée.
🏢 Moon AI Self-Hosted — Stellarr Studio propose une version on-premise de Moon AI clé en main : UI, orchestration multi-modèles, Moon Guard, workflows, connecteurs. Support inclus, mises à jour régulières, SLA contractuel. Demander une démo →
Conclusion
Le self-hosted IA est une réalité industrielle en 2026, pas un projet exotique. Pour toute entreprise manipulant des données sensibles ou dépassant un certain volume, la question n'est plus "faut-il le faire ?" mais "comment le faire correctement ?".
Le bon départ : tester d'abord via une plateforme multi-modèles (Moon AI beta gratuite) pour identifier les cas d'usage qui justifient l'investissement self-hosted, puis déployer progressivement avec une approche hybride (API propriétaire + self-host) avant de basculer complètement si le volume le justifie.