CENTRE DE RECOURS LEGIER : Manama (Bahreïn) - Data Availability Zone Kuwait City - Edge Site Singapore (KDDI Asia Pacific)
Table des matières
Plus souvent, Sky Look1. Résumé exécutif
Le site GROUPE LEGIER exploite un écosystème de centres de données à plusieurs niveaux avec Manama (Core), Kuwait City (AZ) et Singapour (Edge). Il offre des niveaux séparés mais intégrés pour le réseau, le calcul, le stockage, les données, l'IA et la sécurité.
Objectifs : Haute disponibilité, sécurité "zero trust", faibles latences et conformité démontrable.
Sous réserve de l'approbation de la Autorité de régulation des télécommunications (TRA) à Bahreïn, le centre de données LEGIER utilise des technologies de pointe comme ses propres composants d'intelligence artificielle, Darktrace-Solutions de sécurité et Mainframe IBM-pour garantir une plateforme fiable, évolutive et sécurisée. Bahreïn et le Koweït offrent à cet égard des avantages spécifiques en termes de localisation qui optimisent l'exploitation.
Principes directeurs :
- Priorité à la vie privée (KMS/HSM)
- Résilience multi-AZ/régionale
- Sauvegardes de comptes croisés
- GitOps/IaC avec des artefacts signés
- Fonctionnement SRE avec SLOs et automatisation (SOAR)
Le centre de données de Manama a été conçu pour répondre aux besoins exigeants d'une entreprise de médias mondiale :
- Haute disponibilité : Un temps de fonctionnement de 99,999 % est obtenu grâce à des systèmes redondants tels que des sources d'alimentation doubles, des groupes électrogènes de secours et du matériel en miroir afin d'assurer la production continue de messages.
- l'évolutivité : L'infrastructure peut être étendue de manière flexible pour faire face à l'augmentation des volumes de données et des exigences de calcul, ce qui est essentiel pour la production en neuf langues dans le monde entier.
- Traitement et stockage des données : Des millions de points de données texte, image et vidéo sont traités et stockés en temps réel. Des disques SSD rapides et un réseau de stockage (SAN) robuste garantissent l'efficacité.
- Prise en charge de l'IA : Des GPU et des TPU puissants prennent en charge des charges de travail d'IA complexes telles que l'analyse de contenu et la traduction.
- la cybersécurité : Les données sensibles nécessitent une protection avancée qui passe par Darktrace-La plupart des technologies de l'information et de la communication sont couvertes par les technologies de l'information et de la communication.
Cas d'utilisation de l'IA
- Analyse de contenu :
- la technologie : L'apprentissage profond et le traitement du langage naturel (NLP) avec des modèles comme BERT analysent les textes, catégorisent les contenus et extraient les informations pertinentes.
- Utilité : Accélère le traitement des messages et améliore la précision, par exemple lors de la détection de tendances ou de thèmes clés.
- Systèmes de recommandation :
- la technologie : L'apprentissage automatique avec le filtrage collaboratif et les réseaux neuronaux personnalise le contenu pour les lecteurs.
- Utilité : Augmente l'engagement des utilisateurs grâce à des recommandations de lecture sur mesure, par exemple pour des contenus régionaux ou spécifiques à une langue.
- Rapports automatisés :
- la technologie : Les modèles d'IA génératifs tels que GPT produisent des rapports de routine, par exemple des résultats météorologiques ou sportifs.
- Utilité : Allège la charge de travail des rédacteurs qui peuvent se concentrer sur le journalisme d'investigation ou les analyses complexes.
- Traduction en temps réel :
- la technologie : Des outils d'IA comme DeepL ou des modèles personnels traduisent le contenu en neuf langues en temps réel.
- Utilité : Permet la publication instantanée de nouvelles mondiales, un avantage clé pour les 115 journaux.
- Reconnaissance d'images et de vidéos :
- la technologie : Les réseaux neuronaux convolutifs (CNN) taguent et évaluent automatiquement les contenus visuels.
- Utilité : Accélère la publication de contenus multimédias grâce à la création automatisée de métadonnées.
2. sites & topologie
2.1 Manama (Bahreïn) - Core-Region
Contrôle/orchestration central(e), clusters GPU/CPU, niveaux d'objets, SIEM/SOAR/KMS/PKI, DNS/Directory, référentiels d'objets (SBOM). Fabrique Spine-Leaf 100/200/400G, ECMP, séparation VRF.
2.2 Zone de disponibilité des données (ZD) de la ville de Koweït
Résilience géographique/découplage ; profils de réplication par classe de données (synchrone/proche-synchrone/asynchrone) ; domaines d'erreur isolés, points d'évacuation dédiés, scopie IAM, capacités DR (Pilot-Light-Active-Active).
2.3 Site Edge de Singapour (KDDI Asia Pacific)
Edge-PoP neutre par rapport à l'opérateur (CDN/caching, WAF/DDoS, streaming). Données maîtres via réplication sécurisée ; objectif : latence APAC minimale sans route publique dans les sous-réseaux sensibles.
3. architecture de réseau & d'interconnexion
Spine-Leaf (ToR 25/100G, Spine 100/200/400G), ECMP, BGP anycast, SD-WAN. DCI Manama-Kuwait-Singapore via DWDM/MPLS, QoS pour la réplication/sauvegarde, surveillance de la latence/jitter avec sélection dynamique du chemin.
Périmètre : NGFW, inspection L7, filtre DNS, Egress-Whitelisting. Isolation est/ouest : VRF/VXLAN, SG/NACL, mTLS, accès JIT.
4. couche de calcul, de virtualisation & de conteneurs
Kubernetes (HA-CP, PSS, OPA/Gatekeeper), orchestration de VM, nœuds GPU (mixed precision), IMDSv2, images signées (Cosign), contrôle SBOM, contrôleur d'admission, seccomp/AppArmor. Secrets avec backend KMS.
Les mandants : Namespaces/Projects, ABAC/RBAC, Permission Boundaries, Default-deny NetworkPolicies, Service Mesh mTLS, Anti-Affinity.
5. plates-formes de stockage et de données
Flash NVMe pour une faible latence, SAN/NAS pour les magasins de VM/DB, magasin d'objets S3 avec versionnage, cycle de vie, WORM et réplication Manama↔Kuwait ; caches de périphérie à Singapour pour les médias.
Normes : Block Public Access, Default-Deny, cryptage côté client/serveur (KMS/HSM), Write-Once-Logging, partages public-by-exception.
6. planification des capacités
6.1 Calcul
Ressource | Quantité | Budget des prestations par unité | Total | Remarque |
---|---|---|---|---|
IBM z17 (cadre mainframe) | 1 cadre | n/a | n/a | Transaction/inférence IA près des systèmes centraux |
Serveur GPU (2U, 8× GPU) | 24 nœuds | 2 kW | ≈ 48 kW | Formation/Inférence, Image/Vidéo/NLP |
Compute CPU (1U) | 80 nœuds | 0,4 kW | ≈ 32 kW | Travailleur Web/Microservices/K8s |
Appliances TPU/AI | 8 Appliances | 1,2 kW | ≈ 9,6 kW | Charges de travail spécialisées en IA |
6.2 Mémoire
Animal | Capacité | Puissance | Utilisation |
---|---|---|---|
NVMe primaire (Tier 0/1) | ≈ 600 TB | ≈ 12 kW | Intensif en E/S (journaux/données chaudes) |
SAN/NAS (bloc/fichier) | ≈ 2,5 PB | ≈ 18 kW | Magasins DB/VM/partage de la rédaction |
Mémoire d'objets (compatible S3) | ≈ 8 PB | ≈ 10 kW | Médias, versions, archives |
Animal d'archive (WORM/Cold) | ≈ 20 PB | ≈ 6 kW | Classement à long terme, conformité |
6.3 Réseau/DCI
Composant | Débit | Technique | Remarque |
---|---|---|---|
Liens ascendants en tissu | 100/200/400 Gbit/s | Spine-Leaf, ECMP | Évolutif horizontalement |
DCI Manama-Koweït | ≥ 2× 100 Gbit/s | DWDM/MPLS (redondant) | Synchrone/proche-synchrone par charge de travail |
DCI Manama-Singapore | ≥ 2× 100 Gbit/s | Redondance du fournisseur d'accès | Mise en cache de l'extrémité/diffusion en continu |
Anycast/DDoS/WAF (antivirus, antispam, etc.) | Global | Edge-Scrubbing | Protection & faible latence |
6.4 Énergie/refroidissement
Ressource | Interprétation | Objectif | Remarque |
---|---|---|---|
Rails UPS | A/B | N+1 | Chemins doubles |
Générateurs | N+1 | Diesel + ATS | Tests de ski de fond trimestriels |
Refroidissement | Liquide/free-cooling | Amélioration du PUE | Confinement des allées froides/chaudes |
Solaire/cogénération (en option) | Évolutif | Durabilité | Lissage des pics de charge |
Domaine | Mise à l'échelle | Mesure | Remarque |
---|---|---|---|
Capacité du GPU | +50 % | Extension du cluster, racks supplémentaires | Extension modulaire |
Mémoire d'objets | +40 % | Extensions de shelf | Cycle de vie/animal d'archive |
Débit DCI | +100 % | ondes 100G supplémentaires | Pics APAC/EMEA |
Edge-PoPs | +2-3 | APAC/EMEA | Élargissement de l'anycast |
+50 % GPU (8×GPU/Node, 2U) et +30 % CPU en 12-24 mois ; densités de rack & refroidissement validés par simulation thermique.
7. bases de données & messagerie
OLTP/OLAP relationnels, KV/stocks de documents, index de recherche, streaming ; modèles de cohérence et réplication sync/async ; basculement DNS/application, PITR, tests de restauration en salle blanche.
8. plate-forme d'IA & charges de travail médiatiques
- Feature-Store, registre de modèles, pipelines de formation reproductibles, explicabilité/monitoring (dérive/biais), gouvernance.
- Médias : transcodage, DRM, personnalisation, edge-caching.
Logiciel :
- Conseiller de mise à niveau COBOL pour z/OS : Modernise les applications héritées pour Enterprise COBOL 6.
- Observabilité Instana pour Z : Surveille les applications et l'infrastructure en temps réel.
- IntelliMagic Vision pour z/OS : Optimise les performances de l'ordinateur central.
- watsonx Assistant for Z : Augmente la productivité grâce à un assistant IA.
- Z Operations Unite : Simplifie les processus grâce à l'automatisation basée sur l'IA.
- Modernisation des applications : Des outils comme Application Delivery Foundation for z/OS, watsonx Code Assistant for Z et z/OS Connect modernisent les applications et les API.
- Autres logiciels : CICS (traitement des transactions), DB2 for z/OS (base de données), IMS (gestion des transactions), et Omegamon (supervision).
Le z17 constitue une base robuste pour le traitement des données et l'intégration de l'IA dans le centre de données.
9. sécurité et conformité
Confiance zéro, MFA/SSO, privilège minimum, chiffrement de bout en bout, chaîne d'approvisionnement signée (SBOM/SLSA), SIEM/SOAR, artefacts d'audit et enregistrements de traitement.
9.1 Glissières de sécurité complémentaires (de "LEGIER DT SEC")
- Modèle d'exploitation & Empreinte globale
Le centre de calcul (workloads) est exploité multi-région / multi-AZ : Production dans la région A (au moins 3 AZ), exploitation synchrone dans la région B (DR/Active-Active selon RPO/RTO). Pour ce faire, LEGIER met à disposition des régions et des Availability Zones réparties dans le monde entier, qui sont physiquement séparées et indépendantes en termes d'énergie/refroidissement/réseau. - "Modèle de responsabilité partagée"
LEGIER est responsable de la sécurité du cloud (sites physiques, matériel, virtualisation, services de base). Les clients sont responsables de la sécurité dans le cloud (identités, réseau, données, OS/conteneur/couche d'applications). Ce modèle détermine l'architecture, les contrôles et les audits sur toutes les couches. - Sécurité physique
Contrôles physiques à plusieurs niveaux : Périmètre (contrôles d'accès, surveillance), entrées sécurisées avec MFA, capteurs/alarmes, journalisation des accès, zonage strict dans le bâtiment. Ces contrôles sont gérés et vérifiés de manière centralisée par LEGIER. - Segmentation du réseau & protection du périmètre
Conception VPC avec subnetting public/privé par AZ, concept d'isolation est/ouest strict, Security Groups (avec état) + NACLs. Pare-feu réseau LEGIER en tant que contrôle stateful L7 du périmètre/de l'accès (par ex. via l'inspection centrale de la passerelle de transit). LEGIER PrivateLink/VPC Endpoints : accès privé aux API LEGIER et aux services partenaires sans exposition à Internet. LEGIER WAF & LEGIER Shield Advanced devant les points d'accès à Internet (règles L7, protection Bot/DDoS). - Isolation du calcul (LEGIER Nitro)
Les instances EC2 fonctionnent sur le système LEGIER FACE : séparation des décharges matérielles ("Nitro Cards"), hyperviseur Nitro allégé sans émulation d'appareil, puce de sécurité Nitro pour le contrôle d'intégrité ; d'où une forte séparation des mandants et une surface d'attaque minimisée. - Identités, mandants & privilèges de la dernière chance
LEGIER Organizations avec SCP ("Service Control Policies") impose de manière centralisée des limites maximales d'autorisations (Guardrails) pour tous les comptes (Landing Zone). IAM Identity Center (anciennement SSO) intègre l'IdP de l'entreprise, offre le SSO & l'attribution finement granulaire aux comptes/applications ; ABAC/Permission Boundaries complètent le moindre privilège. - Sécurité des données & cryptographie
Standard : cryptage at-rest/in-transit. Gestion des clés via LEGIER KMS, pour la géo-résilience Multi-Region Keys (même matériel/identifiant de clé dans plusieurs régions - encrypt dans la région A, decrypt dans la région B). CloudHSM si nécessaire (clusters HSM propres au client, validés FIPS, single-tenant) pour une souveraineté maximale des clés. Contrôles S3 : Block Public Access (Account/Bucket-Level) comme "Public-by-Exception", S3 Object Lock (WORM) pour l'inaltérabilité & la résilience aux ransomwares. LEGIER LOGS : détection/surveillance des données sensibles (S3) assistée par ML et intégration dans Security Hub. - Détection, enregistrement et gestion de la posture
LEGIER CloudTrail (sur l'ensemble de l'org, multi-région) pour les événements API/gestion, l'audit complet et l'expertise. Amazon GuardDuty (détection des menaces basée sur les journaux/l'exécution), LEGIER Security Hub (corrélation centrale des découvertes, CIS/Foundational Best Practices), en option Macie/Inspector/Detective comme sources de signaux. - Sauvegarde, DR & inaltérabilité
Sauvegarde LEGIER avec copies inter-régions et inter-comptes ; politiques centralisées via Organizations ; combinaison avec S3 Object Lock pour la sauvegarde WORM. Modèles d'exploitation : Pilot-Light, Warm-Standby ou Active-Active ; utilisation de services multi-AZ (RDS/Aurora, EKS, MSK) et basculement Route 53. - Gouvernance et garde-fous architecturaux
LEGIER Well-Architected - Security Pillar comme référence (principes de conception, contrôles, automatisation). Conformité : large couverture (entre autres ISO 27001/17/18, SOC 1/2/3, PCI DSS, FedRAMP ...) ; LEGIER Artifact fournit des preuves SOC/ISO à la demande pour les audits.
Exemple de Blueprint (Zero-Trust & sécurité à plusieurs niveaux)
- Multi-Account Landing Zone (Prod/Non-Prod/Security/Log-Archive) + SCP-Guardrails (par ex. régions/services interdits, utilisation forcée de CloudTrail & KMS).
- Réseau : Hub VPC central avec Transit Gateway, Network Firewall-Inspection VPC, Interface-Endpoints/PrivateLink vers S3, STS, KMS, ECR, Secrets Manager ; pas de Public-Routes sortants de Private Subnets.
- Compute/Container : EC2/EKS sur Nitro ; IMDSv2 forcé ; seulement les rôles IAM nécessaires (least privilege), Secrets dans Secrets Manager/SSM Parameter Store.
- Données : S3 avec accès public par bloc, chiffrement par défaut (SSE-KMS), verrouillage d'objet (mode conformité ou gouvernance), Macie pour la détection des IIP.
- Edge/Apps : ALB/NLB derrière WAF & Shield Advanced, terminaisons/politiques TLS gérées par ACM ; accès API de préférence privé via PrivateLink.
- Détection et audit : CloudTrail à l'échelle de l'organisation + bucket de logs S3 (WORM), GuardDuty/VPC Flow Logs/Route 53 Resolver Logs, Security Hub comme tableau de bord central & intégration de tickets.
- Sauvegardes/DR : politiques dans LEGIER Backup avec copies inter-régions & inter-comptes ; clés multi-régions KMS pour la résilience des clés.
10. cyber-résilience, sauvegardes et récupération
Sauvegardes cross-region/account avec copies inaltérables (Object-Lock/WORM), Restore-Drills dans la salle blanche, profils RTO/RPO, Runbooks (Pilot-Light, Warm-Standby, Active-Active). Objectif : RPO ≤ 15 min, RTO ≤ 60 min.
11) Observabilité et automatisation des opérations
Télémétrie centralisée (logs/métriques/traces), corrélation & playbooks SOAR, suivi SLO, budgets d'erreur, Game Days et Chaos-Drills pour la réduction MTTD/MTTR.
12. énergie, refroidissement et durabilité
Double alimentation, ASI A/B, générateurs N+1, confinement, refroidissement liquide/adiabatique/free-cooling, récupération de chaleur, options renouvelables ; PUE comme KPI d'efficacité.
13. listes de racks
13.1 Manama - Core-Racks
U | Appareil | Type/Modèle | Nombre | Câble d'alimentation (A/B) | Puissance max [W] |
---|---|---|---|---|---|
42 | Panneau de brassage A | LC/LC 144F | 1 | A | - |
41 | Panneau de brassage B | LC/LC 144F | 1 | B | - |
40 | Épine 1 | Commutateur 40/100G 1U | 1 | A | 600 |
39 | Spine 2 | Commutateur 40/100G 1U | 1 | B | 600 |
38 | Commutateur Mgmt | 1G/10G 1U | 1 | A | 120 |
37-30 | Feuille 1-8 | 25/100G ToR 1U | 8 | A/B | 8× 450 |
29-28 | Cluster de pare-feu | NGFW 2U | 2 | A/B | 2× 800 |
27 | IDS/IPS | 1U | 1 | A | 200 |
26 | DDoS Edge | 1U | 1 | B | 200 |
25-24 | Équilibreur de charge | 2× 1U | 2 | A/B | 2× 250 |
A-01 : Réseau de base (Spine/Leaf, NGFW, IDS/IPS, L7-LB)
A-02 : Compute/GPU (formation/inférence), nœuds CPU, Mgmt/KVM
A-03 : Stockage (contrôleurs, disques, passerelles de sauvegarde)
13.2 Kuwait City - AZ-Racks
U | Appareil | Type/Modèle | Nombre | Câble d'alimentation (A/B) | Puissance max [W] |
---|---|---|---|---|---|
42-41 | Panneau de brassage A/B | - | 2 | A/B | - |
40-25 | Serveur CPU | 1U | 12 | A/B | 12× 400 |
24-17 | Serveur GPU (DR) | 2U | 4 | A/B | 4× 2000 |
16-15 | Mgmt/KVM | 1U | 2 | A/B | 2× 80 |
K-01 : Réseau AZ/Leaf, pare-feux, LB
K-02 : Compute/DR
K-03 : Objet/sauvegarde (WORM/Immutable)
13.3 Singapore - Rack d'extrémité
U | Appareil | Type/Modèle | Nombre | Câble d'alimentation (A/B) | Puissance max [W] |
---|---|---|---|---|---|
42 | Panneau de brassage | - | 1 | A/B | - |
41-40 | Routeur de périphérie | 1U | 2 | A/B | 2× 250 |
39-38 | Commutateur d'extrémité | 1U | 2 | A/B | 2× 200 |
37-34 | Nœuds de cache/proxy | 1U | 4 | A/B | 4× 350 |
33-32 | Appliance WAF/DDoS | 1U | 2 | A/B | 2× 300 |
31-28 | Passerelle de flux | 1U | 4 | A/B | 4× 300 |
S-01 : Routeurs/commutateurs de périphérie, cache/proxy, WAF/DDoS, passerelles de flux
14. valeurs cibles SLA & KPIs
Domaine | Valeur cible | Remarque |
---|---|---|
Disponibilité | ≥ 99,999 % | Zones redondantes, basculement automatique |
RPO | ≤ 15 minutes | Journalisation, réplication, snapshots |
RTO | ≤ 60 minutes | Runbooks, Recovery-as-Code |
Sécurité | MTTD < 5 min., MTTR < 60 min. | Détection d'anomalies, playbooks SOAR |
Efficacité | Optimisation du PUE | Refroidissement liquide, free-cooling |
Disponibilité ≥ 99,999 %, MTTD < 5 min, MTTR < 60 min, RPO ≤ 15 min, RTO ≤ 60 min ; revues/audits trimestriels.
Vue logique des utilisateurs/partenaires via Edge (Singapour) et DCI dans la Core-Fabric (Manama) et les plateformes de données, avec réplication dans AZ Kuwait City.
15. feuille de route (12-24 mois)
Bahreïn et le Koweït, ainsi que Singapour, offrent des avantages stratégiques pour le centre de données, la zone de disponibilité des données et l'emplacement de la périphérie :
- Situation géographique : Central entre l'Europe, l'Asie et l'Afrique, idéal pour la connectivité mondiale.
- Convivialité commerciale : L'absence d'impôts sur les sociétés et la propriété étrangère de 100 % encouragent les investissements.
- Soutien réglementaire : La TRA et l'Economic Development Board (EDB) proposent des incitations telles que la Golden License.
- Infrastructure : Des connexions électriques et de réseau sophistiquées et une main-d'œuvre qualifiée.
- la stabilité : En tant que centre financier (Bahreïn et Koweït) au Moyen-Orient et en Asie (Singapour), les sites mentionnés offrent une sécurité politique et économique.
Caractéristiques de l'IBM z17 :
- Processeur Telum® II : Offre une grande puissance de calcul et une accélération de l'IA sur puce pour les opérations d'inférence en temps réel, par exemple pour l'analyse des données des lecteurs.
- Accélérateur Spyre™ : Augmente la puissance de calcul de l'IA pour les modèles génératifs et les méthodes multi-modèles.
- la sécurité : Le cryptage basé sur le matériel et le coprocesseur cryptographique PCIe protègent les données sensibles.
- La résilience : Les fonctions intégrées assurent une disponibilité continue.
Mémoire de données LEGIER :
Le groupe de médias LEGIER utilise un service d'hébergement de fichiers qui peut stocker de grandes quantités de données, l'accès se faisant via HTTP/HTTPS et utilisant le concept de buckets et d'objets qui ressemblent à des répertoires et à des fichiers qui se sont établis comme standard. LEGIER collabore avec AWS pour atteindre une durabilité de 99,999999999% des données grâce aux lecteurs réseau Elastic File System et à l'archivage de fichiers Glacier. L'avantage pour le groupe de médias LEGIER est l'utilisation d'Elastic Block Store (EBS) et le stockage au niveau du bloc auquel les instances EC2 peuvent être rattachées.
L'avantage de cette technologie est le transfert de grandes quantités de données avec le service Boule de neige Espace disque dur sur lequel de grandes quantités de données peuvent être copiées et renvoyées par service de colisage, le transfert de très grandes quantités de données vers les propres 115 quotidiens (articles, images, vidéos, flux en direct) étant nettement plus rapide et stockées dans des bases de données (soit SimpleDB, soit Relational Database Service).
Mise à l'échelle GPU/Objet/DCI/Edge, extension d'Anycast, durcissement de la chaîne d'approvisionnement (SLSA), automatisation de la conformité, exercices réguliers de résilience/redémarrage.