Un Talos européen de qualité - Part III - Infra réseau

part-03

Objectif 🎯

Dans la section précédente, nous sommes arrivés à une infra physique montée avec un kube joignable, mais en statut node.kubernetes.io/not-ready et node.cloudprovider.kubernetes.io/uninitialized. En effet, il nous reste 2 composants essentiels à installer pour que notre cluster soit pleinement fonctionnel :

Un CNI (Container Network Interface) pour gérer le réseau des pods et services. Nous utiliserons cilium qui est un CNI moderne, performant et riche en fonctionnalités.
Un CCM (Cloud Controller Manager) pour que Kubernetes puisse interagir avec l’infrastructure Hetzner Cloud et récupérer les metadata pour les nodes. Nous utiliserons hcloud-cloud-controller-manager.

On finalisera l’architecture réseau avec cert-manager pour la gestion des certificats TLS.

Initialisation

L’architecture du projet Terraform cible est le suivant :

1
├── clusters
2
│   └── dev-hcloud
3
│       └── ...
4
│   └── dev-kube
5
│       ├── .envrc
6
│       ├── flux.tf
7
│       ├── locals.tf
8
│       ├── module-crds.tf
9
│       ├── module-database.tf
10
│       ├── module-delivery.tf
11
│       ├── module-ingress.tf
12
│       ├── module-monitoring.tf
13
│       ├── module-network.tf
14
│       ├── module-storage.tf
15
│       ├── terraform.tf
16
│       └── variables.tf
17
├── modules
18
    └── hcloud
19
        └── ...
20
    └── kube
21
        └── crds
22
        │   ├── main.tf
23
        │   └── variables.tf
24
        ├── database
25
        │   ├── cnpg.tf
26
        │   ├── dragonfly.tf
27
        │   ├── longhorn.tf
28
        │   ├── pgadmin.tf
29
        │   ├── talos.tf
30
        │   └── variables.tf
31
        ├── delivery
32
        │   ├── flux.tf
33
        │   ├── kustomization.yaml
34
        │   ├── providers.tf
35
        │   └── variables.tf
36
        ├── ingress
37
        │   ├── cert-manager.tf
38
        │   ├── crowdsec.tf
39
        │   ├── haproxy.tf
40
        │   ├── traefik.tf
41
        │   └── variables.tf
42
        ├── monitoring
43
        │   ├── alloy.tf
44
        │   ├── grafana.tf
45
        │   ├── loki.tf
46
        │   ├── prometheus.tf
47
        │   ├── tempo.tf
48
        │   └── variables.tf
49
        ├── network
50
        │   ├── cert-manager.tf
51
        │   ├── cilium.tf
52
        │   ├── hccm.tf
53
        │   ├── metrics-server.tf
54
        │   └── variables.tf
55
        └── storage
56
            ├── cnpg.tf
57
            ├── longhorn.tf
58
            └── variables.tf

Il sera donc décomposé en 5 grands modules :

module-crds pour les Custom Resource Definitions de base nécessaires aux autres modules
module-network pour l’architecture réseau (CNI, CCM, certificats, service mesh)
module-storage pour l’architecture de stockage (CSI, opérateurs de bases de données et backup)
module-ingress pour la construction de l’ingress public et privé, ainsi que WAF et certificats TLS
module-database pour la création de clusters de base de données et définition des backups
module-monitoring pour la supervision des métriques, logs et tracing

State

Le plus simple est de stocker l’état Terraform dédié au kube dans le même backend S3, juste à côté du state dédié à la partie hcloud, sous terraform/kube.tfstate. On en profite pour définir les providers kubernetes et helm en leur indiquant la config d’accès kube.

1
backend "s3" {
2
    endpoints = {
3
      s3 = "https://s3.gra.io.cloud.ovh.net"
4
    }
5
    skip_credentials_validation = true
6
    skip_region_validation      = true
7
    skip_requesting_account_id  = true
8
    skip_s3_checksum            = true
9
    region                      = "gra"
10
    bucket                      = "ohmytalos-dev"
11
    key                         = "terraform/kube.tfstate"
12
    encrypt                     = true
13
  }
14
}
15

16
provider "kubernetes" {
17
  config_path = "~/.kube/config"
18
}
19

20
provider "helm" {
21
  kubernetes = {
22
    config_path = "~/.kube/config"
23
  }
24
}

Warning (kubernetes secret)

Le state étant inextricablement lié au cluster cible, vous pourriez éventuellement vous dire que l’on pourrait le stocker dans un secret kubernetes en utilisant le backend kubernetes comme suit :

1
terraform {
2
  backend "kubernetes" {
3
    config_path   = "~/.kube/config"
4
    secret_suffix = "talos"
5
  }
6
}
7

8
//...

En soi cela peut fonctionner, mais ce n’est clairement pas la bonne façon de procéder, en raison du risque de fuite du state accru (nécessite la mise en place d’RBAC), risque de dépendance circulaire.

CRDs

On commence par créer le module module-crds qui va installer 2 CRDs majeurs que l’on retrouvera sur tous les autres modules :

traefik-crds pour les IngressRoute et Middleware
prometheus-crds pour les ServiceMonitor et PodMonitor

Créer les 2 fichiers suivants :

1
module "kube_crds" {
2
  source = "../../modules/kube/crds"
3
}

1
resource "helm_release" "prometheus_operator_crds" {
2
  repository = "https://prometheus-community.github.io/helm-charts"
3
  chart      = "prometheus-operator-crds"
4
  version    = "27.0.0"
5

6
  name        = "prometheus-operator-crds"
7
  namespace   = "kube-system"
8
  max_history = 2
9
}
10

11
resource "helm_release" "traefik_crds" {
12
  repository = "https://traefik.github.io/charts"
13
  chart      = "traefik-crds"
14
  version    = "1.14.0"
15

16
  name        = "traefik-crds"
17
  namespace   = "kube-system"
18
  max_history = 2
19
}

On commence facile, avec l’installation des CRDs via les charts Helm officiels. On indique max_history = 2 pour ne pas garder inutilement un tas d’historiques de versions dans le cluster. Les versions de chart helm seront indiquées en dur, cela ne posera aucun problème à des outils tel que renovate pour maintenir vos versions à jour.

Comme précédemment sur le projet hcloud, préparer le fichier .envrc pour le chargement des secrets pour l’accès au state :

BW_SESSION="$(bw unlock --raw)"
COLLECTION_ID=xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
ITEMS=$(bw list items --collectionid $COLLECTION_ID --session $BW_SESSION)

bw_field() {
  echo "$ITEMS" | jq -r --arg field "$1" --arg name "$2" \
    '.[] | select(.name==$name) | .login[$field]'
}

export AWS_ACCESS_KEY=$(bw_field username terraform_state_s3)
export AWS_SECRET_KEY=$(bw_field password terraform_state_s3)
export AWS_SSE_CUSTOMER_KEY=$(bw_field password terraform_state_sse_c)

Enfin lancer la commande terraform init puis terraform apply dans le dossier clusters/dev-kube et confirmer l’installation des CRDs.

Cilium et HCCM

On peut maintenant passer au module module-network pour installer Cilium et le cloud controller manager.

1
locals {
2
  cluster_name    = "ohmytalos-dev"
3
  internal_domain = "dev.ohmytalos.com"
4
}

1
module "kube_network" {
2
  source = "../../modules/kube/network"
3

4
  pod_ipv4_cidr   = "10.42.0.0/16"
5
  internal_domain = local.internal_domain
6

7
  hcloud_token   = var.hcloud_token
8
  hcloud_network = local.cluster_name
9
}

Explanation

Cilium aura besoin de connaître le CIDR utilisé pour les pods pour la création dynamique des routes sur le network hcloud natif.

Nous utiliserons dev.ohmytalos.com comme domaine interne pour les services accessibles uniquement via le réseau privé Tailnet. La génération des certificats TLS, nécessairement via challenge DNS-01, sera gérée par cert-manager plus tard.

Côté hccm, dans le cadre de la création des routes, ce dernier a besoin de connaître le nom du réseau Hetzner Cloud à utiliser, nommé selon le nom du cluster. Un token d’API Hetzner Cloud en écriture est évidemment indispensable pour créer les routes ainsi que le load-balancer dynamiquement plus tard via Traefik.

1
variable "hcloud_token" {
2
  type      = string
3
  sensitive = true
4
}

# ...

export TF_VAR_hcloud_token=$(bw_field password hcloud_token)

1
variable "pod_ipv4_cidr" {
2
  description = "The CIDR for the pod network"
3
  type        = string
4
}
5

6
variable "internal_domain" {
7
  description = "The internal domain name to use for the private network"
8
  type        = string
9
}
10

11
variable "hcloud_token" {
12
  description = "The Hetzner Cloud API token"
13
  type        = string
14
  sensitive   = true
15
}
16

17
variable "hcloud_network" {
18
  description = "The ID or name of the main hetzner network of this cluster"
19
  type        = string
20
}

1
resource "helm_release" "cilium" {
2
  repository = "https://helm.cilium.io"
3
  chart      = "cilium"
4
  version    = "1.19.1"
5

6
  name      = "cilium"
7
  namespace = "kube-system"
8

9
  max_history = 2
10

11
  set = [
12
    {
13
      name  = "ipam.mode"
14
      value = "kubernetes"
15
    },
16
    {
17
      name  = "routingMode"
18
      value = "native"
19
    },
20
    {
21
      name  = "ipv4NativeRoutingCIDR"
22
      value = var.pod_ipv4_cidr
23
    },
24
    {
25
      name  = "kubeProxyReplacement"
26
      value = "true"
27
    },
28
    {
29
      name  = "loadBalancer.acceleration"
30
      value = "best-effort"
31
    },
32
    {
33
      name  = "encryption.enabled"
34
      value = "true"
35
    },
36
    {
37
      name  = "encryption.type"
38
      value = "wireguard"
39
    },
40
    {
41
      name  = "securityContext.capabilities.ciliumAgent"
42
      value = "{CHOWN,KILL,NET_ADMIN,NET_RAW,IPC_LOCK,SYS_ADMIN,SYS_RESOURCE,DAC_OVERRIDE,FOWNER,SETGID,SETUID}"
43
    },
44
    {
45
      name  = "securityContext.capabilities.cleanCiliumState"
46
      value = "{NET_ADMIN,SYS_ADMIN,SYS_RESOURCE}"
47
    },
48
    {
49
      name  = "cgroup.autoMount.enabled"
50
      value = "false"
51
    },
52
    {
53
      name  = "cgroup.hostRoot"
54
      value = "/sys/fs/cgroup"
55
    },
56
    {
57
      name  = "k8sServiceHost"
58
      value = "127.0.0.1"
59
    },
60
    {
61
      name  = "k8sServicePort"
62
      value = 7445
63
    },
64
    {
65
      name  = "hubble.relay.enabled"
66
      value = "true"
67
    },
68
    {
69
      name  = "hubble.ui.enabled"
70
      value = "true"
71
    },
72
    {
73
      name  = "envoy.enabled"
74
      value = "false"
75
    },
76
    {
77
      name  = "prometheus.enabled"
78
      value = "true"
79
    },
80
    {
81
      name  = "prometheus.serviceMonitor.enabled"
82
      value = "true"
83
    },
84
    {
85
      name  = "dashboards.enabled"
86
      value = "true"
87
    },
88
    {
89
      name  = "operator.prometheus.enabled"
90
      value = "true"
91
    },
92
    {
93
      name  = "operator.prometheus.serviceMonitor.enabled"
94
      value = "true"
95
    },
96
    {
97
      name  = "operator.dashboards.enabled"
98
      value = "true"
99
    },
100
    {
101
      name  = "hubble.relay.prometheus.enabled"
102
      value = "true"
103
    },
104
    {
105
      name  = "hubble.relay.prometheus.serviceMonitor.enabled"
106
      value = "true"
107
    },
108
    {
109
      name  = "hubble.metrics.serviceMonitor.enabled"
110
      value = "true"
111
    },
112
    {
113
      name  = "hubble.metrics.dashboards.enabled"
114
      value = "true"
115
    }
116
  ]
117

118
  set_list = [
119
    {
120
      name = "hubble.metrics.enabled"
121
      value = [
122
        "dns:query;ignoreAAAA",
123
        "drop",
124
        "tcp",
125
        "flow",
126
        "icmp",
127
        "http"
128
      ]
129
    }
130
  ]
131
}
132

133
resource "kubernetes_manifest" "traefik_ingress_route_cilium" {
134
  manifest = {
135
    apiVersion = "traefik.io/v1alpha1"
136
    kind       = "IngressRoute"
137
    metadata = {
138
      name      = "hubble-ui"
139
      namespace = "kube-system"
140
    }
141
    spec = {
142
      entryPoints = ["internal"]
143
      routes = [
144
        {
145
          match = "Host(`hubble.${var.internal_domain}`)"
146
          kind  = "Rule"
147
          middlewares = [
148
            {
149
              name      = "internal-basic-auth"
150
              namespace = "traefik"
151
            }
152
          ]
153
          services = [
154
            {
155
              name = "hubble-ui"
156
              port = "http"
157
            }
158
          ]
159
        }
160
      ]
161
    }
162
  }
163
}

Explanation

Pour les besoins d’intégration complète au hccm, nous utilisons l’adressage IP en mode kubernetes et activons le routing natif. On remplace le kube-proxy péalablement désactivé au niveau de la config Talos par celui de Cilium pour bénéficier de meilleures performances réseau.

Le chiffrement inter-pods est activée via Wireguard pour sécuriser les communications entre pods sur les nœuds. Nous avons également besoin d’ajouter plusieurs capacités au cilium-agent pour qu’il puisse fonctionner correctement sur Talos, notamment SYS_ADMIN pour la gestion des interfaces réseau.

On active Hubble pour avoir une interface web d’observabilité réseau temps réel. Nous n’utiliserons pas Envoy, qui est un proxy L7, pour ne pas abuser de la mémoire vive sur nos nœuds avec un autre DaemonSet. Si vous estimer avoir besoin de faire du network policy L7 (HTTP), n’hésitez pas à l’activer.

On active l’ensemble des ServiceMonitor et dashboards Grafana pour Cilium et Hubble, qui seront automatiquement détectés par Prometheus et Grafana plus tard.

Nous créons également un IngressRoute Traefik pour exposer l’interface web de Hubble en interne, protégée par un middleware BasicAuth que nous définirons plus tard dans le module module-ingress. Nous ne pourrons pas y accéder dans un 1er temps sauf via kpf -n kube-system svc/hubble-ui 8000:http.

1
resource "kubernetes_secret_v1" "hcloud" {
2
  metadata {
3
    name      = "hcloud"
4
    namespace = "kube-system"
5
  }
6
  data = {
7
    token   = var.hcloud_token,
8
    network = var.hcloud_network
9
  }
10
}
11

12
resource "helm_release" "hccm" {
13
  repository = "https://charts.hetzner.cloud"
14
  chart      = "hcloud-cloud-controller-manager"
15
  version    = "1.30.1"
16

17
  name        = "hccm"
18
  namespace   = "kube-system"
19
  max_history = 2
20

21
  set = [
22
    {
23
      name  = "networking.enabled"
24
      value = "true"
25
    },
26
    {
27
      name  = "networking.clusterCIDR"
28
      value = var.pod_ipv4_cidr
29
    },
30
    {
31
      name  = "monitoring.enabled"
32
      value = "true"
33
    },
34
    {
35
      name  = "monitoring.podMonitor.enabled"
36
      value = "true"
37
    }
38
  ]
39

40
  depends_on = [
41
    kubernetes_secret_v1.hcloud,
42
    helm_release.cilium
43
  ]
44
}

Explanation

Activer la gestion du réseau hcloud. L’installation du hccm doit impérativement se faire après l’installation de Cilium, car l’opérateur ne pourrait pas tourner sans CNI. Nous utilisons un kubernetes_secret pour passer le token d’API et le nom du réseau au chart Helm.

Le coeur de la config réseau est maintenant en place. Vous pouvez relancer terraform apply dans le dossier clusters/dev-kube pour installer notre duo Cilium et HCCM.

Si tout se passe bien, les noeuds devraient rapidement passer en statut Ready et en statut cloud initialisé. Vous pouvez vérifier cela avec les commandes suivantes (j’utiliserais dorénavant les alias fournis par oh-my-zsh pour kubectl) :

kgno
kdno okami-dev-control-plane-nbg1

Vous devriez apercevoir cette ligne spécifique indiquant que le CCM est bien actif :

1
# ...
2
ProviderID: hcloud://xxxxxxxxx # où xxxxxxxxx est l'ID du serveur Hetzner Cloud

Etant donné l’usage du mode natif pour Cilium, vous devriez également voir les routes dynamiques créées sur le réseau Hetzner Cloud, une correspondant à chaque nœud, et permettant la communication entre les pods à travers les différents nœuds via le réseau “physique” Hetzner Cloud :

Routes Hetzner

Vous pouvez maintenant lancer talosctl -n 10.0.0.2 health pour vérifier l’état de santé global du cluster. Tout devrait répondre correctement. Utiliser cilium status pour vérifier que Cilium est bien opérationnel.

Notre cluster kube est dorénavant pleinement fonctionnel et utilisable.

Metrics Server

Nous allons installer metrics-server pour bénéficier de certaines métriques propres à l’usage courant de Kubernetes.

1
resource "helm_release" "metrics_server" {
2
  repository = "https://kubernetes-sigs.github.io/metrics-server"
3
  chart      = "metrics-server"
4
  version    = "3.13.0"
5

6
  name        = "metrics-server"
7
  namespace   = "kube-system"
8
  max_history = 2
9

10
  set = [
11
    {
12
      name  = "metrics.enabled"
13
      value = "true"
14
    },
15
    {
16
      name  = "serviceMonitor.enabled"
17
      value = "true"
18
    }
19
  ]
20

21
  depends_on = [
22
    helm_release.hccm
23
  ]
24
}

Ceci vous permettra notamment l’utilisation de k top nodes et k top pods pour voir l’usage CPU/mémoire de vos nœuds et pods. Il est aussi requis les fonctionnalités d’autoscaling qui ne seront pas l’objet de ce guide.

Cert-Manager

Dernière étape réseau, l’installation de cert-manager pour la gestion des certificats TLS. Nous en aurons besoin pour les certificats internes et externes.

1
resource "kubernetes_namespace_v1" "cert_manager" {
2
  metadata {
3
    name = "cert-manager"
4
  }
5

6
  depends_on = [helm_release.hccm]
7
}
8

9
resource "helm_release" "cert_manager" {
10
  repository = "https://charts.jetstack.io"
11
  chart      = "cert-manager"
12
  version    = "v1.20.0"
13

14
  name        = "cert-manager"
15
  namespace   = kubernetes_namespace_v1.cert_manager.metadata[0].name
16
  max_history = 2
17

18
  set = [
19
    {
20
      name  = "crds.enabled"
21
      value = "true"
22
    },
23
    {
24
      name  = "prometheus.servicemonitor.enabled"
25
      value = "true"
26
    }
27
  ]
28
}

Conclusion

Les principaux composants réseau sont maintenant en place. Assurez-vous d’avoir un terraform apply propre avant de continuer, suite à la prochaine section pour l’installation de l’infra de stockage.