Un Talos européen de qualité - Part V - Ingress

part-05

Objectif 🎯

À la fin de la section précédente, nous sommes arrivés à un kube avec tous les composants critiques de base installés. Il est temps de rendre notre cluster accessible sous 2 points d’entrées :

Privée pour les outils internes, uniquement accessible à travers le réseau Tailnet.
Publique pour les services web à exposer sur internet, uniquement accessibles via le Load Balancer Hetzner et sécurisée via une solution WAF interne sans nécessairement dépendre d’une solution classique externe renforcée telle que Cloudflare.

Architecture

Comme nous utilisons Hcloud, nous allons utiliser le LoadBalancer natif de Hetzner pour exposer notre Ingress Controller. Grâce à l’intégration cloud opéré par HCCM installé lors de la section 2 de ce guide, nous allons pouvoir automatiser la création et le management des LB Hetzner physique directement au niveau des annotations du service qui servira de LoadBalancer. Le but est d’implémenter l’architecture classique suivante :

ingress-public

Quant aux outils internes, nous allons les exposer via un Ingress interne, accessible uniquement depuis le réseau Tailnet.

Il est donc essentiel d’avoir 2 services bien distincts, un pour l’Ingress public et un pour l’Ingress privé. Les règles d’accès et typologie réseau seront en effet très différentes entre les 2, l’un nécessitant une exposition publique et nécessitant des protections particulières et l’autre étant restreint au réseau interne.

Certificate Issuer

Avant d’attaquer les hostilités avec Traefik, il faut nous débarrasser de la problématique des certificats TLS. Le plus flexible est de générer des wildcards via challenge DNS-01. Du fait de l’utilisation des DNS Scaleway dans ce guide, nous installerons le webhook en charge d’implémenter ce challenge sur les DNS Scaleway. À adapter selon votre propre DNS parmi la myriade de choix entre les providers, ou au pire des cas, implémenter le. Enfin, nous définirons le ClusterIssuer à utiliser par défaut lors de la génération de notre futur certificat.

1
module "kube_ingress" {
2
  source = "../../modules/kube/ingress"
3

4
  scw_dns_access_key = var.scw_dns_username
5
  scw_dns_secret_key = var.scw_dns_password
6

7
  acme_email  = "me@ohmytalos.io"
8
}

Explanation

En plus du traditionnel email pour l’ACME, nous aurons besoin d’avoir les variables scw_dns_access_key et scw_dns_secret_key correctement renseignées à générer depuis l’interface Scaleway. Ils sont indispensables pour l’accès en écriture à l’API DNS pour créer les entrées nécessaires à la résolution du challenge DNS-01.

1
variable "scw_dns_username" {
2
  type = string
3
}
4

5
variable "scw_dns_password" {
6
  type      = string
7
  sensitive = true
8
}

# ...

export TF_VAR_scw_dns_username=$(bw_field username scw_dns)
export TF_VAR_scw_dns_password=$(bw_field password scw_dns)

1
variable "scw_dns_access_key" {
2
  description = "The access key for the Scaleway DNS API"
3
  type        = string
4
}
5

6
variable "scw_dns_secret_key" {
7
  description = "The secret key for the Scaleway DNS API"
8
  type        = string
9
  sensitive   = true
10
}

1
resource "helm_release" "cert_manager_webhook_scaleway" {
2
  repository = "https://helm.scw.cloud"
3
  chart      = "scaleway-certmanager-webhook"
4
  version    = "0.4.1"
5

6
  name        = "scw"
7
  namespace   = "cert-manager"
8
  max_history = 2
9

10
  set = [
11
    {
12
      name  = "secret.accessKey"
13
      value = var.scw_dns_access_key
14
    }
15
  ]
16

17
  set_sensitive = [
18
    {
19
      name  = "secret.secretKey"
20
      value = var.scw_dns_secret_key
21
    }
22
  ]
23
}
24

25
resource "kubernetes_manifest" "cluster_issuer_letsencrypt_production" {
26
  manifest = {
27
    apiVersion = "cert-manager.io/v1"
28
    kind       = "ClusterIssuer"
29
    metadata = {
30
      name = "letsencrypt-production"
31
    }
32
    spec = {
33
      acme = {
34
        email = var.acme_email
35
        privateKeySecretRef = {
36
          name = "letsencrypt-production"
37
        }
38
        server = "https://acme-v02.api.letsencrypt.org/directory"
39
        solvers = [
40
          {
41
            dns01 = {
42
              webhook = {
43
                groupName  = "acme.scaleway.com"
44
                solverName = "scaleway"
45
              }
46
            }
47
          }
48
        ]
49
      }
50
    }
51
  }
52
  depends_on = [helm_release.cert_manager_webhook_scaleway]
53
}

Traefik

1
module "kube_ingress" {
2
  // ...
3

4
  crowdsec_bouncer_lapi_key = var.crowdsec_bouncer_lapi_key
5

6
  traefik_http_basic_auth_username = var.traefik_internal_basic_auth_username
7
  traefik_http_basic_auth_password = var.traefik_internal_basic_auth_password
8

9
  traefik_service_annotations = {
10
    for key, value in {
11
      name                  = "${local.cluster_name}-traefik"
12
      type                  = "lb11"
13
      location              = "nbg1"
14
      use-private-ip        = "true"
15
      private-ipv4          = "10.0.1.100"
16
      uses-proxyprotocol    = "true"
17
      health-check-interval = "15s"
18
      health-check-timeout  = "10s"
19
      health-check-retries  = "3"
20
    } :
21
    "load-balancer.hetzner.cloud/${key}" => value
22
  }
23

24
  common_name = "ohmytalos.io"
25
  dns_names = [
26
    "ohmytalos.io",
27
    "*.ohmytalos.io",
28
    "*.dev.ohmytalos.io"
29
  ]
30
  internal_domain = local.internal_domain
31
}

Explanation

Bien que les services internes soient déjà prévus d’être protégés via le réseau Tailnet, il reste indispensable de leur rajouter un middleware de protection HTTP basic auth. Il n’est pas question de laisser l’accès au dashboard longhorn ouvert même sur du réseau interne. Nous rajoutons donc les variables traefik_http_basic_auth_username et traefik_http_basic_auth_password pour définir les identifiants d’accès.

Nous prévoyons également d’installer le plugin CrowdSec bouncer pour Traefik, qui nous permettra de protéger l’Ingress public contre les attaques web courantes. Un token crowdsec_bouncer_lapi_key sera nécessaire pour que le plugin puisse s’authentifier auprès de l’API locale de CrowdSec. Générer le via openssl rand -hex 10 et stocker le dans votre vault.

Nous aurons besoin également de définir les annotations du service de type LoadBalancer pour que le LB Hetzner soit créé avec les bonnes options, grâce au HCCM déployé précédemment. L’utilisation du paramètre uses-proxyprotocol est indispensable pour que Traefik puisse récupérer la bonne IP source du client, au lieu de l’IP du LB Hetzner, permettant le bon fonctionnement du futur WAF. Nous utiliserons le protocole TCP par défaut, et donc du TLS Passthrough au niveau du port 443, la responsabilité de la terminaison TLS étant déléguée à Traefik.

Enfin nous définissons les common_name et dns_names pour générer 2 certificats TLS wildcard via le ClusterIssuer Let’s Encrypt que nous avons défini préalablement, un pour l’interne et un pour l’externe.

1
// ...
2

3
variable "traefik_internal_basic_auth_username" {
4
  type = string
5
}
6

7
variable "traefik_internal_basic_auth_password" {
8
  type      = string
9
  sensitive = true
10
}
11

12
variable "crowdsec_bouncer_lapi_key" {
13
  type      = string
14
  sensitive = true
15
}

# ...

export TF_VAR_traefik_internal_basic_auth_username=$(bw_field username traefik_internal_basic_auth)
export TF_VAR_traefik_internal_basic_auth_password=$(bw_field password traefik_internal_basic_auth)
export TF_VAR_crowdsec_bouncer_lapi_key=$(bw_field password crowdsec_bouncer_lapi_key)

1
// ...
2

3
variable "common_name" {
4
  description = "The main domain name to use for the certificate"
5
  type        = string
6
}
7

8
variable "dns_names" {
9
  description = "The list of DNS names to use for the certificate"
10
  type        = list(string)
11
}
12

13
variable "traefik_http_basic_auth_username" {
14
  description = "The username for the basic auth"
15
  sensitive   = true
16
}
17

18
variable "traefik_http_basic_auth_password" {
19
  description = "The password for the basic auth"
20
  sensitive   = true
21
}
22

23
variable "internal_domain" {
24
  description = "The internal domain name to use for the private network"
25
  type        = string
26
}
27

28
variable "traefik_service_annotations" {
29
  description = "The annotations to add to the traefik ingress"
30
  type        = map(string)
31
  default     = {}
32
}
33

34
variable "crowdsec_bouncer_lapi_key" {
35
  description = "The API key for bouncer for the crowdsec local API"
36
  type        = string
37
  sensitive   = true
38
}

1
resource "kubernetes_namespace_v1" "traefik" {
2
  metadata {
3
    name = "traefik"
4
  }
5
}
6

7
resource "kubernetes_manifest" "certificate_default_certificate" {
8
  manifest = {
9
    apiVersion = "cert-manager.io/v1"
10
    kind       = "Certificate"
11
    metadata = {
12
      name      = "default-certificate"
13
      namespace = kubernetes_namespace_v1.traefik.metadata[0].name
14
    }
15
    spec = {
16
      commonName = var.common_name
17
      dnsNames   = var.dns_names
18
      issuerRef = {
19
        kind = kubernetes_manifest.cluster_issuer_letsencrypt_production.manifest.kind
20
        name = kubernetes_manifest.cluster_issuer_letsencrypt_production.manifest.metadata.name
21
      }
22
      secretName = "tls-default-certificate"
23
    }
24
  }
25
}
26

27
resource "kubernetes_secret_v1" "internal_basic_auth" {
28
  metadata {
29
    name      = "internal-basic-auth"
30
    namespace = kubernetes_namespace_v1.traefik.metadata[0].name
31
  }
32
  type = "kubernetes.io/basic-auth"
33

34
  data = {
35
    username = var.traefik_http_basic_auth_username
36
    password = var.traefik_http_basic_auth_password
37
  }
38
}
39

40
resource "kubernetes_manifest" "traefik_middleware_internal_basic_auth" {
41
  manifest = {
42
    apiVersion = "traefik.io/v1alpha1"
43
    kind       = "Middleware"
44
    metadata = {
45
      name      = "internal-basic-auth"
46
      namespace = kubernetes_namespace_v1.traefik.metadata[0].name
47
    }
48
    spec = {
49
      basicAuth = {
50
        secret = kubernetes_secret_v1.internal_basic_auth.metadata[0].name
51
      }
52
    }
53
  }
54
}
55

56
resource "kubernetes_manifest" "traefik_middleware_internal_ips" {
57
  manifest = {
58
    apiVersion = "traefik.io/v1alpha1"
59
    kind       = "Middleware"
60
    metadata = {
61
      name      = "internal-ips"
62
      namespace = kubernetes_namespace_v1.traefik.metadata[0].name
63
    }
64
    spec = {
65
      ipWhiteList = {
66
        sourceRange = [
67
          "127.0.0.1/32",
68
          "100.64.0.0/10",
69
        ]
70
      }
71
    }
72
  }
73
}
74

75
resource "kubernetes_manifest" "traefik_middleware_crowdsec_bouncer" {
76
  manifest = {
77
    apiVersion = "traefik.io/v1alpha1"
78
    kind       = "Middleware"
79
    metadata = {
80
      name      = "crowdsec-bouncer"
81
      namespace = kubernetes_namespace_v1.traefik.metadata[0].name
82
    }
83
    spec = {
84
      plugin = {
85
        bouncer = {
86
          enabled                        = true
87
          crowdsecMode                   = "appsec"
88
          crowdsecAppsecEnabled          = true
89
          crowdsecAppsecHost             = "crowdsec-appsec-service.crowdsec:7422"
90
          crowdsecLapiScheme             = "http"
91
          crowdsecLapiHost               = "crowdsec-service.crowdsec:8080"
92
          crowdsecLapiKey                = var.crowdsec_bouncer_lapi_key
93
          crowdsecAppsecUnreachableBlock = false
94
        }
95
      }
96
    }
97
  }
98
}
99

100
resource "kubernetes_manifest" "traefik_middleware_compress" {
101
  manifest = {
102
    apiVersion = "traefik.io/v1alpha1"
103
    kind       = "Middleware"
104
    metadata = {
105
      name      = "compress"
106
      namespace = kubernetes_namespace_v1.traefik.metadata[0].name
107
    }
108
    spec = {
109
      compress = {}
110
    }
111
  }
112
}
113

114
resource "helm_release" "traefik" {
115
  repository = "https://traefik.github.io/charts"
116
  chart      = "traefik"
117
  version    = "39.0.5"
118

119
  name        = "traefik"
120
  namespace   = kubernetes_namespace_v1.traefik.metadata[0].name
121
  max_history = 2
122

123
  set = [
124
    {
125
      name  = "deployment.kind"
126
      value = "DaemonSet"
127
    },
128
    {
129
      name  = "providers.kubernetesCRD.allowCrossNamespace"
130
      value = "true"
131
    },
132
    {
133
      name  = "ingressRoute.dashboard.enabled"
134
      value = "true"
135
    },
136
    {
137
      name  = "ingressRoute.dashboard.matchRule"
138
      value = "Host(`traefik.${var.internal_domain}`)"
139
    },
140
    {
141
      name  = "ingressRoute.dashboard.middlewares[0].name"
142
      value = kubernetes_manifest.traefik_middleware_internal_basic_auth.manifest.metadata.name
143
    },
144
    {
145
      name  = "tlsStore.default.defaultCertificate.secretName"
146
      value = kubernetes_manifest.certificate_default_certificate.manifest.spec.secretName
147
    },
148
    {
149
      name  = "logs.general.level"
150
      value = "FATAL"
151
    },
152
    {
153
      name  = "logs.access.enabled"
154
      value = "true"
155
    },
156
    {
157
      name  = "logs.access.format"
158
      value = "json"
159
    },
160
    {
161
      name  = "experimental.plugins.bouncer.moduleName"
162
      value = "github.com/maxlerebourg/crowdsec-bouncer-traefik-plugin"
163
    },
164
    {
165
      name  = "experimental.plugins.bouncer.version"
166
      value = "v1.5.1"
167
    },
168
    {
169
      name  = "metrics.prometheus.serviceMonitor.enabled"
170
      value = "true"
171
    },
172
    {
173
      name  = "tracing.addInternals"
174
      value = "true"
175
    },
176
    {
177
      name  = "tracing.otlp.enabled"
178
      value = "true"
179
    },
180
    {
181
      name  = "tracing.otlp.http.enabled"
182
      value = "true"
183
    },
184
    {
185
      name  = "tracing.otlp.http.endpoint"
186
      value = "http://alloy.telemetry:4318/v1/traces"
187
    },
188
    {
189
      name  = "ports.web.http.redirections.entryPoint.to"
190
      value = "websecure"
191
    },
192
    {
193
      name  = "ports.web.http.redirections.entryPoint.scheme"
194
      value = "https"
195
    },
196
    {
197
      name  = "ports.web.http.redirections.entryPoint.permanent"
198
      value = "true"
199
    },
200
    {
201
      name  = "ports.websecure.asDefault"
202
      value = "true"
203
    },
204
    {
205
      name  = "ports.websecure.transport.respondingTimeouts.readTimeout"
206
      value = "300s"
207
    },
208
    {
209
      name  = "ports.ssh.port"
210
      value = "2222"
211
    },
212
    {
213
      name  = "ports.ssh.exposedPort"
214
      value = "22"
215
    },
216
    {
217
      name  = "ports.ssh.expose.default"
218
      value = "true"
219
    },
220
    {
221
      name  = "ports.internal.port"
222
      value = "9443"
223
    },
224
    {
225
      name  = "ports.internal.exposedPort"
226
      value = "443"
227
    },
228
    {
229
      name  = "ports.internal.expose.internal"
230
      value = "true"
231
    },
232
    {
233
      name  = "ports.internal.http.tls.enabled"
234
      value = "true"
235
    },
236
    {
237
      name  = "service.type"
238
      value = length(var.traefik_service_annotations) == 0 ? "ClusterIP" : "LoadBalancer"
239
    },
240
    {
241
      name  = "service.additionalServices.internal.type"
242
      value = "ClusterIP"
243
    }
244
  ]
245

246
  set_list = concat(
247
    [
248
      {
249
        name  = "ports.internal.http.middlewares"
250
        value = ["traefik-${kubernetes_manifest.traefik_middleware_internal_ips.manifest.metadata.name}@kubernetescrd"]
251
      },
252
      {
253
        name  = "ingressRoute.dashboard.entryPoints"
254
        value = ["internal"]
255
      },
256
      {
257
        name = "ports.websecure.http.middlewares"
258
        value = [
259
          "traefik-${kubernetes_manifest.traefik_middleware_crowdsec_bouncer.manifest.metadata.name}@kubernetescrd",
260
          "traefik-${kubernetes_manifest.traefik_middleware_compress.manifest.metadata.name}@kubernetescrd"
261
        ]
262
      }
263
    ],
264
    [
265
      for entry_point in ["ssh", "web", "websecure", "internal"] : {
266
        name  = "ports.${entry_point}.proxyProtocol.trustedIPs"
267
        value = ["127.0.0.1/32", "10.0.0.0/8"]
268
      }
269
    ],
270
    [
271
      for entry_point in ["ssh", "web", "websecure", "internal"] : {
272
        name  = "ports.${entry_point}.forwardedHeaders.trustedIPs"
273
        value = ["127.0.0.1/32", "10.0.0.0/8"]
274
      }
275
    ]
276
  )
277

278
  values = [
279
    yamlencode({
280
      service = {
281
        annotations = var.traefik_service_annotations
282
      }
283
    })
284
  ]
285
}

Explanation

Il y a énormément à dire sur cette configuration de Traefik qui couvre tous les points évoqués ci-dessus.

Tout d’abord, nous créons le certificat TLS wildcard par défaut du cluster qui sera généré via le ClusterIssuer Let’s Encrypt préalablement défini. Il sera stocké dans le secret tls-default-certificate et référencé dans la configuration de Traefik.

Nous définissons pas moins de 4 middlewares :

Endpoint public :

crowdsec-bouncer : le plugin CrowdSec pour Traefik, qui se connecte au service CrowdSec du namespace crowdsec que l’on déploiera juste après. On ne bloque pas la requête tant que le service AppSec n’est pas démarré.
compress : un middleware de compression zstd, brotli ou gzip des réponses HTTP et assets pour améliorer les performances.

Endpoint privé :

internal-basic-auth : un middleware de protection HTTP basic auth pour protéger l’accès aux services internes critiques (dont dashboard Traefik, Longhorn et Hubble).
internal-ips : un middleware de whitelist IP pour forcer l’accès au port interne 9443 uniquement aux IPs du réseau Tailnet et localhost, empêchant tout risque d’exposition externe.

Nous activons tous les services d’observabilité :

Les logs d’accès au format json, qui sera parsé et analysé par le WAF.
Les métriques Prometheus.
Le tracing OpenTelemetry, qui sera envoyé plus tard vers Alloy via le collector OTLP.

Autres points :

Nous déployons Traefik en DaemonSet pour qu’il soit présent sur tous les nœuds du pool worker.
Le dashboard est activé et protégé par le middleware internal-basic-auth, match l’hôte traefik.dev.ohmytalos.io, et est accessible exclusivement via le port internal 9443.
Redirection automatique de HTTP vers HTTPS.
Entrypoint websecure par défaut.
Ajout du port ssh réservé pour gitea plus tard.
Ajout du port internal avec activation du TLS, protégé par le middleware internal-ips, empêchant tout risque d’exposition des services internes en cas de mauvaise configuration.

De très loin la configuration la plus complexe jusqu’ici, lancer la commande terraform apply devrait vous déployer un Traefik avec son certificat SSL.

Avant de continuer, assurez-vous que le certificat est bien généré et en status Ready via la commande cmctl status certificate default-certificate -n traefik. Vous pouvez vérifier les challenges en cours via la commande k get challenges -n traefik. Cette opération peut prendre plusieurs minutes.

Enfin, vérifier que le load balancer Hetzner est bien créé et que le service LoadBalancer de Traefik possède une IP publique attribuée via kgs -n traefik. Cela devrait afficher quelque chose comme suit avec les 2 services, un public et un privé :

1
NAME               TYPE           CLUSTER-IP      EXTERNAL-IP                                   PORT(S)                                   AGE
2
traefik            LoadBalancer   10.43.142.148   10.0.1.100,2a01:4f8:1c1f:7ffa::1,91.98.5.26   22:30310/TCP,80:32093/TCP,443:32736/TCP   17d
3
traefik-internal   ClusterIP      10.43.245.78    <none>                                        443/TCP                                   17d

Si EXTERNAL-IP est en Pending, alors quelque chose coince au niveau de la création du load balancer physique.

Hcloud LB

Vérifier le status des 9 services (3x3) :

Hcloud LB Overview

Vous pouvez dès à présent enregistrer les entrées DNS suivantes :

1
@     3600 IN A     <public_ipv4>
2
@     3600 IN AAAA  <public_ipv6>
3
dev   3600 IN A     <private_ipv4_tailnet_control_plane_nbg1>
4
dev   3600 IN A     <private_ipv4_tailnet_control_plane_fsn1>
5
dev   3600 IN A     <private_ipv4_tailnet_control_plane_hel1>
6
*     3600 IN CNAME ohmytalos.io.
7
*.dev 3600 IN CNAME dev.ohmytalos.io.

Après un certain temps de propagation, aller sur https://test.ohmytalos.io/ pour tomber sur la 404 classique de Traefik avec le certificat valide.

HAProxy

Voilà un bon gros morceau de fait. Il reste maintenant à accéder à nos services internes de manière sécurisée via Tailnet. Pour rappel, seuls les control planes sont branchés sur ce réseau privé, il est donc logique d’accéder à nos services au travers d’eux. L’idée est donc de mettre en place un HAProxy en mode TCP 443 (TLS Passthrough) sur chaque control plane, qui fera office de reverse proxy TCP pour router les connexions vers le service traefik-internal du cluster Kubernetes, la partie certificat *.dev.ohmytalos.io étant déjà réglé à l’étape précédente. Le schéma suivant récapitulatif :

ingress-private

1
resource "kubernetes_namespace_v1" "haproxy" {
2
  metadata {
3
    name = "haproxy"
4
    labels = {
5
      "pod-security.kubernetes.io/enforce" = "privileged"
6
    }
7
  }
8
}
9

10
resource "helm_release" "haproxy" {
11
  repository = "https://haproxytech.github.io/helm-charts"
12
  chart      = "haproxy"
13
  version    = "1.28.0"
14

15
  name        = "haproxy"
16
  namespace   = kubernetes_namespace_v1.haproxy.metadata[0].name
17
  max_history = 2
18

19
  set = [
20
    {
21
      name  = "kind"
22
      value = "DaemonSet"
23
    },
24
    {
25
      name  = "daemonset.useHostNetwork"
26
      value = "true"
27
    },
28
    {
29
      name  = "daemonset.useHostPort"
30
      value = "true"
31
    },
32
    {
33
      name  = "dnsPolicy"
34
      value = "ClusterFirstWithHostNet"
35
    },
36
    {
37
      name  = "tolerations[0].key"
38
      value = "node-role.kubernetes.io/control-plane"
39
    },
40
    {
41
      name  = "tolerations[0].operator"
42
      value = "Exists"
43
    },
44
    {
45
      name  = "nodeSelector.node-role\\.kubernetes\\.io/control-plane"
46
      value = ""
47
    },
48
    {
49
      name  = "config"
50
      value = <<EOF
51
global
52
    log stdout format raw local0
53
    maxconn 1024
54

55
defaults
56
  log global
57
  timeout client 60s
58
  timeout connect 60s
59
  timeout server 60s
60

61
frontend traefik_in
62
  bind :443
63
  default_backend traefik_backend
64

65
backend traefik_backend
66
  server traefik-internal traefik-internal.traefik:443 check send-proxy-v2
67
EOF
68
    }
69
  ]
70
}

Explanation

Rien de bien particulier ici, nous déployons HAProxy en DaemonSet sur les control planes uniquement, avec le hostNetwork et hostPort activé pour binder le port 443 de chaque nœud. Le chart est configuré pour router toutes les connexions entrantes sur le port 443 vers le service traefik-internal du namespace traefik, en utilisant le mode send-proxy-v2 pour que Traefik puisse récupérer la bonne IP source du client et traverser le middleware de protection d’ips internes tailnet.

Déployer le tout avec terraform apply, et vous devriez être capable d’accéder au dashboard Traefik interne sur https://traefik.dev.ohmytalos.io/ via le réseau Tailnet, le tout protégé par le middleware HTTP basic auth. Assurez-vous d’avoir bien enregistré les IPs internes tailnet sur votre DNS pour tous les sous-domaines *.dev.

Traefik dashboard

Vous devriez également pouvoir accéder aux dashboards de Hubble UI et Longhorn UI, respactivement sur hubble.dev.ohmytalos.io et longhorn.dev.ohmytalos.io via le réseau Tailnet.

CrowdSec

Il ne reste plus que notre WAF à mettre en place pour un truc pro. CrowdSec sera la solution privilégiée pour protéger l’Ingress public. Il est composé à la fois d’un véritable WAF AppSec qui bloque en temps réel la plupart des attaques courantes dont le top 10 OWASP, mais aussi d’un analyseur comportemental par extraction des données de logs.

ingress-waf

Diagramme de séquence en cas de requête malveillante :

ingress-waf-malicious

Et dans le cadre d’une requête légitime :

ingress-waf-not-malicious

1
terraform {
2
  required_providers {
3
    hcloud = {
4
      source  = "hetznercloud/hcloud"
5
      version = ">= 1.43.0"
6
    }
7
  }
8

9
  // ...
10
}
11

12
// ...
13

14
provider "hcloud" {
15
  token = var.hcloud_token
16
}

1
data "hcloud_servers" "workers" {
2
  with_selector = "type=worker"
3
}
4

5
data "hcloud_servers" "control_planes" {
6
  with_selector = "type=controlplane"
7
}
8

9
module "kube_ingress" {
10
  // ...
11

12
  crowdsec_enroll_key           = var.crowdsec_enroll_key
13
  crowdsec_enroll_instance_name = local.cluster_name
14

15
  crowdsec_whitelist_ips = concat(
16
    [for s in data.hcloud_servers.control_planes.servers : s.ipv4_address],
17
    [for s in data.hcloud_servers.workers.servers : s.ipv4_address],
18
    [for s in data.hcloud_servers.control_planes.servers : s.ipv6_address],
19
    [for s in data.hcloud_servers.workers.servers : s.ipv6_address]
20
  )
21

22
  crowdsec_whitelist_rule_ids = [
23
    911100,
24
    920420,
25
    920450,
26
  ]
27
}

Explanation

Vous pouvez récupérer votre clé d’enrôlement depuis l’interface web de CrowdSec Cloud.

Petite particularité ici, on whiteliste les IPs publiques de tous les nœuds du cluster (control planes et workers) pour des raisons évidentes. Pour cela, n’oubliez pas de déclarer le provider hcloud afin de récupérer les IPs depuis l’API Hetzner.

Vu que l’on activera le WAF crs en mode bloquant, il faut anticiper les faux positifs en prévoyant de whitelister facilement les règles modsecurity.

1
// ...
2
variable "crowdsec_enroll_key" {
3
  type      = string
4
  sensitive = true
5
}

# ...

export TF_VAR_crowdsec_bouncer_lapi_key=$(bw_field password crowdsec_bouncer_lapi_key)

1
// ...
2

3
variable "crowdsec_enroll_key" {
4
  description = "The enroll key for the crowdsec agent"
5
  type        = string
6
  sensitive   = true
7
}
8

9
variable "crowdsec_enroll_instance_name" {
10
  description = "The instance name to use for the crowdsec agent enrollment"
11
  type        = string
12
}
13

14
variable "crowdsec_whitelist_ips" {
15
  description = "The public IPs to whitelist in crowdsec"
16
  type        = list(string)
17
  default     = []
18
}
19

20
variable "crowdsec_whitelist_rule_ids" {
21
  description = "The IDs of the crowdsec rules to whitelist"
22
  type        = list(number)
23
  default     = []
24
}

1
resource "kubernetes_namespace_v1" "crowdsec" {
2
  metadata {
3
    name = "crowdsec"
4
    labels = {
5
      "pod-security.kubernetes.io/enforce" = "privileged"
6
    }
7
  }
8
}
9

10
resource "helm_release" "crowdsec" {
11
  repository = "https://crowdsecurity.github.io/helm-charts"
12
  chart      = "crowdsec"
13
  version    = "0.22.1"
14

15
  name        = "crowdsec"
16
  namespace   = kubernetes_namespace_v1.crowdsec.metadata[0].name
17
  max_history = 2
18

19
  set = [
20
    {
21
      name  = "container_runtime"
22
      value = "containerd"
23
    },
24
    {
25
      name  = "agent.acquisition[0].namespace"
26
      value = "traefik"
27
    },
28
    {
29
      name  = "agent.acquisition[0].podName"
30
      value = "traefik-*"
31
    },
32
    {
33
      name  = "agent.acquisition[0].program"
34
      value = "traefik"
35
    },
36
    {
37
      name  = "agent.acquisition[0].poll_without_inotify"
38
      value = "true"
39
    },
40
    {
41
      name  = "agent.env[0].name"
42
      value = "COLLECTIONS"
43
    },
44
    {
45
      name  = "agent.env[0].value"
46
      value = "crowdsecurity/traefik"
47
    },
48
    {
49
      name  = "agent.env[1].name"
50
      value = "POSTOVERFLOWS"
51
    },
52
    {
53
      name  = "agent.env[1].value"
54
      value = "crowdsecurity/seo-bots-whitelist"
55
    },
56
    {
57
      name  = "lapi.metrics.serviceMonitor.enabled"
58
      value = "true"
59
    },
60
    {
61
      name  = "agent.metrics.serviceMonitor.enabled"
62
      value = "true"
63
    },
64
    {
65
      name  = "lapi.persistentVolume.data.storageClassName"
66
      value = "longhorn-crypto"
67
    },
68
    {
69
      name  = "lapi.persistentVolume.config.storageClassName"
70
      value = "longhorn-crypto"
71
    },
72
    {
73
      name  = "lapi.env[0].name"
74
      value = "BOUNCER_KEY_traefik"
75
    },
76
    {
77
      name  = "lapi.env[0].value"
78
      value = var.crowdsec_bouncer_lapi_key
79
    },
80
    {
81
      name  = "lapi.env[1].name"
82
      value = "ENROLL_KEY"
83
    },
84
    {
85
      name  = "lapi.env[1].value"
86
      value = var.crowdsec_enroll_key
87
    },
88
    {
89
      name  = "lapi.env[2].name"
90
      value = "ENROLL_INSTANCE_NAME"
91
    },
92
    {
93
      name  = "lapi.env[2].value"
94
      value = var.crowdsec_enroll_instance_name
95
    },
96
    {
97
      name = "config.parsers.s02-enrich.01-my-whitelist\\.yaml"
98
      value = yamlencode({
99
        name        = "my/whitelist"
100
        description = "Whitelist events from my IPs"
101
        whitelist = {
102
          reason = "My IPs"
103
          ip     = var.crowdsec_whitelist_ips
104
        }
105
      })
106
    },
107
    {
108
      name  = "appsec.enabled"
109
      value = "true"
110
    },
111
    {
112
      name  = "appsec.env[0].name"
113
      value = "COLLECTIONS"
114
    },
115
    {
116
      name  = "appsec.env[0].value"
117
      value = "crowdsecurity/appsec-virtual-patching crowdsecurity/appsec-crs-inband"
118
    },
119
    {
120
      name = "appsec.configs.my-whitelist-rules\\.yaml"
121
      value = yamlencode({
122
        name = "my/whitelist-rules"
123
        on_load = [
124
          {
125
            apply = [
126
              for id in var.crowdsec_whitelist_rule_ids : "RemoveInBandRuleByID(${id})"
127
            ]
128
          }
129
        ]
130
      })
131
    },
132
  ]
133

134
  values = [
135
    yamlencode({
136
      appsec = {
137
        acquisitions = [
138
          {
139
            source      = "appsec"
140
            listen_addr = "0.0.0.0:7422"
141
            path        = "/"
142
            appsec_configs = [
143
              "crowdsecurity/virtual-patching",
144
              "crowdsecurity/crs-inband",
145
              "my/whitelist-rules"
146
            ]
147
            labels = {
148
              type = "appsec"
149
            }
150
          }
151
        ]
152
      }
153
    })
154
  ]
155
}

Explanation

L’important ici est d’activer l’acquisition des logs de Traefik via le container_runtime containerd, en ciblant le namespace traefik et les pods traefik-*.

On active également le module AppSec de CrowdSec, qui fera office de WAF, tout en lui exposant le service sur le port 7422 qui sera consommé par le plugin Traefik.

Pour la 1ère fois, nous avons l’occasion de tester les volumes longhorn chiffrés pour stocker les données de CrowdSec LAPI. Pour cela, nous allons utiliser le paramètre storageClassName configuré sur longhorn-crypto. Les volumes seront ainsi dynamiquement créés et provisionnés.

On oublie pas de configurer la whitelist des IPs publiques du cluster, ainsi que ceux des bots SEO via le postoverflows crowdsecurity/seo-bots-whitelist. Utiliser les règles modsecurity pour éviter les faux positifs, par l’utilisation de RemoveInBandRuleByID.

Comme d’habitude, un petit coup de terraform apply pour lancer le déploiement. Vérifier les logs des agents via kl -n crowdsec ds/crowdsec-agent, afin de vous assurer que les logs de Traefik sont bien ingérés. Côté longhorn, 2 nouveaux volumes devraient être créés pour CrowdSec.

Pour vérifier le bon fonctionnement du WAF, tester rapidement avec https://test.ohmytalos.io/.env. Vous devriez avoir un retour 403. Grâce à la collection CRS, les failles top 10 OWASP les plus communes telles que celles basées sur XSS et injection SQL sont également bloquées.

 # XSS -> 403
curl "https://test.ohmytalos.io/?<script>alert(1)</script>" -v

 # SQL injection -> 403
curl "https://test.ohmytalos.io/?username=1'%20or%20'1'%20=%20'1&amp;password=1'%20or%20'1'%20=%20'1" -v

Conclusion

Voilà pour la partie Ingress, qui n’est pas si triviale que ça quand il s’agit d’avoir quelque chose un minimum sérieux. Vous avez désormais un Ingress public robuste, sécurisé et prêt à être pleinement monitoré, ainsi qu’un accès privé aux services internes via Tailnet. Le tout avec des certificats TLS valides et renouvelés automatiquement.

Pas mal non ? Il faut maintenant s’occuper des backups et de la mise en place des clusters de base de données pour nos futures applications, en nous appuyant sur les opérateurs installés lors de la section précédente. Suite à la prochaine section.