Un Talos européen de qualité - Part II - Infra physique

part-02

Objectif 🎯

Dans la section précédente, nous avons vu les prérequis via l’installation de notre propre gestionnaire de mot de passe ainsi que la création d’images Talos personnalisées pour nos control planes et workers, avec les extensions nécessaires pour Tailscale et Longhorn.

Pour rappel, l’objectif est de déployer Talos en mode Zero Trust, via le réseau privé Tailnet, i.e. qu’à aucun moment l’endpoint API Talos ou Kubernetes ne sera exposé sur Internet. Seul les control planes seront concernés, dans le sens ou les workers seront déjà accessibles au travers ces derniers. Ils doivent être initialisés avec une configuration Talos qui leur permette de rejoindre le cluster via Tailnet dès le premier boot. Il faudra pour cela utiliser le champ user_data de l’API Hetzner Cloud, qui sert habituellement à injecter un fichier cloud-init. Une fois le nœud connecté au réseau Tailnet, on réapplique la configuration Talos pour finaliser l’installation du cluster et bootstrapper Kubernetes dans la foulée.

Nous allons maintenant voir comment déployer un cluster Talos sur Hetzner Cloud au travers de 2 méthodes différentes au choix :

Via Talhelper qui est une solution simple d’approche, mélangeant déclaratif et impératif.
Via Terraform avec les providers officiels hcloud et talos. Plus avancée, mais réutilisable, avec une configuration Hcloud et Talos unifiée et seule commande à exécuter, c’est la méthode recommandée dans ce guide pour une approche entièrement GitOps.

Talhelper

Talhelper permet de générer les fichiers de configurations Talos pour chaque nœud, tout en étant GitOps friendly. Le mode opératoire :

Génération des clients secrets.
Définition du schéma de cluster Talos.
Génération des fichiers de configuration Talos depuis ce schéma.
Création l’infra physique via l’utilitaire hcloud (mode impératif), en injectant les fichiers de configuration Talos générés précédemment dans le champ user_data.
Générer les commandes pour réappliquer les configs et bootstrapper kube.

Création de la config Talos en mode déclaratif

Selon l’architecture cible décrite ici, le fichier talconfig.yaml ressemblerait à ça :

1
clusterName: ohmytalos-dev
2
talosVersion: v1.12.5
3
kubernetesVersion: v1.35.1
4
endpoint: https://ohmytalos-dev-control-plane-nbg1:6443
5
controlPlane:
6
  talosImageURL: factory.talos.dev/hcloud-installer/4a0d65c669d46663f377e7161e50cfd570c401f26fd9e7bda34a0216b6f1922b
7
  extensionServices:
8
    - name: tailscale
9
      environment:
10
        - TS_AUTHKEY=${TS_AUTHKEY}
11
  volumes:
12
    - name: STATE
13
      encryption:
14
        provider: luks2
15
        keys:
16
          - nodeID: {}
17
            slot: 0
18
    - name: EPHEMERAL
19
      encryption:
20
        provider: luks2
21
        keys:
22
          - static:
23
              passphrase: ${VOLUME_ENCRYPTION_PASSPHRASE}
24
            slot: 0
25
            lockToState: true
26
worker:
27
  talosImageURL: factory.talos.dev/hcloud-installer/613e1592b2da41ae5e265e8789429f22e121aab91cb4deb6bc3c0b6262961245
28
  volumes:
29
    - name: STATE
30
      encryption:
31
        provider: luks2
32
        keys:
33
          - nodeID: {}
34
            slot: 0
35
    - name: EPHEMERAL
36
      encryption:
37
        provider: luks2
38
        keys:
39
          - static:
40
              passphrase: ${VOLUME_ENCRYPTION_PASSPHRASE}
41
            slot: 0
42
            lockToState: true
43
cniConfig:
44
  name: none
45
clusterPodNets:
46
  - 10.42.0.0/16
47
clusterSvcNets:
48
  - 10.43.0.0/16
49
nodes:
50
  - hostname: control-plane-nbg1
51
    ipAddress: ohmytalos-dev-control-plane-nbg1
52
    installDisk: /dev/sda
53
    controlPlane: true
54
    ignoreHostname: true
55
  - hostname: control-plane-fsn1
56
    ipAddress: ohmytalos-dev-control-plane-fsn1
57
    installDisk: /dev/sda
58
    controlPlane: true
59
    ignoreHostname: true
60
  - hostname: control-plane-hel1
61
    ipAddress: ohmytalos-dev-control-plane-hel1
62
    installDisk: /dev/sda
63
    controlPlane: true
64
    ignoreHostname: true
65
  - hostname: worker
66
    ipAddress: 10.0.1.1, 10.0.1.2, 10.0.1.3
67
    installDisk: /dev/sda
68
    ignoreHostname: true
69
    nodeLabels:
70
      node.longhorn.io/create-default-disk: config
71
    nodeAnnotations:
72
      node.longhorn.io/default-disks-config: '[{"allowScheduling":true,"name":"system","path":"/var/lib/longhorn","tags":["local"]}]'
73
      node.longhorn.io/default-node-tags: '["worker"]'
74
    patches:
75
      - |-
76
        - op: add
77
          path: /machine/kubelet/extraConfig
78
          value:
79
            imageGCHighThresholdPercent: 55
80
            imageGCLowThresholdPercent: 50
81
  - hostname: storage
82
    ipAddress: 10.0.2.1, 10.0.2.2
83
    installDisk: /dev/sda
84
    ignoreHostname: true
85
    nodeLabels:
86
      node.kubernetes.io/exclude-from-external-load-balancers: "true"
87
      node.kubernetes.io/role: storage
88
      node.longhorn.io/create-default-disk: config
89
    nodeAnnotations:
90
      node.longhorn.io/default-disks-config: '[{"allowScheduling":true,"name":"system","path":"/var/lib/longhorn","tags":["local"]},{"allowScheduling":true,"name":"volume","path":"/var/mnt/longhorn","tags":["volume"]}]'
91
      node.longhorn.io/default-node-tags: '["storage"]'
92
    userVolumes:
93
      - name: longhorn
94
        encryption:
95
          provider: luks2
96
          keys:
97
            - static:
98
                passphrase: ${VOLUME_ENCRYPTION_PASSPHRASE}
99
              slot: 0
100
              lockToState: true
101
        provisioning:
102
          diskSelector:
103
            match: disk.dev_path == '/dev/sdb'
104
          grow: true
105
          minSize: 40Gi
106
    patches:
107
      - |-
108
        - op: add
109
          path: /machine/kubelet/extraConfig
110
          value:
111
            imageGCHighThresholdPercent: 55
112
            imageGCLowThresholdPercent: 50
113
            registerWithTaints:
114
              - key: node-role.kubernetes.io/storage
115
                effect: NoSchedule
116
patches:
117
  - |-
118
    - op: add
119
      path: /cluster/proxy
120
      value:
121
        disabled: true
122
    - op: add
123
      path: /cluster/externalCloudProvider
124
      value:
125
        enabled: true

Rajouter le fichier suivant pour les variables d’environnement secrètes :

1
TS_AUTHKEY: tskey-auth-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
2
VOLUME_ENCRYPTION_PASSPHRASE: supersecretpassphrase

Lancer les commandes suivantes pour générer les fichiers de conf pour chaque pool de nœud.

talhelper gensecret > talsecret.sops.yaml
sops -e -i talsecret.sops.yaml
sops -e -i talenv.sops.yaml
talhelper genconfig

Création infrastructure en mode impératif

On passe ensuite à la partie fastidieuse pour créer notre cluster physique en mode impératif via le CLI Hetzner Cloud. Assurez-vous d’être sur le bon contexte de projet via hcloud context.

# network
hcloud network create --name ohmytalos --ip-range 10.0.0.0/10
hcloud network add-subnet --type cloud --network-zone eu-central --ip-range 10.0.0.0/24 ohmytalos
hcloud network add-subnet --type cloud --network-zone eu-central --ip-range 10.0.1.0/24 ohmytalos
hcloud network add-subnet --type cloud --network-zone eu-central --ip-range 10.0.2.0/24 ohmytalos
hcloud firewall create --name ohmytalos

CP_SNAPSHOT_ID=$(hcloud image list -t snapshot -l name=cp,arch=amd64 -o columns=id | tail -n 1)
WK_SNAPSHOT_ID=$(hcloud image list -t snapshot -l name=wk,arch=amd64 -o columns=id | tail -n 1)

# control planes
hcloud server create --name ohmytalos-dev-control-plane-nbg1 --image $CP_SNAPSHOT_ID --type cx23 --location nbg1 --firewall ohmytalos --user-data-from-file clusterconfig/ohmytalos-dev-control-plane-nbg1.yaml
hcloud server attach-to-network --network ohmytalos --ip 10.0.0.2 ohmytalos-dev-control-plane-nbg1

# commandes similaires à chaque node...
# pensez à créer les 2 volumes et à les rattacher aux serveurs de nœuds de storage

Note

Noter --user-data-from-file qui permet d’injecter le fichier de configuration Talos. Il sera appliqué au premier boot de la machine, l’inscrivant dans le réseau Tailnet.

Une fois les machines démarrées, vous devriez voir les 3 control planes apparaître dans votre Tailnet. Approuvez-les si nécessaire, puis lancez les commandes générées via talhelper gencommand apply, talhelper gencommand bootstrap, talhelper gencommand kubeconfig pour finaliser l’installation du cluster et bootstrapper Kubernetes. Cela devrait donner quelque chose comme :

talosctl apply-config --talosconfig=./clusterconfig/talosconfig --nodes=10.0.0.2 --file=./clusterconfig/ohmytalos-dev-control-plane-nbg1.yaml;
talosctl apply-config --talosconfig=./clusterconfig/talosconfig --nodes=10.0.0.3 --file=./clusterconfig/ohmytalos-dev-control-plane-fsn1.yaml;
talosctl apply-config --talosconfig=./clusterconfig/talosconfig --nodes=10.0.0.4 --file=./clusterconfig/ohmytalos-dev-control-plane-hel1.yaml;
talosctl apply-config --talosconfig=./clusterconfig/talosconfig --nodes=10.0.1.1 --file=./clusterconfig/ohmytalos-dev-worker.yaml;
talosctl apply-config --talosconfig=./clusterconfig/talosconfig --nodes=10.0.1.2 --file=./clusterconfig/ohmytalos-dev-worker.yaml;
talosctl apply-config --talosconfig=./clusterconfig/talosconfig --nodes=10.0.1.3 --file=./clusterconfig/ohmytalos-dev-worker.yaml;
talosctl apply-config --talosconfig=./clusterconfig/talosconfig --nodes=10.0.2.1 --file=./clusterconfig/ohmytalos-dev-storage.yaml;
talosctl apply-config --talosconfig=./clusterconfig/talosconfig --nodes=10.0.2.2 --file=./clusterconfig/ohmytalos-dev-storage.yaml;

talosctl bootstrap --talosconfig=./clusterconfig/talosconfig --nodes=10.0.0.2;
talosctl kubeconfig --talosconfig=./clusterconfig/talosconfig --nodes=10.0.0.2;

Et voilà le cluster est prêt ! Vous pouvez maintenant tester un kubectl get nodes pour vous assurer de la présence de tous vos nodes. Ils seront en status NotReady pour l’instant, car nous n’avons pas encore installé de CNI (setté à none dans la config).

Conclusion sur Talhelper

Cette solution est intéressante dans le sens où l’on n’a pas à mettre les mains dans du code Terraform pur et dur, l’approche est donc plus directe. En échange, c’est forcément un peu plus impératif et manuel, même s’il n’est pas compliqué de se concocter un petit script bash pour automatiser au moins la création de l’infra physique Hcloud. Idéal en tout cas si l’on a déjà une infra Talos physique existante accessible.

L’autre inconvénient ici est que l’on est un peu obligé de décrire l’infrastructure deux fois, une via le schéma talconfig, et l’autre via les commandes Hcloud impératives (type de serveur, location, network, image, etc.).

Terraform

Nous le ferons avec l’aide du provider hcloud pour la création de l’infra en interrogeant l’API de Hetzner Cloud. Il sera utilisé en conjonction avec le provider talos qui gérera la configuration du cluster et le bootstrapping de Kubernetes. Le but ici est d’avoir un kube fonctionnel en une passe joignable dès la fin de terraform apply.

Pour la mise en place de l’infrastructure post-kube (CNI, Longhorn, ingress, monitoring), de nombreux guides basculent rapidement vers FluxCD, mais je ne suis pas très fan de cette approche. Je préfère garder la gestion de l’entièreté de l’infra avec Terraform/OpenTofu, et réserver FluxCD pour le déploiement des applications métiers uniquement. Le but étant de bien séparer les responsabilités entre équipe Infra / Dev.

De plus je divise aussi la partie infra en 2 modules Terraform distincts, avec séparation de la couche “physique” (Hcloud et config Talos) de la couche “logique” dédiée aux manifests Kubernetes. Cela simplifie grandement la maintenance du code Terraform ainsi que le process de mise à jour de chaque composant, car cela fonctionne de manière très différente dans chaque module. Voyer ça comme monter une baraque :

Fondations et charpentes : Hcloud et cluster Talos via Terraform
Murs et toiture : CNI, stockage, base de données, ingress, monitoring via Terraform
Aménagement intérieur : déploiement applicatif métier via FluxCD

Cette section s’attaque à la partie 1.

Remark (terraform-hcloud-kubernetes)

Il est à noter que le module hcloud officiel de déploiement de Talos, mélange l’étape 1 et 2 en un seul module. Il va même plus loin en injectant carrément les manifests généré par Helm dans la config Talos, ce qui a la fâcheuse conséquence de générer un state terraform énorme.

Mais il a le mérite d’être blindé et testé par la communauté, à défaut d’être simpliste techniquement. À l’écriture de ce guide, il a aussi 2 autres inconvénients : pas de gestion de volumes hcloud ni de schematic image par node pool. Mais il possède un autoscaler préconfiguré, pour ceux ayant ce genre de besoin.

Le sujet de l’autoscaling ne sera pas abordé dans ce guide, mais il pourra bien sûr être assez aisément intégré dans votre module terraform en installant son chart dédié 😊.

Initialisation

Reprenons le projet de l’étape précédente et préparons la structure suivante :

1
├── clusters
2
│   └── dev-hcloud
3
│       ├── .envrc
4
│       ├── cluster.tf
5
│       ├── outputs.tf
6
│       ├── terraform.tf
7
│       └── variables.tf
8
├── modules
9
│   └── hcloud
10
│       ├── firewalls.tf
11
│       ├── locals.tf
12
│       ├── network.tf
13
│       ├── outputs.tf
14
│       ├── servers.tf
15
│       ├── talos.tf
16
│       ├── terraform.tf
17
│       ├── variables.tf
18
│       └── volumes.tf
19
└── packer
20
    ├── .envrc
21
    ├── hcloud.pkr.hcl
22
    ├── mise.toml
23
    ├── schematic-cp.yaml
24
    └── schematic-wk.yaml

Le module modules/hcloud contiendra toute la logique pour créer les ressources Hetzner Cloud et installer Talos sous forme de nodes pools. Il pourra être réutilisé ainsi autant que nécessaire sur différents clusters (prod, staging, etc.). Le répertoire clusters/dev-hcloud contiendra uniquement la configuration spécifique à notre cluster en cours.

State Terraform

Pour l’hébergement de notre state Terraform, nous allons prendre un bucket S3 ohmytalos-dev dédié au cluster (ici OVH mais cela doit être plus ou moins identique chez n’importe quel autre provider).

Vu que ce n’est pas beaucoup plus compliqué, nous allons chiffrer le state via SSE-C. Au niveau du projet terraform en lui-même, seuls deux variables seront nécessaires, le token API Hetzner Cloud et le token Tailscale.

Danger

Le state contiendra les infos les plus sensibles de notre infra, comme le talosconfig, les machines config, etc. Toutefois l’impact restera mitigé en cas de fuite ici puisque le endpoint sera inaccessible en dehors du réseau Tailnet, ce qui nous laissera le temps de réagir en renouvelant toutes les clés de notre PKI.

Le token API Hetzner ne sera pas dans le state, étant uniquement utilisé localement pour l’accès API via le provider. Il y aura toutefois le token Tailnet, donc assurez-vous que l’enregistrement d’un device soit exclusivement approuvable par un admin Tailscale, ou encore mieux utiliser Tailnet Lock pour les plus paranos.

Allez sur votre Vaultwarden et créez les clés suivantes dans une collection dédiée Terraform - Hcloud Talos (noter son GUID collectionId pour la suite) :

Nom de la clé	Description
`terraform_state_s3`	Les identifiants d’accès au bucket S3, à générer côté OVH via un utilisateur S3 dédié, indiquer sa clé d’accès en `username` et la clé secrète en `password`
`terraform_state_sse_c`	La clé de chiffrement SSE-C, utiliser la commande `openssl rand -base64 32` pour générer la clé
`hcloud_token`	Le token API Hetzner Cloud, à générer dans votre projet Hcloud
`ts_auth_key`	le token d’authentification Tailscale, à générer dans votre compte Tailscale
`volume_encryption_passphrase`	la passphrase de chiffrement des volumes

Exporter vos variables comme suit :

BW_SESSION="$(bw unlock --raw)"
COLLECTION_ID=xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
ITEMS=$(bw list items --collectionid $COLLECTION_ID --session $BW_SESSION)

bw_field() {
  echo "$ITEMS" | jq -r --arg field "$1" --arg name "$2" \
    '.[] | select(.name==$name) | .login[$field]'
}

export AWS_ACCESS_KEY=$(bw_field username terraform_state_s3)
export AWS_SECRET_KEY=$(bw_field password terraform_state_s3)
export AWS_SSE_CUSTOMER_KEY=$(bw_field password terraform_state_sse_c)

export TF_VAR_hcloud_token=$(bw_field password hcloud_token)
export TF_VAR_ts_auth_key=$(bw_field password ts_auth_key)
export TF_VAR_volume_encryption_passphrase=$(bw_field password volume_encryption_passphrase)

Tip (perf)

Petite astuce ici, nous récupérons une seule fois la liste des items de la collection dans une variable ITEMS pour éviter d’appeler bw à chaque variable, ce qui serait bien trop lent.

Toutes les variables d’env TF_VAR_* seront automatiquement reconnues par Terraform comme des variables d’entrée.

Assurer vous toujours de lancer bw sync après maj d’une variable secrète, puis placez-vous dans le répertoire clusters/dev-hcloud et lancer un direnv allow. Le mot de passe maître du vault vous sera demandé. Assurez-vous que vos variables d’env sont bien chargées.

Dans le répertoire modules/hcloud, on ajoute les dépendances aux providers hcloud et talos et on prépare la variable token Hetzner Cloud.

terraform.tf
variables.tf

1
terraform {
2
  required_version = ">= 1.13.0"
3
  required_providers {
4
    hcloud = {
5
      source  = "hetznercloud/hcloud"
6
      version = ">= 1.52.0"
7
    }
8
    talos = {
9
      source  = "siderolabs/talos"
10
      version = ">= 0.10.0"
11
    }
12
  }
13
}
14

15
provider "hcloud" {
16
  token = var.hcloud_token
17
}

1
variable "hcloud_token" {
2
  type      = string
3
  sensitive = true
4
}

Côté config cluster, créer les fichiers terraform.tf pour initialiser le backend S3 et variables.tf pour nos 3 variables d’entrée. On prépare le module dans cluster.tf.

1
terraform {
2
  required_version = ">= 1.13.0"
3

4
  backend "s3" {
5
    endpoints = {
6
      s3 = "https://s3.gra.io.cloud.ovh.net"
7
    }
8
    skip_credentials_validation = true
9
    skip_region_validation      = true
10
    skip_requesting_account_id  = true
11
    skip_s3_checksum            = true
12
    region                      = "gra"
13
    bucket                      = "ohmytalos-dev"
14
    key                         = "terraform/hcloud.tfstate"
15
    encrypt                     = true
16
  }
17
}

1
variable "hcloud_token" {
2
  type      = string
3
  sensitive = true
4
}
5

6
variable "ts_auth_key" {
7
  type      = string
8
  sensitive = true
9
}
10

11
variable "volume_encryption_passphrase" {
12
  type      = string
13
  sensitive = true
14
}

1
module "hcloud_talos" {
2
  source = "../../modules/hcloud"
3

4
  hcloud_token = var.hcloud_token
5
}

Lancer un premier terraform init pour initialiser le backend S3 puis un terraform plan pour vérifier que tout est ok.

Variables

Le plus simple pour démarrer est d’exprimer la meilleur API de ce que l’on a besoin concrètement pour la création de notre cluster. On va donc définir toutes les variables d’entrée du module hcloud dans variables.tf.

1
variable "hcloud_token" {
2
  type      = string
3
  sensitive = true
4
}
5

6
variable "talos_version" {
7
  type        = string
8
}
9

10
variable "talos_endpoints" {
11
  type        = list(string)
12
  default     = []
13
}
14

15
variable "talos_snapshots" {
16
  type = list(object({
17
    name         = string
18
    schematic_id = string
19
  }))
20
}
21

22
variable "cluster_endpoint" {
23
  type        = string
24
  default     = null
25
}
26

27
variable "kubernetes_version" {
28
  type        = string
29
}
30

31
variable "cluster_name" {
32
  type        = string
33
}
34

35
variable "network_zone" {
36
  type        = string
37
}
38

39
variable "network_ipv4_cidr" {
40
  type        = string
41
}
42

43
variable "existing_network_id" {
44
  type        = string
45
  default     = null
46
}
47

48
variable "firewall_kube_api_source" {
49
  type        = list(string)
50
  default = [
51
    "127.0.0.1",
52
    "::1"
53
  ]
54
}
55

56
variable "firewall_talos_api_source" {
57
  type        = list(string)
58
  default = [
59
    "127.0.0.1",
60
    "::1"
61
  ]
62
}
63

64
variable "config_patches" {
65
  type        = list(string)
66
  default     = []
67
}
68

69
variable "control_planes_image_name" {
70
  type        = string
71
}
72

73
variable "control_planes_placement_group" {
74
  type        = string
75
}
76

77
variable "control_planes_config_patches" {
78
  type        = list(string)
79
  default     = []
80
}
81

82
variable "control_planes_ipv4_cidr" {
83
  type        = string
84
}
85

86
variable "control_planes" {
87
  type = list(object({
88
    name         = string
89
    server_type  = string
90
    location     = string
91
    ip           = string
92
  }))
93
}
94

95
variable "worker_nodepools" {
96
  type = list(object({
97
    name                 = string
98
    server_type          = string
99
    location             = string
100
    ipv4_cidr            = string
101
    placement_group      = optional(string)
102
    image_name           = optional(string)
103
    config_patches       = optional(list(string))
104
    config_patches_apply = optional(list(string))
105
    nodes = list(object({
106
      name        = string
107
      ip          = string
108
      server_type = optional(string)
109
      location    = optional(string)
110
    }))
111
    volumes = optional(list(object({
112
      name = string
113
      size = number
114
    })))
115
  }))
116
}

Nom	Description
`talos_version`	La version de Talos à utiliser sur les images d’installation. Ne déclenche aucune mise à jour, permet surtout d’afficher la liste des commandes talosctl à exécuter pour mettre à jour avec la bonne version d’image pour chaque nœud.
`talos_endpoints`	Liste des endpoints pour l’accès à l’API des nœuds Talos. Pour l’`apply` de la configuration, seul le 1er endpoint sera utilisé. Si vide, le hostname du 1er control plane sera utilisé, permettant au `MagicDNS` de Tailscale de s’exprimer.
`talos_snapshots`	Définition des snapshots disponibles créés précédemment via packer.
`kubernetes_version`	Version vanilla de kubernetes à installer au bootstrap. Attention, au contraire de la version talos dont la maj est manuelle, celle-ci déclenche un mise à jour directement, il est recommandé d’appliquer node par node via l’utilisation de l’argument `target` de terraform, ou d’utiliser `talosctl upgrade-k8s`.
`cluster_endpoint`	Le endpoint d’accès à Kube API server. Si vide utilise le hostname généré du 1er control plane. Est exporté dans la génération du kubeconfig.
`cluster_name`	Le nom du cluster kube. Servira de préfixe au niveau des hostnames de l’ensemble des nœuds.
`existing_network_id`	ID Hcloud du réseau existant à utiliser. Si vide création d’un nouveau réseau de même nom que le cluster.
`network_zone`	Zone géographique du réseau Hcloud en cas de création.
`network_ipv4_cidr`	Plage CIDR IPv4 du réseau Hcloud en cas de création. C’est ici que l’on utilisera `10.0.0.0/10`, laissant la place à d’autres réseaux possible dans le même projet.
`firewall_talos_api_source`	Liste des IPs à autoriser sur l’API Talos port `50000`. Uniquement valable pour l’accès externe. Du fait du mode Zero Trust, on laissera la valeur par défaut (aucun accès).
`firewall_kube_api_source`	Liste des IPs à autoriser sur l’API Kube port `6443`. Uniquement valable pour l’accès externe. Du fait du mode Zero Trust, on laissera la valeur par défaut (aucun accès).
`config_patches`	Liste des patchs de config Talos à appliquer sur l’ensemble des nœuds. Notamment utile pour la configuration du réseau du cluster (pods et service CIDR, CNI, etc.).
`control_planes_image_name`	Nom de l’image snapshot à utiliser pour l’installation des panneaux de contrôles.
`control_planes_placement_group`	Groupe de placement des serveurs de panneau de contrôle pour optimiser la disponibilité. Inutile si locations différentes.
`control_planes_config_patches`	Liste des patchs de config Talos à appliquer sur les panneaux de contrôles. Utile pour la configuration de l’extension Tailscale.
`control_planes_ipv4_cidr`	CIDR du Subnet dédié aux nœuds de panneau de contrôle.
`control_planes`	Définition des panneaux de contrôle, au nombre obligatoirement impair pour le quorum. Possibilité de définir hostname, différent emplacement géographique, type de serveur, adresse IP privée selon la plage CIDR pré-définie.
`worker_nodepools`	Définition des pools de nœuds de travail.
`worker_nodepools.*.name`	Nom du pool. Utilisé dans les hostnames des nœuds du même pool.
`worker_nodepools.*.server_type`	Type de serveur Hcloud par défaut à utiliser pour les nœuds du pool. Peut être surchargé sur chaque node.
`worker_nodepools.*.location`	Emplacement géographique par défaut des nœuds du pool. Peut être surchargé sur chaque node.
`worker_nodepools.*.image_name`	Nom de l’image snapshot à utiliser pour l’installation des nœuds de ce pool.
`worker_nodepools.*.placement_group`	Groupe de placement des nœuds de travail pour optimiser la disponibilité. Limite le pool à 10 nœuds max.
`worker_nodepools.*.config_patches`	Liste des patchs de config Talos à appliquer sur les nœuds du pool. Notamment pour la configuration des labels, volumes, teintes, etc.
`worker_nodepools.*.config_patches_apply`	Liste des patchs de config Talos à appliquer sur les nœuds du pool uniquement après que la machine soit créée et bootée au moment du apply. Utile pour les configs dépendant de conditions post-installation, typiquement le montage d’un volume externe.
`worker_nodepools.*.ipv4_cidr`	CIDR du subnet dédié au pool.
`worker_nodepools.*.nodes`	Liste des nœuds de travail dans le pool, identifiés par leur nom de suffixe et leur adresse IP privées. Possibilité d’y surcharger le type de serveur et la localisation.
`worker_nodepools.*.volumes`	Liste des volumes Hcloud à créer et rattacher à chaque nœud du pool. Déclarer ici 2 volumes sur un pool de 3 nœud équivaut à créer 6 volumes au total, chaque nœud ayant 2 volumes montés.

Déclaration

Ceci fait, voilà comment on peut utiliser ces variables pour déclarer notre cluster complet selon notre architecture cible, découpé en un fichier Terraform unique et plusieurs fichiers de config yaml.

1
module "hcloud_talos" {
2
  source = "../../modules/hcloud"
3

4
  hcloud_token = var.hcloud_token
5

6
  talos_version = "v1.12.5"
7
  talos_snapshots = [
8
    {
9
      name         = "cp",
10
      schematic_id = "4a0d65c669d46663f377e7161e50cfd570c401f26fd9e7bda34a0216b6f1922b"
11
    },
12
    {
13
      name         = "wk",
14
      schematic_id = "613e1592b2da41ae5e265e8789429f22e121aab91cb4deb6bc3c0b6262961245"
15
    },
16
  ]
17

18
  kubernetes_version = "v1.35.1"
19
  cluster_name       = "ohmytalos-dev"
20
  network_zone       = "eu-central"
21
  network_ipv4_cidr  = "10.0.0.0/10"
22

23
  config_patches = [
24
    file("${path.module}/patches/volume-state.yaml"),
25
    templatefile("${path.module}/patches/volume-ephemeral.yaml", {
26
      volume_encryption_passphrase = var.volume_encryption_passphrase
27
    }),
28
    file("${path.module}/patches/config-cluster.yaml"),
29
  ]
30

31
  control_planes_ipv4_cidr  = "10.0.0.0/24"
32
  control_planes_image_name = "cp"
33
  control_planes_config_patches = [
34
    templatefile("${path.module}/patches/extension-tailscale.yaml", {
35
      ts_auth_key = var.ts_auth_key
36
    }),
37
    yamlencode({
38
      cluster = {
39
        extraManifests = [
40
          "https://raw.githubusercontent.com/alex1989hu/kubelet-serving-cert-approver/main/deploy/standalone-install.yaml"
41
        ]
42
      }
43
    })
44
  ]
45

46
  control_planes = [
47
    {
48
      name        = "nbg1"
49
      server_type = "cpx22"
50
      location    = "nbg1"
51
      ip          = "10.0.0.2"
52
    },
53
    {
54
      name        = "fsn1"
55
      server_type = "cpx22"
56
      location    = "fsn1"
57
      ip          = "10.0.0.3"
58
    },
59
    {
60
      name        = "hel1"
61
      server_type = "cpx22"
62
      location    = "hel1"
63
      ip          = "10.0.0.4"
64
    }
65
  ]
66

67
  worker_nodepools = [
68
    {
69
      name            = "worker"
70
      server_type     = "cpx32"
71
      location        = "nbg1"
72
      image_name      = "wk"
73
      placement_group = "workers"
74
      ipv4_cidr       = "10.0.1.0/24"
75
      nodes = [
76
        { name = "ndk", ip = "10.0.1.1" },
77
        { name = "opb", ip = "10.0.1.2" },
78
        { name = "ozi", ip = "10.0.1.3" }
79
      ]
80
      config_patches = [
81
        file("${path.module}/patches/config-machine-worker.yaml")
82
      ]
83
    },
84
    {
85
      name            = "storage"
86
      server_type     = "cpx32"
87
      location        = "nbg1"
88
      image_name      = "wk"
89
      placement_group = "storages"
90
      ipv4_cidr       = "10.0.2.0/24"
91
      nodes = [
92
        { name = "vsh", ip = "10.0.2.1" },
93
        { name = "wty", ip = "10.0.2.2" }
94
      ]
95
      volumes = [
96
        { name = "longhorn", size = 80 }
97
      ]
98
      config_patches = [
99
        file("${path.module}/patches/config-machine-storage.yaml")
100
      ]
101
      config_patches_apply = [
102
        templatefile("${path.module}/patches/volume-longhorn.yaml", {
103
          volume_encryption_passphrase = var.volume_encryption_passphrase
104
        })
105
      ]
106
    }
107
  ]
108
}

Explanation

Plutôt limpide ! Avantage par rapport à Talhelper, la configuration Talos se greffe en fonction de l’infra physique, et non l’inverse. On peut ainsi plus facilement raisonner en terme d’infra (type de serveur, emplacement, réseau, etc.) et de config (cluster, stockage, extensions, etc.) de manière séparée, et tout se fait en une seule fois. Reste plus qu’à écrire la logique…

Points notables :

talos_snapshots : On précise les 2 snapshots disponibles créées précédemment via packer.
config_patches : On applique les patchs communs à l’ensemble des nœuds, notamment la configuration du réseau du cluster (CIDR pods et services, CNI, etc.) et chiffrement des volumes systèmes.
control_planes_config_patches : On y configure l’extension Tailscale ainsi que le contrôleur d’approbation automatique des certificats kubelet du fait de l’activation rotate-server-certificates.
control_planes : On déclare les 3 panneaux de contrôle, chacun dans un emplacement géographique différent pour la résilience.
worker_nodepools : Et enfin tous nos nodepools, chacun dans leur propre subnet. Je choisis de nommer les nœuds des différents pools selon un suffixe aléatoire fixe. Libre à vous de faire autrement. On utilise placement_group pour optimiser la disponibilité des nœuds en cas de défaillance (limité jusqu’à 10). Préciser le volume externe à utiliser pour chaque nœud du pool de storage. Utiliser config_patches_apply pour appliquer la configuration de volume Longhorn uniquement après que le volume soit montée.

1
cluster:
2
  externalCloudProvider:
3
    enabled: true
4
  network:
5
    cni:
6
      name: none
7
    podSubnets:
8
      - 10.42.0.0/16
9
    serviceSubnets:
10
      - 10.43.0.0/16
11
  proxy:
12
    disabled: true
13
machine:
14
  kubelet:
15
    extraConfig:
16
      imageGCLowThresholdPercent: 50
17
      imageGCHighThresholdPercent: 55

Explanation

Du fait de l’utilisation du CCM de Hcloud, activer externalCloudProvider. Désactiver le CNI et le proxy kube par défaut, à remplacer plus tard par Cilium. Préciser les CIDR des pods et services, le CIDR utilisé pour la communication entre pods impliquera la création automatique d’une route native pour chaque nœud en 10.42.x.0/24 par le CCM Hcloud. Enfin, configurer le kubelet pour une gestion par défaut moins agressive du garbage collector d’images afin de laisser la place aux volumes locaux de longhorn.

1
machine:
2
  nodeLabels:
3
    node.longhorn.io/create-default-disk: config
4
  nodeAnnotations:
5
    node.longhorn.io/default-disks-config: '[{"allowScheduling":true,"name":"system","path":"/var/lib/longhorn","tags":["local"]}]'
6
    node.longhorn.io/default-node-tags: '["worker"]'

1
machine:
2
  nodeLabels:
3
    node.kubernetes.io/exclude-from-external-load-balancers: "true"
4
    node.kubernetes.io/role: storage
5
    node.longhorn.io/create-default-disk: config
6
  nodeAnnotations:
7
    node.longhorn.io/default-disks-config: '[{"allowScheduling":true,"name":"system","path":"/var/lib/longhorn","tags":["local"]},{"allowScheduling":true,"name":"volume","path":"/var/mnt/longhorn","tags":["volume"]}]'
8
    node.longhorn.io/default-node-tags: '["storage"]'
9
  kubelet:
10
    extraConfig:
11
      registerWithTaints:
12
        - key: node-role.kubernetes.io/storage
13
          effect: NoSchedule

Explanation

Principalement de la config Longhorn, déjà expliqué au chapitre précédent, des labels et des teintes pour s’assurer de ne pas scheduler de pods de workloads génériques sur les nœuds de storage, et des labels pour les identifier plus facilement. Load Balancer seulement sur les nœuds web frontaux.

1
apiVersion: v1alpha1
2
kind: VolumeConfig
3
name: STATE
4
encryption:
5
  provider: luks2
6
  keys:
7
    - slot: 0
8
      nodeID: {}

1
apiVersion: v1alpha1
2
kind: VolumeConfig
3
name: EPHEMERAL
4
encryption:
5
  provider: luks2
6
  keys:
7
    - slot: 0
8
      static:
9
        passphrase: ${volume_encryption_passphrase}
10
      lockToState: true

1
apiVersion: v1alpha1
2
kind: UserVolumeConfig
3
name: longhorn
4
provisioning:
5
  diskSelector:
6
    match: disk.dev_path == '/dev/sdb'
7
  grow: true
8
  minSize: 40Gi
9
encryption:
10
  provider: luks2
11
  keys:
12
    - slot: 0
13
      static:
14
        passphrase: ${volume_longhorn_passphrase}
15
      lockToState: true

Explanation

Du chiffrement + configuration volume externe Longhorn pour le pool de storage avec agrandissement automatique.

1
apiVersion: v1alpha1
2
kind: ExtensionServiceConfig
3
name: tailscale
4
environment:
5
  - TS_AUTHKEY=${ts_auth_key}

Explanation

Le token d’authentification Tailscale pour la connexion au réseau Tailnet pour les panneaux de contrôle.

Implémentation

1
locals {
2
  talos_snapshots = { for s in var.talos_snapshots : s.name => s.schematic_id }
3
  talos_endpoints = length(var.talos_endpoints) > 0 ? var.talos_endpoints : [for s in local.control_planes : "${var.cluster_name}-${s.name}"]
4

5
  machine_base_config = {
6
    kubelet = {
7
      nodeIP = {
8
        validSubnets = concat(
9
          [
10
            var.control_planes_ipv4_cidr,
11
          ],
12
          [
13
            for s in hcloud_network_subnet.worker : s.ip_range
14
          ]
15
        )
16
      }
17
      extraArgs = {
18
        "rotate-server-certificates" = true
19
      }
20
    }
21
    features = {
22
      hostDNS = {
23
        enabled              = true
24
        forwardKubeDNSToHost = true
25
        resolveMemberNames   = true
26
      }
27
    }
28
    time = {
29
      servers = [
30
        "ntp1.hetzner.de",
31
        "ntp2.hetzner.com",
32
        "ntp3.hetzner.net",
33
        "time.cloudflare.com"
34
      ]
35
    }
36
  }
37

38
  machine_control_plane_config = merge(local.machine_base_config, {
39
    features = merge(local.machine_base_config.features, {
40
      kubernetesTalosAPIAccess = {
41
        enabled = true
42
        allowedRoles = [
43
          "os:reader",
44
          "os:etcd:backup"
45
        ]
46
        allowedKubernetesNamespaces = [
47
          "kube-system",
48
        ]
49
      }
50
    })
51
  })
52

53
  cluster_control_plane_config = {
54
    controllerManager = {
55
      extraArgs = {
56
        "bind-address" = "0.0.0.0"
57
      }
58
    }
59
    etcd = {
60
      advertisedSubnets = [
61
        var.control_planes_ipv4_cidr
62
      ]
63
      extraArgs = {
64
        "listen-metrics-urls" = "http://0.0.0.0:2381"
65
      }
66
    }
67
    scheduler = {
68
      extraArgs = {
69
        "bind-address" = "0.0.0.0"
70
      }
71
    }
72
  }
73

74
  control_planes = [
75
    for i, s in var.control_planes : {
76
      name                 = "control-plane-${s.name}"
77
      server_type          = s.server_type
78
      location             = s.location
79
      machine_type         = "controlplane"
80
      firewall_ids         = [hcloud_firewall.talos_api.id, hcloud_firewall.kube_api.id]
81
      private_ipv4         = s.ip
82
      placement_group_id   = var.control_planes_placement_group != null ? hcloud_placement_group.this[var.control_planes_placement_group].id : null
83
      image_name           = coalesce(var.control_planes_image_name, "default")
84
      machine_config       = local.machine_control_plane_config
85
      cluster_config       = local.cluster_control_plane_config
86
      config_patches       = var.control_planes_config_patches
87
      config_patches_apply = []
88
    }
89
  ]
90
  workers = flatten([
91
    for i, np in var.worker_nodepools : [
92
      for index, n in np.nodes : {
93
        name                 = "${np.name}-${n.name}"
94
        server_type          = coalesce(n.server_type, np.server_type)
95
        location             = coalesce(n.location, np.location)
96
        machine_type         = "worker"
97
        firewall_ids         = [hcloud_firewall.talos_api.id]
98
        private_ipv4         = n.ip
99
        placement_group_id   = np.placement_group != null ? hcloud_placement_group.this[np.placement_group].id : null
100
        image_name           = coalesce(np.image_name, "default")
101
        machine_config       = local.machine_base_config
102
        cluster_config       = {}
103
        config_patches       = coalesce(np.config_patches, [])
104
        config_patches_apply = coalesce(np.config_patches_apply, [])
105
        volumes              = coalesce(np.volumes, [])
106
      }
107
    ]
108
  ])
109

110
  servers = [for s in concat(local.control_planes, local.workers) : merge(s, {
111
    config_patches = concat(
112
      [
113
        yamlencode({
114
          machine = merge(
115
            s.machine_config,
116
            {
117
              install = {
118
                image = "factory.talos.dev/hcloud-installer/${local.talos_snapshots[s.image_name]}:${var.talos_version}"
119
              }
120
            }
121
          )
122
          cluster = s.cluster_config
123
        })
124
      ],
125
      var.config_patches,
126
      coalesce(s.config_patches, [])
127
    )
128
  })]
129

130
  volumes = flatten([
131
    for i, s in local.workers : [
132
      for v in s.volumes : {
133
        server_name = s.name
134
        location    = s.location
135
        name        = "${s.name}-${v.name}"
136
        size        = v.size
137
      }
138
    ]
139
  ])
140
}

Explanation

Ce fichier ne sert essentiellement qu’à construire des structures de données complexes à partir des variables d’entrée, pour simplifier la logique dans les autres fichiers. On y retrouve la configuration Talos de base, celle spécifique aux panneaux de contrôle, la configuration du cluster, et la construction des listes de serveurs et volumes à créer.

1
resource "hcloud_network" "this" {
2
  count    = var.existing_network_id == null ? 1 : 0
3
  name     = var.cluster_name
4
  ip_range = var.network_ipv4_cidr
5
}
6

7
resource "hcloud_network_subnet" "control_plane" {
8
  network_id   = coalesce(var.existing_network_id, hcloud_network.this[0].id)
9
  type         = "cloud"
10
  network_zone = var.network_zone
11
  ip_range     = var.control_planes_ipv4_cidr
12
}
13

14
resource "hcloud_network_subnet" "worker" {
15
  for_each     = { for np in var.worker_nodepools : np.name => np }
16
  network_id   = coalesce(var.existing_network_id, hcloud_network.this[0].id)
17
  type         = "cloud"
18
  network_zone = var.network_zone
19
  ip_range     = each.value.ipv4_cidr
20
}

Explanation

Tout commence par la création de l’architecture réseau. Cela consiste juste à un réseau principal, avec un subnet dédié aux panneaux de contrôle et un subnet par pool de nœuds de travail.

1
resource "hcloud_firewall" "talos_api" {
2
  name = "${var.cluster_name}-talos-api"
3

4
  rule {
5
    description = "Allow Incoming Talos API Traffic"
6
    direction   = "in"
7
    protocol    = "tcp"
8
    port        = "50000"
9
    source_ips  = var.firewall_talos_api_source
10
  }
11
}
12

13
resource "hcloud_firewall" "kube_api" {
14
  name = "${var.cluster_name}-kube-api"
15

16
  rule {
17
    description = "Allow Incoming Requests to Kube API Server"
18
    direction   = "in"
19
    protocol    = "tcp"
20
    port        = "6443"
21
    source_ips  = var.firewall_kube_api_source
22
  }
23
}

Explanation

Ensuite, on définit les pare-feux pour d’éventuel accès externes aux API Talos et Kube. Par défaut tout est bloqué, on n’autorise que l’adresse de loopback.

1
data "hcloud_image" "talos_x86_snapshot" {
2
  for_each          = local.talos_snapshots
3
  with_selector     = "version=${var.talos_version},name=${each.key}"
4
  with_architecture = "x86"
5
  most_recent       = true
6
}
7

8
data "hcloud_image" "talos_arm_snapshot" {
9
  for_each          = local.talos_snapshots
10
  with_selector     = "version=${var.talos_version},name=${each.key}"
11
  with_architecture = "arm"
12
  most_recent       = true
13
}
14

15
resource "hcloud_server" "this" {
16
  for_each           = { for s in local.servers : s.name => s }
17
  name               = "${var.cluster_name}-${each.key}"
18
  server_type        = each.value.server_type
19
  location           = each.value.location
20
  image              = substr(each.value.server_type, 0, 3) == "cax" ? data.hcloud_image.talos_arm_snapshot[each.value.image_name].id : data.hcloud_image.talos_x86_snapshot[each.value.image_name].id
21

22
  placement_group_id = each.value.placement_group_id
23
  firewall_ids       = each.value.firewall_ids
24

25
  network {
26
    network_id = coalesce(var.existing_network_id, hcloud_network.this[0].id)
27
    ip         = each.value.private_ipv4
28
    alias_ips  = []
29
  }
30

31
  user_data = data.talos_machine_configuration.this[each.value.name].machine_configuration
32

33
  labels = {
34
    type = each.value.machine_type
35
  }
36

37
  depends_on = [
38
    hcloud_network_subnet.control_plane,
39
    hcloud_network_subnet.worker
40
  ]
41

42
  lifecycle {
43
    ignore_changes = [
44
      user_data,
45
      image
46
    ]
47
  }
48
}
49

50
resource "hcloud_placement_group" "this" {
51
  for_each = { for pg in distinct(concat(
52
    compact([
53
      var.control_planes_placement_group
54
    ]),
55
    [
56
      for s in var.worker_nodepools : s.placement_group if s.placement_group != null
57
    ])
58
  ) : pg => pg }
59
  name = "${var.cluster_name}-${each.value}"
60
  type = "spread"
61
}

Explanation

Ensuite, on crée les serveurs dans leur groupe de placement, si défini. Les serveurs sont directement :

Bloqués par le pare-feu avant démarrage.
Branchés au bon réseau avec la bonne IP privée qui déterminera le subnet.
Initialisés avec la bonne configuration Talos via le user_data.

On choisit l’image snapshot adaptée à l’architecture cible.

1
resource "hcloud_volume" "this" {
2
  for_each = { for v in local.volumes : v.name => v if v.size >= 10 }
3
  name     = "${var.cluster_name}-${each.key}"
4
  size     = each.value.size
5
  location = each.value.location
6
}
7

8
resource "hcloud_volume_attachment" "this" {
9
  for_each  = { for v in local.volumes : v.name => v if v.size >= 10 }
10
  volume_id = hcloud_volume.this[each.key].id
11
  server_id = hcloud_server.this[each.value.server_name].id
12
}

Explanation

On crée et l’on attache les volumes externes sur chaque nœud du pool dont lesdits volumes ont été définis.

1
resource "talos_machine_secrets" "this" {
2
  talos_version = var.talos_version
3
}
4

5
data "talos_client_configuration" "this" {
6
  cluster_name         = var.cluster_name
7
  client_configuration = talos_machine_secrets.this.client_configuration
8
  endpoints            = local.talos_endpoints
9
  nodes = [
10
    for s in local.servers : s.private_ipv4
11
  ]
12
}
13

14
data "talos_machine_configuration" "this" {
15
  for_each           = { for m in local.servers : m.name => m }
16
  cluster_name       = var.cluster_name
17
  kubernetes_version = var.kubernetes_version
18
  machine_type       = each.value.machine_type
19
  cluster_endpoint = coalesce(
20
    var.cluster_endpoint,
21
    "https://${var.cluster_name}-${local.control_planes[0].name}:6443"
22
  )
23
  machine_secrets = talos_machine_secrets.this.machine_secrets
24
  talos_version   = var.talos_version
25
  docs            = false
26
  examples        = false
27
  config_patches  = each.value.config_patches
28
}
29

30
resource "talos_machine_configuration_apply" "this" {
31
  for_each                    = { for s in local.servers : s.name => s }
32
  client_configuration        = talos_machine_secrets.this.client_configuration
33
  machine_configuration_input = data.talos_machine_configuration.this[each.value.name].machine_configuration
34
  endpoint                    = local.talos_endpoints[0]
35
  node                        = each.value.private_ipv4
36
  config_patches              = each.value.config_patches_apply
37
  depends_on = [
38
    hcloud_server.this,
39
    hcloud_volume_attachment.this,
40
  ]
41
}
42

43
resource "talos_machine_bootstrap" "this" {
44
  client_configuration = talos_machine_secrets.this.client_configuration
45
  endpoint             = local.talos_endpoints[0]
46
  node                 = local.servers[0].private_ipv4
47
  depends_on = [
48
    talos_machine_configuration_apply.this
49
  ]
50
}

Explanation

Toute la configuration talos générée et à injecter dans les serveurs Hcloud. On reconnait certaines étapes de Talhelper :

Génération des secrets, injectés dans le state terraform.
Génération de la configuration client talosconfig pour les accès via apply.
Génération de la configuration machine pour chaque nœud, en fonction de son type (panneau de contrôle ou nœud de travail), avec les patchs communs et spécifiques. Sera injecté dans le user_data des serveurs Hcloud.
Application de la configuration sur chaque nœud, via le 1er endpoint Talos, une fois les serveurs en ligne. On oublie pas le depends_on pour s’assurer que les serveurs sont bien créés avant.
Bootstrap du cluster kube depuis le 1er panneau de contrôle disponible. À effectuer en dernière étape finale après l’application des configurations.

1
output "talosconfig" {
2
  value     = data.talos_client_configuration.this.talos_config
3
  sensitive = true
4
}
5

6
output "kubeconfig_command" {
7
  description = "Command to get kubeconfig from talos."
8
  value       = "talosctl -n ${join(",", [for s in local.control_planes : s.private_ipv4])} kubeconfig"
9
}
10

11
output "health_command" {
12
  description = "Command to check health of the cluster. Be sure that CNI part is up and running."
13
  value       = "talosctl -n ${local.control_planes[0].private_ipv4} health --control-plane-nodes ${join(",", [for s in local.control_planes : s.private_ipv4])} --worker-nodes ${join(",", [for s in local.workers : s.private_ipv4])}"
14
}
15

16
output "upgrade_command" {
17
  description = "Command to upgrade the cluster."
18
  value = [for k, v in { for s in concat(local.control_planes, local.workers) : s.image_name => s.private_ipv4... } :
19
    "talosctl -n ${join(",", v)} upgrade --image factory.talos.dev/hcloud-installer/${local.talos_snapshots[k]}:${var.talos_version}"
20
  ]
21
}

Explanation

Similairement à Talhelper, on permet l’exportation du talosconfig, ainsi que la génération des commandes utiles pour récupérer le kubeconfig, vérifier la santé du cluster et effectuer les mises à jour de Talos sur chaque nœud avec les bonnes images.

On n’oublie pas de reporter les outputs dans le module terraform principal pour les exporter dans le state.

1
output "talosconfig" {
2
  value     = module.hcloud_talos.talosconfig
3
  sensitive = true
4
}
5

6
output "kubeconfig_command" {
7
  value = module.hcloud_talos.kubeconfig_command
8
}
9

10
output "health_command" {
11
  value = module.hcloud_talos.health_command
12
}
13

14
output "upgrade_command" {
15
  value = module.hcloud_talos.upgrade_command
16
}

Et voilà, c’est l’heure du grand test, lancer terraform apply et prier ! Encore une fois, si l’approbation des nœuds des control planes au réseau Tailnet est manuel, penser à accepter sur l’admin Tailscale les nouveaux devices qui devraient apparaître après la création des serveurs, i.e. au moment où terraform lance les opérations module.hcloud_talos.talos_machine_configuration_apply.this.

Tip

Si Tailnet Lock est actif, utiliser les commandes tailscale lock status pour choper le nodekey puis tailscale lock sign nodekey:xxx.

Le terraform apply terminé, il ne reste plus qu’à récupérer le talosconfig et le kubeconfig :

terraform output -raw talosconfig > ~/.talos/config
talosctl -n 10.0.0.2 kubeconfig

Utiliser talosctl -n 10.0.0.2 dashboard pour accéder au TUI Talos qui devrait afficher l’ensemble des composants cœur de kube healthy (kubelet, api-server, controller-manager, scheduler), mais en état not ready à gauche.

Lancer kubectl get nodes -o wide ou plutôt kgno -o wide pour vérifier l’état des nœuds. Après quelques minutes, ils devraient tous apparaître en état NotReady, attendant bien sagement l’installation du CNI.

1
NAME                               STATUS     ROLES           AGE     VERSION   INTERNAL-IP   EXTERNAL-IP   OS-IMAGE          KERNEL-VERSION   CONTAINER-RUNTIME
2
ohmytalos-dev-control-plane-nbg1   NotReady   control-plane   6m46s   v1.35.2   10.0.0.2      <none>        Talos (v1.12.5)   6.18.15-talos    containerd://2.1.6
3
ohmytalos-dev-control-plane-fsn1   NotReady   control-plane   4m9s    v1.35.2   10.0.0.3      <none>        Talos (v1.12.5)   6.18.15-talos    containerd://2.1.6
4
ohmytalos-dev-control-plane-hel1   NotReady   control-plane   6m39s   v1.35.2   10.0.0.4      <none>        Talos (v1.12.5)   6.18.15-talos    containerd://2.1.6
5
ohmytalos-dev-worker-ndk           NotReady   <none>          6m1s    v1.35.2   10.0.1.1      <none>        Talos (v1.12.5)   6.18.15-talos    containerd://2.1.6
6
ohmytalos-dev-worker-opb           NotReady   <none>          5m43s   v1.35.2   10.0.1.2      <none>        Talos (v1.12.5)   6.18.15-talos    containerd://2.1.6
7
ohmytalos-dev-worker-ozi           NotReady   <none>          5m43s   v1.35.2   10.0.1.3      <none>        Talos (v1.12.5)   6.18.15-talos    containerd://2.1.6
8
ohmytalos-dev-storage-vsh          NotReady   <none>          5m22s   v1.35.2   10.0.2.1      <none>        Talos (v1.12.5)   6.18.15-talos    containerd://2.1.6
9
ohmytalos-dev-storage-wty          NotReady   <none>          6m6s    v1.35.2   10.0.2.2      <none>        Talos (v1.12.5)   6.18.15-talos    containerd://2.1.6

Ne lancez pas la commande talosctl -n 10.0.0.2 health pour le moment, puisque le cluster n’est pas encore opérationnel, bien que physiquement accessible.

Conclusion

Nous en avons terminé sur la création du cluster physique, suite à la prochaine section pour l’installation de l’infra logicielle kube.