stfc · anish-mudaraddi · Jan 16, 2025 · Jan 16, 2025 · Jan 16, 2025 · DavidFair
diff --git a/charts/dev/capi-infra/values.yaml b/charts/dev/capi-infra/values.yaml
@@ -354,6 +354,19 @@ openstack-cluster:
     autoscale: false
     machineFlavor: l3.micro
 
+    rolloutStrategy:
+      type: RollingUpdate
+      rollingUpdate:
+        # The maximum number of node group machines that can be unavailable during the update
+        # Can be an absolute number or a percentage of the desired count
+        maxUnavailable: 0
+        # The maximum number of machines that can be scheduled above the desired count for
+        # the group during an update
+        # Can be an absolute number or a percentage of the desired count
+        maxSurge: 1
+        # One of Random, Newest, Oldest
+        deletePolicy: Random
+
     healthCheck:
       enabled: true
       spec:

diff --git a/charts/staging/capi-infra/Chart.yaml b/charts/staging/capi-infra/Chart.yaml
@@ -4,4 +4,4 @@ version: 1.3.0
 dependencies:
   - repository: https://azimuth-cloud.github.io/capi-helm-charts
     name: openstack-cluster
-    version: 0.11.2
+    version: 0.12.2
diff --git a/charts/staging/capi-infra/values.yaml b/charts/staging/capi-infra/values.yaml
@@ -1,6 +1,6 @@
 openstack-cluster:
-  kubernetesVersion: "1.30.6"
-  machineImage: "capi-ubuntu-2204-kube-v1.30.6-2024-11-15"
+  kubernetesVersion: "1.31.4"
+  machineImage: "capi-ubuntu-2204-kube-v1.31.4-2025-01-07"
 
   # The PEM-encoded CA certificate for openstack.stfc.ac.uk
   # this expires 2023-12-05T23:59:59Z (UTC)
@@ -354,6 +354,19 @@ openstack-cluster:
     autoscale: false
     machineFlavor: l3.micro
 
+    rolloutStrategy:
+      type: RollingUpdate
+      rollingUpdate:
+        # The maximum number of node group machines that can be unavailable during the update
+        # Can be an absolute number or a percentage of the desired count
+        maxUnavailable: 0
+        # The maximum number of machines that can be scheduled above the desired count for
+        # the group during an update
+        # Can be an absolute number or a percentage of the desired count
+        maxSurge: 1
+        # One of Random, Newest, Oldest
+        deletePolicy: Random
+
     healthCheck:
       enabled: true
       spec:

diff --git a/charts/staging/longhorn/Chart.yaml b/charts/staging/longhorn/Chart.yaml
@@ -1,3 +1,8 @@
 apiVersion: v2
 name: longhorn
 version: 1.0.0
+dependencies:
+# https://github.com/longhorn/charts/releases
+- name: longhorn
+  version: 1.7.1
+  repository: https://charts.longhorn.io
diff --git a/charts/staging/longhorn/requirements.yaml b/charts/staging/longhorn/requirements.yaml
diff --git a/charts/staging/longhorn/values.yaml b/charts/staging/longhorn/values.yaml
@@ -21,14 +21,15 @@ longhorn:
   defaultSettings:
     taintToleration: "nvidia.com/gpu:NoSchedule"
     snapshotMaxCount: 10
-    snapshotDataIntegrity: true
-    snapshotDataIntegtrityCronjob: true
-    replicaAutoBalance: true
+    snapshotDataIntegrity: "enabled"
+    snapshotDataIntegrityCronjob: "0 12 * * 1"
+    replicaAutoBalance: "best-effort"
     autoDeletePodWhenVolumeDetachedUnexpectedly: true
     allowVolumeCreationWithDegradedAvailability: true
+    nodeDrainPolicy: "block-for-eviction"
 
   persistence:
     defaultClassReplicaCount: 3
     defaultDataLocality: disabled
     migratable: "true"
-
+
diff --git a/clusters/dev/worker/infra-values.yaml b/clusters/dev/worker/infra-values.yaml
@@ -9,7 +9,6 @@ openstack-cluster:
       machineFlavor: l3.micro
 
   nodeGroupDefaults:
-    machineFlavor: l3.nano
     nodeLabels:	
       # we're running longhorn on this cluster
       # set label so worker nodes can host longhorn volumes

diff --git a/clusters/staging/management/infra-values.yaml b/clusters/staging/management/infra-values.yaml
@@ -24,25 +24,25 @@ openstack-cluster:
                   env: staging
               ingress:
                 hosts:
-                  - prometheus-mgmt.staging.nubes.stfc.ac.uk
+                  - prometheus.staging-mgmt.nubes.stfc.ac.uk
                 tls:
                   - hosts:
-                      - prometheus-mgmt.staging.nubes.stfc.ac.uk
+                      - prometheus.staging-mgmt.nubes.stfc.ac.uk
                     secretName: tls-keypair
             grafana:
               ingress:
                 hosts:
-                  - grafana-mgmt.staging.nubes.stfc.ac.uk
+                  - grafana.staging-mgmt.nubes.stfc.ac.uk
                 tls:
                   - hosts:
-                      - grafana-mgmt.staging.nubes.stfc.ac.uk
+                      - grafana.staging-mgmt.nubes.stfc.ac.uk
                     secretName: tls-keypair
             alertmanager:
               enabled: true
               ingress:
                 hosts:
-                  - alertmanager-mgmt.staging.nubes.stfc.ac.uk
+                  - alertmanager.staging-mgmt.nubes.stfc.ac.uk
                 tls:
                   - hosts:
-                      - alertmanager-mgmt.staging.nubes.stfc.ac.uk
+                      - alertmanager.staging-mgmt.nubes.stfc.ac.uk
                     secretName: tls-keypair
diff --git a/clusters/staging/worker/infra-values.yaml b/clusters/staging/worker/infra-values.yaml
@@ -1,8 +1,12 @@
 openstack-cluster:
 
+  controlPlane:
+    machineCount: 3
+
   nodeGroups:
     - name: default-md-0
-      machineCount: 5
+      machineCount: 3
+      machineFlavor: l3.micro
 
   nodeGroupDefaults:
     machineFlavor: l3.nano
@@ -22,6 +26,7 @@ openstack-cluster:
                 loadBalancerIP: "130.246.81.242"
 
     monitoring:
+      enabled: true
       # no need to send alerts around certs/openstack API endpoints for dev/staging clusters 
       # ends up with too many messages in the ticket queue
       blackBoxExporter: 
@@ -36,25 +41,25 @@ openstack-cluster:
                   env: staging
               ingress:
                 hosts:
-                  - prometheus-worker.staging.nubes.stfc.ac.uk
+                  - prometheus.staging-worker.nubes.stfc.ac.uk
                 tls:
                   - hosts:
-                      - prometheus-worker.staging.nubes.stfc.ac.uk
+                      - prometheus.staging-worker.nubes.stfc.ac.uk
                     secretName: tls-keypair
             grafana:
               ingress:
                 hosts:
-                  - grafana-worker.staging.nubes.stfc.ac.uk
+                  - grafana.staging-worker.nubes.stfc.ac.uk
                 tls:
                   - hosts:
-                      - grafana-worker.staging.nubes.stfc.ac.uk
+                      - grafana.staging-worker.nubes.stfc.ac.uk
                     secretName: tls-keypair
             alertmanager:
               enabled: true
               ingress:
                 hosts:
-                  - alertmanager-worker.staging.nubes.stfc.ac.uk
+                  - alertmanager.staging-worker.nubes.stfc.ac.uk
                 tls:
                   - hosts:
-                      - alertmanager-worker.staging.nubes.stfc.ac.uk
+                      - alertmanager.staging-worker.nubes.stfc.ac.uk
                     secretName: tls-keypair