Zo dan, ook alweer mijn eerste hartaanval achter de rug. Met Windows en Hyper-V op mijn main server werd de SMART status van de verschillende disks eigenlijk niet echt in de gaten gehouden. Dus nu ik ProxMox er op heb staan gebeuren daar wel checks voor. En nu blijkt de main nvme waar PM zelf op staat SMART errors qua temperatuur te geven

Ik heb toen nog gevoeld aan de disk en het leek me niet dat de disk nu echt heet werd, maar dat kunnen natuurlijk ook piek momenten zijn. Afgelopen vrijdag ineenkeer mail dat de main server succesvol fenced off was en dat de guests allemaal failovered zouden worden naar de andere nodes (had wel HA aan staan, maar verder niets aan fine-tuning gedaan).
Lekker dan, niets kwam echt terug meer op, dus het hele HA verhaal had gefaald. Thuisgekomen blijkt de server in de installatie boot te staan vanaf de PM iso die via de JetKVM geprovisioned werd. Oh-ohw, geen bootdevice? Inderdaad, na een reboot bleek de eerste disk foetsie:
Server uitgebouwd, disk eruit, was niet te heet, opnieuw geseat, server geboot en jawel, de disk was er weer en de server kwam op, echter, een flink aantal guests stonden her en der in error state op de verschillende nodes waarnaar ze een poging hadden gedaan om over te failen.
Opruimen geblazen en daarna bleek het opzetten van PBS een gouden greep te zijn geweest.

Guests vanaf de PBS terugblazen naar de originele locatie en booten met die hap. Geen enkel probleem.
Nu dan toch wel even goed gaan zitten om HA voor de meest essentiele guests in te richten (DC en RDP server).
Daarnaast komt vanmiddag een heatsink voor de nvme drive binnen en die toch maar even installeren. Kan ik gelijk kijken of die failover zijn werk doet.