Proxmox mit Watchdog?

Seit ein paar Monaten habe ich hier auf einem Intel NUC ein Proxmox-System mit zwei VMs (HA und Raspberrymatic) und einem LXC-Container (Pihole) laufen. Das funktioniert prima und ich bin sehr zufrieden damit. Sehr selten, d.h. so alle paar Wochen, meistens wenn man es absolut nicht brauchen kann, passiert es allerdings, dass sich das komplette System irgendwie aufhängt. Dann geht gar nichts mehr, kein HA und wegen des Pihole auch kein Internetzugriff mehr. Nachdem der NUC über den Einschaltknopf runter gefahren und wieder neu gebootet wurde, geht es dann wieder einwandfrei. Dieser manuell notwendige Eingriff ist bei einem System, das 24/7 laufen soll, natürlich kein Zustand. Von daher die Idee einen Watchdog zu installieren, der das im Fall des Falles automatisch übernimmt. Habt ihr eine Idee wie man das sinnvoller Weise macht?
Oder wie geht man mit so einem Problem um? Was macht ihr bei euren Systemen um einen Betrieb rund um die Uhr auch über lange Zeit sicher zu stellen?

Martin

Moin Martin,
bei mir läuft Proxmox mit 2 VM’s und 3 Containern bereits seit ca. 5 Monaten und ich habe solche Abstürze noch nie gehabt daher kann ich das Problem nicht nachvollziehen.
Ich logge mich allerdings 2-3 mal die Woche in das System ein und schaue in die Updates vom pve Knoten. Ab und an stehen dort Updates die einen Neustart benötigen (meistens ein Kernel Update) der nicht automatisch durchgeführt wird und den ich dann manuell anstoße.
Keine Ahnung ob dir das hilft und ich weiß auch nicht ob man so etwas auch automatisieren kann aber das ist meine Vorgehensweise und damit fahre ich ganz gut.

Grüße
LL

bei mir läuft Proxmox seit 10 Monaten super stabil … keine Abstürze - ich weiß das hilft dir nicht so weiter
Aber du solltest lieber versuchen, den Grund der Abstürze zu finden

Danke für eure Meinungen. Warum das passiert, weiß ich wirklich nicht. Der NUC läuft gemeinsam mit einem Synology NAS und der Fritzbox an einer USV. Von dort her sollten Störungen aus dem Netz eigentlich recht gut gefiltert werden. Aus einer früheren beruflichen Tätigkeit (vor 20 Jahren) als Entwicklungsingenieur für Telefonanlagen weiß ich auch, dass man solche “Abstürze” nie hundertprozentig vermeiden kann. Unsere Anlagen hatten deswegen alle einen Watchdog. Allerdings war das ein HW-Baustein, der von der SW regelmäßig “aufgezogen” wurde. Lief der Timer wider Erwarten ab, erfolgte eine harter Reset und System startete neu. Ich kann mir allerdings auch vorstellen, dass man so etwas nur mit SW machen kann. Von daher meine Hoffnung, dass es vielleicht ein kleines Programm gibt, welches das erledigt, etwa ähnlich wie die NUT-tools für die USV :slight_smile: .

BTW: Welche Proxmox-Version verwendet ihr? Bei mir ist es aktuell 7.4-3. Da gibt es im Protokoll lediglich den Hinweis auf die Aktualisierung des Datenbankpaketes. An die neuere Version habe ich mich noch nicht ran getraut. Vielleicht hat die ja auch so etwas schon eingebaut. Ein System, was nie(!) abstürzt, müsste eigentlich etwas entsprechendes haben. Wenn das so ist, bemerkt man normalerweise einen zwischenzeitlichen Absturz überhaupt nicht.

Martin

Ich bin bei Proxmox Version 8.0.4 … läuft stabil ohne Probleme … mittlerweile ist die 8.0.x schon mehrere Wochen daußen.

Vielleicht versuchst du mal das Upgrade auf die Version 8

hast du schon mal die Hardware des Rechners überprüft… SSD Check bzw. RAM check

vielleicht hast auch ein Hardwaredefekt

Nein die HW habe ich nicht gesondert überprüft. Es war alles neu, als ich das eingerichtet habe. Kannst du mir bitte sagen, wie ich die Checks machen kann, möglichst ohne das laufende Proxmox-System kaputt zu machen? Ich bin leider kein intimer Linuxkenner. Danke schon mal

Martin

Hallo Martin,
bei mir läuft auch die 8.04 die ich neu aufgesetzt hatte, vielleicht solltest du das Upgrade wagen? Nach diesem Video scheint das sehr gut zu funktionieren.

Du könntest auch mal im Syslog vom pve Knoten nachschauen ob du dort Hinweise für die Abstürze findest falls du das nicht schon gemacht hast.

Grüße
LL

Danke euch, ich glaube ich werde mich in der nächsten Zeit mal an das Upgrade wagen.

Mir ist auch noch aufgefallen, dass die RAM-Auslastung in der HA-VM bei bei ca. 90% liegt und von Proxmox bereits “rot” gekennzeichnet wird. Ich habe im Juni auf 32 GB aufgerüstet, von daher ist also genügend da, so dass ich nur für HA jetzt 16 GB zugeteilt habe. Alles kein Problem, man muss es nur tun. Ich werde mal beobachten, wie es sich jetzt verhält.

Nochmals danke für eure Tipps.

Martin

Moin Martin.
Die RAM-Auslastung der HA-VM liegt auch bei mir bei knapp 90% was scheinbar normal ist.
Wenn du im Terminal von HA mal free -h eingibst siehst du wie der Speicher verwendet wird, bei mir sieht das so aus:
free_h_ha
Wie zu sehen nutzt HA sehr viel Speicher (ich habe der VM 5GB zugewiesen) als cache, verfügbar ist aber noch reichlich.

Viele Grüße
LL

HA braucht eigentlich auf keinen fall so viel wie bei dir . Aber er nimmt halt alles was er kriegen kann :smile:

Ich würde auch an deiner stelle die Hardware prüfen. Evtl den alten RAM wieder einbauen ob der besser läuft.

Meine beiden Proxmox laufen monatelang durch, sowas wie bei dir sollte nicht sein.

Watchdog geht natürlich auch, evtl mit ner shelly oder esphome oder tasmota steckdose?
Bei sowas ist halt immmer die frage was du abprüfts um zu sehen ob das system blch läuft. Es kann ja noch auf ping reagieren und trotzdem abgestürzt sein.

Edit: grad kurz gegoogelt, vielleicht sowas:

Mein System läuft ja auch sehr lange, gefühlt jedenfalls über mehrere Wochen. Objektiv kann ich es nicht sagen, da ich bisher keine Aufzeichnungen gemacht habe. Wenn auch sehr selten, passiert es ab und zu eben doch.
Wie auch immer, ich nehme aus der Diskussion mit, dass niemand von euch einen Watchdog hat, und das auch nicht für nötig hält, da eure Systeme auch so stabil genug laufen. Vielleicht sehe ich das auch zu kritisch, da ich durch meine berufliche Praxis anders geprägt wurde. Die hier angesprochenen Anwendungen sind ja ausschließlich im privaten Bereich und da muss man das wohl nicht ganz so kritisch sehen. Eine einfache Lösung für den Eventualfall habe ich ja, sie erfordert nur leider eine manuelle Aktion am Gerät.

Jedenfalls danke für eure Denkanstöße

Martin

Hallo Martin, ich verwende Proxmox VE seit mehreren Jahren Version 6.x über mehrere PC umgezogen, letztendlich auch auf einem NUC i7 gelandet. Alle Upgrades haben immer einwandfrei geklappt, gibt es ja genügend Anleitungen auf YT. PVE ist äußerst stabil und würde zuerst mal nicht auf die Software tippen. Ich habe bei mir 6 CTs und 8 VMs laufen, sowie bei 2 CTs auch jeweils ein Docker-Host mit insgesamt 37 Containern laufen (alles was das Herz begehrt, Home Assistant, Octoprint, Pi-Hole, WireGuard, Nextcloud, MariaDB, InfluxDB uvm.) - alles hoch performant und stabil. Es ist nur wichtig, sich die Backups z. B. auf ein NAS zu sichern, dann kann man immer PVE auch komplett neu aufsetzen und die Backups zurückspielen. Einzig, wenn man viele individuelle Einstellungen beim PVE Host getätigt hat, sollte man sich vorher mit einem Backup des PVE Host beschäftigen - Stichwort “Borg-Backup”. Man hat schon mal bei einzelne Server Probleme, besonders wenn man mit watchtower auf Dockerhosts automatische Containerupdates durchführen lässt, aber alles ist in den logs nachvollziehbar und manchmal leicht zu beheben. Nur nicht entmutigen lassen, für fast alle Probleme habe ich auch Lösungen gefunden.

Danke auch für diesen Erfahrungsbericht. Bei mir läuft es jetzt auch schon wieder seit einer Woche stabil (siehe Bild). Ich habe eine DS 216j von Synology auf die ich automatisch jeden Sonntag von Proxmox ein Backup fahre und zusätzlich dreimal in der Woche (Mo, Mi, Sa) ein Sambabackup von HA.

Ich werde das weiter beobachten

Martin