die letzten beiden Tage spinnt mein System. Home Assistant läuft in einer VM auf Proxmox. Weiterhin gibt es noch diverse weitere Container (z.B. RaspberryMatic) in dieser Installation. Neben einem Funkstick für die Raspberrymatic ist noch ein Zigbee Stick mit ins System eingebunden.
Jede Nacht (2:00 Uhr) lasse ich ein Backup über Proxmox von der Home Assistant VM machen, welches auf dem NAS gespeichert wird. In den Einstellungen habe ich Snapshot gewählt.
Nun habe ich plötzlich - gestern wie heute - das Problem, dass morgens nichts mehr funktioniert und jegliche Smart Home Funktionalität tot ist. Ich erreiche dann auch nicht mehr den Proxmox Server. HA schon gar nicht. Es bleibt mir nichts anderes übrig, als den Mini Server komplett aus und wieder einzuschalten und das System neu hochzufahren. Dann läuft alles wieder. Ich habe im Verlauf von Home Assistant geschaut. Vom Backup Zeitpunkt bis morgens scheint das System problemlos zu funktionieren. Sensoren aktualisieren sich usw. Einzig, das Backup, welches ich um 4:45 via Home Assistant auch noch (aktuell noch testweise) erstellen lasse und in die Cloud hochlade, schlägt seit eben diesen zwei Tagen fehl.
Ich bin schon genervt von der Situation, meine Frau ist aber schon auf 180! - und heute bekommen wir auch noch Besuch für eine Woche. Wenn da wieder nichts geht…oje. haha
Mein Gefühl sagt mir, dass es am Proxmox liegt und sich das System durch das Proxmox Backup “verschluckt”. Ist es der Modus Snapshot? Habe es heute morgen dann mal auf Stop geändert. Oder soll ich auf das Backup innerhalb von Proxmox verzichten und es nur über Home Assistant laufen lassen? Oder fallen die USB-Anschlüsse und Netzwerkports aus? Ich weiß leider auch nicht, wo es ein detailliertes Protokoll in Proxmox gibt, außer das, was unten am Rand den Status der Container und VMs zeigt.
Thema Ausfallsicherheit: Wenn ich noch einen zweiten Mini-Server aufsetze und Proxmox als Cluster laufen lasse…führt der dann automatisch seinen Dienst weiter? Würde ja auch bedeuten, dass ich einen weiteren Zigbee- und RaspberryMatic Funk-Stick brauche…das stelle ich mir auch kompliziert vor. Die würden ja auch dem zweiten System anders adressiert werden.
Puh…Fragen über Fragen.
Hat jemand von Euch ein ähnliches Problem?
Schwer zu sagen ob es an dem Snapshot Modus liegt. Habe ein ähnliches Setup und bei Backup Stop eingestellt. Bis jetzt ohne Probleme. Mache wöchentliche Backups in Proxmox und in HA selbst täglich.
Bei einem Proxmox Cluster mit HA(High Availability) brauchst du als Dateisystem auch ZFS. Aber ob das dann auch mit der doppelten Hardware (Zigbee/Funk-Stick) funktioniert kann ich dir nicht sagen.
Ich hatte vor einiger Zeit ein ähnliches Problem. Mein Proxmox hat sich aufgehängt wenn er Nachts ein Backup erstellen wollte und mein NAS nicht erreichbar war. Mein NAS war ein DNS320 (schon min. 10 Jahre alt). Eine Wake-On-Lan Funktion habe ich an dem leider nie gefunden. Als Workaround habe ich damals einen Fingerbot am NAS installiert der etwa 10 Minuten vor Backup Beginn durch betätigen des Power Knopfs das NAS aufgeweckt hat.
Ich habe mir schlussendlich dann aber doch ein Synology NAS zugelegt und habe seitdem kein Problem mehr.
Mein DNS hatte aufgrund des Alters nur das alte SMB1 Protokoll, weswegen ich das nicht als SMB/CIFS sondern nur als NFS Speicher im Proxmox einbinden konnte. Das neue Synology unterstützt die neueren SMB Protokolle, evtl. hatte auch das etwas damit zu tun weil es Unterschiede im Ansprechverhalten zwischen NFS & SMB gibt ?!
Wenn ich mich richtig erinnere hat damals nach dem “Neustart” (auch bei mir hat nur Stecker raus und rein geholfen) mein HA angezeigt, dass das Netzwerkspeichergerät nicht verfügbar ist. Ist das bei dir auch der Fall ?
Im Proxmox in der unteren Leiste wurde, glaube ich, auch nach dem Neustart neben dem Backup Job noch ein Kreisel gezeigt als wenn er immernoch versucht das Backup durchzuführen. Wenn du einen Doppelklick auf den Backup Job machst bekommst du noch ein paar mehr Infos in einem Pop-Up. Ich meine, dass er da bei mir auch angezeigt hat, dass das Backup fehlgeschlagen ist weil das NAS nicht erreichbar war.
Hoffe das hilft dir zumindest etwas weiter bei der Fehlersuche.
Da ich jeden Tag immer etwas am Home Assistant “optimiere” sind mir die unzähligen Updates lokal aufm Nas oder eben auch via Home Assistant (in die Cloud und auch noch aufs Google Drive) schon echt wichtig.
Ich bin jetzt mal mutig und habe das Backup aufm Proxmox erstmal ausgesetzt Und schon vorsorglich den im Modus Stop aktiviert. Nur für das Verständnis: Das bedeutet, dass zum Zeitpunkt des Backups die VM ordentlich heruntergefahren wird, dann das Backup der VM gemacht wird und danach wieder hochgefahren wird, richtig?
Ich bin gespannt, wie es sich morgen früh verhält - oder ob ich dann endgültig einen Kopf kürzer bin.
Ich teste mit Stop - aber dann wöchentlich in Proxmox und zu einem Zeitpunkt, wo ich als einziger noch wach bin und das direkt kontrollieren kann (zumindest die ersten Male).
naja, bisher lief es in der beschriebenen Konfiguration eigentlich immer ohne Probleme. Ja, ich hatte den Fehler schon mal (natürlich als wir gerade im Urlaub waren), hab mir da aber noch keinen Kopf gemacht. Aber nun die Ausfälle an zwei aufeinanderfolgenden Tagen…das ist schon Mist.
Ich denken, dass es nicht an den NFS/SMB liegt - sonst müsste das Problem ja dauerhaft bestehen.
Nachdem harten Neustart vom Server ist die Leiste im Proxmox unten bei mir leider leer. Der Verlauf wird wohl nur im Cache gespeichert…
Aber die Backups liegen alle sauber aufm NAS - auch die der letzten beiden Nächte. Echt schräg.
Vielleicht liegt es ja wirklich am Snapshot und Stop Modus…ich teste mal weiter.
Aber ich sehe es richtig: Ein detalliertes Protokoll gibt es in Proxmox nicht, oder?
journalctl ist interessant…das ist ja mega umfangreich! Das Journal fängt bei mir im Mai an und hat alle paar Sekunden eine neue Line. Muahaha. Wie komme ich denn mit einem Klick zum Ende des Journals?
Ich sichere auf einem PBS und hatte in der Vergangenheit auch Probleme.
Bin mir nicht sicher, ob Proxmos ohne PBS auch inkrementell sichert.
Bei der inkrementellen Sicherung wird alles in kleine Chunks auf die Festplatte gespeichert. Das kann für HDDs schon eine echte Herausforderung sein.
Ich hatte Probleme mit einer USB-HDD am PBS. Hat mir die eine HDD geschrottet und die zweite HDD konnte ich durch ein anderes Gehäuse (mit anderem USB-System) “retten”.
Proxmox selbst empfiehlt SSDs.
Auch Sicherungen über das Netzwerk können problematisch sein, weil viele Steuerungsdaten und Rückmeldungen über das Netzwerk laufen. Wenn da was klemmt, hängt sich das System auf.
Du könntest eine USB-SSD (notfalls auch HDD) an den Proxmox-Server stöpseln und direkt sichern. Wenn das klappt, liegt es an NAS oder Festplatte(n) im NAS oder am Netzwerk.
Wenn nicht, hab ich falsch gelegen.
Aber das könntest Du recht schnell umsetzen und ausprobieren, bevor der Besuch kommt.
Du könntest auch übergangsweise manuell sichern, dann kannst Du direkt eingreifen, wenn sich was aufhängt. Das rettet Dir zumindest den Hals für die nächsten 7 Tage.
Hätte ich gestern geschrieben, hätte ich gesagt, dass es scheinbar zu funktionieren scheint.
Heute morgen war allerdings wieder das selbe Problem. Nichts ging mehr. Und um es mal richtig verrückt zu machen: Ich habe nun noch weniger Ahnung als vorher, denn es lief KEIN Backup-Job. Ich habe derzeit tatsächlich alle Backups ausgestellt. Via Home Assistant direkt und auch die Proxmox Backups pausieren. Umso größer das Rätsel, warum heute morgen wieder nichts funktionierte.
Oder hat die Netzwerkschnittstelle am Homeserver ein Problem?
Ich überlege schon, ob ich - und eigentlich will ich das nicht - einen RaspberryPi wieder fertig mache und dort Home Assistant drauf laufen lasse. Das geht zwar sicherlich mit Leistungseinbußen einher, aber das System läuft dann losgelöst vom Home Server. Oder ich hole mir irgendeinen refurbished MiniPc für nen schmalen Taler und nutze diesen dann nur für HA…
Ist natürlich schade. Aber richtig nachvollziehen kann ich es leider nicht. Ich habe HA als VM im Proxmox seit ca. 18 Monaten im Einsatz und keinerlei Problem mit den Backups. Ich mache die im STOP Modus und zu meiner Synology. Kannst du mal sagen, was du noch alles als LXC oder VM auf Proxmox am Laufen hast? Die Sicherung in der HA VM machst du zu??? Synology oder auf internen Platte des Proxmox?
Die Defragmentierung des ZFS ist ok? Und wie stark ist der ZFS Pool befüllt?
Ich würde auf eine defekte Festplatte tippen. Habe vor 2 Wochen meinen Proxmox eine neue Platte gönnen wollen, nur hat er mir bei Klonen der SSD defekte Sektoren gemeldet und abgebrochen.
Proxmox lief aber völlig normal. Nur HA, das als VM drauf läuft, hat sich völlig unregelmässig mit extrem hoher CPU Last gemeldet. Das hat ist seit dem Wechsel der SSD erledigt.
Ich würde mal die Platte des Proxmox Server intensiv testen, bzw auf defekte Sektoren prüfen.
@DerEde Ob die Festplatte defekt ist oder war, kann ich gerade noch nicht wirklich feststellen. Aber ich habe noch eine gleiche, fast neue, HDD liegen gehabt und gestern Abend dann mal alles neu gemacht. Nun wird es sich zeigen, ob das System stabil läuft und es vielleicht tatsächlich an der HDD gelegen hat.
Ein interessantes Learning: Ich hab den Proxmox komplett neu installiert (das erste mal wieder nach 2 Jahren . Und musste nochmal in mich gehen, welche Einstellungen auf dem Node liegen . Danach hab ich dann die Backups der Container zurückgespielt und alles lief sofort wieder rund. Bis auf die doch eher aufwendige Neuinstallation vom Proxmox eigentlich ne leichte Nummer.
Da beneide ich dich ja glatt, dass Du seit so langer Zeit keine Probleme hattest. Vielleicht hab ich auch einfach zu viel gebastelt. Ich weiß es nicht…
Als VM läuft neben HA noch eine Raspberrymatic und als Container nen Adguard, nginx, immich, paperless, iobroker, heimdall…
Wie kann ich den Defragmentierungsgrad der HDD unter Proxmox denn sehen? Und gibt es da auch die Möglichkeit, die Platte zu defragmentieren? Via Shell?
Vlt war meine Platte auch ein wenig zu doll zugemüllt…gestern Abend habe ich Proxmox auf eine frische HDD neu installiert und es wirkte, als sei mehr Platz auf der HDD verfügbar als vorher.