Letzte Nacht (genauer heute früh morgens) ist irgendwas passiert mit meinem HA System. Bis etwa 6:30 Uhr lief alles normal. Danach ging fast nichts mehr. Ich nutze HAOS (neueste Version) auf einem Intel N100 System mit 16 GB RAM und einer 256 GB NVMe als System- Laufwerk. Kein Proxmox oder so was dazwischen, direkt HAOS.
Die Zwangstrennung vom ISP erfolgt so gegen 4:00 Uhr, kann also damit eigentlich nichts zu tun haben. Betroffen war z.B. das Portainer Addon. Keiner der 3 “Stacks”, die ich darüber laufen habe, waren noch am arbeiten. Ich musste alles manuell stoppen und wieder neu starten, bevor es wieder funktioniert hat.
Das Schlimmste war aber, das mein Zigbee Netz komplett ausgefallen ist. Nichts ging mehr, also wurde beispielsweise auch die Heizung morgens nicht mehr hochgefahren. Ich habe sogar das komplette HA System neu gestartet. Hat nicht geholfen. Mein Zigbee Netz musste ich komplett neu konfigurieren. Und nicht mal das hat sofort geklappt. Trotz Neustart musste ich den Sonoff Stick noch mal im laufenden Betrieb abziehen und wieder anstecken. Erst danach funktionierte auch Zigbee wieder.
In den Protokollen gab es zwar ein paar Fehlermeldungen, aber nichts, was auch nur irgendwie mit diesem Phänomen zusammen hängt. Dort stand z.B. etwas von einer ungültigen Einheit bei einer Local Tuya Entität. Halt solche Sachen. Aber nichts von Zigbee, Portainer oder dem HA System selbst.
Sowas habe ich noch nie erlebt und keine Ahnung was das war. Das Ganze hat mir einen gehörigen Schrecken eingejagt. Besonders schlimm ist, das ich absolut keine Ahnung habe, was da los war. So wie es aussieht, läuft nun alles wieder ganz normal. Doch ein gehöriges Misstrauen macht sich dann doch breit. War das erste Problem, das ich im Betrieb von HA hatte.
Ich weiß, die Informationen sind nur spärlich. Aber mehr habe ich einfach nicht. Hat trotzdem jemand eine Ahnung, was da los gewesen sein könnte? Speziell das der Zigbee Stick nicht mehr ansprechbar war, auch nach dem Neustart des Systems nicht, finde ich “spooky”.
gemacht hast hätte auch Zigbee wieder ganz normal starten sollen. Wobei ich nicht weiß ob Du ZHA oder Z2M nutzt.
Falls Zigbee und auch andere Dinge nach einem “System neu starten” nicht, oder nicht richtig funktioniert haben scheint da bei Deiner HA Installation wohl irgendetwas “zerschossen” zu sein und wenn dafür nicht irgendeine Integration oder Addon (App) verantwortlich ist, dann deutet das eher auf irgendeinen Hardware-Defekt hin. Der erste Verdächtige wäre dann die NVMe und dann halt die N100 Kiste selber.
Dieses Phänomen hatte ich auch zu Raspi Zeiten 2-3 mal. Erst das physikalische Herausziehen oder den Raspi vom Strom trennen half. Normal Neustart half nicht. Das Zigbee Netzwerk mußte ich aber nie neu konfigurieren, nur 1-2 h abwarten.
Und deshalb sage ich einmal - mache nix und warte ab ob das öfters passiert.
Vielleicht legst Du Dir einen Zwischenstecker an, der nicht! über HA gesteuert wird, und so könntest Du zur Not aus der Ferne den Strom aus- und wieder anschalten.
Genau das habe ich gemacht, also wirklich das System neu gestartet, nicht nur HA.
Ich nutze ZHA.
Inzwischen läuft es ja wieder. Ich musste nur einige Sachen zusätzlich zum System- Neustart noch mal manuell neu starten und eben den Zigbee Stick kurz abziehen und wieder anstecken. Ob die Zigbee- Neukonfiguration wirklich nötig war, weiß ich nicht. Mir ist aber erst bei der Neukonfiguration aufgefallen, das der Stick selber nicht reagiert. Also habe ich ihn dann aus und wieder eingesteckt. Und ab da lief Zigbee wieder. Vielleicht hätte es gereicht, einfach den Stick abzuziehen und wieder anzustecken. Kann ich jetzt aber nicht mehr raus bekommen. Ich denke, ich sollte bald mal einen “Reserve- Stick” anschaffen. Nur für alle Fälle…
Ich glaube nicht das der Sonoff Zigbee Dongle das Problem ist, sondern eher die N100 Kiste, oder eben HA. Zu ZHA kann ich gar nichts sagen, aber nach einem “System neu starten” sollte auch ZHA wieder ganz normal funktionieren. Auch betraft das Problem dann ja nicht nur Zigbee, sondern wohl auch noch andere Dinge die Du unter HA nutzt.
Tja die Fehlersuche könnte da jetzt etwas schwierig werden, wenn auch die HA Protokolle nichts hergeben sollten. Wenn HA selber nicht die Ursache ist kann es ja eigentlich nur noch an der N100 Kiste und deren Komponenten (incl. NVMe) liegen. Falls das irgendeine China-Kiste von irgendeinem Anbieter ist, dann ist es so das ich solchen Kisten nicht wirklich traue, weil da eben alles Mögliche irgendwie “zusammengebastelt” wird. Aber ja das ist jetzt nur ein Bauchgefühl von mir und das kann man natürlich nicht pauschalisieren.
Ich hatte zu iobroker Zeiten auch das Problem, das der Rechner (Wortmann/Shuttle mini PC) sporadisch immer wieder aus war. Den hatte ich 2019 gebraucht gekauft und lief bis mitte 2025 24/7 ohne Probleme. Als ich ende November dann mit neuem Pc und HA loslegte, konnte ich mich dem Wortmann widmen. Ich musste dann feststellen, dass es am Netzteil lag.
Wenn es bei Dir öfters vorkommen sollte, versuche mal ein neues Netzteil.
Etwas “Gutes” hat es aber, denn Du weißt jetzt das Du Dir mal Gedanken darüber machen solltest was passiert wenn HA ausfallen sollte. Was natürlich immer mal wieder passieren kann. Damit so etwas
dann in Zukunft möglichst nicht mehr passieren kann.
Ist ein Asus Mini ITX Board in einem entsprechenden Mini-ITX Gehäuse, kein “China- Mini PC”. Und die NVMe ist eine fast neue Sandisk. Das RAM ist von Cruical. Als Netzteil ist ein Pico PSU eingebaut.
Wobei ich zwei solcher “China Mini PC” habe, einen schon seit ettlichen Jahren (ein Celeron N3350, der war noch mit Windows 10 geleifert worden), der andere (Celeron N4000) ist knapp 2 Jahre alt (mit Windows 11). Die Teile haben bisher absolut gar keine Probleme bereitet, obwohl sie jeden Tag in Gebrauch sind. Sie fallen beide nur durch einen ungewöhnlich niedrigen Stromverbrauch auf, der trotz deutlich mehr CPU-Leistung unterhalb eines Raspberry Pi 4 liegt (mit demselben Messgerät gemessen). Der N100 braucht entschieden mehr Strom als die China Mini PC (9 Watt statt 3 Watt im Idle, ebenfalls mit ein und demselben Messgerät gemessen). Trotzdem habe ich mich für dieses System als HA Maschine entschieden, weil der N100 auch entsprechend mehr Leistung bietet. Ich hatte ja mal die Hoffnung, mit rein lokaler Spracherkennung zu arbeiten. Und dafür sollte es mindestens ein N100 sein, habe ich gelesen. Aber das ist noch in weiter Ferne. Sonst hätte ich vermutlich den N4000 als HA Maschine genommen. Mit Alexa oder Google Home als Spracherkennung sollte der N4000 mit 8 GB Ram locker für HA ausreichen. Mit dem N100 ist auf jeden Fall massig Leistungsreserve vorhanden.
Da ich immer ein aktuelles HA Backup habe, kann ich im Notfall ratzfatz mit HA auf eine anderes System umziehen, sollte das N100 System wirklich Probleme machen. Nur der “Ersatz Zigbee Stick” fehlt halt noch, falls es genau den erwischt hat. Aber ich kann aktuell keine Hardware Probleme erkennen, da jetzt wieder alles einwandfrei funktioniert.
Vielleicht ist ja heute Nacht für ein paar Sekundenbruchteile der Strom ausgefallen, was alles durcheinander gebracht hat. Soll alles schon vorgekommen sein, besonders im Winter. Die anderen Computer waren zu der Zeit ausgeschaltet. Eben bis auf den HA Rechner. Das ist mein einziges 24/7 System.
Gut dann bist Du in Sachen Hardware ja selber fit genug und weißt worauf es dabei ggf. ankommen könnte/sollte. Viele User habe sich in den letzten Monaten halt irgendeine N100/N150 Mini-PC China-Kiste gekauft, mit der die Chinesen den Markt fluten und dabei zählte für viele User dann häufig nur der Preis. Sprich je günstiger so eine Kiste war/ist, um so eher wurde/wird sie gekauft. Das sich möglichst billig dann ggf. auch rechen kann dürfte klar sein.
Gut dann kannst Du jetzt ja auch einfach mal abwarten ob das gleiche Problem irgendwann wieder passiert und dann einfach mal eine andere Kiste für HA nutzen, um ein Hardware-Problem bei der jetzt genutzen Kiste ausschließen zu können.
Ich hatte auch ein paarmal unerklärliche komplette Home-Assistant-Ausfälle – allerdings auf einem Raspberry Pi 4B. Der Pi selbst lief noch, aber ansonsten war alles tot: kein Remote-Reboot möglich, Terminal nicht erreichbar, SSL ebenfalls ohne Funktion.
Ich dachte eigentlich, dass HAOS solche Situationen erkennen und automatisch einen Neustart durchführen sollte – hat es aber nicht getan.
Meine Lösung war ein kleiner ESP-Controller (mit WLAN; ESP32, ESP8266, C3 – im Prinzip egal), der den Pi alle xx Sekunden anpingt (man könnte auch gezielt einen HA-Dienst prüfen). Wenn yy-mal keine Antwort kommt, unterbricht ein Mini-Relais kurz die 5-V-Stromversorgung des Raspberry Pi und erzwingt so einen Neustart.
Mein HA-System ist außerdem gut versteckt und nicht leicht erreichbar und läuft zusätzlich an einer Mini-USV. Eine WLAN-Steckdose wäre daher keine Lösung gewesen – und außerdem stellt sich die Frage, wer sie schalten soll, wenn HA selbst gerade tot ist.
Falls Interesse besteht, kann ich das Setup und den Code meines „Watchdogs“ (noch ohne ESPHome umgesetzt) gerne teilen.