Fehler: get_swap_device: Bad swap file entry

Elbre · 15. Juli 2024 um 10:20

Hallo,

mein Homeassistant war plötzlich nicht mehr erreichbar und der Blick in die HA Konsole auf proxmox hat dann folgende Meldungen auf laufenden Bande gezeigt:

[70403.321692] get_swap_device: Bad swap file entry 803fffffff

diese Massenmeldungen konnten nur durch einen kompletten Neustart gestoppt werden. Ichnutze HA in einer VM auf proxmox:
Core: 2024.7.2
Supervisor: 2024.06.02
Operating System 12.4
Frontend: 20240710.0

Hat jemand etwas vergleichbares schon einmal gehabt und weis eine Lösung, im moment läufts aber seit ein paar Tagen stürzt das System ab und zu ab und startet sich neu, möglicherweise hat das ja damit zu tun.
Gruß
Elmar

sirector · 15. Juli 2024 um 10:35

Wie groß ist deine Festplatte, der RAM und das Swap File?

Elbre · 15. Juli 2024 um 11:01

Der Nuc hat 64 GB Ram und 512 GB Festplatte
der VM Homeassistant sind zugeordnet:
9 GB RAM
32 GB Bootdisk

Wo finde ich die Größe des SWAP File?

Gruß
Elmar

sirector · 15. Juli 2024 um 13:54

Schau mal unter den Harddisk Options bei der swapsize.

Elbre · 15. Juli 2024 um 18:09

ich habe keine Idee wo ich das finden könnte, auf proxmox finde ich etwas unter den Containern aber die VM von HA weist nichts aus

dp20eic · 15. Juli 2024 um 18:21

Moin,

hast Du ssh, das Terminal installiert, dann darin
grafik

Dann solltest Du in etwa soetwas bekommen

top - 20:21:09 up 5 days,  4:49,  0 user,  load average: 0.00, 0.00, 0.00
Tasks:  14 total,   1 running,  13 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.6 us,  0.6 sy,  0.0 ni, 98.7 id,  0.0 wa,  0.0 hi,  0.1 si,  0.0 st 
MiB Mem :   7751.1 total,   3257.3 free,   1572.1 used,   3014.1 buff/cache     
MiB Swap:   2559.5 total,   2559.5 free,      0.0 used.   6179.0 avail Mem 

    PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                                                                                                                  
      1 root      20   0     440      0      0 S   0.0   0.0   0:00.01 s6-svscan                                                                                                                                                
     16 root      20   0     216      0      0 S   0.0   0.0   0:00.00 s6-supervise                                                                                                                                             
     19 root      20   0     204      0      0 S   0.0   0.0   0:00.00 s6-linux-init-s                                                                                                                                          
     25 root      20   0     216      0      0 S   0.0   0.0   0:00.00 s6-supervise                                                                                                                                             
     26 root      20   0     216      0      0 S   0.0   0.0   0:00.00 s6-supervise                                                                                                                                             
     27 root      20   0     216      0      0 S   0.0   0.0   0:00.00 s6-supervise                                                                                                                                             
     28 root      20   0     216      0      0 S   0.0   0.0   0:00.00 s6-supervise                                                                                                                                             
     36 root      20   0     208      0      0 S   0.0   0.0   0:00.00 s6-ipcserverd                                                                                                                                            
    301 root      20   0   15568   2944   2304 S   0.0   0.0   0:03.42 ttyd                                                                                                                                                     
    303 root      20   0    6560   4096   3328 S   0.0   0.1   0:00.01 sshd                                                                                                                                                     
    348 root      20   0    2876   2176   1280 S   0.0   0.0   0:00.28 tmux: server                                                                                                                                             
    352 root      20   0    4664   4032   1664 S   0.0   0.1   0:01.94 zsh                                                                                                                                                      
    586 root      20   0    2228   1920   1536 S   0.0   0.0   0:00.00 tmux: client                                                                                                                                             
    835 root      20   0    3732   2944   1024 R   0.0   0.0   0:00.00 top

In der 5ten Zeile von oben Steht der Swap.

VG
Bernd

Elbre · 15. Juli 2024 um 18:31

swapsize
Danke so hab ich es gefunden

dp20eic · 15. Juli 2024 um 18:50

Moin,

Es ist jetzt zu spät, um dem noch nachzugehen, da Du ja schon einen Neustart gemacht hast, es kann sein, dass das Swap File defekt war, beim Neustart wurde ein neues erstellt.
Es kann beim Update passiert sein, und es kann auch sein das Dein virtuelles Dateisystem der VM ein Problem hat, ich müsste jetzt aber selber erst einmal suchen, wie man das sauber testen kann.

VG
Bernd

Elbre · 15. Juli 2024 um 19:29

ok, was müsste ich machen wenn es nochmal kommt und ich das dann merke?

dp20eic · 16. Juli 2024 um 08:08

Moin,

sollte das mit dem Swap wieder passieren, dann mal den Swap offline setzen und dann wieder Online bringen. Müsste aber auch erst schauen, wie das bei HA geht und ob die Standardbefehle greifen.
Ich würde schauen, wie die aktuelle virtuelle Disk der VM gesundheitlich aussieht, darüber muss ich erst einmal etwas nachdenken, aber so aus dem Stegreif

neue VM
- in ein Linux Lifesystem booten
HA VM stoppen und Backup machen
Lifesystem versuchen die virtuelle Disk der HA VM zu verbinden, nicht mounten
dann den Check der virtuellen Platte durchführen → fsck /dev/ha_virtual_disk
sollten Fehler gemeldet werden, dann erst schauen, bevor man blindlings korrigiert.

das Dateisystem mal im Auge behalten, ob es da Auffälligkeiten gibt, sprich die Füllstände überwachen, sollte mit HA internen Mitteln gehen, system sensoren

VG
Bernd

Elbre · 17. Juli 2024 um 05:25

Heute Nacht hat es wohl einen Neustart gegeben. Heute morgen habe ich dann dies im Terminal gesehen, da scheint es wohl noch Probleme mit dem SWAP zu geben. Ich kann das aber leider nicht interpretieren

dp20eic · 17. Juli 2024 um 05:46

Moin,

ist kein Meckern, aber Text bitte nicht als Bildchen, daraus kann man nichts zitieren oder zum Suchen nutzen, Text bitte immer in Codetags </> posten, die findest Du im Menü, siehe

Wenn Du da keine Automation eingerichtet hast, dann sollte das System nicht von sich aus, neu starten.
Du scheinst ein anderes Problem zu haben, ich würde Dir anraten

Backups von allem zu machen
ein USB-Stick mit einem memtest Lifesystem erstellen,
memtest
Proxmox herunterfahren
vom memtest USB-Stick booten
memory test durchlaufen lassen

Dann je nachdem, was für ein Ergebnis, weiter suchen.
Im NUC sind SSD oder M.2 verbaut? Die sollte man auch mal durchtesten und schauen, ob da Fehler auftauchen.

VG
Bernd

Elbre · 17. Juli 2024 um 07:45

Hallo Bernd,

danke für die Tipps. Ich hatte die Meldungen in der PROXMOX Konsole der VM gesehen und konnte sie da leider nicht rauskopieren sondern nur einen Screenshot machen.
Den memtest werde ich heute Abend machen.
Ich hatte in den PROXMOX Tasks um 2:54 noch die Meldung “Paket-Datenbank aktualisieren” Das scheint genau der Zeitpunkt zu sein, an dem der Neustart erfolgte.

dp20eic · 17. Juli 2024 um 10:00

Moin,

Das wäre aber seltsam, denn das ist nur der Task, der die lokale Proxmox Repository Datenbank mit der Proxmox Server Repository Datenbank abgleicht, um zu sehen, ob es neue Pakete gibt, das passiert bei jeder Proxmoxinstallation und führt bei mir nicht zu einem Neustart!

Also, wenn bei Dir da öfter was neu startet, dann ich in der Installation, der Hardware der Wurm drin.

VG
Bernd

Elbre · 17. Juli 2024 um 19:00

Memtest ist durchgelaufen (ca 1 h 20 min) ohne Fehler, das ist schon mal beruhigend.
Im Nuc ist ne SSD

Update:
Nachdem ich den memtest gemacht habe ist es ja wahrscheinlicher geworden, dass der Fehler in der VM steckt. Backup etc. habe ich. Ist es nicht das einfachste die VM zu entfernen und dann einfach aus dem Backup neu zu installieren, dann muss doch nur sichergestellt sein, dass die alte IP übernommen wird oder?

by HarryP: Zusammenführung Doppelpost (bitte “bearbeiten” Funktion nutzen)

dp20eic · 18. Juli 2024 um 08:21

Moin,

Von welchen Backups reden wir?

HA interne Backups?
Proxmox VM Backups?

Achtung, das ist nur eine Vermutung, aber ich denke, dass Du den Fehler auch im Proxmox Backup, der VM hast und ein Erstellen daraus, den Fehler mit erstellt.
Das kannst Du aber testen,

schalte in der aktuellen HA VM mal alles aus, was mit irgendeinem USB Stick zusammen hängt, also
- Zigbee2MQTT, oder
- ZHA
- ZWave
dann machst Du ein Proxmox Backup
dann kannst Du alles wieder einschalten
aus dem letzten Proxmox Backup, erstellst Du eine neue HA-VM → ha-test
nach erstellen, starten und abwarten

Aber auch mal mit der ha-test spielen, also mal was in-, destallieren, HA-Backup machen, Dashboard bauen, ändern, halt so tun, als ob, es die Produktive ist.
Wenn mit der neuen HA VM nichts passiert, der Fehler nicht auftritt, dann aus einem neuen Backup neu erstellen.

Sollte der Fehler auch da auftauchen, dann würde ich eine ganz neue HA VM erstellen und anschließend ein HA Backup einspielen.

Beim Einspielen von einem Proxmox Backup, musst Du Dich darum nicht kümmern, denn die Einstellungen werden im Backup mit gesichert und auch so wieder hergestellt.
Wenn Du aber, aus dem Proxmox Backup, eine neue VM erstellst, dann bekommt die eine neue IP, hängt aber auch davon ab, wie die VM erstellt wurde, ich nutze nur DHCP, wenn Du statische IPs verwendest, dann musst Du das anschließend selbst ändern.

Wenn Du eine ganz neue VM erstellst, dann musst Du natürlich, die alte VM herunterfahren und der neuen die IP der alten geben, der alten eine neue IP geben, damit man dies auch wieder starten kann.
Dann ist es möglich ein HA Backup in die ganz neue HA VM zu Restoren.

VG
Bernd

P.S.: bin erst morgen wieder online.

Elbre · 18. Juli 2024 um 08:25

Hallo,

danke, ich habe beide backup, proxmox und HA, ich tendiere dazu sofort eine neue VM zu erstellen und das HA Backup zu installieren, mache ich aber am Wochenende

Gruß
Elmar

Elbre · 29. Juli 2024 um 15:43

Hallo,

nachdem ich das update auf die 2024.7.3 gemacht hatte lief es zunächst stabil. Jetzt war ich aber ein paar Tage weg und währenddessen ist das System erneut abgestürzt, obwohl eigentlich nur eine minimale Nutzung vor lag. Von der Ferne konnte ich es auch nicht erneut starten. Bei der Wiederkehr half nur ein Kaltstart von Proxmox. Ich konnte die VM noch nicht einmal runter fahren. Aber auch nach dem Kaltstart, lieg HA nur für kurze Zeit. Daher habe ich heute die VM neu installiert. Das lief auch problemlos und bislang läuft alles stabil, bin mal gespannt ob es so bleibt

Gruß
Elmar

dp20eic · 29. Juli 2024 um 18:07

Moin,

Dann würde ich mal stark davon ausgehen, dass Deine alte VM einen Knacks weg hatte und auch das Proxmox Backup diesen hatte.
Durch die Neuinstallation wurde ein neues virtuelles Laufwerk erstellt, das hoffentlich jetzt ohne Fehler ist.

Noch viel Erfolg mit der neuen VM.

VG
Bernd

Elbre · 29. Juli 2024 um 20:29

Fehlermeldung_bluetooth
Hallo Bernd,

Danke ich hoffe, dass es erfolgreich sein wird.

Einen Absturz gabs schon, allerdings beunruhigt der mich nicht so, scheint mit bluetooth zusammen zu hängen, das war in der alten Version gar nicht aktiviert und wird auch nicht gebraucht, daher habe ich es nach dem Neustart deaktiviert. Da steht ja auch in der Beschreibung, dass man es nach möglichkeit nicht nutzen soll. Bin gespannt obs jetzt safe läuft

VG
Elmar