Ha auf Proxmox sporadische Abstürtze

Hallo ich habe nun von einer nativen HA auf Proxmox gewechselt. Als HA nativ lief, lief alles über monate stabil ohne jemals abzustürzen.

Jetzt habe ich mit sporadischen abstürzen zu kämpfen. Anfangs alle paar Stunden, das letzte einmal hielt das system 2 Tage durch, h

Ich weiss das ist nicht unbedingt das richtige Forum für diese Frage, aber ich habe es schon beim Proxmox Forum Deutsch probiert, bin da bis jetzt leider zu keinen Ergebnis gekommen und dachte mir ich bitte mal wieder um euer geballtes Expertenwissen.

Meine Hardware:
Tower PC:
Intel I5 25xx
Ram 8 GB (4x2GB)
SSD S-ATA 512 GB

Software:
Poxmox (aktuell)(insatlliert nach dem video
von simon)
VM (so wie im selben video) für HA
LXC mit pi-hole
1-Core
256Mb Ram

Hallo,
ich bin selbst noch Anfänger in Sachen proxmox. Aber ich denke 1 Core und 256 MB RAM sind zu wenig.

Aber vollkommen richtig erkannt :ok_hand: @rstuck .

Also 4GB RAM und 2 Cores solltest du der VM von HA schon “spendieren”, damit das flüssig läuft. @patti

Zur vDisk hast du noch nix gesagt? Vielleicht bekommt denn HA von den gesamten 512GB?

Den 1 core hat dur der container wo pi-hole läuft.

HA hat 2 core 4gb ram und 32gb von der ssd zur Verfügung, mir stürtzt auch nicht nur ha ab sonder der gesamte proxmox stürtzt ab

Dann hat aber dein Proxmox Konstrukt wahrscheinlich ein Problem. Was sagen die Logs in Proxmox? Arbeitsspeicher evtl. defekt? Ich denke, dass sind Riegel, die du noch rumliegen hattest, oder? 2GB Riegel kenne ich noch aus der Vergangenheit. Und warum sollte man 4 davon reinmachen, statt 2x 4GB oder 1x 8GB.

Geht alles über pi-Hole? Hattest du das vorher schon?

Lt. @patti angeblich nur das hier: :slightly_smiling_face:

root@pve:~# journalctl --boot=-1
Feb 17 19:24:27 pve kernel: Linux version 6.8.12-8-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GN>
Feb 17 19:24:27 pve kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-6.8.12-8-pve root=/dev/mapper/pve-root>
Feb 17 19:24:27 pve kernel: KERNEL supported cpus:
Feb 17 19:24:27 pve kernel:   Intel GenuineIntel
Feb 17 19:24:27 pve kernel:   AMD AuthenticAMD
Feb 17 19:24:27 pve kernel:   Hygon HygonGenuine
Feb 17 19:24:27 pve kernel:   Centaur CentaurHauls
Feb 17 19:24:27 pve kernel:   zhaoxin   Shanghai  
Feb 17 19:24:27 pve kernel: reserving inaccessible SNB gfx pages
Feb 17 19:24:27 pve kernel: BIOS-provided physical RAM map:
Feb 17 19:24:27 pve kernel: BIOS-e820: [mem 0x0000000000000000-0x000000000009ffff] usable
Feb 17 19:24:27 pve kernel: BIOS-e820: [mem 0x0000000000100000-0x000000001fffffff] usable
Feb 17 19:24:27 pve kernel: BIOS-e820: [mem 0x0000000020000000-0x00000000201fffff] reserved
Feb 17 19:24:27 pve kernel: BIOS-e820: [mem 0x0000000020200000-0x000000003fffffff] usable
Feb 17 19:24:27 pve kernel: BIOS-e820: [mem 0x0000000040000000-0x00000000401fffff] reserved
Feb 17 19:24:27 pve kernel: BIOS-e820: [mem 0x0000000040200000-0x00000000cabdafff] usable
Feb 17 19:24:27 pve kernel: BIOS-e820: [mem 0x00000000cabdb000-0x00000000cabdbfff] reserved
Feb 17 19:24:27 pve kernel: BIOS-e820: [mem 0x00000000cabdc000-0x00000000cac24fff] ACPI NVS
Feb 17 19:24:27 pve kernel: BIOS-e820: [mem 0x00000000cac25000-0x00000000cac32fff] ACPI data

@patti Das kann eigentlich nicht das ganze Log sein und wie man ja auch schon im Proxmox Forum gepostet hatte solltest Du dann mal nach dem journalctl --boot=-1 mehrfach die Return-Taste drücken, denn ansonsten bekommst Du nur die ersten rund 30 Zeilen aus dem Log angezeigt. Sprich nur das
Proxmox_journalctl
Danach folgen dann - je nachdem wie lange Proxmox sei dem letzten Reboot schon läuft, weitere Zeilen in einer zwei- oder dreistelligen Anzahl.

Außerdem hat Proxmox ja auch ein System-Log


welches Du Dir genau anschauen solltest, sprich ob es da ggf. irgendwelche Auffälligkeiten gibt.

Ansonsten kann man hier eigentlich nur darüber spekulieren was Deine Kiste jetzt für ein Problem hat oder macht und was die genaue Ursache dafür ist. Das Proxmox mal über Tage hinweg läuft und mal schon nach ggf. ein paar Stunden abstürzt, kann leider halt alles Mögliche sein. Von Hardware-Problemen oder -Defekten, über irgendwelche Treiber-Problem, irgendwelche BIOS-Einstellungen, oder was auch immer.

Edit: Auch wenn ich nicht wirklich glaube das das die Ursache ist, aber ändere mal die RAM-Verteilung, sprich gibt der HA VM mal nur 3 GB RAM - sofern Du nicht eine so umfangreiche HA-Installation haben solltest - sodass Proxmox noch etwas mehr RAM zur Verfügung steht. Dann man über ein paar Stunden/Tage testen. Außerdem solltest Du den LXC mit pi-hole auch mal testweise deaktivieren, bzw. nicht starten und auch damit dann testen.

VG Jim

Hallo,

ne, als ich vor ca. 10 Monaten mit HA begann habe ich den PC mitsamt Tastatur, Maus und Monitor auf Ebay für 50€ gekauft, da ich HA nativ installiert hatte, reichte die Hardware völlig aus. Das Problem fing erst mit umstieg auf Proxmox um.

hallo das mit der Return Taste höre ich zu ersten mal, im Proxmox Forum war nur die rede vom Befehl, werde es aber heute Abend versuchen

auf dem habe ich nichts besonderes gefunden, oder nur nicht verstanden :worried:

In Deinen Logs steht am Ende ja auch “lines 1-19” und da folgen dann noch jede Menge weitere Zeilen. :wink: Bei mir sind das aktuell z.B. mehrere tausend Zeilen, weil bei mir der letzte Reboot von Proxmox am 01. Feb. war. :laughing:

Nur zum Verständnis: Die -1 bei journalctl --boot=-1 läd das letzte Log seit dem letzten Reboot. Eine -2 dann das vorletzte usw. Wenn Du Glück hast steht irgendwo ziemlich am Ende des Logs etwas was den Absturz, oder das aufhängen von Proxmox ggf. verursacht und erklären könnte.

BTW: Im Proxmox Forum hast Du ja geschrieben:

Habe aber das Problem dass alle paar Stunden so ca. 6Stunden, kann man fast schon die Uhr danach stellen friert mir Proxmox ein (keine der 3 IP adressen sind mehr erreichbar, dann hilf nur noch entweder Netzstecker ziehen oder mehrere sec. den Einschaltkopf betätigen und neu Booten. Danach ist alles sofort wieder erreichbar.

Es ist auch sicher das sich Proxmox kompl. aufgehangen hat, weil Du die drei IPs (Proxmox + HA + Pi-hole) gar nicht erreichen kannst. Nicht das es ggf. nur ein Problem bei Dir im LAN gibt und Du daher die IPs von einem bestimmten PC bzw. Client aus nicht erreichen kannst.

Ja das Sys-Log ist natürlich sehr umfangreich und für einen (LInux)Laien auch nicht so einfach zu verstehen. Irgendwelche Probleme oder gar Fehler werden darin aber üblicherweise farblich (gelb oder rot) dargestellt, sodass man sich erst einmal darauf konzentrieren kann. Wobei das natürlich nicht heißen soll das irgendwelche Sys-Log-Einträge in gelb oder rot jetzt genau Dein Problem betreffen. :laughing:

Wenn die HP Kiste von Dir vorher mit HA Bare Metal problemlos lief und jetzt mit Proxmox diese Abstürze oder Hänger auftauchen, dann vermute ich ein Treiber-Problem. Oder der aktuelle Proxmox Kernel hat ein Problem mit Deiner - scheinbar eher älteren - Hardware (z.B. mit dem BIOS). Auch das wäre jetzt nicht so ungewöhnlich, aber dafür die genaue Ursache zu finden - falls in den Logs nichts darauf hindeutet - ist dann schon etwas aufwändiger.

VG Jim

1 „Gefällt mir“

Was für eine Version ist das?

pi-hole läuft auf der neusten Version die nach dem installieren mit dem Befehl: apt update && apt upgrade -y geladen wird

Danke für die Erklärung, das hatte ich auch so aus dem Proxmox Forum verstanden und war dadurch noch ratloser

Ich gehe davon aus dass Proxmox sich aufhängt, aber dass was am Lan falsch läuft wäre durchaus möglich.
Um dies zu Teste kann ich einfach den Monitor anschließen und mich versuchen Anzumelden und danach den oben genannten Befehl ausführen oder? Da sie gerade nicht erreichbar sind.

Dann werde ich mal danach Ausschau halten

ja, die ist nicht mehr Aktuell, aber dachte mir halt zu Anfangen reicht es aus

Naja, bitte nicht falsch oder missverstehen!!! Mein Schwiegervater sagt immer: “Wer billig kauf, kauft 2x.” :wink: Ist manchmal was dran.

Wenn Du einen Monitor an die Proxmox Kiste angeschlossen hast solltest Du darin das Proxmox Terminal-Fenster sehen: Welcome to the Proxmox … und unten steht dann pve login: und dahinter ein blinkender Unterstrich. Wenn Du dann dort per ebenfalls an die Proxmox Kiste angeschlossene Tastatur eine Eingabe machen kannst, also Dich z.B. als root einloggen kannst, dann dürfte die Proxmox Kiste nicht hängen oder so.
Außerdem kannst Du ja auch - wenn Du meinst das die Proxmox Kiste hängen sollte - diese einfach mal im LAN anpingen und schauen ob sie in dem Moment aus dem LAN heraus überhaupt erreichbar wäre.

Wichtiger sind aber die Einträge aus dem journalctl --boot=-1, weil Du eigentlich nur darüber eine echte Change hast die Ursache ggf. zu finden. Ansonsten ist das eher eine Suche nach der Nadel im Heuhaufen. :slightly_smiling_face:

Ist ja auch grundsätzlich ok, aber ich kenne jede Menge Beiträge von Usern bei denen es dann zu Problemen mit irgendwelchen älteren Kisten kam, weil es z.B. zu Problemen mit einem neueren Linux Kernel und/oder neueren Treibern daraus gekommen ist. Manchmal und sofern noch verfügbar, hat ein BIOS-Update das Problem gelöst, aber manchmal auch nur ein Downgrade auf eine ältere LInux Kernel Version.

Wie gesagt muss das nicht so sein, insbesondere weil HA Bare Metal ja problemlos lief, aber ein auf Debian basiertes Proxmox VE ist halt kein auf Buildroot basieres HAOS.

Probier das mit den nur 3 GB RAM für die HA VM mal aus und auch das nicht aktivieren des Pi-hole LXC. Außerdem schau Dir die kompl. journalctl Logs an.

VG Jim

Kannst du den Zeitraum den Absturzes von Proxmox eingrenzen? Dann halt beim wieder hochfahren, mal ins Log von Proxmox schauen, was zum Absturz geführt haben könnte.

https://www.reddit.com/r/pihole/comments/1itjpch/since_v6_pihole_has_frozen_multiple_times_a_day/?tl=de&rdt=43253

Oder mal pi-hole ganz raus nehmen → nur zum Test!!!

Habe jetzt mal die Vm auf 3Gb runter gestetzt und nochmal den log gelesn, sind natürlich mehrere zeilen als gedacht. :sweat_smile:

Habe mal die letzten vor dem absturtz oder Lan verlust in ne Textdatei gepackt.

Vileleicht hilf das euch mehr weiter.
Die IP mit der .26 ist mein Smartphone auf dem läuft die Proxmox App
Das einzige was ich daraus lese ist dass ich nicht glaube dass es am Lan liegt denn dann müsste der <log bis ca.6.30Uhr gehen denn da habe ich den PC mittels drücken der Power taste neu gestartet.

Im Log finden sich des öfteren Rote und gelbe einträge, des weiteren gibt es auch blaue ung graue Einträge, aber alle viele Stunden vorher.

log vor absturtz 21.2 nachts.txt (2,2 KB)

Oder die VM mal neu ertsellen? Über die Helper-Scripts klappt das ganz gut.

Hab ich gleich nach den ersten Absturz probiert.
Und die Festplatte formatieren und Proxmox von vorne um einen installations Fehler auszuschließen habe ich bereits probiert.

Nachtrag:

Vor kurzen war das Sytem wieder nicht erreichbar. Wenn ich ein Monitor anschließe bleibt dieser schwarz.
IPs lassen sich alle 3 nicht pingen.
Das Lämpchen der Festplatte am PC blinkt auch nicht mehr.

Kann es an den DNS einstellungen von der pve liegen denn da ist noch die, die der Fritz!Box drinnen, muss ich da die neue vom pi-hole eintragen da jetzt ja dieser den DNS übernimmt (wäre für mich zumindest logischer?)




Ich lese hier Fehler in der Authentifizierung raus. 3x

Was hast du denn in der Fritzbox als DNS eingetragen? Die vom Anbieter, die von Google oder die von Pi-Hole. Wenn die Fritzbox NICHT Pi-Hole nutzt, könntest du die DNS Einstellung im PVE drin lassen.

Aber wenn du beim PING auf interne Adresse Fehler bekommst, liegt das Problem vermutlich eher im Netzwerk. Wie sieht das denn aus? Fritzbox als Router/Modem und weiter?

Installiere Proxmox ohne pihole, lasse Proxmox 2 Tage nackt laufen.
Monitor und Tastatur an die Proxmox Kiste um um ein Netzwerk Problem auszuschließen.
Erst dann kommt HA drauf und wenn das läuft, kommt pihole.
Du musst Dich Schritt für Schritt vorarbeiten und eine Fehlerquelle, nach der anderen eliminieren.
Alles andere ist Rätselraten und verlorene Zeit.

@Ronny1978 beziehst Du Dich auf die Ping-Screenshots? Was sollen die mit Authentifizierung zu tun haben. (Edit: Du beziehst Dich offensichtlich auf das Fragment eines Logs. 192.168.178.26 dürfte sein Handy sein, auf dem die HA Companion App läuft … glaube nicht, dass das was mit den Abstürzen zu tun hat. Das schließe ich daraus, dass ich solche Einträge auch im Log habe und mein Proxmox-Server stabil läuft.)

Das einzige, was man daraus erfährt ist, das der Rechner nicht antwortet.
Das bedeutet er läuft nicht oder die Netzwerkverbindung hat ein Problem.

Der TE schreibt, dass der Bildschirm am Proxmox-Rechner schwarz bleibt und er nicht an die Konsole von HA kommt. In dem Fall läuft der Rechner nicht mehr, da braucht man den Fehler nicht im Netzwerk suchen oder an DNS-Eintragungen herumdoktern.
DNS (Domain Name Services) kümmert sich darum, dass Domain-Namen (www.xxxxx.com) in die entsprechenden IP-Adressen umgewandelt werden, damit die IP-Pakete ihren Weg zum richtigen Server finden. Das hat mit Deinem Problem nichts zu tun.

1 „Gefällt mir“

Moin

ok - dann jetzt als Nächstes den Test ohne den Pi-hole LXC machen.

Aus diesem kurzen Log-Auschnitt vom Ende des Log geht nichts hervor was ein Problem sein könnte, aber das hat jetzt nicht wirklich etwas zu bedeuten da der Auszug ja nur die letzten Einträge zeigt. Interessant(er) wären halt auch die gelben und roten Meldungen aus dem Log, aber das bzw. die hier jetzt alle durchzugehen würde wohl den Rahmen sprengen. Das musst da dann anhand der Log-Einträge und mit Hilfe von Google, schon selber und alleine machen.

Das mit dem Ping-Test war halt nur der Punkt zu klären ob die Proxmox Kiste wirklich abgestürzt und kompl. aus ist und es nicht evtl. nur ein Zugriffsproblem ist. Aber das wurde damit

wohl geklärt. Außerdem solltest Du ja auch sehen und vermutlich auch hören könnten ob die HP Kiste noch läuft oder kompl. aus ist. :laughing:

BTW HP Kiste: Du solltest natürlich auch anhand der Modellbezeichnung von der Kiste - die Du hier und im Proxmox Forum glaube ich gar nicht genannt hattest - mal per Google im I-Net suchen ob sich bzgl. Proxmox dort ggf. irgendwelche Infos zu evtl. Problemen finden lassen. Also was die aktuelle Proxmox Version betrifft, oder einen Linux Kernel, oder das BIOS von der Kiste, die darin verbaute NIC usw.

Um mal ein Beispiel zu geben: Wenn ich z.B. per Google nach Proxmox HP ProDesk 600 G4 Problem suche finden sich z.B. solche Infos:
Beispiel 1:

Beispiel 2:

Beispiel 3:
https://www.reddit.com/r/homelab/comments/1baoy0y/fresh_proxmox_install_on_hp_elitedesk_800_g4_mini/?tl=de
Usw.

Das waren jetzt keine Beispiele dafür was bei Deiner HP Kiste ggf. das Problem sein könnte, sondern das waren einfach nur mal ein paar Beispiel für eine x-beliebige HP Kiste und die scheinbaren Probleme die User damit in Verbindung mit Proxmox hatten oder haben. Einfach nur mal als Beispiel was alles so an evtl. Problemen auftauchen könnte und was User alles machen, oder gemacht haben, um die Probleme ggf. zu lösen.

VG Jim

1 „Gefällt mir“

Hatte ich weiter oben auch schon empfohlen ;-).

Das stimmt auch wieder. :wink:

1 „Gefällt mir“