BUG-REPORT → SFML V.16.8.4 RC06 Fail im Interpreter-Test bei Basti (Danke)
Safeguard Confidence Suppression bei systematischer Physics-Unterbewertung. Vorhergehender Patch für Hubble nicht ausreichend.
System: ALLE
HA-Version: ALLE
Modul: Solar Forecast ML Vers. 16.8.4 RC06
Beschreibung:
Bei Anlagen mit konsistent hohen Physik-Kalibrierfaktoren (>1.3) entstand ein selbstverstärkender Rückkopplungseffekt im Graduated Safeguard System, der die AI-Gewichtung im Hybrid-Blend auf unter 10% reduzierte — selbst wenn die AI-Prognose näher am tatsächlichen Ertrag lag als das Physikmodell.
Das Verhalten wurde auch schon von einigen hier im Forum in der Vorgängerversion berichtet. Der von mir eingebaute Fix funktioniert nicht zuverlässig - in einigen Edge-Cases
Ursache // Circle of death
Die Ursache liegt im Zusammenspiel dreier unabhängiger Bewertungsstufen innerhalb der Hybrid-Prediction-Pipeline. Hubble geht rigider vor als vorhergehende Test vermuten ließen.
1. Richtungsblinde Deviationsberechnung Die Abweichung zwischen AI- und Physikprognose wurde als absoluter Betrag relativ zur Physik bewertet, ohne zu berücksichtigen, ob die Abweichung durch eine bekannte Physik-Fehlkalibrierung erwartet wird.
Bei einem Kalibrierfaktor von 1.34 (d.h. die Physik-Engine unterschätzt systematisch um 34%) ist eine AI-Prognose, die 40% über der Physik liegt, keine Anomalie — sondern die korrekte Korrektur. Hubble AI 3.0 Ensemble interpretierte dies jedoch als Vertrauensverlust.
2. Magnitudenbasierter Modellkonsens Die interne Übereinstimmungsprüfung zwischen AI und Ridge erforderte eine maximale Abweichung von 50% des Mittelwerts. Bei architekturbedingt unterschiedlichen Antwortcharakteristiken (AI konservativ, Ridge sensitiver auf Wettervariablen) wurde dieser Schwellenwert im Winterhalbjahr regelmäßig überschritten — obwohl beide Modelle qualitativ übereinstimmten (beide über Physik). Ohne Modellkonsens war der evidenzstärkste Safeguard-Pfad nicht erreichbar.
3. Pauschaler Kalibrator-Fallback Wenn der Kalibrator eine Fehlkalibrierung bestätigte, aber kein Modellkonsens vorlag, wurde die AI-Confidence mit einem festen Faktor von 0.25 multipliziert — unabhängig davon, wie stark die Kalibrier-Evidenz war. Eine 35%ige Fehlkalibrierung (starke Evidenz) erhielt dieselbe Behandlung wie eine 16%ige (schwache Evidenz). Dieses wurde auch von Usern im LOG beobachtet.
Kaskadierungseffekt: Die drei Stufen wirkten multiplikativ. Eine initiale AI-Confidence von ~0.50 wurde durch Method-Performance-Adjustment (×0.86), Ensemble-Disagreement-Penalty (×0.71) und den pauschalen Kalibrator-Fallback (×0.25) auf ~0.08 reduziert. Das Physikmodell erhielt dadurch ~92% Gewicht im Blend, obwohl es nachweislich 25–60% unter dem realen Ertrag lag.
Der resultierende negative Feedback-Loop: niedrige AI-Gewichtung → Blend folgt Physik → Method-Performance-Learning bewertet AI als ungenauer → AI-Confidence sinkt weiter. Obwohl es technischer Unsinn ist.
FIX-Status → build & testing
- Kalibrator-adjustierte Deviationsbewertung: Die erwartete Abweichung aus der Physik-Kalibrierung wird richtungssensitiv berücksichtigt. Wenn AI und Kalibrator in dieselbe Richtung zeigen, wird der erwartete Anteil der Deviation mit einer 70%-Sicherheitsmarge herausgerechnet.
- Richtungsbasierter Modellkonsens: Ergänzend zur Magnitudenprüfung wird erfasst, ob beide AI-Modelle qualitativ in dieselbe Richtung relativ zur Physik prognostizieren (>10% Schwelle). Dies ermöglicht den evidenzstarken Safeguard-Pfad auch bei quantitativer Modelldivergenz.
- Graduierter Kalibrator-Multiplikator: Der pauschale Faktor wird durch eine stärkeproportionale Funktion ersetzt. Stärkere Kalibrier-Evidenz erlaubt höheres AI-Vertrauen (0.25–0.60 statt pauschal 0.25).
- Erweiterter Kalibrierungsbereich: Die obere Schranke für physikalische Korrekturfaktoren wurde von 2.5 auf 3.0 angehoben, um Morgenstunden mit extremem Verhältnis aus Diffusstrahlung und Modell-Baseline besser abzubilden.
Implikationen // Auswirkungen auf bestehende Installationen
Bei Anlagen mit Kalibrierfaktoren >1.2 steigt die AI-Gewichtung in den Kernstunden von ~8% auf ~30–40%. Die erwartete Verbesserung der Tagesprognose-Genauigkeit liegt bei 10–15 Prozentpunkten für systematisch unterbewertet prognostizierte Anlagen. Anlagen mit bereits gut kalibrierter Physik (Faktor ≈1.0) sind nicht betroffen.