Hallo, in dem Video sagt Simon in der Minute 3:24: “Hey Yarvis” und bekommt eine Antwort von einer Hardware, die ich nicht kenne.
Ich suche seit langem nach einer offline Sprachlösung und habe es mit einigen ESP32 versucht. Das Ergebnis war aber ernüchternd. Das einzige, was “relativ gut” funktionierte, war die Lösung mit “Atom Echo” von M5Stack, war aber eher ein Spielzeug.
Zur Zeit muss ich mich mit “Alexa” begnügen.
Vermutlich gibt es nun viele Verbesserungen, die ich “verschlafen habe”.
Das Gerät ist angekommen…aber das Ergebnis ist genauso enttäuschend, wie bei den Versuchen mit ESP32.
Fazit: Es liegt nicht auf den Geräten, sondern an meiner Unfähigkeit. :-((
98% aller Antworten ist: “Das habe ich nicht verstanden!”
Erst nach mehr wie 10 fachem Wiederholung wird die Anweisung akzeptiert.
Wen der Alias Wort länger als drei Silben ist, dann sind das 100%.
Kann man, irgendwie dem mein “Wortschatz” oder vielleicht die “Aussprache” beibringen?
Oder muss ich etwas in irgendeine *.yaml Datei festlegen?
Für die, die kein NabuCasa Konto, oder u.U. kein Konto bei einem KI Dienst haben wird es ab der Minute 24:53 interessant. Denn genau so verhält sich mein Gerät!
Weitere Einschränkung ist die Hardware. Wer eine Raspberry (wie ich) verwendet wird vermutlich noch lange auf eine offline Lösung warten müssen.
Wen man trotz dem testen möchte, sollte zu erst im HA unten
/Sprachassistenten/Verfügbarkeit/ alle Entitäten löschen und nur die verfügbar machen, mit denen man testen möchte.
Ich habe mir den Teil des Videos eben auch mal kurz angeschaut. Wenn ich ab 26:50 sehe wie das funktioniert, oder besser gesagt wie es eben nicht funktioniert, dann kann ich durchaus verstehen wie enttäuscht man davon ist.
Ich nutze hier seit Jahren Google Home + Nabu Casa und bin damit sehr zufrieden. Es gibt keinerlei Verständnisprobleme mit den Sprachbefehlen und diese werden auch sofort ausgeführt und umgesetzt. Da ich Nabu Casa auch eh nutzen würde wenn ich keine Sprachsteuerung von/mit HA nutzen würde und ich hier auch eh Android und somit Google mit div. Geräten nutze, gibt es für mich (bisher) auch gar keinen Grund irgendetwas anderes auszuprobieren.
Mir selber fehlen die Erfahrungswerte mit einer lokalen HA Sprachsteuerung, sodass ich den aktuellen Stand dabei nicht wirklich beurteilen kann, aber bis diese mal auf einem Niveau von Google Home abgekommen ist wird vermutlich noch viel Zeit vergehen. Das was sich Amazon mit Alexa und Google mit Google Home, über die Jahre hinweg mit viel Ressourcen, Know-how und Einsatz in Sachen Spracherkennung und -steuerung erarbeitet haben, lässt sich nun mal nicht “mal eben” in HA implementieren und umsetzen.
Es funktioniert nicht 100%, gebe ich zu. Man muss relativ deutlich und nicht zu schnell sprechen. Zwischen den einzelnen Wörtern auch eine Gedankenpause einbauen. Dann läuft es auch sehr zuverlässig. Für die lokale Spracherkennung braucht es natürlich auch die richtige Hardware. Dass ein Raspberry Pi, da nicht der schnellste ist, versteht sich wohl von selbst.
In meinem Setup:
Proxmox Homelab Server i9-13900H, 96GB RAM
Home Assistant VM : 6 Cores, 4GB RAM
Home Assistant Voice
Läuft das ganze sehr flüssig und schnell. Nach absetzen des Sprachbefehls, vergeht keine Sekunden bis der Befehl ausgeführt wird.
Egal ob das Schalten der Lichter je Raum:
“Licht im [Raum] einschalten” , “Licht im [Raum] ausschalten”
Szenen aktivieren:
" [Name der Szene] aktivieren"
Oder das steuern einzelner Leuchtmittel:
“[Name Licht, oder Alias] einschalten”, “[Name Licht, oder Alias] ausschalten”
Als Tipp - generell für lokale Spracherkennung und -ausgabe: OpenVoiceOS · GitHub . Hat auch einen eigenen Homeassistant Skill. Läuft akzeptabel auf Pi 4/5. Spracherkennung braucht grundsätzlich viel CPU Power oder GraKa mit Cuda. Für STT setze ich einen AMD 5825u ein. Läuft wie Schmitzkatz aber Pi 5 geht auch. ESP32 ist nicht wirklich geeignet. Aber TTS und STT kann man über Community Server ansprechen, wobei es teilweise dort lokal verarbeitet wird oder als Relaisstation auf Google umgeleitet und die eigene IP durch den Community Server maskiert wird.