Alexa als Speech-to-text für Assist?

Hallo,

ich möchte die Steuerung des HA über die Spracheingabe intensivieren. Bisher nutze ich Alexa mit vordefinierten Sätzen, um auf dem HA Aufgaben ausführen zu lassen. Sobald hier aber vom Satzbau abgewichen wird, geht die Anfrage ins Leere. Die Spracherkennung von Alexa ist prinzipiell aber sehr gut.

Mit der Integration von OpenAI in den Assist ist eine sehr gute “Aufgabenanalyse” möglich. Das System akzeptiert nun verschiedenstrukturierte Eingaben. Das macht es deutlich einfacher.

Mein Problem ist hier, dass die Schnittstelle der Audio-Steuerung zum Homeassistant recht “holperig” ist - “whisper” erkennt teilweise die ausgesprochenen Worte nicht und ist nicht besonders schnell - das wird von den Familienmitgliedern wohl so nicht akzeptiert (zum Rumspielen ist es ganz ok). Hier ist Alexa deutlich besser.

Auch müssen nun in den Räumen zusätzliche Mikrofone (parallel zu Alexa) installiert werden, damit die Spracheingabe rein über den HA läuft. Das macht keinen Sinn alles zu doppeln.

Daher meine Frage:
Gibt es eine Möglichkeit, die Texterkennung von/über Alexa zu extrahieren bzw. separat auszuwerten und im HA im Assist nutzbar zu machen (anstelle von Whisper)?

Damit und mit OpenAI würde der HA noch deutlich konfortabler werden und man könnte auf die bestehende Infrastruktur von Alexa im Haus zurückgreifen. Als Ergebnis können die Familienmitglieder deutlich einfacher die Geräte, die im HA eingebunden sind steuern.

Ist das möglich?

Grüße

Das sollte hier bei Simon erklärt werden

Der Beitrag ist mir schon bekannt. Dabei wird die Steuerung der Entitäten an Alexa übergeben. Dadurch wird zwar die gute Spracherkennung genutzt, aber die Verarbeitung geschieht auch bei Alexa - und da ist man an den exakten Aufbau des Satzschemas gebunden, was stark einschränkt.
Meide Idee/Frage war, ob man an den HA das Ergebnis Speech->Text von Alexa geben und dort über die OpenAI Integration die Auswertung laufen lassen kann.
Dadurch ist es für den Nutzer deutlich einfacher, Fragen zu stellen, da das Wording hier nicht mehr so die Rolle spielt.

1 „Gefällt mir“

Hey @thombe hast du bereits eine Lösung gefunden? Stehe an der gleichen Stelle wie du. Vor allem mit OpenAI macht es das ganze noch so viel umfangreicher. Aber ein zweites Mikro an jeder Sonos hinzustellen ergibt für mich keinen Sinn

leider nein. Ich habe noch keine Möglichkeit gefunden Alexa als speech-to-text zu nutzen. Zusätzliche Mirkos möchte ich nicht installieren. Da Alexa eine sehr schnelle und sehr gute Spracherkennung hat ist das meine erste Wahl. Ich hoffe, da kommt noch eine Lösung…