Car-PC.info

Eingabe & Steuerung - Sprachsteuerung

Normalo - Di 30 März, 2010 09:19
Titel: Sprachsteuerung
Hallo,

bin neu hier, und dies ist mein erster Beitrag Smile

Ich bin aktuell auf der Suche nach einer Software für Linux, die Sprache in Wörter übersetzt, die sich live auf einem Device auslesen lassen. Also ich spreche, und der gesprochene Text wird z.b. auf /dev/speech2text ausgegeben, evtl. mit Satzzeichen bzw. Steuerzeichen. Zugrunde liegt natürlich ein Wörterbuch.

Meine Idee ist, dafür einen kleinen Dämon zu schreiben, der dieses Device abfrägt und per konfigurierter regulärer Ausdrücke Kommandos ausführt. Alternativ darf's auch ein Programm sein, das nach jedem gesprochenen Satz/Wort ein Skript startet, dem es den Satz/Wort übergibt. Ist dann halt nicht "live", und GUIs brauche ich auch nicht.

Leider hab ich schon vor Jahren nach sowas vergeblich gesucht. Inzwischen hat sich das anscheinend alles weiterentwickelt, aber ich hab trotzdem nichts passendes gefunden.

Kennt sich da jemand aus?
Gizmondo - Di 30 März, 2010 09:49
Titel:
Erst mal Herzlich Willkommen !
Also für Windows hätt ich genau die passende lösung für dich aber Linux?! k.A.
Unter Windows hätt ich Dragon Naturaly Speaking genommen (Programm zur Sprach erkennung) in verbindung mit K.I.T.T. Talk (ein Programm das auf Sprach befehle wartet und dann .exe oder .bat oder sonstige dateien ausführt) aber unter dem Pinguin echt kein Peil.
Normalo - Di 30 März, 2010 10:01
Titel:
Hi und danke für die nette Aufnahme Smile

KITT Talk hab ich mir grad demonstrieren lassen. Ist aber eben beschränkt auf Kommandos. Ich brauche eher eine Diktiersoftware, die den diktierten Text auf einem lesbaren Device ausgibt. Der Sprachumfang soll nicht auf vorher trainierte Kommandos beschränkt sein.
Gizmondo - Di 30 März, 2010 10:04
Titel:
dann schau dir mal das dragon an

http://www.youtube.com/watch?v=pY19BqDqlBw
Normalo - Di 30 März, 2010 11:09
Titel:
Vielleicht hab ich mich nicht klar ausgedrückt.

Die Software soll permanent im Hintergrund laufen (ohne GUI) und den interpretierten Text in eine Schnittstelle schreiben, z.b. Device, Socket o.ä..

Dragon tut das meines Wissens nicht.

Gibt es sowas?
AGM - Di 30 März, 2010 11:44
Titel:
Würde mich auch mal interessieren ob Dragon das kann.
Kann es auch Abfolgen von Dingen tun?
Also wenn ich zum Beispiel sage "Auflösung wechseln" dass er dann sich durch zig Fenster klickt und die Auflösung auf wasweißich ändert?
Normalo - Di 30 März, 2010 12:05
Titel:
@AGM: Das hat nichts mit meinem Thema zu tun.
Gizmondo - Di 30 März, 2010 12:40
Titel:
@ Normalo Ok wirklich falsch verstanden und nein du hast recht das Kann Dragon nicht. Aber die integrierte Sprachsteurung von win 7 ist recht gut und kommt auch ohne GUI aus aber ob sie gleich auf eine andere schnittstelle schreiben kann weiß ich nicht.

@AGM Theoretisch kann Dragon das aber es gibt 2 möglichkeiten das zu tun
1. Du legst einen bestimten Sprachbefehl fest was dragon dann tun soll.
2. Du klickst dich selber via Sprachbefehl durch die fenster z.B. "öffne Anzeigensteuerung" "Feld Auflösung" "1024x768"

Sorry Normalo das ich das falsch verstanden habe und dir nicht helfen konnte.
Normalo - Di 30 März, 2010 12:54
Titel:
Kein Problem. Ich befürchte, da gibt es gar nichts auf dem Markt. Und wenn es eine annähernde Software gibt, wie z.b. julius, dann fehlen mir die zugehörigen Modelle, was auch immer ich da genau brauche.

Diese Spracherkennung ist für mich die Hauptmotivation für einen PC im Auto Smile
Gizmondo - Di 30 März, 2010 13:25
Titel:
Darf ich denn fragen was du genau vor hast mit der Sprachsteuerung im CARPC? vieleicht gibts ja andere lösungsansätze.
Nightmare - Di 30 März, 2010 13:46
Titel:
Zumal dann auch die entsprechende Audiohardware verbaut sein sollte. Mit nem 0815 Mikrofon kommst du bei den vielen Störgeräuschen im Auto nicht weit
Normalo - Di 30 März, 2010 14:11
Titel:
@Gizmondo
Mein Vorhaben beinhaltet erstmal das Steuern des Computers und externer Verbraucher, z.b. per Relaisinterface. Ich möchte auch für künstliche Intelligenz gerne eigene Routinen zum Auswerten der gesprochenen Texte basteln.

Ein Beispielszenario:
Du willst bei Wikipedia ein Wort nachschlagen. Du sprichst "Was bedeutet [Wort]?" und mein Tool schlägt bei Wikipedia nach und liest dir die Webseite vor. Während der Fahrt. Dazu musst du nichtmal die Webseite auf dem Monitor darstellen.

@Nightmare
Die Audiohardware gibt es zu kaufen. Meine Freisprecheinrichtung vom Hersteller liefert einen klaren Ton sogar bei 180 km/h. Liegt aber wohl auch an der Geräuschdämmung im Auto.
Gizmondo - Di 30 März, 2010 14:32
Titel:
Entschuldige bitte wenn ich mich täusche aber genau dein beispiel szenario ist mit dragon und kitttalk unter der verwendung von texttospeech möglich. Du kannst freilich einstellen das du keine grafische beutzeroberfläche sehen wisst dann läuft das ganze im Tray. Kitt talk kannst du befehle eingeben mit variablen wie "was bedeutet ......." oder "wo bin ich" oder oder oder. Du hinterlegst dem programm wo es suchen soll z.B. wiki oder navi oder was auch immer. Dann kannst du per weiteren spraach befehl "text to speech" dir das ganze vorsagen lassen. Du musst dir nur einmal die arbeit machen alle befehle zu hinterlegen oder wie du schon schreibst ne KI schreiben die die worter in der richtigen reihenfolge interpretiert und das in kitt hinterlegen. Du kannst auch sachen wie "öffne Fahrerfenster" mit dem Programm und z.B. ner Vellman karte realisieren.

http://www.youtube.com/watch?v=cZLHFNNEq9s
Normalo - Di 30 März, 2010 14:52
Titel:
Du täuscht dich. Ich habe mir die Anleitung (Anleitung Downloadseite) durchgelesen. Dort gibt es keine Möglichkeit, Variablen zu definieren oder überhaupt ein externes Programm zu starten und den gesprochenen Text übergeben. Man kann lediglich Mediendateien abspielen oder Relais schalten.

Bei der Frage "Was bedeutet [Wort]" muss "[Wort]" an ein Skript übergeben werden, um die Suche bei Wikipedia nach diesem Wort zu ermöglichen.

Nach weiterer Recherche bin ich auf ein SDK gestoßen, das Nuance anbietet. So kann man die Engine erweitern. Leider nur unter Windows. Mit wine möglicherweise auch unter Linux. Leider verlangt die Software dem Rechner einiges ab, so dass bei parallelen Prozessen die Erkennung wohl nicht mehr so zeitnah funktioniert.
Gizmondo - Di 30 März, 2010 15:00
Titel:
ja wie gesagt unter Linux ka kann dir hier nur mit win helfen. dragon 10 hat ein tool inbegriffen das auch externe anwendungen starten kann, kann kitt mit dem was ich von ihm will nix anfangen kümmert sich dragon drum und startet die anwendung. habs bei mir auf ner versuchs kiste so am laufen und kann bisher nicht klagen das was nicht funktioniert. Anleitung auf der Seite bezieht sich noch auf dragon 8 das meines wissens externe programme noch nicht starten konnte. Auch die eingabe konsole von dragon 10 läuft immer im tray mit das man auch dragon gezielt ansprechen kann auch wenn kitt läuft.

Aber wie gesagt alles unter win, ich weiß nicht ob wir hier ein paar linux/unix spezis haben.
6i6i - Di 30 März, 2010 17:58
Titel:
Schau dir mal
http://www.simon-listens.org/index.php?id=122&L=1
an.

Ist Opensource basiert auf Julius und lässt sich sicher als reine Consolenapplikation umbauen/konfigurieren.
Normalo - Di 30 März, 2010 19:08
Titel:
6i6i hat folgendes geschrieben:
Schau dir mal
http://www.simon-listens.org/index.php?id=122&L=1
an.

Ist Opensource basiert auf Julius und lässt sich sicher als reine Consolenapplikation umbauen/konfigurieren.

Julius hatte ich ja bereits erwähnt in Zusammenhang mit den deutschen Akustikmodellen, die mir hier leider fehlen. Vielleicht kann man die vom Dragon verwenden Rolling Eyes
cyberFreak - Do 24 Jun, 2010 19:44
Titel:
für alle die ein Sprachkommando in einen Tastendruck wandeln wollen funktioniert dieses Makro einwandfrei!! (jedoch nur für Vista/7)
Alle Zeiten sind GMT + 1 Stunde
Powered by phpBB2 Plus and Kostenloses Forum based on phpBB