Locker trabt der Jogger über den Strand. Zwischendurch greift er zur Fernbedienung seiner Kopfhörer und spricht scheinbar zu sich selbst: „Lies mir die Nachricht vor.“ Eine Stimme antwortet: „Nachricht von Sebastian“ und liest den Inhalt vor. Die Szene stammt aus einem Apple-Werbespot (siehe Video) vom Oktober 2011. Der Konzern präsentierte damals der Öffentlichkeit seinen neuen Sprachassistenten Siri (Speech Interpretation and Recognition Interface). Die Software wird seit dem Modell 4S mit dem iPhone ausgeliefert und startet Anwendungen auf Sprachkommando.

Mobile Spracherkennung

Auch wenn die Sprachsteuerung von elektronischen Geräten grundsätzlich nicht neu ist, verschafften Siri und vor allem das Marketing von Apple dem Thema einen neuen Schub. Dafür sorgte aber nicht nur die verwendete Technologie – Apple hatte seit 2007 zusammen mit Nuance Communications an der Software gewerkelt -, sondern in erster Linie die Verbreitung des iPhones. Als vorinstallierte Anwendung erlangte Siri eine enorme Reichweite. Allein im ersten Halbjahr 2012 wurden über 72 Millionen Smartphones dieser Baureihe verkauft. Das iPhone 5 sorgte nach seinem Marktstart für eine weitere Ausbreitung des integrierten Sprachassistenten: Im ersten Quartal 2013 wurden laut Apple rund 37 Millionen Geräte verkauft.

Auch wenn der Verkauf des iPhones zunächst wenig über die tatsächliche Nutzung der Spracherkennungstechnik aussagt, lässt sich in anderen Marktsegmenten ebenfalls ein Trend zum Einsatz von Sprachanwendungen beobachten. Neben Siri sind zusätzliche Apps in den einzelnen Stores erhältlich. Anwender können unter anderem Texte diktieren, Begriffe suchen oder sich per Spracheingabe zum nächsten Restaurant navigieren lassen. Außerdem vermarkten verschiedene TV-Hersteller Geräte, die auf Sprache reagieren. Im industriellen Umfeld werden Sprachanwendungen für die Produktion erprobt und in Krankenhaus-Operationssälen die Anzeige von Patientendaten per Sprachbefehl erforscht.

Apple vs. Google vs. Microsoft

Welche Bedeutung die Sprachsteuerung von mobilen Gadgets mittlerweile hat, zeigt Google Now. Ähnlich wie Siri bietet die App die Möglichkeit, einen Dialog mit dem Gerät zu führen. Der Smartphone-Assistent reagiert auf einfache Fragen und antwortet seit April per Textausgabe auch in deutscher Sprache. So kann der Anwender nicht nur Suchanfragen starten, sondern auch mit Stichworten eine Notiz speichern oder sich an einen Termin erinnern lassen. Wer wissen möchte, wie das Wetter in München ist, bekommt ebenso eine Antwort wie auf die Frage nach einem Fußballergebnis oder der Verkehrslage. Da die App auch für Apples Betriebssystem iOS verfügbar ist, greift Google seinen Hauptkonkurrenten weiter an.

Neben Apple und Google hat auch Microsoft integrierte Sprachfunktionen im Angebot. So ermöglichen die Betriebssysteme nicht erst seit „Windows Phone“ Zugriffe auf Mails oder Kontakte via Sprachbefehl. Bereits seit Windows Vista ist das Betriebssystem – genau wie der Konkurrent Mac OS X – mit Funktionen für Spracherkennung ausgestattet. Ein Blick in den Systemordner „Erleichterte Bedienung – Spracherkennung“ in der Windows-Systemsteuerung dürfte viele Nutzer überraschen. So lassen sich Programme innerhalb von Windows 7 per Sprachbefehl starten und schließen. Mit Sprach-Makros sind zudem auch komplexere Aufgaben möglich.

Die Vorstellung der „Xbox One“ letzte Woche war zudem ein Beleg dafür, welchen Stellenwert Sprachsteuerung für Microsoft hat. Die neue Spielkonsole ist auch ein Home-Entertainment-Gerät – inklusive Sprachkommandos (siehe Seite 50). Nach Angaben von Microsoft lassen sich zum Beispiel das TV-Programm („Xbox play TV“), Apps und Spiele („Xbox play Game“) per Sprachsteuerung öffnen.

Läuft gerade die Tagesschau?

Doch nicht nur Mobilgeräte und Notebooks werden mit Sprachfunktionen ausgestattet. Telematiksysteme und Navigationsgeräte treten genauso in den Mensch-Maschine-Dialog wie Lichtsysteme oder Rasensprenger. Das Bedienverhalten der Nutzer nachhaltig verändern könnten Home-Entertainment und Hausautomation. Nuance Communications entwickelt bereits seit einigen Jahren Software für die Spracherkennung. Das Unternehmen wurde vor allem durch die Software „Dragon Naturally Speaking“ bekannt. Die Weiterentwicklung dieser Plattform mit Dragon TV steht exemplarisch dafür, wie sich der Sprachdialog zwischen Mensch und Geräten in verschiedene Lebensbereiche ausdehnen kann.

Bei Dragon TV „hört“ das Fernsehgerät den umliegenden Raum kontinuierlich nach Befehlen ab. Der Anwender muss nicht kompliziert in ein spezielles Mikrofon sprechen. Hintergrundgeräusche soll die Technik laut Hersteller ausblenden können. Der Sprachbefehl „Dragon TV“ weckt die Anwendung aus dem Dornröschenschlaf. Die Bedienung funktioniert mit natürlicher Sprache, das heißt, abgehackte Kommandos sind grundsätzlich kein Problem.

Die Liste an Sprachbefehlen ist lang: So wird nicht nur das Kommando „Dragon TV, schalte um auf ARD“ ausgeführt. Es lassen sich auch verknüpfte Fragen stellen: „Läuft gerade die Tagesschau?“ oder „Gibt es heute Abend einen Film mit Bruce Willis?“ Die Plattform reagiert darauf, indem sie das aktuelle Programm scannt und auf die Frage antwortet. Ist es gerade 20 Uhr, dann erhält der Zuschauer, der nach der Tagesschau gefragt hat, eine positive Antwort und kann per Sprachbefehl zur ARD zappen. Daneben arbeit Nuance seit März mit der Deutschen Telekom zusammen. Die Entertainment Remote Control App für das TV-Angebot des Telekommunikationsanbieters hat seit kurzer Zeit die Sprachsteuerung von Nuance integriert.

Sprachsteuerung in der Industrie

Was im Consumer-Segment anscheinend immer stärker zum Alltag wird, könnte sich auch in der Industrie durchsetzen. Stimmen die Prognosen von Gartner, dann haben beispielsweise in drei Jahren 70 Prozent der Anbieter von Business-Intelligence-Software dort Funktionen zur Spracherkennung integriert. Persönliche Analyseassistenten könnten laut Douglas Laney, Research Vice President bei Gartner, Zusammenhänge verstehen und mit dem Anwender in Dialog treten. „Viele dieser Technologien können und werden dazu fähig sein, per Sprachsteuerung analytische Aufgaben zu übernehmen“, prognostiziert der Analyst.

Einige IT-Anbieter haben sich bereits auf die Entwicklung von interaktiven Sprachlösungen für Industriekunden spezialisiert. Ein Beispiel ist Semvox. Das Saarbrücker Unternehmen hat mit dem Talking Terminal ein System entwickelt, das direkte Interaktion mit dem Anwender ermöglicht. „Die Person stellt sich vor das Talking Terminal und stellt eine Frage“, erklärt Norbert Pfleger, Geschäftsführer von Semvox, die Station. „Das System antwortet in Echtzeit und hilft dem Anwender bei seinem Anliegen.“ Die Einsatzszenarien für die festinstallierte Station sind vielfältig. Möchte eine Person etwa im Supermarkt erklärt bekommen, wo die Getränkeabteilung ist, dann beschreibt das Talking Terminal den Weg per Sprachausgabe.

Talking Terminal für Fragen im Job

Auf Basis des Talking Terminal hat Semvox zudem ein interaktives Handbuch entwickelt, das derzeit im Rahmen des Projekts “ Cyber-Physische Produktionssysteme“ (Cypros) getestet wird. Zu den Kooperationspartnern gehören Unternehmen aus der Wirtschaft wie Wittenstein (Maschinenbau), BMW und DHL. Außerdem beteiligen sich Forschungseinrichtungen wie das Fraunhofer-Institut für Werkzeugmaschinen und Umformtechnik (IWU) und das Institut für Werkzeugmaschinen und Betriebswissenschaften (iwb) der Technischen Universität München daran.

Das interaktive Handbuch wurde erstmals auf der Hannover Messe 2013 im Live-Betrieb vorgestellt und soll Fertigungsunternehmen wie Wittenstein bei der zum Teil kleinteiligen Produktion helfen. „Das System ist eine Kombination aus Sprachsteuerung und RFID-basierter Interaktion“, so Pfleger. Damit unterstützt es Mitarbeiter bei der Montage, indem es via Sprachausgabe Arbeitsschritte erklärt. „Möchte ein Mitarbeiter wissen, mit welchem Drehmoment eine Schraube angezogen oder welcher Schraubenzieher benötigt wird, kann er das System fragen“, beschreibt der Semvox-Geschäftsführer mögliche Fragen an das Handbuch. Doch nicht nur bei der Produktion soll das System helfen. Es lasse sich außerdem für die Qualitätssicherung einsetzen, wirbt der Hersteller: „Gab es Abweichungen bei Arbeitsschritten, hilft das System bei der Ursachenforschung.“

Zwei Arten für die Realisierung

Aus IT-Sicht gibt es grundsätzlich zwei Möglichkeiten, ein System mit Spracherkennung zu realisieren. Im ersten Modell sind die Anwendungen auf einem Endgerät installiert und benötigen keinen Internet-Zugriff. Ein Beispiel ist “ Voice Remote Control“. Dahinter verbirgt sich eine Fernbedienung, die Semvox in Kooperation mit dem luxemburgischen Unternehmen Homesystem entwickelt hat. Die Fernbedienung lässt sich etwa zur Steuerung eines Lichtsystems oder von kabellos verbundenen Rasensprengern verwenden. Möchte der Anwender das Licht anschalten, muss er der Fernbedienung „Licht an“ diktieren.

Homesystem bestand bei der Entwicklung auf zwei Bedingungen: Das System sollte keinen Zugriff auf externe Server haben und auf einem Android-Gerät funktionieren. Der Anwendungsbereich ist in diesem Fall überschaubar: Die Daten werden dediziert auf einem Smartphone verarbeitet und lediglich lokal auf dem Gerät genutzt. Zudem ist in diesem Beispiel der verwendete Wortschatz begrenzt, da die Sprachbedienung nur für bestimmte Bereiche dient, etwa für die Beleuchtung des Hauses oder ein Bewässerungssystem.

Ähnlich wie bei den meisten Navigationssystemen mit Spracherkennung, funktioniert die Verarbeitung grammatikbasiert. Der Nutzer sagt dem System in Wortgruppen, was es tun soll, und dieses reagiert – zum Beispiel „Navigieren nach München, Allianz Arena“ oder „System XY, Licht anschalten“. Die Verarbeitung des Sprachbefehls ist in diesem Fall relativ zuverlässig und erreicht hohe Trefferquoten von über 90 Prozent. Allerdings versagt die Software, wo eine Unsicherheit beim Anwender auftaucht oder nichtstandardisierte Formulierungen verwendet werden.

Sprache zwischen Mensch und Gerät

Grammatikbasiert Sprachverarbeitung

Grundsätzlich gibt es zwei Möglichkeiten, eine Plattform mit Funktionen für Spracherkennung und -steuerung zu entwickeln: Als installierte Software auf dem Endgerät mit vordefiniertem Wortschatz oder über die Verarbeitung der Sprachinformationen im Rechenzentrum (Open Domain Platform) mit dynamischem Wortschatz. Bei der Verwendung einer eingebetteten Software funktioniert die Spracherkennung in der Regel grammatikbasiert. Das Programm hat eine vordefinierte Bibliothek zur Verfügung, die es nach dem gesuchten Begriff scannt. Diese Möglichkeit funktioniert auch auf Smartphones, Tablets, Navigationsgeräten oder Computern mit wenig Ressourcen. Die Verarbeitung der Sprache ist zuverlässig, und die Trefferquote liegt durchschnittlich bei über 90 Prozent. Nachteil dieser Variante: Werden unbekannte oder spezielle Begriffe verwendet, werden sie von der Plattform nur unzureichend erkannt.

Serverbasierte Sprachverarbeitung

Häufiger verbreitet sind mittlerweile Anwendungen, die mit einer Open Domain Platform (ODP) zusammenarbeiten. Die Verarbeitung gliedert sich bei diesem Modell in mehrere Schritte. Das Endgerät zerlegt die Wörter in einzelne Laute sowie Silben und sendet diese über eine Internet-Verbindung an einen Server. Im Rechenzentrum fügt die Plattform die Laute und Silben wieder zu einer wahrscheinlichen Wortkombination zusammen. In den meisten Fällen scannt das Programm die Wörter nach Schlüsselbegriffen, die beispielweise ein Kommando sein könnten. Erkennt die Plattform etwa das Wort „Nachricht“, signalisiert sie dem Smartphone diese Information. Das Mobiltelefon öffnet eine entsprechende E-Mail-Anwendung. Eine Spracherkennungssoftware kann hier auf einen dynamischen Wortschatz zurückgreifen. Die Menge an Wortkombinationen ist theoretisch unbegrenzt. Allerdings hängt die Verarbeitung von einer stabilen Internet-Verbindung ab. Die Zuverlässigkeit der einzelnen Plattformen variiert aufgrund der Verarbeitung der Schlüsselwörter erheblich.

Hybride Sprachverarbeitung

Einige Hersteller versuchen daher die Vorteile beider Modelle innerhalb einer hybriden Technologie zu verbinden. Einerseits möchten sie eine möglichst hohe Wort-Trefferquote erreichen. Zum anderen bietet die zusätzliche dynamische Verarbeitung auf einem Server den Vorteil, auf individuelle Kontextfaktoren (beispielsweise Ort, Zeit und Anwender) zu reagieren.

Cloud-basierte Systeme

Im Gegensatz dazu funktioniert im zweiten Modell ein Programm wie Siri oder Google Now auf Basis einer Open Domain Platform, die auf einem Server installiert ist. Bei dieser Variante werden die Spracheingaben unabhängig von Formulierungen und dem Sprachkontext verarbeitet. Auf dem Server befindet sich eine Plattform für die Sprachverarbeitung. Spricht zum Beispiel ein Siri-Nutzer einen Satz in sein Smartphone, werden die Wörter in einzelne Textbausteine zerlegt und an die Plattform verschickt.

Die Software scannt die gespeicherte Bibliothek nach Schlüsselwörtern und sendet die wahrscheinlichste Lösung zurück. So gibt der Anwender zum Beispiel einen Sprachbefehl, den das System dann in eine Handlung umsetzt: „Erstelle eine E-Mail an Person XY: Ich komme eine Stunde später.“ Der ODP-Server erkennt das Wort „E-Mail“ und signalisiert dem Smartphone, dass der Nutzer eine Nachricht schreiben möchte. Anschließend öffnet sich das E-Mail-Programm, und der Text kann diktiert werden. Bei dieser Lösung sind zwar unendlich viele Wortkombinationen möglich, die Verarbeitung ist aber weniger zuverlässig als bei einer grammatikbasierten Software. Allerdings kann ein ODP-Server auch viele Benutzer gleichzeitig bedienen, und die Datenbank mit den gespeicherten Wörtern ist erweiterbar.

Als zusätzliche Variante bietet beispielsweise Semvox eine Server-basierte Sprachverarbeitung in einer eigenen Infrastruktur an. Die Server hostet der Kunde. Die Plattform (ODP Server) stammt von Semvox. Die Installation kann mehrere Anwender bedienen und lässt sich laut Firmenchef Pfleger skalieren sowie in eine bestehende Infrastruktur integrieren.

Dritter Weg: Hybride Technik

Bei der Entwicklung neuer Programme setzen einige Anbieter auf die Kombination beider Lösungen: hybride Spracherkennung. „Wir sehen einen Hybrid-Ansatz derzeit als Idealweg“, erläutert Pfleger. „Bei diesem Ansatz arbeitet die Software auf einem lokalen, grammatikbasierten System. Gleichzeitig läuft ein Open-Domain-Erkenner im Hintergrund.“

Die Verknüpfung der Technologie wird da interessant, wo Anwender in einem individuellen Kontext handeln. Ein Beispiel sind Navigationssysteme in Autos. Befindet sich der Fahrer gerade in einer fremden Umgebung und sucht zu einer bestimmten Tageszeit ein Restaurant, dann sollte das System diesen Kontext berücksichtigen. Ist er um 9 Uhr morgens unterwegs und will etwas essen, dann fahndet die Software im Idealfall nach einem Lokal mit Frühstück.

Beim sogenannten situativen Kontext werden Faktoren wie Ort, Uhrzeit, aber auch Wetterdaten berücksichtigt. Daneben spielen Interaktionshistorie und Diskurskontext eine Rolle. Unterhält sich der Fahrer mit dem Beifahrer über einen Ort oder ein Ereignis, dann sollte das System die im Gespräch behandelten Objekte tracken und später abrufen. Schließlich ist auch der Applikationskontext von Bedeutung. So erkennt eine Anwendung wie Voice Remote Control, dass ein Gerät bereits eingeschaltet ist. Sagt der Anwender: „Schalte das Licht an“, antwortet das System: „Das Licht ist angeschaltet.“

Anwender Stephen Hawkin

Hybride Modelle sind eine Möglichkeit, um komplexe Interaktionen zu verarbeiten. Standardbefehle für die Navigation sind in der Bibliothek des Navigationsgeräts oder Smartphones gespeichert. Die Verarbeitung funktioniert schneller, und der Nutzer erhält ein zuverlässiges Ergebnis. Gleichzeitig benötigt das System für den Kontext, also etwa bei der Restaurantsuche für das Abendessen, Daten vom Server.

Im Gesundheitswesen hat sich Sprachsteuerung zu einem wertvollen Werkzeug entwickelt. Ein prominentes Beispiel ist Dectalk, eine in den 1980er Jahren entwickelte Text-to-Speech-Anwendung, die unter anderem der Physik-Nobelpreisträger Stephen Hawking nutzt. In Folge einer Luftröhrenoperation konnte der britische Physiker nicht mehr sprechen. Ein speziell entwickelter Sprachcomputer ermöglicht ihm, durch Augenbewegungen Begriffe auf einem Bildschirm auszuwählen, die dann vom integrierten Sprachgenerator wiedergegeben werden.

Spracherkennung in der Medizin

Neben diesem individuellen Einsatzszenario, werden im Gesundheitswesen auch allgemeinere sprachbasierte Lösungen erforscht. Die Entwicklung befindet sich aber noch am Anfang. Beispielsweise erprobt Semvox in Kooperation mit dem Universitätsklinikum Schleswig-Holstein die Sprachsteuerung im Operationssaal. „Ärzte sollen einen Zugriff auf digitale Bilddatenbanken bekommen, ohne die Hände benutzen zu müssen“, erklärt Pfleger.

Da das gesamte Umfeld in diesen Räumen steril sein muss, benötigt man einen „Springer“, wenn das Ärzteteam Informationen von der PC-Workstation im OP braucht. Bei der Erprobung geht es derzeit um die Sprachsteuerung von KI-(Krankenhausinformations-) und PAC-(Picture-Archiving-and-Communication-) Systemen. Benötigt ein Krankenhausangesteller die Daten eines Patienten, muss er bisher am Rechner des Krankenhauses nach den Informationen suchen. Allerdings gibt es nicht nur im Operationssaal Situationen, in denen das Personal mit beiden Händen beschäftigt ist. Eine Alternative wäre dann die sprachliche Interaktion mit dem KI-System.

Kooperation mit Nuance

Die Projekte befinden sich noch in der Testphase. Da sie unter das Medizinproduktegesetz fallen, ist die Zulassung langwierig und kompliziert. „Erste Untersuchungen mit Ärzten zeigen aber, dass sich die Lösungen produktiv einsetzen lassen“, so Semvox-Geschäftsführer Pfleger. Neben speziellen Lösungen für den Operationssaal existieren Komplettlösungen, die Pflege- und Medizinfunktionen sowie Kommunikations- und Unterhaltungsgeräte mit einer einheitlichen Infrastruktur bieten.

Gleichzeitig gibt es ausgereifte Anwendungen, die sich in erster Linie auf das Diktieren von Patientendaten konzentrieren. Seit April kooperiert etwa der Softwareanbieter IFMS (Institut für medizinische Software) mit Nuance. IFMS hat sich mit der Anwendung Pathopro auf die medizinische Pathologie spezialisiert. Nun hat das Saarbrücker Unternehmen das Programm 360 SpeechMagic SDK (PDF) von Nuance in seine Software integriert, so dass Pathologen ihre Berichte direkt im Programm diktieren können. Nuance arbeitet darüber hinaus mit dem Hersteller Xonion zusammen, der patients2go, eine App für Apple-Devices, anbietet. Auch hier geht es um die Erfassung von Patientenakten mit Hilfe von Sprache.

Der Artikel wurde am 28. Mai 2013 auf COMPUTERWOCHE.de publiziert.