Computer, die auf Stimmen hören

Fast alle grossen Techfirmen setzen auf Sprachsteuerung. Für Nutzer ist das bequem – doch gerade beim Datenschutz sind noch viele Fragen ungeklärt.

Feedback

Tragen Sie mit Hinweisen zu diesem Artikel bei oder melden Sie uns Fehler.

Zugegeben, C-3PO ist manchmal schon ein ziemlicher Blechtrottel. Aber egal in welches Sonnensystem es ihn auch verschlägt, der goldglänzende Roboter aus der Star-Wars-Filmreihe kann sich wenigstens verständigen. Schliesslich beherrscht er nach eigenen Angaben sechs Millionen Sprachen, auch wenn höchstens Meister Yoda weiss, wie sie wohl in ihn hineingekommen sind. Die armen Erdlinge dagegen mühen sich seit Jahrzehnten damit ab, dass ihre primitiven Computer wenigstens korrekt erkennen, was man ihnen befiehlt. Als Antwort aber kommt oft genug: «Ich habe Sie nicht verstanden.»

Doch das ändert sich gerade. Echo, der sprachgesteuerte, vernetzte Lautsprecher von Amazon, ist ein Sensationserfolg. Seit 2014 auf dem Markt, lauscht er bereits in Millionen Haushalten auf sein Codewort, spielt auf Zuruf die Wunschmusik aus dem Netz ab, sagt Rezepte auf oder regelt Licht und Raumtemperatur. Google hat im Oktober in den USA ein ähnliches Gerät herausgebracht, und auch Apple, so wird gemunkelt, arbeite an so etwas. In manchen Autos lässt sich das Navigationssystem komfortabel und ohne vorgegebene Reihenfolge per Sprache programmieren.

Interaktionen mit Geräten vereinfachen

Etwa ein Fünftel aller Suchanfragen auf Android-Handys werden in den USA bereits mündlich gestellt. Und im vergangenen Oktober meldete der Software-Konzern Microsoft gar, sein jüngstes System habe bei einem standardisierten Test genauso wenig Erkennungsfehler gemacht wie ein Mensch.

Erfüllen sich also endlich doch die lang gehegten Träume von Technik, die uns versteht? Wird Sprache, diese ureigene Fähigkeit des Menschen, Hilfsmittel wie Schalter, Tastaturen, Computermäuse und anderes ersetzen? Und was würde das dann bedeuten?

«Viele Interaktionen mit technischen Geräten könnten dadurch schon einfacher werden», sagt Elmar Nöth. Er ist Professor an der Universität Erlangen und beschäftigt sich seit vielen Jahren mit Spracherkennung. Die Menschen, glaubt er, würden diese neuen Möglichkeiten mit der Zeit auch annehmen. Vor allem eine Firma wie Amazon könnte enorm davon profitieren, vor allem wenn sie über die smarten Geräte mehr und mehr über deren Nutzer herausfindet.

Liefert einen wertvollen Datenschatz

Wie das geht? Nun, die zylinderförmigen Echo-Lautsprecher, kaum grösser als zwei Dosen Pfirsiche, haben selbst viel zu wenig Rechenkraft, um die statistischen Analysen zu betreiben, auf denen Computer-Spracherkennung basiert. Alles, was nach dem Codewort eingesprochen wird, landet deshalb in Rechenzentren, etwa von Amazon, wo es dann auch bleibt, für weitere Auswertungen. Und klar ist: Dort wird nicht nur versucht zu verstehen, was der Nutzer eigentlich will.

Die Unternehmen haben auch ein hohes Interesse daran, den Kunden besser kennenzulernen. Wie viele Kinder gibt es im Haushalt, welche Nachrichten werden gehört, welche Rezepte abgefragt - all das verknüpft mit den Daten, die ohnehin schon aus den Bestellungen bekannt sind, ergibt einen äusserst wertvollen Datenschatz. «Amazon kann ein viel genaueres Profil seiner Kunden erstellen», sagt der Erlanger Forscher Nöth, «das führt letztlich zu manipulativem Werben.»

Hinzu kommen Gefahren, die entstehen, wenn sich Geräte wie die von Amazon und Google oder, schlimmer noch, von Spielzeugherstellern für Spracherkennung übers Internet mit der Cloud verbinden. «Die Möglichkeiten des Illegalen sind natürlich auch da», warnt Nöth. Kriminelle könnten sich einhacken, um ständig mitzulauschen. «Ein Spielzeug für 50 Euro kann keine gute Sicherheit haben», warnt der Forscher.

Für den Internetkonzern Alphabet, die Mutterfirma von Google, birgt der Trend zur Sprachsteuerung noch eine ganz andere Gefahr. Denn der Goldesel des Konzerns, Google mit seiner Suchmaschine und den anderen kostenlosen Programmen wie dem Kartendienst Maps, ernährt sich mit einer sehr einseitigen Kost: Das weitaus meiste Geld verdient Google mit den unscheinbaren Textanzeigen, die auf dem Bildschirm eingeblendet werden, wenn man etwa ein bestimmtes Produkt oder eine Information sucht.

30 Prozent Fehler beim Diktat

Kommt die Antwort aber per Sprache aus einem Lautsprecher, ist da kein Bildschirm, also auch keine Anzeige und damit verdient Google kein Geld. Sollte sich der Trend zur Sprachsteuerung fortsetzen, gerät das Geschäftsmodell zumindest teilweise in Gefahr. Ein Versandhändler wie Amazon dagegen kann enorm profitieren, wenn er die Kunden dazu bringt, noch mehr von sich preiszugeben und - zumindest Dinge des täglichen Bedarfs - direkt per Spracheingabe zu bestellen. Er lebt davon zu verkaufen, nicht von Werbung.

Woher aber kommen überhaupt diese neuen, ziemlich futuristisch anmutenden Fähigkeiten der Spracherkennung? Vor 15 Jahren noch machten Computer 20 bis 30 Prozent Fehler, wenn man ihnen etwas diktierte. Und das, obwohl die Software dafür mühselig mit vorgegebenen, ellenlangen Texten auf die jeweilige Stimme trainiert werden musste. Was ist seitdem so anders geworden?

Es kommen mehrere Faktoren zusammen. Den Forschern stehen inzwischen mehr und mehr aufgezeichnete Sprachdaten zur Verfügung. Allein Apples sprachgesteuerter digitaler Assistenzdienst Siri beantwortet mehr als zwei Milliarden Anfragen - pro Woche. Das ist eine ungeheure Menge an Daten, mit denen sich herumspielen und experimentieren lässt.

Deutlich verbessert

Dazu kommen künstliche neuronale Netzwerke, die in solchen grossen Datenmengen Muster und Beziehungen erkennen können, also einzelne Wörter, zunehmend aber auch Zusammenhänge. Und schliesslich ist da noch die dramatische Steigerung, die es bei der Rechenkapazität von Computer-Prozessoren gegeben hat. Erst sie macht es möglich, die gewaltigen Datenhaufen schnell genug zu durchwühlen.

All das hat dazu geführt, dass «Qualität und Anwendbarkeit von Spracherkennung deutlich verbessert» wurden, sagt Marcus Spies. Er ist Informatikprofessor und Inhaber des Lehrstuhls für Wissensmanagement an der Ludwig-Maximilians-Universität in München. Er hat vor Jahrzehnten an den ersten Spracherkennungssystemen mitgearbeitet. Damals musste man zwischen jedem Wort noch eine Pause machen, damit das System überhaupt erkannte, wann ein Wort endete und wann ein neues begann.

Das ist längst vorbei. Wenn die Umgebung nicht zu laut ist und der Nutzer einigermassen deutlich spricht, erkennen heute sogar Handys nahezu fehlerfrei, was ihnen diktiert wird. Das Amazon-System Echo erkennt das Codewort - meist «Alexa», inzwischen funktioniert aber auch «Computer», ganz so wie auf dem Raumschiff Enterprise - auch dann, wenn das Gerät gerade Musik abspielt. Der interne Prozessor kennt ja die digitalen Daten, die er ausgibt und kann sie daher für seine Mikrofone neutralisieren.

Zunehmendes Textverständnis

Inzwischen geht es deshalb immer weniger darum, Wörter richtig zu erkennen. Es geht darum, dass Maschinen erkennen, was der Mensch eigentlich gemeint hat. Also den Sinn, etwa einer Frage, richtig zu verstehen. Und darum, nicht bloss einzelne Sätze fehlerfrei zu analysieren, sondern grössere Zusammenhänge.

Software, die maschinell Texte liest, entwickle zunehmend Textverständnis, sagt der Münchner Informatiker Spies, «das ist schon sehr viel besser als blosses Wortverständnis». Solche kognitiven Systeme, zu denen etwa IBMs «Watson» genannte Software zählt, sieht Spies allerdings noch nicht bereit für den Einsatz im Haushalt.

Der Informatiker glaubt eher daran, dass sie im professionellen Umfeld zum Einsatz kommen werden, beispielsweise in der Medizin. Denn das System ist in der Lage, aus unstrukturierten Texten, also etwa medizinischen Forschungsaufsätzen, Informationen zu gewinnen. Ein Arzt könnte es dann etwa fragen, was bei einer seltenen Unverträglichkeit gegen ein bestimmtes Medikament zu tun sei.

Nicht die einzige neue Eingebeform

Die Geräte für Heimanwender offenbaren dagegen noch riesige Wissenslücken. Bei vielen Fragen müssen sie passen und versuchen, sich aus der Affäre zu ziehen, mit Sätzen wie: «Ich weiss nicht, was du meinst, aber lass uns Freunde bleiben.» Und die Nutzer müssen nach jetzigem Stand noch viele Schlüsselworte lernen, damit die Software das gewünschte Ergebnis liefert - ähnlich wie beim Berg Sesam aus dem Märchen, der sich auch nur mit dem korrekt gesprochenen Satz öffnet.

Es muss auch nicht sein, dass allein Spracherkennung das Verhältnis von Mensch und Maschine natürlicher macht. «Benutzeroberflächen können aus vielen technischen Entwicklungen neue Impulse erhalten», sagt Spies. Er kann sich vorstellen, dass bestimmte Kommandos an Geräte durch Gesten ausgelöst werden können. Es gebe Techniken, die mit Ultraschall arbeiteten, oder Sensoren, die Augenbewegungen erkennen - «das kann einige gesprochene Befehle ersetzen». (Süddeutsche Zeitung)

Erstellt: 02.02.2017, 14:42 Uhr

20 Prozent

der Verbraucher nutzen sprachgesteuerte Assistenten nicht, weil sie sich dabei unwohl fühlen. Zu diesem Ergebnis kommt eine Umfrage des US-Marktforschungsinstituts Creative Strategies. Auch in der Öffentlichkeit trauen sich nur wenige, Dienste wie Apples Siri oder Googles konkurrierendes Angebot zu verwenden. Am ehesten tun sie es zu Hause (39 Prozent), vor allem aber im Auto (51 Prozent). Allerdings: Als Mobiltelefone noch relativ neu waren, gingen viele Nutzer damit auch in eine Ecke, anstatt wie heute ungeniert überall zu telefonieren.

Artikel zum Thema

Seitensprünge statt Abstimmungen und Fussballclubs statt Zugverbindungen

Wie schlagen sich die Sprachassistenten von Apple, Google und Microsoft im Vergleich? DerBund.ch/Newsnet hat Siri und Co. gegeneinander antreten lassen. Mehr...

Der unbemerkte Siegeszug der künstlichen Intelligenz

Siri, Cortana und Co. könnten das Smartphone als wichtigste digitale Plattform ablösen. Google, Apple und Co. versuchen, sich zu übertrumpfen. Mehr...

Die Redaktion auf Twitter

Stets informiert und aktuell. Folgen Sie uns auf dem Kurznachrichtendienst.

Werbung

Auswärts essen? Die Gastrokolumne.

Per Mausklick zur Gastrokritik: Wo es der Redaktion am besten mundet, kommen vielleicht auch Sie auf den Geschmack.

Blogs

Sweet Home 10 Rezepte für den Sommerbrunch

Tingler Semantische Nischen

Die Welt in Bildern

Bestens vorbereitet: Arbeiter transportieren eine Rakete zur Abschussrampe, von welcher aus sie am Sonntag ins All geschossen wird. (17. Mai 2018)
(Bild: Aubrey Gemignani/NASA/AP) Mehr...