(openPR) Dort wo Sprache zur effizienten Eingabe von Informationen verwendet werden kann, wird sie auch verwendet werden. Ein Mensch spricht Drei bis Fünf mal schneller als er tippt. So werden Mäuse, Tastaturen Touchpads und Touch-Bildschirme und andere Eingabegeräte in Zukunft immer weniger und in vielen Eingabeprozessen auch garkeinen Nutzen mehr haben. Entsprechend ist zu erwarten dass der Markt für die diese Technologien und Geräte in den nächsten Jahren nicht wenig an Volumen verlieren wird und sich stark disruptiv auswirken wird. Dabei ist die Spracheeingabe mit Texterkennung schon seit langen Jahren eine eigentlich ausgereifte Technologie die besonders im Arbeitsleben ihre Anwendung findet.
Steuerung über gesprochene Sprache erfordert neben der Transkription von Sprache zu Text (Speech to Text) auch eine Kontexterkennung, schließlich muss ja die entsprechend vom Nutzer gemeinte Komponenten gesteuert werden und nicht irgendeine. Die Königdisziplin ist dann die Verarbeitung von Dialogen in denen der Mensch neben typischen Sprechfehlern oder Sprachvarianten (z.B Dialekte), auch gerne mal einfach so den Kontext wechselt.
Mit der Eingabe von Informationen per gesprochener Sprache und dessen richtiger Erkennung, ist es also nicht getan um digitale Sprachassistenten wie Amazon Alexa oder Google Assistant „smart“ nutzen zu können. Es braucht auch eine große maschinelle Intelligenz um den Kontext der Eingaben richtig zu verarbeiten und genau hier liegt die Herausforderung für die nächsten Jahre.
Dabei können z.B Hintergrundgeräusche, die Stimmung des Nutzes oder aber auch Bilder die durch eine Kamera erfasst werden als Kontexterfassungshilfe eingesetzt werden. Die interessanteste Quelle zur Kontextbestimmung ist jedoch die neben allgemeinen statistischen Daten, vor allem die Nutzungshistorie der Nutzer. In der Historie der Nutzer lässt sich auswerten und so hat der Sprachassistenten eine gute Möglichkeit um die Absicht des Nutzers in Erfahrung zu bringen und so den möglichen Kontext der angegebenen Situation zu erfassen und passend aufzulösen. Spätestens hier ist Big-Data und künstliche Intelligenz (was auch immer das sein mag) gefordert um gute Ergebnisse zu erzielen.
Die „Eingabe“ die ein Sprachassistent von seinem Nutzer erhält um eine bestimmte Absicht auszuführen, ist nicht nur die direkte Eingabe der Informationen durch den Nutzer, sondern auch die Zuführung von Daten aus anderen Kanälen, wie z.B Sensoren, Kameras oder eben auch Datenbanken und Protokollen. Erst aus der Kombination diese Informationskanäle kann ein qualitativ hoher Grad an Kontexterkennung herbeigeführt werden. Überdenkt man diesen Fakt einmal, so dürften besonders Hersteller von Eingabemedien gefordert sein ihre Produkte stärker in Richtung Kontexterfassung zu gestalten um am Puls der Zeit zu bleiben.
All diese Infos und noch viel viel viel mehr, gibt es auf der wohl wichtigsten Konferenz zu digitalen Sprachassistenten, der Smart Voice Konferenz (https://smart-voice-conference.de). Hier finden Unternehmen und Marken die Infos und Experten um digitale Sprachassistenten zu verstehen und sie mit in die Unternehmens- und Markenstrategie aufnehmen zu können. Vor dem Machen, muss immer erst das Verstehen kommen! Wir sehen uns in Köln…
Tickets gibt es hier: https://smart-voice-conference-2018.eventbrite.de/











