Wie Technik menschliche Emotionen erfassen kann
Alexa, Siri & Co. sind die führenden Vertreter der Sprachassistenten. Den Unterschied zu einfachen Anwendungen macht der Einsatz von Sentiment-Analyse aus. Damit werden sprachliche und emotionale Kontexte ermittelt. Die Experten der Reply Practice Voice Machine Interfaces stellen diese Technologie Klienten zur Verfügung, damit diese sie unter anderem für tiefere Einblicke in Kundenmeinungen nutzen können.
Intelligente Spracherkennung gibt es schon seit 1952. In diesem Jahr stellte man die Automatic Digit Recognition von Bell Labs vor, die in der Lage war, mit hoher Sicherheit gesprochene Ziffern zu erkennen. Heutzutage können Spracherkennungssysteme wie zum Beispiel ChatBots weitaus mehr und finden über leistungsfähige Sprachschnittstellen wie Alexa und Co. zahlreiche Anwendungen, die bequem und nutzerfreundlich sind. Allerdings gibt es noch an einer gewissen Stelle, die gerade im Kundenservice oder bei Produkt-Rezensionen entscheidend ist, einige Herausforderungen: Der sogenannten Sentiment-Analyse in der Kommunikation via Sprach-Technologie. Sprachassistenten sollten in der Lage sein, die Stimmung oder Tonalität von Gesagtem richtig zu erkennen und zu interpretieren.
Die Sentiment-Analyse bietet einen großen Mehrwert für Unternehmen quer durch jede Branche. Software kann automatisch Textressourcen oder gesprochene Inhalte auswerten. Dem Mitarbeiter wird somit die Arbeit abgenommen, lange, verschachtelte oder fehlerhafte Texte durchzulesen. Solche Anwendungen sparen insbesondere dann Zeit und Geld, wenn es darum geht, Social-Media-Monitoring zu betreiben oder Kundenrezensionen und Service-Feedbacks einzuholen.
Was passiert mit der Sprache, wenn sie vom Mikrofon aufgenommen wird? Eine vereinfachte Antwort darauf ist, dass die Sprach-Technologie über Mustererkennung das Gesprochene aufnimmt und anschließend digitalisiert, indem es das Gesagte in Binärsprache umwandelt.
Maschinen nutzen diese Sprach-Bausteine, um sie mit gespeicherten digitalen Modellen zu vergleichen. Dieser Vergleich kann auf vielen Ebenen stattfinden: Mit einfacher Mustererkennung von Ziffern kann eine Auswahl in der Hotline-Warteschleife verarbeitet werden. Hochkomplexe semantischen Netzwerke sind in der Lage, relationale Bedeutungen in Fließtexten zu erkennen. Ein Beispiel für letzteres ist die Sentiment-Analyse.
Durch die Sentiment-Analyse kann die Semantik eines Satzes von der Sprachanwendung erkannt werden. Die einzelnen sprachlichen Bestandteile eines Satzes werden korrekt verknüpft, sodass diesem ein Kontext und eine Bedeutung zugeordnet werden kann. Um die Korrektheit sicherzustellen, muss die Technologie allerdings die Tonalität, die Stimmung und die Gefühle des Nutzers verstehen können.
Diese Hochleistungsanwendung wird durch komplexe Machine-Learning-Modelle unterstützt. Diese erfassen den Kontext gesprochener oder schriftlicher Aussagen, um unter anderem Emotionen, Höflichkeit, Vehemenz und natürlich den sachlichen Inhalt zu quantifizieren.
Bei der Anwendung der Sentiment-Analyse gibt es unterschiedliche Leistungsstufen. Die einfachsten Software-Versionen durchsuchen Texte nach eindeutigen Begriffen, sogenannte „Bag of Words“, die sich zweifellos einer Emotionslage zuordnen lassen. „Heute fühle ich mich ausgezeichnet“ oder „Mann, ist das Wetter fies!“ sind Aussagen, die anhand der enthaltenen Adjektive leicht einzuordnen sind.
Komplizierter wird es, wenn die Anwendung den gesamten Sinn längerer Aussagen oder Texte und eine, innerhalb einer Aussage wechselnde, Tonalität erkennen muss. Hierzu werden semantische Netzwerke eingesetzt, die Verhältnisse von einzelnen Wörtern zueinander verstehen. Setzt etwa ein Nutzer den Sprachbefehl „Ich suche eine Unterkunft für mich und meine 100 Hühner“ ab, muss die Sprachtechnologie erkennen, dass hier kein normales Hotel gesucht wird.
Die meisten Anwendungen liefern eine verhältnismäßig einfache Auswertung aus Keywords und einer passenden Wahrscheinlichkeitsrechnung. Diese lässt sich algorithmisch verarbeiten, speichern und für andere Applikationen verwenden. Dafür wird sowohl eine Emotionslage auf einer polaren Skala – etwa Freude versus Wut – ermittelt, als auch die jeweilige Wahrscheinlichkeit als ein bestimmter Wert zwischen null und eins. Die Auswertung „Freude: 0,78456“ gibt dann beispielsweise an, dass es sich sehr wahrscheinlich um eine glückliche, positive Aussage des Anwenders handelt.
Eine tiefe Stufe der Komplexität bilden sogenannte Ontologien, also Begriffsammlungen, die konzeptuell mit anderen Begriffen verbunden sind. Ein Beispiel: Äußert sich ein Mensch mit „Das war total komisch!“ wäre die Aussage nach dem Besuch eines Kinofilms positiv, aber im Rahmen der Nutzung einer Software-Applikation eher negativ zu werten. Mittels Schnittstellen, die speziell für diese Kontexte programmiert wurden, – etwa für Amazon Alexa oder Google Home, – ist es möglich, solche Aussagen mit Sentiment-Analyse-APIs auszuwerten. Solch eine Anwendung ist in der Lage, die Emotionalität und Polarität einer Aussage zu bestimmen.
Sprachassistenten hören allerdings in der Verarbeitung von Aussagen in der Regel nur wenige Sekunden zu. Dadurch ist eine tiefergehende Analyse wie beispielsweise bei einem Fließtext nicht möglich.
Unternehmen setzen Sentiment-Analyse deshalb häufig für „Opinion Mining“, also eine Meinungsanalyse ein. Für zum Beispiel Onlinehändler oder Finanzdienstleister ist es wichtig zu wissen, was über die Leistung, die Produkte oder den Service in den sozialen Medien geschrieben wird. Zudem kann ein Meinungsbild darüber eingefangen werden, was sich die Zielgruppe wünscht, oder wie die Stimmung eines Verbrauchers ist, wenn er im Call-Center anruft.
Das Unternehmen kann die gewonnen Erkenntnisse dazu nutzen, die Produkte oder den Service zu verbessern oder die Vorteile von Sprachtechnologie im Marketing nutzen.