Big Data & Mustererkennung
Das Gebiet der Spracherkennung bietet unzählige Aufgabenstellungen für Big Data Analysis. Wie der Name schon sagt beschäftigt sich die Spracherkennung mit der Umsetzung von gesprochener Sprache in geschriebenen Text. Die Anwendungsmöglichkeiten sind vielseitig und reichen von automatischen Telefonantwortsystemen bis hin zu medizinischen Diktaten. Einige von uns behandelte Problemstellungen sind:
Spracherkennungscontext
Ein Context ist ein Themenbereich. Je enger der Context eingegrenzt werden kann, desto besser die Erkennungsergebnisse ergo desto geringer die Fehlerquote. Hat ein Radiologen in seinen Befunden ein sehr eingeschränktes Vokabular, ist der Context für einen Gerichtsnotar deutlich umfangreicher. Für den Herausgeber einer Tageszeitung reicht angesichts der Themenvielfalt ein einzelner Context nicht aus. Big Data hilft dabei nicht nur geeignete Themengebiete zu definieren sondern Texte auch korrekt diesen Themengebieten zuzuordnen.
Automatic Punctuation
In gesprochenem Text werden gewöhnlich Satzzeichen nicht diktiert. Diese müssen automatisch eingefügt werden. Setzt die Spracherkennungssoftware auf Verdacht viele Satzzeichen wird man wenige vergessen, dafür aber etliche falsch setzen. Setzt man dagegen wenige Satzzeichen wird die Fehlerquote sinken, dafür aber wieder etliche Satzzeichen fehlen. Mit Hilfe von Big Data läßt sich der sogenannte z-Wert berechnen der den optimalen Kompromiss zwischen diesen beiden Strategien liefert.
Large Vocabulary
Spracherkennungssoftware generiert Text aus vordefinierten Lexika. Je größer das zugrundeliegende Lexikon ist desto größer der Suchraum und damit die Anzahl möglicher Erkennungsergebnisse. Um den Suchraum klein zu halten bietet es sich an einzelne Wörter wieder in Unterwörter zu unterteilen. Anwendungen sind beispielsweise die Liaisons in Französisch, die 16 verschiedene Fallendungen in Finnisch oder die beliebig langen zusammengesetzten Substantive in Deutsch. Big Data liefert die Strategien für optimale Wortunterteilungen.