Erleben Sie eine völlig neue Dimension der Arbeit am PC, erstellen Sie Ihre Briefe, Berichte oder Emails einfach per Sprache und gönnen Sie sich so mehr Komfort - mit Voice Pro 10 steigern Sie jetzt Ihre Produktivität - ob im Büro oder zuhause.
Führende Unternehmen, Privatkunden und auch die Presse sind von Voice Pro 10 begeistert. Die Stiftung Warentest urteilt: Voice Pro 10 ist Testsieger mit der besten Erkennungsleistung.
Hier erfahren Sie alles Wissenswerte über die Grundlagen der Spracherkennung sowie Tipps rund um das Arbeiten mit Voice Pro 10.
In den Grundlagen der Spracherkennung lernen Sie die Herausforderungen kennen, die Programmierer und Sprachwissenschaftler bei der Spracherkennung zu meistern haben. Informieren Sie sich über die noch junge Geschichte dieser Technologie und lesen Sie, wohin zukünftige Entwicklungen gehen.
Durch einfache Anwendertipps, wie zum Beispiel natürliches und deutliches Sprechen, können Sie beim Arbeiten mit Voice Pro 10 das Ergebnis deutlich verbessern und damit viel wertvolle Zeit sparen.# Richten Sie das Mikrofon vor jeder Benutzung sorgfältig aus, indem Sie darauf achten, dass sich das Mikrofon immer einen Fingerbreit vom Mundwinkel entfernt befindet und nicht direkt Ihren Mund berührt. Wenn der Abstand zum Mikrofon zu groß ist, sinkt die Erkennungsgenauigkeit merklich. Auch eine Verschiebung des Mikrofons während des Diktieren kann zu einer Verschlechterung der Erkennung führen. Achten Sie auch auf die Qualität des Mikrofons, da diese entscheidend zu einer guten Erkennungsleistung beiträgt. Die von den Spracherkennungsprodukten mitgelieferten Mikrofone, meist Headsets (Kopfbügelmikrofone), sind qualitätiv ausreichend in einer ruhigeren Diktierumgebung. Unsere Empfehlung getesteter Mikrofone...
# Die Qualität der Soundkarte ist für eine gute Erkennungsleistung von großer Bedeutung. Eine für Spracherkennung "gute" Soundkarte soll nicht nur einen tollen Klang beim Sound-Output haben (darauf legen viele Soundkarten-Hersteller besonders Wert, z.B. für Computerspiele), sondern sie muss einen guten Input-Kanal, Verstärker und A/D Konverter haben. Empfohlene und getestete Systeme und Soundkarten für linguatec Voice Pro finden Sie hier. Darüber hinaus werden folgende Karten immer wieder empfohlen:
Turtle Beach MultiSound Fiji Pro Series
SoundBlaster 16 PnP
SoundBlaster AWE 32, AWE 64 or AWE 64 Gold
Eine günstige Alternative zum Austausch der Soundkarte ist ein USB-Adapter für analoge Mikrofone bzw. ein USB-Mikrofon. Anstelle des Mikrofoneingangs über die Soundkarte erfolgt der Sprachinput über den USB-Eingang. linguatec empfiehlt das digitale Headset Logitech Premium USB-Headset 350 .
# Testen Sie vor jeder Diktiersitzung die Eingangslautstärke des Mikrofons und stellen Sie diese ein. Mit Hilfe des Audioassistenten können Sie die Eingangslautstärke des Mikrofons regulieren sowie Probleme mit der Toneingangs- und Tonausgangsqualität lösen. Dieser Vorgang dauert ca. 2-3 Minuten. Damit passen Sie das Mikrofon optimal an die Umgebungsgeräusche an, wenn z.B. eine Person nebenan telefoniert usw...
# Sprechen Sie sowohl bei Sprechertraining als beim Diktieren deutlich, aber natürlich. Es ist nicht erforderlich, besonders laut oder langsam zu sprechen. Wenn Sie langsam und übertrieben deutlich diktieren, kann sich die Erkennungsgenauigkeit sogar verschlechtern.
# Lassen Sie vom Vokabularassistenten der Spracherkennungssoftware Ihre vorhandenen Dokumente nach unbekannten Wörtern durchsuchen. Der Vokabularassistent analysiert Ihre Dokumente und zeigt Ihnen unbekannte Wörter aus diesen Dokumenten an. Sie können dem Vokabular diese neuen Wörter hinzufügen. Zugleich wird das Vokabular besser auf Ihren Schreibstil und die Fachgebiete, in denen Sie diktieren, angepasst. Dadurch erhöht sich die Erkennungsgenauigkeit beim Diktieren. Führen Sie bitte ggf. vor einer Vokabularanalyse eine Rechtschreibprüfung der Dokumente durch, damit keine Wörter mit Rechschreibfehler in das Vokabular aufgenommen werden.
# Achten Sie beim Hinzufügen neuer Wörter darauf, dass Sie aus mehreren Wörtern bestehende Ausdrücke, z.B. "Lasagne al forno" und solche mit ungewöhnlicher Groß-/Kleinschreibung, z.B. "Badische Neueste Nachrichten" als einen Ausdruck aufnehmen.
# Wenn Sie über längere Zeit (z. B. über 1 Stunde) Text diktieren und bearbeiten, und die Verarbeitungsleistung nachlässt, sollten Sie das Dokument speichern, schließen und neu öffnen.
Einführende Worte
Bis vor kurzem war Spracherkennung nur Realität in Science-Fiction Filmen. Für Mister Spok vom Raumschiff Enterprise ist es selbstverständlich, seine Anweisungen dem Bordcomputer im wahrsten Sinne des Wortes zu diktieren. Der legendäre Computer HAL aus "2001 - Odyssee im Weltall" entwickelte seine Fähigkeiten sogar so weit, dass er von den Lippen lesen konnte.
Zugegeben - ganz so weit ist es noch nicht. Dennoch haben Spracherkennungssysteme in der letzten Zeit gewaltige Fortschritte gemacht und sind mittlerweile neben Maus und Tastatur zum gleichberechtigten Eingabeinstrument geworden. Das gilt sowohl für das Erfassen von Texten und Daten wie auch für das Steuern des PC. Die neue Generation der Spracherkennungsprogramme ermöglicht auch Otto-Normalverbraucher eine völlig neue Arbeitswelt. "Computer - bitte zum Diktat" ist heute Realität geworden.
Große Technologieunternehmen wie IBM und Philips haben das riesige Marktpotential erkannt und investieren seit Jahren beträchtliche Summen in die Perfektionierung der Spracherkennung. Gleichzeitig kommen neue Anbieter wie Dragon Systems und Lernout & Hauspie auf den Markt und beschleunigen das Innovationstempo weiter.
Der eigentliche Gewinner dieses Wettlaufs ist der Verbraucher, der für immer weniger Geld eine immer bessere Software erhält. Aktuelle Umfragen bestätigen das überwältigende Interesse an diesem Thema. 76% der PC-Anwender können sich vorstellen, in der nächsten Zeit ein Spracherkennungssystem anzuschaffen. Interessanterweise setzen aber erst 0,8 % der Befragten Spracherkennung bereits ein.
Woher rührt diese beträchtliche Diskrepanz zwischen einerseits breitem Interesse und andererseits nur geringer Verwendung?
Ich denke, dass es für viele Interessenten immer schwerer wird, sich angesichts der Vielzahl der angebotenen Systeme einen aktuellen und objektiven Überblick zu verschaffen. Und selbst die Lektüre eines noch so umfangreichen Testberichts ist kein Ersatz für das eigene Ausprobieren und Testen der verschiedenen Programme. Nur so kann jeder selbst entscheiden, ob sich Spracherkennung nutzbringend einsetzen lässt.
Prof. Dr. J. Hoepelman.
viavoice | spracherkennungssoftwareSeitenanfang
Grundlagen der Spracherkennung
Gesprochene Sprache ist eines der wichtigsten menschlichen Kommunikationsmittel. Da die Sprache für uns selbstverständlich ist, machen wir uns über sie normalerweise keine Gedanken. Für uns Menschen ist es einfach, Wörter und Sätze zu verstehen.
Könnte die natürlich gesprochene Sprache von Computern verstanden werden, würde dies nicht nur den Mensch-Maschine-Dialog erleichtern, sondern auch neue Einsatzgebiete des Computers erschließen.
Die jahrzehntelange Grundlagenforschung in der Spracherkennung ist in letzter Zeit wesentlich vorangekommen. Für die allgemeine Textverarbeitung, die Telekommunikation und den Zugriff auf Datenbanken sowie beim Dialog mit Expertensystemen wird zur Zeit an besonders leistungsfähigen Spracherkennungssystemen geforscht.
An dem Entwicklungsprozess einer Spracherkennungslösung
sind unter anderem beteiligt:
* Programmierung und Computertechnik
* Phonetik
* Linguistik
* Mustererkennung
* künstliche Intelligenz
Mit einem automatischen Spracherkenner wird versucht, das menschliche Sprachverstehen nachzuahmen. Neben Tastatur und Maus dient nun das Mikrofon als weitere direkte Eingabemöglichkeit dazu, Daten in den Computer einzugeben.
viavoice | spracherkennungssoftwareSeitenanfang
Geschichte
Seit den sechziger Jahren wird in den Labors unterschiedlichster Firmen intensiv an Spracherkennungssystemen geforscht und entwickelt. Bis zu Beginn der achtziger Jahre reichten das Wissen und die technischen Möglichkeiten gerade aus, um Systeme zu konstruieren, die maximal einige hundert Einzelwörter erkennen konnten. Danach ist die Entwicklung so rasant vorangekommen, dass eine Erfolgsmeldung die andere ablöste.
Bereits das erste kommerziell genutzte Sprachausgabegerät (noch keine Spracherkennung) war eine Entwicklung von IBM. Dieses Modell 7772 wurde im Jahre 1962 auf den Markt gebracht. 1984 wurde ein Spracherkennungssystem vorgestellt, das mit Hilfe eines Großrechners in einem mehrere Minuten dauernden Rechenvorgang etwa 5.000 englische Einzelwörter erkennen konnte.
Im Jahre 1986 haben Wissenschaftler des IBM Forschungslabors in Yorktown Heights, USA, den Prototyp TANGORA 4 für Englisch, entwickelt. Der Name wurde in Erinnerung an den Weltrekordhalter im Schreibmaschinenschreiben, Alberto Tangora, gewählt. Bei diesem System war es durch spezielle Mikroprozessoren möglich, die komplizierten Verarbeitungsschritte der gesprochenen Sprache auf einem Arbeitsplatzrechner in Echtzeit durchzuführen. Das bemerkenswerte an diesem System war, dass es bereits eine Kontextprüfung beinhaltete. Durch sogenannte Trigrammstatistiken konnte das System Homophone (siehe Abschnitt Homophone) sicher unterscheiden.
Ein Trigramm (siehe Abschnitt Bi- und Trigramme) ist eine Verbindung von jeweils drei Wörtern innerhalb des Textes. Das System führt darüber Statistik, welche Wörter mit welchen anderen in welcher Schreibweise auftreten. Diese Statistiken werden beim Erkennungsprozess ausgewertet, um die richtigen Wörter in der korrekten Schreibweise zu finden.
Seit 1988 wurde im Wissenschaftlichen Zentrum Heidelberg der Prototyp für die deutsche Version von TANGORA entwickelt. Einsatz fand dieses System in der Medizin zum Diktieren von radiologischen Befunden, im Gerichtswesen für juristische Gutachten und im Büro für die allgemeine Geschäftskorrespondenz. Die einzelnen Vokabulare umfassten zwischen 20.000 und 30.000 Wörter, wobei jede Wortform als eigenes Wort zählt. Auf der CeBIT 1991 wurde das System erstmals einer breiteren Öffentlichkeit vorgeführt. Damals waren noch spezielle akustische Vorbereitungen notwendig. Das System musste in einem vom Lärm der Messe abgeschirmten Raum demonstriert werden.
Im Dezember 1992 wurde die TANGORA-Technik erstmals in einem Produkt unter dem Namen ISSS (IBM Speech Server Series) verfügbar gemacht. Zur Spracherkennung wird eine IBM RS/6000 benötigt, also ein auf RISC-Prozessoren basierendes Computersystem mit dem Betriebssystem AIX. Die Implementierung erfolgt als -> Client/Server-Lösung. Die akustische Eingabe des Diktates wird auf einem PC mit OS/2 oder auf einem AIX-Rechner durchgeführt, während der Server die Umwandlung der Akustik in Text übernimmt. Besonders in Krankenhäusern und großen Kliniken kam und kommt dieses System zum Einsatz.
Ende 1993 wurde ein neues Produkt, das auf der TANGORA-Technologie basiert, angekündigt. Der Preis war geradezu eine Sensation. Während alle bisherigen Lösungen über 20.000 DM gekostet hatten, wurde das IBM Personal Dictation System, das kurze Zeit später in IBM VoiceType Diktiersystem umbenannt wurde, für unter 1.000$ auf den Markt gebracht. Dieses System war eine reine PC-Lösung und damit auch für den breiten Massenmarkt bestimmt. Bei der Vorstellung auf der CeBIT 1994, damals noch als englische Version der Spracherkennung, stieß das System sowohl bei den Messebesuchern als auch von Seiten der Presse auf größtes Interesse. Wenige Wochen später wurde das Diktiersystem oder auch die "elektronische Sekretärin", wie die Spracherkennung in der Presse genannt wurde, in der deutschen Version auf den Markt gebracht. Auf der CeBIT 1995 wurde eine deutsche Version mit speziellen Fachvokabularen für Mediziner und für Anwälte vorgestellt, wobei die Vorführungen selbst in den lautesten Hallen der Messe durchgeführt werden konnten, ohne dass die Erkennungsleistung besonders stark beeinträchtigt wurde. Das System hieß VoiceType Diktiersystem für OS/2. Zur CeBIT 1996 gab es dann wiederum eine neue Version. Diese benötigte keine spezielle IBM Audiokarte mehr, sondern funktionierte von nun an mit einer gewöhnlichen 16Bit-Soundkarte und lief auf dem Betriebssystem Windows 95. Diese Version hieß VoiceType Diktiersystem 3.0 für Windows 95.
Eine andere Lösung und das erste Spracherkennungssystem für den tragbaren PC wurde 1984 von der Firma Dragon Systems in Newton, Massachusetts, entwickelt. Die Firma Dragon Systems wurde von Dr.James und Dr.Janet Baker, zwei ehemaligen IBM Mitarbeitern, im Jahre 1982 gegründet. Dragon beschäftigt sich ausschließlich mit Spracherkennungsprodukten. Im März 1990 wurde das Dragon Dictate System in den USA vorgestellt.
Als selbständige Geschäftseinheit wurde im Jahre 1990 die hundertprozentige Philips Tochter Philips Dictation Systems gegründet. Die erste kontinuierliche Philips Spracherkennung wurde 1993 vorgestellt und 1994 implementiert. Es folgte 1997 das Produkt Speech Magic, welches Client/Server fähig ist, und 1998 ein Konsumentenprodukt namens FreeSpeech98.
Lernout & Hauspie ist der vierte Spracherkennungshersteller. Das Unternehmen wurde 1987 gegründet und ist in vier Geschäftsbereiche gegliedert: Kerntechnologien, Spracheingabe, Übersetzungsrelevante Dienstleistungen und Lokalisierung sowie Sprachtechnologie. Die vier Kerntechnologien sind:
Spracherkennung, Text-zu-Sprache, digitale Sprachkompression und Text-zu-Text (Übersetzungen). Durch die Übernahme der Kurzweil Applied Intelligence Inc. 1997 wurden die Spracherkennungsentwicklungen in den L&H Geschäftsbereich integriert. Daraus resultierende Produkte wurden auf der Comdex 1997 vorgestellt. Die ersten Produkte in deutscher Sprache sind seit Ende November 1998 verfügbar.
viavoice | spracherkennungssoftwareSeitenanfang
Technische Probleme
Bei der Spracherkennung handelt es sich nicht um ein einheitliches System. Sie lässt sich in unterschiedliche Spracherkennungssysteme für unterschiedliche Einsatzmöglichkeiten einteilen.
Abbildung 1 gibt einen Überblick, wie sich Spracherkennung
differenzieren lässt.
viavoice | spracherkennungssoftware
Abbildung 1: Anwendung von Spracherkennungssystemen
Abbildung 1 zeigt, dass sich Spracherkennungssysteme in zwei grundsätzlich verschiedene Gruppen unterteilen lassen. Die eine dient zur Steuerung von Maschinen durch Sprachbefehle, die andere wird zum Erfassen von gesprochenem Text eingesetzt.
viavoice | spracherkennungssoftwareSeitenanfang
Spracherkennung zur Steuerung und Befehlseingabe
Steuerungssysteme verfügen in der Regel über einen stark beschränkten Wortschatz, da meist nur wenige Befehle zur Steuerung benötigt werden und kein direkter Kontakt zum spracherkennenden Computer bestehen muss. Somit sind auch indirekte Eingaben wie zum Beispiel über ein Telefon möglich. Sie finden vor allem Anwendung beim sogenannten "Telefon-Banking". Es sind aber auch Datenbankrecherchen via Telefon möglich. Die bekannteste Anwendung in diesem Bereich ist die telefonische Zugauskunft der Deutschen Bahn AG.
Sprachsteuerungen mit Kontakt zum Computer finden vor allem Anwendung als Steuerungssysteme, die mittels sprachlich gegebener Befehle Geräte und Maschinen bedienen beziehungsweise steuern.
viavoice | spracherkennungssoftwareSeitenanfang
Spracherkennung zur Texterfassung
Bei der Spracherkennung werden gesprochene Wörter in geschriebenen Text umgewandelt. Diese Systeme müssen in der Regel über einen sehr großen Wortschatz verfügen, damit zufriedenstellende Erkennungsergebnisse erreicht werden können. Manche Systeme können den Text in Echtzeit erfassen, bei anderen muss der Vorgang der Umwandlung von Sprache in Text in einem sogenannten "Stapel-Betrieb" (Batch-Job) erfolgen. Systeme, die in Echtzeit arbeiten, können den Text unmittelbar, nachdem er gesprochen wurde, auf dem Bildschirm des Spracherkennungscomputers anzeigen.
Ein weiteres Unterscheidungskriterium befasst sich mit der Frage, ob zur Spracherkennung eine diskrete Sprechweise erforderlich ist, also jedes Wort für sich gesprochen werden muss, oder ob der Text kontinuierlich diktiert werden kann, wie es beim normalen Sprechen üblich ist.
Systeme für diskret gesprochene Sprache
Seit einigen Jahren existieren bereits Systeme, die mit dem Prinzip der diskreten oder auch "isolierten" Worterkennung arbeiten. Abbildung 2 zeigt einen Überblick über den derzeitigen Entwicklungsstand dieser Systeme.
viavoice | spracherkennungssoftware
Abbildung 2: Derzeitiger Entwicklungsstand von Systemen für diskret gesprochene Sprache
Systeme mit einem begrenzten Wortschatz von circa 1.000 Wörtern werden für den täglichen Einsatz im Büro oder in der Arztpraxis beziehungsweise Anwaltskanzlei kaum geeignet sein. Hier gilt es, ein möglichst umfangreiches und auf den speziellen sprachlichen Kontext abgestimmtes Vokabular zur Verfügung zu stellen. Derartige Systeme sind zur Zeit schon als sprecherunabhängige (siehe Abschnitt Sprecherunabhängigkeit) Spracherkennungslösungen mit einem aktiven Gesamtwortschatz von über 60.000 Wörtern verfügbar.
viavoice | spracherkennungssoftwareSeitenanfang
Systeme für kontinuierlich gesprochene Sprache
Beim kontinuierlichen Sprechen sind fast alle Wörter lückenlos aneinandergereiht. Dem Menschen fällt es beim Zuhören leicht, die einzelnen Wörter zu unterscheiden. Für eine Maschine ist es um ein Vielfaches schwieriger, einen zusammenhängenden Redefluss zu strukturierten und in einzelne Wörter zu zerlegen.
Abbildung 3 zeigt den Unterschied der Frequenzdiagramme für den kontinuierlich (1) und den diskret (2) gesprochenen Satz "Die Sonne lacht".
viavoice | spracherkennungssoftware
Abbildung 3: Frequenzdiagramme für kontinuierliche (1) und diskrete (2) Sprechweise
Das System muss in Echtzeit entscheiden, an welcher Stelle Wörter zu Ende sind. Der schon bei Systemen für diskret gesprochene Sprache sehr hohe Rechenaufwand wird bei Systemen, die kontinuierlich gesprochene Sprache erkennen sollen, um ein Vielfaches übertroffen. Besonders schwierig wird es, wenn sich im Text zusammengesetzte Wörter befinden. Beispiel: "Mein Auto ist mehr wert." gegenüber "Der Mehrwert beträgt tausend Mark." oder "Zur Arbeit möchte er oft mit seinem Rad fahren." gegenüber "Das Radfahren macht ihm sehr viel Spaß."
Durch die kontinuierlich steigende Leistungsfähigkeit der PCs ist es den Labors jedoch gelungen, ein solches System zu entwickeln, dass das Diktieren ohne Pausen zwischen den einzelnen Wörtern zulässt. Abbildung 4 zeigt den derzeitigen Entwicklungsstand der kontinuierlichen Spracherkennung. Diese Systeme sind mittlerweile mit einem Gesamtwortschatz von über 128.000 Wörtern und ebenfalls sprecherunabhängig (siehe Abschnitt Sprecherunabhängigkeit) verfügbar.
viavoice | spracherkennungssoftware
Abbildung 4: Derzeitiger Entwicklungsstand von Systemen für kontinuierlich gesprochene Sprache
Diskrete Worterkennung und kontinuierliche Spracherkennung
Oft werden falsche Vermutungen über die Unterschiede der diskreten Worterkennung und der kontinuierlichen Spracherkennung angestellt. Deshalb soll hier eine kurze Abgrenzung als Grundlage für das weitere Verständnis durchgeführt werden.
Die akustischen Signale, die durch das Mikrofon aufgenommen werden, müssen durch das Spracherkennungssystem so verarbeitet werden, dass als Ergebnis ein geschriebener Text vorliegt. Die Verbindung der Akustik mit dem Text wird durch sogenannte Referenzmuster hergestellt. Ein Referenzmuster stellt eine unteilbare Einheit dar, der ein beliebiger Text fest zugeordnet ist. Ein Spracherkennungssystem besitzt einen großen Vorrat an derartigen Referenzmustern, die sozusagen als "Schablone" für die akustisch aufgenommenen Wörter dienen. Eine gesprochene akustische Einheit kann grammatikalisch gesehen ein Wort, eine Phrase oder einen ganzen Satz darstellen. Den Referenzmustern ist dann dementsprechend ein Wort, eine Phrase oder ein ganzer Satz zugeordnet. Wird jeder akustischen Einheit genau ein Referenzmuster zugeordnet, so spricht man von diskreter Worterkennung.
viavoice | spracherkennungssoftware
Abbildung 5: Zuordnung eines Referenzmusters an eine akustische Einheit (diskrete Erkennung)
Abbildung 5 zeigt, wie ein diskretes Spracherkennungssystem versucht, dem kontinuierlich gesprochenen Satz "die Sonne lacht" genau ein Referenzmuster (in diesem Fall für das Wort "die") zuzuordnen. Da es keine vollständige Übereinstimmung der Frequenzdiagramme gibt, wird der Satz nicht erkannt.
Beziehen sich ein oder mehrere Referenzmuster auf eine akustische Einheit, so wird dies als kontinuierliche Spracherkennung bezeichnet. Abbildung 6 stellt das Prinzip dieser Technik dar: Dem kontinuierlich gesprochenen Satz "die Sonne lacht" werden drei Referenzmuster zugeordnet. Dadurch wird der Satz erkannt.
viavoice | spracherkennungssoftware
Abbildung 6: Zuordnung dreier Referenzmuster an eine akustische Einheit (kontinuierliche Erkennung)
Wenn ein Spracherkennungssystem also nach der diskreten Sprechweise arbeitet, so bedeutet dies nicht automatisch, dass man jedes Wort einzeln und für sich sprechen muss. Wenn zum Beispiel ganze Sätze als jeweils ein Referenzmuster hinterlegt sind, so wäre das System in der Lage, diese ganzen Sätze zu erkennen. Folglich müsste zu jedem Satz ein Referenzmuster hinterlegt werden. Erkennt ein solches System den Satz "Die Sonne lacht", weil es ein passendes Referenzmuster gefunden hat, so könnte es den Satz "Die Anne lacht" nicht erkennen, obwohl nur eine geringe lautliche Abweichung besteht. Deshalb arbeiten in der Praxis Spracherkennungssysteme immer noch mit dem Prinzip der diskreten Worterkennung. Das heißt jedoch nicht, dass jedes Wort einzeln (diskret) gesprochen werden muss. Spracherkennungssysteme, mit denen man kontinuierlich diktieren kann, arbeiten auch mit dem Prinzip der diskreten Worterkennung. Wie die Technik aussieht, die die kontinuierliche Diktierweise ermöglicht, ist im Abschnitt Erkennungsprozess eines Spracherkennungssystems beschrieben.
viavoice | spracherkennungssoftwareSeitenanfang
Sprecherunabhängigkeit
Ein sprecherunabhängiges System kann von jeder beliebigen Person ohne Training genutzt werden.Bei Texterfassungssystemen muss differenziert werden, ob sich die Sprecherunabhängigkeit auf den Wortschatz oder auf das gesamte Spracherkennungssystem bezieht. Bei einem Spracherkennungssystem ohne mitgelieferten sprecherunabhängigen Wortschatz muss jeder Benutzer, der mit dem System arbeiten möchte, seinen eigenen, persönlichen Wortschatz erst aufbauen. Aus jedem Wort, das der Benutzer diktiert, muss der Rechner ein Referenzmuster erzeugen. Erst wenn der selbst aufgebaute Wortschatz repräsentativ genug ist, können ausreichend gute Erkennungsergebnisse erreicht werden. Dadurch dauert die Einarbeitungszeit für jeden Benutzer sehr lange, und die Produktivität wird zunächst stark absinken. Solche Systeme sind heute nicht mehr üblich. Ein mitgelieferter sprecherunabhängiger Wortschatz ist somit sehr sinnvoll, da dieser nur noch an die Sprechweise des Benutzers angepasst und nicht erst eingegeben werden muss. Die am häufigsten verwendeten Wörter sind in solch einem Wortschatz bereits enthalten und mit Referenzmustern hinterlegt. Sie werden nur noch an den Sprecher adaptiert. Zum Beispiel lernt das System, ob der Sprecher "wichtig"., "wichtich", oder gar "wischtisch" sagt. Man stelle sich einmal vor, ein Bayer, ein Sachse und ein Schweizer sollten vom System sofort und ohne Initialtraining erkannt werden. Dies ist selbst für einen Menschen schwierig, da die regionalen sprachlichen Eigenheiten der Sprecher sehr verschieden sind. Ein System, das nicht auf die zusätzlichen Kommunikationsmittel des Menschen (z. B. Gestik, Mimik), zurückgreifen kann, wäre hoffnungslos verloren.
Ein Anpassungstraining ist aufgrund der heutigen sprecherunabhängigen Systeme zwar nicht mehr notwendig, aber aufgrund unserer individuellen Aussprache sehr empfehlenswert. Man erzielt dadurch von Anfang an eine weitaus höhere Erkennungsgenauigkeit.
viavoice | spracherkennungssoftwareSeitenanfang
Linguistische Probleme
Die größte Schwierigkeit bei der Spracherkennung besteht darin, dass ein und dasselbe Wort nie ein zweites Mal absolut identisch ausgesprochen werden kann, selbst wenn es der Sprecher versucht. Weitere Klangvariationen werden durch die physischen und psychischen Zustände des Sprechers, durch den sprachlichen Kontext, durch die Eigenschaften des Mikrofons oder Umgebungseinflüsse hervorgerufen. Durch Hintergrundgeräusche kann der Frequenzverlauf eines gesprochenen Wortes derart stark verändert werden, dass die Erkennung durch den Computer eingeschränkt oder sogar unmöglich wird. Neben der reinen Akustik, wie Betonung und Stimmlage des Sprechers, kann ein Mensch auch aus der Gestik und Mimik seines Gesprächspartners zusätzliche Informationen erhalten, zum Beispiel über seine Gemütslage. Diese Kanäle bleiben einer Maschine natürlich unzugänglich, und dies bedeutet ein weiteres Problem für die Spracherkennungssysteme. Ein weiterer Vorteil des menschlichen Spracherkennens ist, dass ein Mensch neben dem wörtlichen Verstehen auch inhaltlich versteht, um was es sich in einem Gespräch handelt. Psychologen nennen dieses Phänomen den "Cocktail-Party-Effekt". Bei einer Party leidet die Qualität der Sprache durch die Musik und andere Gespräche im Hintergrund. Dennoch können selbst undeutlich gesprochene Wörter vom Menschen richtig erkannt werden, weil er weiß, worüber gesprochen wird. Man stelle sich zum Beispiel vor, in einem Bus zu sitzen. Selbst wenn der Fahrer sehr undeutlich spricht, ist zu erwarten, dass er den Namen einer Straße oder eines Platzes ansagen wird. Solches Zusatzwissen, das sogenannte Weltwissen, bleibt dem Computer verborgen.
Speziell im deutschen Sprachraum gibt es noch weitere bedeutsame Probleme, die eine Spracherkennung erschweren. Diese Probleme werden in den folgenden Abschnitten beschrieben.
viavoice | spracherkennungssoftwareSeitenanfang
Aktiver Wortschatz
Während eine englisch sprechende Person einen aktiven Wortschatz von ca. 800 Wörtern besitzt, umfasst der Wortschatz einer deutsch sprechenden Person etwa 4.000 Wörter. Ausnahmen nach oben oder unten gibt es natürlich, so hatte zum Beispiel Goethe einen aktiven Wortschatz von etwa 24.000 Wörtern zur Verfügung, um seine Gedanken auszudrücken. Typisch für die Spracherkennung ist, dass jede Wortform wie ein eigenes Wort gezählt wird. Da ein solches System nur auf lautliche Eigenschaften hin untersucht, gibt jede Flexion eines Wortes einen neuen Eintrag im Wörterbuch der Spracherkennung. Das Wort Baum hat zum Beispiel weitere Formen: Baum(e)s, Bäume und Bäumen. Jede Flexion dieses Wortes, also jede Wortform, benötigt im Vokabular des Spracherkennungssystems einen eigenen Eintrag. Während im Englischen in der Regel jedes Verb nur etwa vier Flexionsformen besitzt, sind es im Deutschen weit über zehn verschiedene Schreibweisen für ein Verb. Im Durchschnitt gibt es für Wörter im Englischen 2,2 Flexionen je Grundform, im Deutschen 5 und im Französischen sogar 7. Im deutschsprachigen Raum gibt es bis zu einer Million Wortformen. Der Einfachheit halber wird jedoch bei Spracherkennungssystemen nicht von Wortformen, sondern von Wörtern gesprochen.
viavoice | spracherkennungssoftwareSeitenanfang
Homophone
Ein weiteres Problem für eine Spracherkennung ist das Auftreten von Homophonen, also Wörtern, die gleich gesprochen, aber unterschiedlich geschrieben werden. So klingen die Wörter "mehr", und "Meer", "Lärche" und "Lerche", "fiel" und "viel", "wieder" und "wider" absolut identisch, ihre Bedeutung ist jedoch unterschiedlich, und selbst dem Menschen bereiten diese Wörter immer wieder Probleme bei ihrer Differenzierung. Sätze wie die folgenden bringen auch heute noch die meisten Spracherkennungssysteme an die Grenze ihrer Leistungsfähigkeit:
Der junge Junge fiel viel und fällt immer noch viel auf dem Feld.
Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen hinterher.
Heutzutage fahren immer mehr ans Meer.
Derzeit können nur die leistungsfähigsten Spracherkennungssysteme derartige Homophone mit ausreichender Zuverlässigkeit unterscheiden. Wird ein solcher Satz umgestellt (zum Beispiel "Fliegen fliegen hinter Fliegen"), so kann es sein, dass erneut Erkennungsschwierigkeiten auftreten, da die Kontextprüfung, die beim Diktieren im Hintergrund ihre Berechnungen durchführt, diesen Kontext eventuell nicht abdeckt. Diese Kontextprüfung basiert auf einem statistischen Verfahren. Hier gibt es die sogenannte Bi- und Trigrammstatistik. Weitere Informationen zur Bi- und Trigrammstatistik finden Sie im Abschnitt Bi- und Trigramme.
viavoice | spracherkennungssoftwareSeitenanfang
Groß- und Kleinschreibung
Wie der Satz mit den/dem Fliegen im Abschnitt Homophone bereits zeigte, können in der deutschen Sprache Wörter völlig unterschiedlichen Sinn erhalten, wenn sie groß oder klein geschrieben werden. Auch dies ist ein Problem für die Spracherkennung, da nur durch Kontextprüfung (siehe Abschnitt Bi-und Trigramme) ein Unterschied zwischen diesen Wörtern festgestellt werden kann. Es handelt sich hierbei also um Sonderformen von Homophonen. Durch die Veränderung der Groß- und Kleinschreibung können sich völlig unterschiedliche Zusammenhänge ergeben: "der Gefangene floh" oder "der gefangene Floh". Bei einem solchen Fall kann die Spracherkennung nur dann richtig erkennen, wenn sie sich ständig an den Sprecher und seine Wortwahl (siehe Abschnitt Bi- und Trigramme) anpaßt.
viavoice | spracherkennungssoftwareSeitenanfang
Komposita
Zusammengesetzte Wörter, also Komposita, sind typisch für die deutsche Sprache. Man kann fast jedes Wort mit einem anderen kombinieren, und der Kreativität der Sprecher oder Schreiber sind fast keine Grenzen gesetzt. Selbst wenn ein Spracherkennungssystem die Wörter "Steuer" und "Lüge" kennt, so würde es das Kompositum "Steuerlüge" beim ersten Diktieren nicht erkennen.
viavoice | spracherkennungssoftwareSeitenanfang
Derivationen
Von verschiedenen Verben gibt es fast beliebig viele Derivationen, das heißt, ein Stammwort wird durch Anhängen oder Bereitstellen von anderen Wörtern oder Silben in der Sprechweise und im Sinn verändert. Ein Beispiel wäre das Verb "gehen": "mitgehen", "hingehen", "umgehen" sind Derivationen, die ein Spracherkennungssystem nicht korrekt erkennen kann, auch wenn sich die Grundform "gehen" in seinem Vokabular befindet.
viavoice | spracherkennungssoftwareSeitenanfang
Steigende Informationsflut
Ein weiteres Problem in unserer heutigen Zeit ist das Anwachsen der Informationsflut. Während die "Zehn Gebote" nur 279Wörter umfassen, beinhaltet die Amerikanische Unabhängigkeitserklärung bereits 3.000 Wörter. In heutigen Zeiten ist die Informationsflut noch weiter angewachsen: Die EG-Verordnung über den Import von Karamelbonbons umfaßt beispielsweise stolze 25.911 Wörter. Aus diesem Grund muss der Wortschatz für ein Spracherkennungssystem ständig erweitert werden. Das System muss immer mehr Wörter verwalten und sich dynamisch anpassen können, um dieser Entwicklung gerecht zu werden.
viavoice | spracherkennungssoftwareSeitenanfang
Phonetische Probleme
Die kleinste Einheit bei der Spracherkennung ist das Phonem, "die kleinste, bedeutungsentscheidende, aber doch nicht selbst bedeutungstragende, lautsprachliche Einheit". Bei normaler Sprechgeschwindigkeit hat ein Phonem die Dauer von etwa 10 bis 40 Millisekunden. Wenn zwei Laute in derselben lautlichen Umgebung vorkommen können, jedoch zu verschiedenen Wörtern gehören, so handelt es sich um zwei verschiedene Phoneme. Die Wörter "mein" und "dein" zum Beispiel unterscheiden sich nur durch die Phoneme "m" und "d". Abbildung 7 zeigt die Frequenzdiagramme der beiden Wörter.
viavoice | spracherkennungssoftware
Abbildung 7: Phonemunterscheidung anhand zweier Frequenz-Diagramme
Ein ganzes Wort besteht aus mehreren Phonemen. Bei der Spracherkennung werden in kurzen Abständen (etwa 10 Millisekunden) -> Kurzzeitspektren der Akustik erstellt. Aus diesen Kurzzeitspektrogrammen werden einzelne Kennwerte berechnet und zu einem -> Merkmalsvektor zusammengefaßt. Die zeitliche Folge von Merkmalsvektoren bildet die Grundlage für die Entscheidung, welche Wortfolge gesprochen worden ist. Die Merkmalsvektoren werden nacheinander mit allen gespeicherten Referenzmustern (Mustervektoren) verglichen. Ermittelt wird nun dasjenige Muster, welches dem vorliegenden Muster am ähnlichsten ist. Um diese Vergleiche möglichst schnell und optimal für die Erkennung durchzuführen, stehen drei wichtige Verfahren zur Verfügung:
* Dynamische Programmierung
* Darstellung in Form von -> "Hidden-Markov"-Modellen
* Künstliche Intelligenz
viavoice | spracherkennungssoftwareSeitenanfang
Mustervergleich durch Dynamische Programmierung
Würden alle Kurzzeitspektren mit allen Mustervektoren verglichen, wäre dies ein immenser Rechenaufwand. Um die Rechenzeit zu verkürzen und damit die Erkennungsgeschwindigkeit zu steigern, wird das Verfahren der Dynamischen Programmierung eingesetzt. Hierbei wird das untersuchte Wort mit Referenzwörtern verglichen, die im Wortschatz gespeichert sind. Da jedes Wort in unterschiedlicher Geschwindigkeit gesprochen werden kann, muss eine nicht-lineare Zuordnung der Kurzzeitspektren zu den einzelnen Mustervektoren erfolgen, die Zeitachse wird also verzerrt. Über einen Algorithmus wird nun versucht, die Zuordnungen der Mustervektoren zu den Kurzzeitspektren -> rekursiv zu berechnen. Eine rekursive Problemlösung bedeutet, dass sich zum Beispiel eine Prozedur im Programm selbst erneut aufruft, jedoch mit anderen Parametern. Gleichzeitig wird durch den Algorithmus darauf geachtet, dass die Kurzzeitspektren nur in der richtigen Reihenfolge, also zum Beispiel nicht, zeitlich gesehen, rückwärts, den Mustervektoren zugeordnet werden können. Dasjenige Referenzmuster, das den kleinsten Abstand zu dem zu untersuchenden Wort aufweist, ist das Erkennungsergebnis. Eine genauere Betrachtung der dynamischen Programmierung führt J.N. Holmes durch.
viavoice | spracherkennungssoftwareSeitenanfang
Erkennung mit "Hidden-Markov"-Modellen/p>
Ein weitaus besseres, aber auch rechenintensiveres Verfahren zur Erkennung von Wörtern basiert auf Markov-Ketten. Das sind Ketten von Übergangswahrscheinlichkeiten von einem Phonem zum nächsten. 16 Hidden-Markov-Modelle benötigen vor dem Einsatz eine gewisse Trainingsphase, in der verschiedene Klassen von Erzeugungsmodellen aufgebaut werden. Nach dem Training wird bei der Erkennung für einen vorliegenden unbekannten Musterverlauf (Wortmuster X mit der Länge T; Darstellung: X = {x1, x2,. ..., xt}) die Wahrscheinlichkeit dafür berechnet, dass das Modell diesen Verlauf erzeugen kann. Diese Berechnung wird für jedes Modell aus jeder Klasse durchgeführt. Daraus resultiert der hohe Rechenaufwand, den dieses Verfahren mit sich bringt. Um ein Hidden-Markov-Modell für ein Wort mit n Phonemen und der Länge T vollständig zu berechnen, müssen 2Tn T Berechnungen durchgeführt werden. Da selbst bei relativ kleinen Werten für die beiden Variablen riesige Werte für die Anzahl der Rechenoperationen erreicht werden, kann in der Praxis kein Prozessor ein Hidden-Markov- Modell vollständig berechnen. In der Praxis muss man hier einen Kompromiß schließen. Deshalb werden die Hidden- Markov-Modelle durch spezielle Rechenverfahren abgekürzt. Dadurch wird zwar die Berechnung ungenauer, dafür aber wesentlich schneller, so dass dieses Verfahren auch für Systeme, die in Echtzeit Sprache erkennen, eingesetzt werden kann. Abbildung 8 skizziert das Prinzip der Erzeugungsmodelle für die Trainings- und Erkennungsphase.
viavoice | spracherkennungssoftware
Abbildung 8: Erzeugungsmodelle für die Trainings- und Erkennungsphase bei Hidden-Markov-Modellen
Die Phoneme eines Wortes werden durch Kurzzeitspektren dargestellt. Jedes Kurzzeitspektrum ist einem Zustand einer Markov-Kette zugeordnet, wobei jeder Zustand i eine Wahrscheinlichkeit p(x|s=i) für das Erzeugen der spektralen Vektoren x enthält.
Diese Zustände werden von links nach rechts durchlaufen, wobei die Übergangswahrscheinlichkeiten von einem Zustand zum Nächsten berücksichtigt werden.
Ein Modell mit r=4 Zuständen, denkbar wäre zum Beispiel das Wort "Ofen", wird in Abbildung 9 gezeigt. Die Wahrscheinlichkeit für die Selbstübergänge gibt an, dass mehrere Kurzzeitspektren von ein und demselben Phonem (und damit dem Zustand i) erzeugt wurden. Ebenfalls ist es möglich, dass einzelne Zustände übersprungen werden können. Von außen ist es nicht ersichtlich, welcher Zustand aktuell durchlaufen wird. Deshalb heißt dieses Modell auch Hidden-Markov-Modell
(hidden: engl. verborgen)
viavoice | spracherkennungssoftware
s: Zustand des Markov-Modells a:Übergangswahrscheinlichkeit
Abbildung 9: Hidden-Markov-Modell für ein gesprochenes Wort mit vier Phonemen ("Ofen")
Der Übergang a24 von Zustand s=2 auf Zustand s=4 ist dann denkbar, wenn der Sprecher das "e" im Wort "Ofen" nicht ausspricht. Derzeit findet das Prinzip der Hidden-Markov-Modelle in den meisten verbreiteten Spracherkennungssystemen Anwendung. Man findet eine ausführliche Behandlung der Markov-Prozesse in E. B. Dynkins "Sätze und Aufgaben über Markovsche Prozessele" sowie in "Wahrscheinlichkeitsrechnung und mathematische Statistik" von M. Fisz.
viavoice | spracherkennungssoftwareSeitenanfang
Methoden der künstlichen Intelligenz
Bei diesem Verfahren werden hauptsächlich neuronale Netze zur Spracherkennung eingesetzt. 19 Diese neuronalen Netze lehnen sich an die Funktion des menschlichen Gehirns an. 20 Die menschliche Nervenzelle, das sogenannte Neuron, lernt, indem es über "Brücken", sogenannte Synapsen, mit anderen Nervenzellen verbunden wird. Diesen Lernvorgang versucht man durch entsprechende Programmierung auf den Computer zu übertragen. Dabei werden mehrere Schichten verwendet, um die Erkennungsleistung zu realisieren (Abbildung 10). Die gesprochenen Signale liegen an der Eingangs-Schicht an (hier ein Wortmuster X mit der Länge T = 2; X = {x1, x2}). In der verborgenen Schicht werden sie verarbeitet, bis das erkannte Wort an der Ausgangs-Schicht vorliegt (hier zum Beispiel a1 bis a3). Die Anzahl der verborgenen Schichten kann beliebig variieren. Dabei ist es nicht ersichtlich, welche Vorgänge im Inneren des Systems zur Erkennung ablaufen. Nach dieser Grundstruktur der Multi-Layer-Perception (MLP, in etwa:" Lernen in mehreren Schichten") arbeiten die meisten neuronalen Netze, etwa bei der optischen Buchstabenerkennung (OCR).
viavoice | spracherkennungssoftware
Abbildung 10: Einfache Struktur für eine Multi-Layer-Perception (MLP).41
viavoice | spracherkennungssoftwareSeitenanfang
Technik
Erkennungsprozess eines Spracherkennungssystems
Der technische Prozess der Spracherkennung soll im folgenden anhand des Satzes "Die Sonne lacht" erläutert werden. Abbildung 11 zeigt die Anordnung der einzelnen akustischen Analysen im Dekodierer und den jeweils notwendigen Input.
viavoice | spracherkennungssoftware
Abbildung 11: Dekodierprozeß des IBM ViaVoice Diktiersystems
Bei der akustischen Signalverarbeitung werden nach der Digitalisierung des Analogsignals alle 10 Millisekunden spektrale Parameter aus der ->Fouriertransformation des Signals gewonnen und zu einem Merkmalsvektor zusammengefaßt (Vektorquantifizierung). Dieser wird mit Referenzvektoren verglichen und durch das Symbol des akustisch "ähnlichsten" Referenzvektors ersetzt. Die Referenzvektoren selbst werden zuvor in der Trainingsphase des Systems sprecherspezifisch angelegt. Der Datenfluß wird so, ohne wesentlichen Informationsverlust, drastisch reduziert: von 30.000 Byte/Sekunde auf 100 Byte/ Sekunde. So wird der Beispielsatz in Abbildung 12 in 392 Symbole umgewandelt. Drei Schritte führen nun zur Worterkennung aus den akustischen Symbolfolgen: Im ersten Schritt ermittelt ein schnelles akustisches Modell aus dem Vokabular mehrere Wortkandidaten, die mit der größten Wahrscheinlichkeit zu der akustischen Symbolfolge gehören. Im Beispiel in Abbildung 12 sind es 150 Wörter: "Nacht", "lacht", "macht",... bis zu "frei". Die Wahrscheinlichkeit für jedes Wort wird dabei über die Hidden-Markov-Modelle berechnet. Zu diesem Zweck liegt das Vokabular in Lautschrift vor, das heißt, jedes Wort ist als Folge von lautlichen Einheiten, sogenannten Allophonen, gespeichert. Jedem Allophon ist ein Hidden-Markov-Modell und damit jedem Wort eine Folge von Hidden-Markov-Modellen zugeordnet. Die Parameter der Hidden-Markov-Modelle werden in der Trainingsphase an den Sprecher angepaßt.
viavoice | spracherkennungssoftwareSeitenanfang
viavoice | spracherkennungssoftware
Abbildung 12: Erkennungsprozess am Beispielsatz "Die Sonne lacht."
Im zweiten Schritt schränkt ein Sprachmodell die Anzahl der Wortkandidaten weiter ein. Dies sind nun 14 Wörter, beginnend mit "lacht", "macht", "Nacht",... bis zu "kocht" (Abbildung 12). Die Auswahl geschieht in Abhängigkeit von der sprachlichen Umgebung, die hier aus zwei vorangegangenen, bereits erkannten Worten besteht. Es werden schließlich diejenigen Wörter ausgewählt, die hier mit der größten Wahrscheinlichkeit auftreten können. Für die Bestimmung der Wahrscheinlichkeit verfügt das Sprachmodell über Häufigkeiten der Aufeinanderfolge dreier Wörter (Trigrammen), die aus einem umfangreichen Textkorpus (mehrere Millionen Wörter) gewonnen wurden. Für dieses Textkorpus wurden von verschiedenen Verlagen und Institutionen maschinenlesbare Texte für Forschungszwecke zur Verfügung gestellt. In einem dritten Schritt extrahiert das detaillierte akustische Modell die vorläufigen Endkandidaten. "Lacht", "Nacht" und "macht" haben sich im Beispiel in Abbildung 12 so qualifiziert. Dazu werden - detaillierter als im schnellen akustischen Modell - Wahrscheinlichkeiten ermittelt, mit denen die Wörter zu der akustischen Symbolfolge gehören. Die Wahrscheinlichkeiten ergeben sich aus Hidden-Markov-Modellen maschinell gewonnenen lautlichen Einheiten, die kürzer als Allophone sind und prototypischen akustischen Symbolen entsprechen. Diese Einheiten werden zur lautlichen Darstellung des Vokabulars und damit der Wörter verwendet. Die lautliche Darstellung wurde über das Vorsprechen mehrerer Sprecher gewonnen, die Parameter der Hidden-Markov-Modelle über das benutzerspezifische Training. Das Wort mit der größten Wahrscheinlichkeit wird wieder dem Dekodierer zugeführt, um letztlich die tatsächlich gesprochene Wortfolge zu bestimmen: Damit ist "lacht" aus unserem Beispiel "die Sonne lacht" gefunden. Ein benutzerspezifisches Anwendungsprofil überträgt nun den korrekt formatierten Satz "Die Sonne lacht", wie in Abbildung 12 ersichtlich, in die Anwendung. Wie nun die Erkennung von kontinuierlich gesprochenem Text möglich ist, zeigen die Abbildungen 13 und 14, in denen das Modell der diskreten und der kontinuierlichen Spracherkennung dargestellt ist.
viavoice | spracherkennungssoftware
Abbildung 13: Markov-Modell der diskreten Spracherkennung
viavoice | spracherkennungssoftware
Abbildung 14: Markov-Modell der kontinuierlichen Spracherkennung
Das Hidden-Markov-Modell erwartet beim Diktieren bestimmte Zustände . Das bisherige Modell, wie es Abbildung 13 zeigt, war so programmiert, dass es nach einem diktierten Wort immer eine Pause erwartete. Die Leistungsfähigkeit der PCs zum damaligen Zeitpunkt ließ auch kein anderes Modell zu. Mittlerweile sind die PCs etwa doppelt so leistungsfähig wie bei der Entwicklung diskreter Systeme. Dies hat es ermöglicht, das Hidden-Markov-Modell so anzupassen dass das System nach einem diktierten Wort kein Pausenmodell, sondern sofort das nächste Wort erwarten kann, wie es Abbildung 14 zeigt.
viavoice | spracherkennungssoftwareSeitenanfang
Bi- und Trigramme
Damit ein Spracherkennungsprogramm eine noch höhere Erkennungsgenauigkeit erreichen kann, gibt es neben dem Hidden-Markov-Modell ein weiteres statistisches Verfahren. Durch die Bi- beziehungsweise Trigrammstatistik, die während des Diktierens permanent ihre Berechnungen durchführt, wird eine Kontextprüfung vollzogen. Aufgrund der beschriebenen Problematik im Abschnitt Linguistische Probleme wird die Notwendigkeit dieser Kontextprüfung deutlich. Eine Bi- beziehungsweise Trigrammstatistik hat aber auch einen anderen entscheidenden Vorteil: Die Spracherkennungssysteme merken sich den Kontext, mit dem ein Sprecher diktiert. Das Programm paßt sich folglich immer mehr an den Sprecher und an seinen individuellen Diktierstil an. Somit steigt die Erkennungsgenauigkeit immer weiter an, je länger mit dem System gearbeitet wird. Arbeitet ein Spracherkennungsprogramm mit der Bigrammstatistik, so werden während dem Diktieren immer zwei Wörter miteinander verglichen. Ist eine diktierte Zweierwortverbindung (Bigramm) im System hinterlegt oder wurde vom Sprecher schon einmal zuvor diktiert, so ist dies entscheidend für die Wortauswahl. Arbeitet ein Spracherkennungsprogramm mit der Trigrammstatistik, so werden während dem Diktieren immer drei Wörter miteinander verglichen. Ist eine diktierte Dreierwortverbindung (Trigramm) im System hinterlegt oder wurde vom Sprecher schon einmal zuvor diktiert, so ist dies entscheidend für die Wortauswahl. Dragon, Philips und Lernout&Houspie arbeiten mit der Bigrammstatistik, IBM setzt eine IBM-patentierte Trigrammstatistik ein. Wo liegt nun der Unterschied zwischen Bi- und Trigrammstatistik? Werden während des Diktierens nur zwei Wörter miteinander verglichen, so ist es nachvollziehbar, dass die Erkennungsgenauigkeit bei drei Wörtern, die miteinander verglichen werden, höher sein wird. Die Erkennungsgenauigkeit, die die PC Magazine bei ihren Tests angeben, ist bei allen Spracherkennungsprogrammen nahezu identisch. Auf lange Sicht gesehen, wird die Erkennungsgenauigkeit jedoch bei der Trigrammstatistik höher ausfallen. Der Nachteil dieses Verfahrens liegt in der Geschwindigkeit, mit der das System die Wörter auf dem Monitor schreibt, da das Rechenverfahren der Trigrammstatistik komplexer als das der Bigrammstatistik ist.
viavoice | spracherkennungssoftwareSeitenanfang
Aktueller Stand
Auf dem deutschen Markt werden immer mehr verschiedene Spracherkennungssysteme angeboten. Diese Produkte sind jedoch meist keine Eigenentwicklungen der verschiedenen Anbieter. Durch sogenanntes Re-Publishing (Vertrieb eines schon vom Markt zurückgezogenen Spracherkennungsprodukts), durch Preloads (auf einem neuen PC vorinstallierte Software), Bundels (Vertrieb eines Programms zusammen mit einem neuen PC) und OEM-Verträge (Einbindung eines Spracherkennungsprodukts in die Software eines anderen Herstellers) werden Produkte dann teilweise unter anderen Namen angeboten. Diese Produkte wurden von den jeweiligen Herstellern häufig bereits durch eine aktuellere Version ersetzt. Manchmal handelt es sich auch um spezielle OEM-Versionen, die sich in einzelnen Punkten, z.B. in der Funktionalität, von den Vollversionen unterscheiden. Die Hersteller von Spracherkennungssystemen sind:
* Dragon Systems Inc.
* IBM
* Lernout&Hauspie
* Philips
viavoice | spracherkennungssoftwareSeitenanfang
Zukunftsaussichten
Bereits heute können auf dem PC basierende Diktiersysteme in vielen Bereichen effektiv eingesetzt werden, wobei die Arbeit noch folgenden Beschränkungen unterliegt:
* Ein Kopfbügelmikrofon (Headset), durch das man an den Computer gebunden ist, ist immer noch notwendig.
* Ein Training der Systeme ist wegen der unterschiedlichen Dialekte und Akzente fast unumgänglich.
* Die Erkennungsgenauigkeit liegt immer noch unter 100 Prozent.
Es gibt viele Spekulationen und Vermutungen, wie Spracherkennungssysteme in der Zukunft implementiert und realisiert werden können. Das große Ziel wird natürlich sein, die oben genannten Beschränkungen zu beseitigen. Wenn man sich kein teures Funkmikrofon kaufen möchte, so ist man durch das Kopfbügelmikrofon doch noch sehr an den Computer gebunden, da die Kabellänge begrenzt ist. Ein Standmikrofon, welches auf dem Tisch steht (beispielsweise das FinFin Mikrofon von Fujitsu), oder ein eingebautes Mikrofon im Rechner für die Spracherkennung zu benützen, wäre eine komfortablere Lösung. Diese Mikrofone führen jedoch aufgrund der heutigen technischen Gegebenheiten noch zu großen Defiziten in der Erkennungsgenauigkeit. Die Umgebungsgeräusche können mit solchen Mikrofonen nicht heraus gefiltert werden und das Spracherkennungsprogramm schreibt wie wild einen sinnlosen Text auf den Bildschirm, obwohl keiner etwas gesagt beziehungsweise diktiert hat. Die Dialekte und Akzente scheinen die Programme immer besser in den Griff zu bekommen: Bei einigen neuen Spracherkennungsprogrammen wird der Benutzer in sogenannte Cluster eingeteilt. Durch ein "Mini-Training" mit einigen wenigen Sätzen zum Nachsprechen wird der Benutzer in das Cluster männlich, weiblich, Jugendlicher, Kind usw. eingeteilt. Zur Verbesserung der Erkennungsgenauigkeit trägt sicherlich auch ein größeres Vokabular bei. Bringt ein Spracherkennungshersteller ein neues Produkt auf den Markt, enthält dieses gegenüber der Vorgängerversion meist auch ein größeres Vokabular. Die aktuellen maximalen Vokabulargrößen der Programme liegen bei Dragon bei 50.000, bei L&H bei 60.000, bei Philips bei 64.000 und bei IBM bei 128.000 Wörtern im aktiven Vokabular. Außerdem wird daran gearbeitet, die PC-Steuerung so effektiv zu gestalten, dass Tastatur und Maus durch die Sprache völlig ersetzt werden können. Die Spracherkennung wird in Zukunft eine noch wichtigere Rolle spielen. Kann ein Computer Sprache wirklich verstehen, so sind Dialoge zwischen Mensch und Computer möglich. Denkbare Anwendungen wären zum Beispiel der elektronische "Kiosk" oder die automatische Übersetzung in beliebige Sprachen, wie es das mit dem Europäischen IT-Preis ausgezeichnete talk&translate von linguatec gezeigt hat. Natürlich und intuitiv sind die Schlagworte der Hersteller bezüglich ihrer neuen Programme: Jetzt kann ein Dokument mit natürlichen Befehlen formatiert werden, ohne sich an bestimmte Befehle halten zu müssen, die vom System vorgegeben sind. Ein Beispiel soll dies verdeutlichen. Eine Tabelle kann mit den folgenden Befehlen erstellt werden:
Die Einführung der Spracherkennung ist in gewisser Weise mit der Integration der Maus vergleichbar: Als die ersten Computer mit einer Maus ausgerüstet wurden, gab es kaum Software, die durch eine Maus bedient oder gesteuert werden konnte. Auch die Integration in das Betriebssystem verursachte zunächst Probleme. Heute ist praktisch jede Anwendung mit der Maus zu bedienen, und in den modernen Betriebssystemen mit grafischer Oberfläche wird die Maus standardmäßig voll unterstützt. In einer ähnlichen Situation befindet sich derzeit die Spracherkennung auf dem PC. Zunächst noch skeptisch betrachtet und kaum in einer Anwendung integriert, wird in Zukunft die Bedeutung der Spracherkennung stark zunehmen und bald nicht mehr aus dem täglichen Arbeiten mit dem Computer wegzudenken sein. Doch nicht nur auf allen PCs wird diese Lösung realisiert. Spracherkennung ist auch für viele andere Geräte denkbar. Stellen Sie sich einmal vor, Sie könnten Ihrem elektronischen Notizbuch Ihre Texte einfach diktieren, ohne einen PC zu benutzen. Oder Sie bräuchten die Bedienungsanleitung des Videorecorders nicht mehr auswendig zu lernen, weil Sie ihm sagen können, wann er einen Film aufnehmen soll. Auch das "connected car", eine Autostudie, bei der fast alles mit der Sprache zu bedienen und zu steuern ist, wird bald keine Zukunftsmusik mehr sein. Beim Autofahren sind Hände, Augen und Beine beschäftigt. Die Sprache ist das einzige freie Medium, dem keine Grenzen gesetzt sind.