1、 Januar 2007DIN-Fachbericht ISO/TR 19358 ICS 13.180 Ergonomie Aufbau- und Anwendung von Prfverfahren zur Sprachtechnologie; Deutsche Fassung ISO/TR 19358:2002 Ergonomics Construction and application of tests for speech technology; German version ISO/TR 19358:2002 Ergonomie laboration et mise en oeuv
2、re des tests des systmes de technologie de la parole; Version allemande ISO/TR 19358:2002 Gesamtumfang 20 SeitenNormenausschuss Ergonomie (NAErg) im DIN DIN Deutsches Institut fr Normung e.V. .Jede Art der Vervielfltigung, auch auszugsweise, nur mit Genehmigung des DIN Deutsches Institut fr Normung
3、e.V., Berlin gestattet. Alleinverkauf der Normen durch Beuth Verlag GmbH, 10772 Berlin Preisgruppe 10 www.din.de www.beuth.de !,qDK“9783340DIN-Fachbericht ISO/TR 19358:2007-01 2 Nationales Vorwort Der ISO Technical Report ISO/TR 19358:2002 wurde vom ISO/TC 159SC 5 Ergonomics of the physical environm
4、ent“ erarbeitet, deutscherseits war der frhere NAErg Arbeitsausschuss 11 Optische und akustische Verstndigung“ an den Arbeiten beteiligt. Dieser Arbeitsausschuss ist inzwischen in den Arbeitsausschuss NA 023-00-05 Ergonomie der physikalischen Umgebung“ aufgegangen. Ursprnglich war beabsichtigt den I
5、SO/TR 19358:2002 auch als CEN Technical Report (CEN/TR) zu bernehmen, dieser sollte dann als DIN-Fachbericht bernommen werden. Die bernahme als CEN/TR wurde aber vom CEN Management Center abgelehnt, da dies keinen zustzlichen Nutzen bringt. Daraufhin wurde vom NA 023-00-05 AA beschlossen den ISO/TR
6、als DIN-Fachbericht zu bernehmen. Durch diese Umstnde hat sich die Herausgabe dieses DIN-Fachberichtes verzgert. DIN-Fachbericht ISO/TR 19358:2007-01 3 Inhalt Seite Nationales Vorwort2 Einleitung .4 1 Anwendungsbereich 4 2 Begriffe 4 3 Beschreibung von Sprachtechnologien 6 3.1 Einleitung 6 3.2 Zur V
7、erfgung stehende Verfahren6 4 Beschreibung der fr die Sprachtechnologie relevanten Gren 8 4.1 Einleitung 8 4.2 Sprechweise8 4.3 Sprecher (Spezifikation sprecherabhngiger Aspekte) .8 4.4 Aufgabe (anwendungsspezifische Beschreibung relevanter Erkennungsparameter) .9 4.5 Training (aufgabenbezogene Trai
8、ningsaspekte) 9 4.6 Umgebung (Spezifikation der Sprachqualitt in einer bestimmten Umgebung, sowohl fr Signaleingang als auch Signalausgang)10 4.7 Eingangssignal (Spezifikation der bertragung des Sprachsignals vom Mikrofon zum Eingang des Erkenners) 10 4.8 Spezifikation von Sprachtechnologie-Modulen
9、10 5 Verfahren zur Beurteilung .11 5.1 Allgemeines 11 5.2 Feld- versus Laborbewertung .12 5.3 Systemtransparenz 12 5.4 Subjektive versus objektive Verfahren 13 5.5 Spracherkennungssysteme 13 5.6 Sprachsynthesesysteme .14 5.7 Sprecheridentifizierung und -verifizierung14 5.8 Korpora (Datenstze) .14 5.
10、9 Verwandte Informationsquellen15 Anhang A (informativ) Beispiel einer Beurteilung16 A.1 Befehlen und Steuern: Sprachgesteuertes Einwhlen bei GSM .16 A.2 Diktat: Mehrsprachiger Vergleich eines Diktiersystems17 Anhang B (informativ) Mastbe fr das Leistungsverhalten.19 Literaturhinweise.20 DIN-Fachber
11、icht ISO/TR 19358:2007-01 4 Einleitung Dieser DIN-Fachbericht gibt Ratschlge zu Verfahren fr die Bestimmung des Leistungsverhaltens von Sprachtechnologie-Systemen (automatische Spracherkennungsgerte, Text-Sprache-Systeme und andere das Sprachsignal verwendende Gerte) und zur Auswahl geeigneter Prfve
12、rfahren. Sprachliche Kommunikation zwischen Menschen ist in diesem DIN-Fachbericht nicht enthalten, wird aber in ISO 9921N1)behandelt. 1 Anwendungsbereich Dieser DIN-Fachbericht befasst sich mit der Prfung und Beurteilung von sprachbezogenen Produkten und Dienstleistungen, und ist fr die Anwendung d
13、urch auf dem Gebiet der Sprachtechnologie ttige Fachleute, sowie fr Kufer und Benutzer derartiger Systeme gedacht. Fortgeschrittene Benutzer werden auf die detailliertere Bewertung in den Kapiteln des EAGLES Handbook of Standards and Resources for Spoken Language Systems (Gibbon und andere 1997) und
14、 des EAGLES Handbook of Multimodel and Spoken dialogue Systems verwiesen. EAGLES war ein teilweise von der Europischen Gemeinschaft gefrdertes Forschungsprojekt. 2 Begriffe Fr die Anwendung dieses DIN-Fachberichts gelten die folgenden Begriffe. 2.1 automatische Spracherkennung ASR (Automatic Speech
15、Recognition) Fhigkeit eines Systems, die menschliche Sprache als Eingabemglichkeit zu akzeptieren 2.2 Dialog wechselseitiger Austausch von Informationen zwischen dem Sprachsystem und dem menschlichen Sprecher 2.3 Dialogmanagement Steuerung des Dialogs zwischen dem Sprachsystem und dem Menschen 2.4 V
16、erarbeitung natrlicher Sprache NLP (Natural Language Processing) automatische Verarbeitung eines von Menschen produzierten Textes 2.5 objektive Beurteilung Beurteilung ohne unmittelbare Beteiligung von Menschen whrend der Messung, blicherweise unter Verwendung zuvor aufgezeichneter Sprache 2.6 Mastb
17、e fr das Leistungsverhalten Mittel zur Beurteilung der Leistung eines Systems, blicherweise durch diagnostische oder relative Leistungs-verfahren N1) ISO 9921 wurde als DIN EN ISO 9921 in das Deutsche Normenwerk bernommen. DIN-Fachbericht ISO/TR 19358:2007-01 5 2.7 sprecherabhngiges System Erfordern
18、is eines Spracherkennungssystems, durch die Sprache eines bestimmten Anwenders trainiert zu werden 2.8 Sprecheridentifizierung Identifizierung eines bestimmten Sprechers aus einer geschlossenen Gruppe mglicher Sprecher 2.9 sprecherunabhngiges System System, das nicht fr einen besonderen Anwender tra
19、iniert, sondern von jedem Benutzer einer ausgewhlten Gruppe (Muttersprachler, Erwachsene usw.) anwendbar ist 2.10 Sprecher-Erkennung allgemeiner Begriff fr ein Verfahren, mit dem die Identitt eines Sprechers bestimmt oder verifiziert wird 2.11 Sprecherverifizierung Verifizierung der Identitt einer P
20、erson durch Beurteilung spezifischer Aspekte seiner/ihrer Sprache 2.12 Sprachstil Sprache, die isoliert oder kontinuierlich, (ab)gelesen oder spontan oder diktiert sein kann 2.13 Sprachkommunikation bermitteln oder Austauschen von Informationen unter Anwendung der Sprache, der Stimme und des Hrens A
21、NMERKUNG Inhalt der Sprachkommunikation drfen kurze Texte, Stze, Wortgruppen, einzelne Wrter, Gemurmel und Wortbestandteile sein. 2.14 Spracherkennung Vorgang in einer Maschine, die gesprochene Sprache in erkannte Wrter umwandeln kann ANMERKUNG Dabei handelt es sich um den Vorgang, mit dem ein Compu
22、ter ein akustisches Sprachsignal in Text umwandelt. 2.15 Sprachsynthese Erzeugung von Sprache aus Daten 2.16 Sprachverstehen Verfahren mit dem der semantische Inhalt von Sprache erfasst wird 2.17 subjektive Beurteilung Beurteilung mit unmittelbarer Beteiligung von Menschen whrend der Messung 2.18 Te
23、xt-Sprache-Synthese Erzeugung von hrbarer Sprache aus einem Text 2.19 Vokabular in einem bestimmten Kontext verwendeter Wortschatz 2.20 Vokabularumfang Anzahl der Wrter im Wortschatz des Spracherkenners DIN-Fachbericht ISO/TR 19358:2007-01 6 3 Beschreibung von Sprachtechnologien 3.1 Einleitung Sprac
24、htechnologie umfasst die automatische Erkennung von Sprache und Sprecher, die Sprachsynthese usw., die Verarbeitung natrlicher Sprache (NLP) beinhaltet das Verstehen von Textelementen und das Management des Dialogs zwischen einem menschlichen Sprecher und einer Maschine. Moderne Verfahren beruhen me
25、ist auf Algorithmen, die die digitale Signalverarbeitung in einem digitalen Signalprozessor oder einem (Personal)Computersystem verwenden. Diese Algorithmen erzeugen annhernd Echtzeit-Antworten. Die Leistungsfhigkeit ist von der Anwendung abhngig. Beispielsweise wird die Leistung eines Sprach-erkenn
26、ungssystems, das ber ein kleines Vokabular verfgt und durch die Sprache eines einzelnen Anwenders trainiert wurde (z. B. Steuerung eines persnlichen handgehaltenen Telefons), im Allgemeinen (fr diesen speziellen Anwender) viel besser sein, als die eines Systems, das fr einen Bereich mit groem Vokabu
27、lar und allgemein fr eine groe Gruppe von unbekannten Anwendern (z. B. bei Informationsdiensten eines ffentlichen Telefonnetzwerks) gestaltet wurde. Bei Sprachprodukten und -dienstleistungen knnen vier Hauptkategorien unterschieden werden: a) Befehlen und Steuern. Die automatische Spracherkennung (A
28、SR) stellt die Schnittstelle zwischen einem Anwender und einem System dar. Die ASR wird blicherweise in multimodaler Konstruktion verwendet, wobei die Steuerung eines Systems durch Sprache eine der mglichen Modalitten ist (eine Tastatur, eine Maus, ein Tastbildschirm usw. knnen alternative Modalitte
29、n sein). Die Steuerung durch ein ASR-System kann in Situationen, in denen die Hnde nicht frei sind, unbedingt erforderlich sein. b) Dienstleistungen und Telefonanwendungen. Dienstleistungen wie zum Beispiel ein virtueller Informationsstand erfordern blicherweise eine Kombination aus Spracherkennung,
30、 Sprachverstehen, Sprachsynthese und Dialogmanagement, um den unbeaufsichtigten Dialog zwischen Anwender und System zu steuern. Die beim gegenwrtigen Stand der Technik verwendeten Systeme umfassen verhltnismig einfache Dialogstrukturen, wie beispielsweise Reiseinformations-Systeme (Tag, Uhrzeit, von
31、-nach“) und Call-Center (Auswahl der erforderlichen Informationen). c) Erzeugung von Dokumenten. Zurzeit sind fr mehrere Sprachen trainierte Diktiersysteme im Handel erhltlich. Diese Systeme knnen mit normalen Textverarbeitungssystemen verbunden werden. Einfache Anwendungen umfassen die Eingabe von
32、Daten fr einen bestimmten Anwendungsbereich (z. B. medizinische Berichte), komplexere Systeme ermglichen das Diktat vollstndiger Dokumente und die Steuerung des Textverarbeitungssystems. Diese komplexeren Systeme sind hufig fr ein groes Vokabular und den sprecherabhngigen Gebrauch trainiert. Fr eine
33、 annehmbare Leistungsfhigkeit muss das System jedoch zuvor fr den Anwender und den Anwendungsbereich eingerichtet worden sein. Dies erfolgt hufig in zwei Schritten: in einer (adaptiven) akustischen Trainingsphase, whrend der der Anwender einen zuvor festgelegten Text vorzulesen hat und mittels Vorla
34、ge einer Anzahl von fr den Nutzer geschriebenen Dokumenten, die der Erweiterung des Vokabulars und der Modifizierung des Sprachmodels dienen. d) Wiederauffinden eines Dokumentes. Das Wiederauffinden von vollstndigen Dokumenten (aus einem Archiv fr Tondokumente), von bestimmten Passagen eines Dokumen
35、tes oder von uerungen eines bestimmten Sprechers sind fr Archivierung und Dokumenten-Management und die Zusammenstellung von bersichten von Interesse. Zur Kennzeichnung sprachlicher uerungen werden verschiedene Verfahren angewendet, wie zum Beispiel ASR, Auffinden von Wrtern und Sprecher-Erkennung.
36、Zum Auffinden der erforderlichen Information werden spezifische Suchalgorithmen verwendet. 3.2 Zur Verfgung stehende Verfahren 3.2.1 Spracherkennung Automatische Spracherkennungssysteme knnen aus einem Sprachsignal eine Transkription (Textfolge) erstellen. Fr diesen Zweck werden trainierte Systeme v
37、erwendet. Moderne Systeme, die beim Gebrauch ber ein groes Vokabular verfgen, erfassen spezifische spektrale Parameter des Sprachsignals, anhand derer Untereinheiten (Phoneme). Wrter werden in Form von Zeichenfolgen dieser Phoneme beschrieben. DIN-Fachbericht ISO/TR 19358:2007-01 7 Der Aufbau der Sp
38、racherkennung kann unterschiedliche Ebenen erfordern, die sich auf die Modelle der Phoneme (Sprachlaut-Modelle), der Wrter (Vokabular) und die statistische Beschreibung von Wort-kombinationen (Sprachmodell) beziehen. Sprachlaut-Modelle sind blicherweise fr eine groe Anzahl von Sprechern trainiert, w
39、as eine auf statistischer Erfassung basierende Darstellung zur Folge hat. Der statistische Ansatz beruht blicherweise auf einem Hidden-Markov-Modell (HMM) oder einem Neuronalen Netzwerk (NN). Das Vokabular und das Sprachmodell werden aus digital verfgbarem Text gewonnen, der fr den Anwendungsbereich
40、 reprsentativ ist. 3.2.2 Sprecheridentifizierung und -verifizierung Die automatische Sprecheridentifizierung ist die Fhigkeit, einen der Sprecher aus einer Gruppe bekannter Sprecher zu identifizieren. Sie beantwortet die Frage: Zu wem gehrt diese Sprachprobe?“. Dieses Verfahren besteht aus zwei Schr
41、itten: Erstellen von Modellen der Sprache der Sprechergruppe (Training) und Vergleichen der unbekannten Sprache mit diesen Sprechermodellen (Prfen). Sprecherverifizierung ist ein Verfahren zur Besttigung, dass es sich beim Sprecher um die Person handelt, die er oder sie vorgibt zu sein. Im Zentrum d
42、es Sprecherverifizierungs-Systems steht ein Algorithmus, der eine uerung des Sprechers mit einem Model vergleicht, das aus whrend einer Aufzeichnungsphase vom autorisierten Anwender abgegebenen Trainingsuerungen erstellt wurde. Stimmt die sprachliche uerung innerhalb eines erforderlichen Toleranzber
43、eichs mit dem Model berein, so wird der Sprecher als derjenige akzeptiert, dessen Identitt zu besitzen er behauptet hatte. Zum Schutz vor einem Eindringling, der versucht, das System durch eine Aufzeichnung der Stimme des autorisierten Nutzers zu manipulieren, wird das Verifizierungssystem den Sprec
44、her zur uerung bestimmter Phrasen auffordern, wie zum Beispiel Zahlenfolgen, die so ausgewhlt werden, dass sie bei jedem Eintrittsbegehren des Besuchers verschieden sind. Das Sprecherverifizierungs-System wird mit einem Spracherkennungssystem kombiniert, um sicherzustellen, dass die richtige Phrase
45、gesprochen wurde. 3.2.3 Sprachsynthese Zur Sprachsynthese werden zwei Verfahren angewendet: das Erste, allgemein als konservierte Sprache“ (en: canned speech) bekannt, basiert auf vorab gespeicherten Mitteilungen. Die zur Komprimierung der Mitteilungen dienenden Codierungstechniken werden blicherwei
46、se zur Einsparung von Speicherplatz verwendet. Mit dieser Art der Synthese kann Sprache von hoher Qualitt erreicht werden, insbesondere fr Anwendungen mit schnellen Antworten, die eine Anzahl von Standardantworten verwenden. Das zweite Verfahren, Text-Sprache-Synthese“, ermglicht die Erzeugung jeder
47、 Mitteilung aus einem geschriebenen Text. Dabei wird allgemein in einer ersten Phase der linguistischen Verarbeitung der eingegebene Text in eine interne Darstellung, bestehend aus Phonemen und prosodischen Markierern umgewandelt und in einer zweiten Phase auf Grundlage dieser internen Reprsentation
48、 der Klang erzeugt. Die Klangerzeugung kann entweder vollstndig durch Regeln, blicherweise unter Verwendung komplexer Modelle der Mechanismen der Sprachproduktion (Formantsynthese, Intonation) oder durch die Verknpfung kurzer vorab gespeicherter Einheiten (Verknpfungssynthese) erfolgen. Die mittels
49、Verknpfungssynthese erreichte Sprachqualitt ist allgemein hher zu bewerten. 3.2.4 Sprachverstehen Systeme zum Sprachverstehen knnen in zwei groe Kategorien unterteilt werden. Die erste umfasst Probleme der Interaktion zwischen Mensch und Maschine. In diesem Fall arbeiten die Person und die Maschine gemeinsam, um ein bestimmtes Problem zu lsen. Die interaktive Beschaffenheit der Aufgabe gibt der Maschine die Mglich