GB T 21024-2007 中文语音合成系统通用技术规范.pdf

资源描述

1、ICS 35040L 71 a目中华人民共和国国家标准GBT 2 1 024-2007中文语音合成系统通用技术规范General specification for Chinese speech synthesis system2007-06-29发布 2007-1 101实施丰瞀髅鬻瓣警糌瞥星发布中国国家标准化管理委员会况1”GBT 2 1 024-2007目次前言”引言1范围2规范性引用文件3术语和定义4中文语音合成系统的功能分类41概述42从语言处理能力上分类43从所处区域或方言上分类44从合成的应用范围上分类45从韵律和音色调节能力上分类46从合成方法上分类47从应用平台上分类5

2、中文语音合成系统数据交换格式51概述52元素与属性53输入要求54输出要求55音频数据格式要求56一致性附录A(规范性附录)CSSMI。V10 Schema定义参考文献Il，144444445556鹕M姐前言GBT 2 1 024-2007本标准的附录A是规范性附录。本标准由中华人民共和国信息产业部提出。本标准由全国信息技术标准化技术委员会归口。本标准由安徽中科大讯飞信息科技有限公司、中国科学院自动化研究所、中国电子技术标准化研究所起草。本标准主要起草人：尹波、严峻、吴晓如、陶建华、吴志刚。GBT 2 1 0242007引言本标准的发布机构提请注意如下事实，声明符合本标准时。可能涉及第5

3、章中有关中文语音合成系统数据交换方法的相关专利。本标准的发布机构对于专利的范围、有效性和验证资料不提出任何看法。专利持有人已向本标准的发布机构保证，他愿意同任何申请人在合理和非歧视的条款和条件下，就使用授权许可证进行谈判。在这方面，该专利持有人的声明已在本标准的发布机构备案。有关资料可从以下地址获得：安徽中科大讯飞信息科技有限公司安徽省合肥市国家级高新技术产业开发区信息产业基地讯飞语音大厦230088请注意除上述已经识别出的专利外，本标准的某些内容有可能涉及专利。本标准的发布机构不承担识别这些专利的责任。中文语音合成系统通用技术规范GBT 2 1 02420071范围本标准规定了中文语音合成系

4、统的术语定义、分类标准、数据交换格式标准和应用规范。本标准适用于各种计算机、网络和智能设备配置的中文语音合成系统。2规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注目期的引用文件，其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准，然而鼓励根据本标准达成协议的各方，经过研究决定是否使用这些文件的最新版本。凡是不注日期的引用文件，其最新版本适用于本标准。GB 2312 1980信息交换用汉字编码字符集基本集GB 130001 1993信息技术通用多八位编码字符集(UCS) 第一部分：体系结构与基本多文种平面(idt ISOIEC 10646 1：1 993)G

5、B 18030 2005信息技术中文编码字符集RFCl766语言识别标签SSML 10(W3C)语音合成标记语言3术语和定义下列术语和定义适用于本标准。31语音合成speech synthesis通过机械的、电子的方法合成人类语言的过程。注：该过程所产生的语音称为合成语音，和人的发音器官产生自然语音相区别，有时也叫人工语音(artificialspeech)。32语音合成系统speech synthesis system由特定算法、模块和数据资源等构成、用来产生合成语音的软硬件系统。注：由于目前语音合成最常用的实例是将智能设备中的文字信息转换为语音信号，以作为智能设备的语音输出形式，语音合成

6、系统也常常称为文语转换系统(texttOspeech system)，但作为语音合成系统的输入，实质上不限于文字，可以是概念、意图、思想等。在目前的技术水平下，文语转换是实现语音合成的主要方式本技术规范中不另作特别说明时，文语转换将等同于语音合成的概念。33单语种语音合成系统mono-lingual speech synthesis system针对某一语种设计的，功能限于单一、特定语种的语音合成系统。34多语种语音合成系统multi-lingual speech synthesis system可以实现两种及两种以上语言语音合成功能的语音合成系统。35有限词汇语音合成系统limited vo

7、cabulary speech synthesis system为某一特定任务设计的、只能完成有限词汇量语音合成功能的语音合成系统。】GBT 2 1 024-200736无限词汇语音合成系统unlimited vocabulary speech synthesis system可以完成任意词汇语音合成功能的语音合成系统。37中文语音合成系统Chinese speech synthesis system可以完成中文普通话或者汉语方言语音合成功能的语音合成系统。注：如果系统的功能只是将汉字转换为粤语、吴语、湘语、闽语等汉语方言的系统，分别称其为粤语语音合成系统(Yue-Dialect Speech

8、 Synthesis System)、吴语语音合成系统(Wu-Dialect Speech Synthesis System)、湘语语音合成系统(Xiang-Dialect Speech Synthesis System)、闺语语音合成统(Min-Dialect Speech Synthesis System)等。38韵律标记符号prosodic label以可读形式插入到文本中的特殊字符序列，它可以被语音合成系统检出并解释，从而控制语音合成系统输出语音的韵律特征；也可以用来描述文本所对应自然语音中的韵律特征。39口语spoken language语言的口头变体。GBT 1220021994，

9、4113注：语音有不同的风格，常见的有朗读风格(reading style speech)和即席发言风格(spontaneous speech)，后者是无发言脚本的，也称为自然口语。310口音标注accent label标出发音人的口音特征。311音段segment发音器官被处于相对稳定不变的状态下发出的单个语音。在语音或是音系层次上，将话语当作线性串列时，音段是串列中的最小单位。广义上说，音段被看作语音中发音器官或多或少地保持不运动的一个时段。312音段特征segmental feature现代语音学中跟音色相关的语音特征，在声学层面表现为频谱。313音段标注segmental labeli

10、ng把话语中的每个语音单元(包括音节、声韵或其他更小的语音单元)逐一进行切分，然后对它们的音色特征分别给予细致如实的描写。314语流音变sandhi连续音变连续发音中的语音变化。GBT 122002199441314注：如同化、异化等。3。15辅音consonant发音时气流受阻，发音器官肌肉紧张程度不均衡的类音素。2GBT 21024-2007GBT 1220021994，41311316元音vowel发音时气流不受阻，声带振动、发音器官肌肉均衡紧张的一类音素。EGBT 122002一1994，413103317国际音标International Phonetic AlphabetIPA由国

11、际语音协会制定的、国际统一的语音的标记方式。注：IPA国际音标是由国际音标语音协会提出的发音规范。318韵律prosody一般也称为超音段特征(suprasegmental feature)，是将各种语言学单位组织成话语或话语中关联组块的系统组织。从物理角度，指基频、时长和强度等声学参数；从语言学的角度，指音段层次以上的音系组织。注：韵律的实现涉及语音的音段和超音段特征，它不但能够传递语言学信息，而且能够传递副语音学和非语言学信息。319音高范围pitch range个人说话时音高变化范围。320音区register通过声带张力的调节，人能够说话或唱歌的不同音高范围。注：如高音区与低音区，正常

12、声音区与假声音区等。321汉语 Chinese汉民族使用的语言。属于汉藏语系，是一种孤立语，有声调。汉语的书写基础汉字是一种表意文字，又称中文。注；至于统称中国境内的所有语言(包括汉语和少数民族语言)为“中国的语言(Chinese Languages)”。322汉语方言Chinese dialects特定地理区域中汉语的变体。323声母 initial汉语音节起始的辅音性成分，根据辅音的清浊不同可以将声母分为清声母和浊声母。3231清声母unvoiced initial由清辅音作的声母。3232浊声母voiced initial由浊辅音作的声母。3233零声母zero initial音节起始没

13、有辅音性成分，而直接以元音开始。3GBT 210242007注：普通话声母参见GF 3006 2001的定义4，2，其他汉语方言声母可参见IPA组织1999年编著的国际语音学会关于使用国际音标的指导手册。324韵母final汉语音节中除了声母以外的音段部分。韵母可以从组成结构上进一步分析为韵头、韵腹和韵尾，单元音组成单韵母，复元音或带鼻音韵尾的鼻韵母组成复韵母，带有鼻音韵尾组成鼻韵母。注：普通话韵母参见GF 30062001的定义43，其他汉语方言韵母可参见IPA组织1999年编著的国际语音学会关于使用国际音标的指导手册。325声调tone作用于音节或词语层面上具有区别词汇意义功能的音高模式。

14、由于声调具有区别词汇意义的功能，因此一些学者把声调也看成是一种音位，并称之为“调位(toneme)”。注：普通话声调参见GF 30062001的定义44，其他汉语方言声调可参见IPA组织1999年编著的国际语音学会关于使用国际音标的指导手册。4 中文语音合成系统的功能分类41概述符合本标准的中文语音合成系统应在规格中明确注明其系统分类，并满足相应系统分类的技术要求。42从语言处理能力上分类语音合成系统从处理语言能力上可以分为：单语种语音合成系统和多语种语音合成系统。语音合成系统应注明其处理语言种类，及同时处理不同语言的能力。43从所处区域或方言上分类普通话语音合成系统是指可以完成中文普通话语音

15、合成功能的语音合成系统。方言语音合成系统是指可以完成特定中文方言语音合成功能的语音合成系统。一般来说，方言语音合成可以按照区域划分为：广东话语音合成系统、吴语语音合成系统等。中文方言语音合成系统应注明其应用区域和方言类型。44从合成的应用范围上分类语音合成系统从合成的应用范围上可以分为：有限词汇语音合成系统和无限词汇语音合成系统。语音合成系统应注明应用的范围。45从韵律和音色调节能力上分类语音合成系统从韵律和音色调节能力上可以分为：基于参数的语音合成系统和基于波形的语音合成系统。基于参数的语音合成系统是指采用矢量参数运算作为声学模型的语音合成系统。例如：基于LPC(线性预测编码)语音合成系统、

16、基于共振峰语音合成系统、基于LSP(线谱对)语音合成系统等。基于波形的语音合成系统是指采用波形拼接算法作为声学模型的语音合成系统。46从合成方法上分类语音合成系统从实现方法上可以分为：基于规则的语音合成系统和基于数据驱动的语音合成系统。基于规则的语音合成系统通常是指语音合成系统中各模块使用的算法是通过专家规则的形式实现的语音合成系统。基于数据驱动的语音合成系统是指系统所需的模型，是通过数据驱动的方法建立的，其最大的特征就是可训练性。基于这两种方法的语音合成系统，在适应不同数据集和不同发音人的性能上有着一定区别。这两4GBT 2 1 024-2007种方法可以混合应用以提高系统的效果及减小对训练

17、数据容量的要求。47从应用平台上分类语音合成系统从应用平台上可以分为：用于芯片的语音合成系统、用于嵌入式操作系统的语音合成系统、用于独立主机的语音合成系统、用于分布式计算的语音合成系统等。语音合成系统应注明该系统适用的应用平台，如果是工作于特定的操作系统之上，也需同时注明支持的操作系统和语音合成系统的资源需求。5 中文语音合成系统数据交换格式51概述“中文语音合成标记语言(CSSML)”定义了一套基于XML文档结构的标记语言体系。它可被用于资源共享、模块互换，以及在分布式应用中的中间数据格式，或者独立系统的输入控制。CSSMI基于W3C制定的SSML(Speeeh Synthesis Mark

18、up Language)标准，在SSML的基础上针对汉语语音合成的情况进行了扩展和修改。本标准规定了在语音合成系统中的数据交换应使用基于“中文语音合成标记语言规范”所定义文档结构的数据内容。511文档结构基于XML的文档格式，各类型标记以XMI，元素的形式给出。附录A给出了CSSML定义。512特性中文语音合成标记语言应具有以下特性：a)支持多种格式文档的输入，即能指明当前文档格式b)与现有各标记体系保持一致，尽量兼容或易于被自动转化；c) 能对合成文本的结构加以描述；d) 支持不同语言和方言的定义；e)支持特殊发音指定(宏发音)，包括强制改变发音以及引用外部声音元素；f)支持对诸如速度、音高

19、音强等参数的控制；g)支持对音色的指定，如发音人姓名、性别、年龄等；h)对特定格式文字发音的支持，如地址、电话、网址等；i) 支持重读强调控制；j) 支持某段文字语调控制。513 CSSML元素表CSSML元素见表1。表CSSML元素表序号元素功能定义集1 audio 指明插入一个已有声音样本基本集2 break 指明一个停顿基本集3 enlphasis 指明轻重读强调程度扩展集4 指明发音的音场环境扩展集5 指明作用域内附加使用的用户词典扩展集6 mark 指明事件响应扩展集7 paragraphp 语音层次结构的单位扩展集8 phoneme 指明发音音素序列方案基本

20、集GBT 21024-2007裹1(续)序号元素功能定义集9 ptlrase 语音层次结构的单位扩展集10 prosody 指明发音的韵律基本集11 punctuation 指明标点的处理方式基本集12 sayassay-as 指明文本性质基本集13 语音层次结构的单位基本集14 CSSML文档的根元素基本集15 sub 替换文本内容基本集16 value 指明插人一个系统变量基本集17 指明发音人的音质特征扩展集18 word 语音层次结构的最小单位基本集19 rdm 保留未来使用保留注：凡是以AB形式出现的元素表示A与B的写法等价。52元素与属性521文档结构类

21、元素5211 speak元素名：speak属于：基本集描述：由于此标注体系采用XML文档格式给出，因此根元素即为“speak”。允许的父元素：无。允许的子元素：paragraph，sentence，phrase，word，sayas，phoneme，sub，lexicon，punctuation，prosody，emphasisvoice，environment，audio，value，break，mark，rdm属性表：“version”：属性描述：指定使用的规范的版本。属性值：应为“10”。“xmi：lang”：属性描述：指定作用域内文档内容使用语言。属性值：可用值请参照Internet公

22、文RFCl766。“xml：base”：属性描述：指定文档的根URI位置。示例：5212 paragraphp、sentences、phrase、word描述：指定语音层次结构，以使合成语音更加符合使用要求。示例：GBT 21024-2007dphrase我们的dword最高目标dworddphrase是得到高自然的语音dparagraph52121 paragraphp元素名：paragraph别名：P属于：基本集描述：指定作用域内文字为一段落。允许的父元素：speak，lexicon，punctuation，voice，environment允许的子元素：sentence，phrase，w

23、ord，say-as，phoneme，sub，lexicon，punctuation，prosody，emphasis，voice，environment，audio，value，break，mark，rdm属性表：“xmi：lang”：属性描述：指明作用域内的发音语种。属性值：可用值请参照Internet公文RFCl766。52122 sentences元素名：sentence别名：s属于：基本集描述：指明作用域内文字为一句子。允许的父元素：speak，paragraph，lexicon，punctuation，voice，environment允许的子元素：phrase，word，say-

24、as，phoneme，sub，lexicon，punctuation，prosody，emphasis，voice，environmentaudio，value，break，mark，rdm属性表：“xml：lang”：属性描述：指明作用域内的发音语种。属性值：可用值请参照Internet公文RFCl766。52123 phrase元素名：phraseGBT 2 1 024-2007属于：基本集描述：指明作用域内文字为一短语。允许的父元素：speak，paragraph，sentence，phrase，lexicon，punctuation，voice，environment允许的子元素：ph

25、rase，word，sayas，phoneme，sub，lexicon，punctuation，prosody，emphasis，voice，environmentaudio，value，break，mark，rdm属性表：“xml：lang”：属性描述：指明作用域内的发音语种。属性值：可用值请参照Internet公文RFCl766。52124 word元素名：word属于：基本集描述：指明作用域内文字为一词组。允许的父元素：speak，paragraph，sentence，phrase，lexicon，punctuation，voice，environment允许的子元素：sayas，pho

26、neme，sub，lexicon，punctuation，prosody，emphasis，voice，environment，audio，valuebreak，mark，rdm属性表：“xml：lang”：属性描述：指明作用域内的发音语种。属性值：可用值请参照Internet公文RFCl766。522文本控制类元素5221 sayassay-as元素名：sayas别名：sayas属于：基本集描述：指明文本的性质，即如何决定其发音方式。允许的父元素：speak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis

27、voice，environment允许的子元素：无。属性表：“interpret-as”：属性描述：文本的发音方式。属性值：“acronym”：英语缩写，字母发音间隔较小；8“spell out”：按字母发音，发音间隔较大；“number”：指明是数字；“telephone”：按电话号码读法发音；“date”：指明日期；“time”：指明时刻；“duration”：指明时间段；“currency”：指明货币金额；“measure”：指明度量值；“name”：指明是人的姓名、公司名称或是地名；“net”：指明是网络(internet)上应用的地址；“address：指明是表述邮政地址。“for

28、mat”：属性描述：文本的格式。属性值：当“interpretas”属性值为“number”时，format可以取下列值之一“ordinal”：按数值发音； “digits”：按数字串发音；“score”：按比分读法发音；“fraction”：按分数读法发音。当“interpret as”属性值为“date”时，format可以取下列值之一“my”，“md”，y。以指明年月日的顺序。GBT 21024-2007当“interpretas”属性值为“time”时，format可以取下列值之一：“hm”，“hms”。以指明时间的格式和顺序。当“interpretas”属性值为“duration”时

29、format可以取下列值之一：“hm”，“hms”，“ms”。以指明时间间隔的格式和顺序。当“interpretas”属性值为“net”时，format可以取下列值之一I“email”，“url”。分别表示网络电子邮件地址和网络URI地址。“type”：属性描述：文本性质。属性值：“acronym”：英语缩写，字母发音间隔较小；“spellout”：按字母发音，发音间隔较大；“number”：指明是数字；“number：ordinal”：按数值发音；“number：digits”：按数字串发音；“number：score”：按比分读法发音；“number：fraction”：按分数读法发音；

30、telephone”：按电话号码读法发音；“date”：指明日期，可附带“ymd”，“mdy”，“dmy”，“ym”，“my”，“rnd”，“y”指明顺序；“time”：指明时刻，可附带“hm”，“hms”指明包含内容；“duration”：指明时间段，可附带“hm”，“hms”，“ms”指明内容；“currency”：指明货币金额；“ITleasure”：指明度量值；GBT 21024-2007示例“name”：指明是人的姓名、公司名称或是地名；“net：email”：指明是电子邮件地址；“net：url”：指明是URL；“address”：指明是表述邮政地址。5222 phoneme元素

31、名：phoneme属于：扩展集描述：指明作用域内的发音参数。允许的父元素：speak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis，voice，environment允许的子元素：无。属性表：“alphabet”：属性描述：其用于指明音标序列采用何种规范，为可选属性。属性值：目前的合法值为“ipa”，表示国际音标，或者“py”，表示使用拼音。“曲”：属性描述：给出音标序列。属性值：符合International Phonetic Alphabet(IPA)的音标序列。“lang”：属性描述：指明作用域内容

32、按何种语种、或者某种汉语方言发音。属性值：符合RFCl 766规定的语言和方言代码标识，如en，zhcn，zh-hk，zh tw。示例：5223 sub元素名：sub属于：基本集描述：使用指定的文本替换作用域文本发音，如果指定文本为空，则不发音。允许的父元素：1 0GBT 21024-2007speak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis，voice，environment允许的子元素：无。属性表：“alias”：属性描述：替换后的发音文本。属性值：有效文本或空值。示例：5Z24 lexicon

33、元素名：lexicon属于：扩展集描述：指明作用域内附加使用的用户词典，支持的用户词典格式可以由语音合成系统自行定义。允许的父元素：speak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis，voice，environment允许的子元素：paragraph，sentence，phrase，word，sayas，phoneme，sub，lexicon，punctuation，prosody，emphasis，voice，environment，audio，value，break，mark，rdm属性表：“u

34、ri”：属性描述：指明用户词典。属性值：可以是以URI指定的某个文件或是已约定的对象名称(包括以MIME格式编码在文档中的内嵌对象)。“type”：属性描述：指明用户词典的媒体格式。属性值：如“textplain”。示例：5225 punctuation元素名：punctuation属于：基本集描述：指明标点符号的读法。允许的父元素：speak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis，voice，environment允许的子元素：11GBT 21024-2007paragraph,sentence

35、phrase,WOrd，sayas，phoneme，sub，lexico“P“。t“8tlo“P。8。dy。mph8318voice，environment，audio，value，break，mark，rdm属性表：“speak_out”：属性描述：指明标点符号的读出方式是否为逐一读出。属性值：“yes”：逐一读出；“no”：不读出；“defauIt”：按缺省方式自动读出。speak，paragraph，sentenee，phrase，word，lexicon，punctuatio“prosody。mph8815”01ce。nvlronparagraph,sentence，phrase，w

36、ord，say 8s，phoneme，sublexico“，pu“。t“8tio“p。80dyemphasis,voice，environment，audio，value，break，mark，rdm霍蓑碧等蔷誓蓁雾嚣塞篆备数附加单位H棚55H：，)；相对改变值(正负号浮点数附加茧估篙黧以取10Hz冀翌5频率5H冀z#5点H篓z黧91单H鼍z点嚣墨萎警搽至篙霉淼纛糍I瑞单位Hz，如“+ ，，+1 ，+ ”)；相对嫂婴日付1【且L止贝号阡品，姒9”“+“”“t c+45，一45，)；或枚举值(“x-high”，“high”，“medium”，“low”，“xlow”，“defa“l”卜，属性描

37、述：指明调型曲线。属性备：一系列以空格分隔的关键点数据表示，每个关键点数据由(时间点，音高频率)来描述。时问点是范围为O100的百分数；音高与pitch属性的取值形式相同。属性值：取值与pitch属性相同。属性值：绝对速率系数(浮点数，如“10，5，5，1对改变百分值(正负号浮点数附加单位，如“+4um”，“fast”“x-fast”，“default”)。“duration”：GBT 21024-20075，945”)，I0为正常语速；每分钟字数(整数)；相5，一45”)；或枚举值(“xslow”，“slow”，“medi一属性描述：指明发音持续时长。属性值：绝对时间(整数附加单位ms或整数

38、附加单位s)；或枚举值(“long”，“medium”，“short”，“default”)。“volume”：属性描述：指明音量。属性值：绝对值(浮点数，如“56”，范围为00100O)；相对改变(正负号浮点数，如“+43，一107，)；相对改变百分比(正负号浮点数附加单位，如“+45，一45”)；或枚举值(“silent”，“xsoft”“soft”medium”，“loud”，“xloud”，“default”)。示例：I你好吗L5232 emphasis元素名：emphasis属于：扩展集描述：指明作用域内文本的轻重读强调程度。允许的父元素：speakparagraph，sentenc

39、e，phrase，word，lexicon，punctuation，prosody，emphasisvoice，environment允许的子元素：Dhrase，word，sayas，phoneme，sub，lexicon，punctuation，prosody，emphasis，voice，environmentaudio，value，break，mark，rdm属性表：“level”：属性描述：指明强调等级。属性值：可取值“strong”，“moderate”，“none”以及“reduced”。“layer”：属性描述：指明作用层次。属性值：可取值“paragraph”，“sentenc

40、e”，“phrase”，“word”。5233 voice元素名：voice属于：扩展集描述：指明作用域所使用的发音人特征。允许的父元素：GBT 21024-2007speak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis，voice，environ，ment允许的子元素：paragraph，sentence，phrase，word，sayas，phoneme，sub，lexicon，punctuation，prosody，emphasis，voice，environmentaudio，value，bre

41、ak，mark，rdm属性表：“gender”：属性描述：指明发音人性别。属性值：可取值。male”(男声)，“female”(女声)。“neutral”(中性)。“age”：属性描述：指明发音人年龄。属性值：可取值正整数或“child”，“teenager”，“adult”，“elder”。“name”：属性描述：指明发音人姓名。属性值：通常是系统相关的，可取值为具体姓名串或“default”。“variant”：属性描述：指明发音人代号。属性值：可取值正整数。5234 environment元素名：environment属于；扩展集描述：指明作用域文本发音时的音场环境。允许的父元素：spe

42、ak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis，voice，environment允许的子元素：paragraph，sentence，phrase，word，say-as，phoneme，sub，lexicon，punctuation，prosody，emphasisvoice，environment，audio，value，break，mark，rdm属性表：“mode”：属性描述：指明声场环境模式。属性值：可取值为“noisy”，“silent”，“normal”，默认模式为“normal”。“r

43、epeat”：属性描述：指明背景声音是否重复播放。属性值：可取值为“yes”，no，“default”，默认的播放方式为“no”。“src”：属性描述：指明背景声音文件，系统要求支持的声音文件格式，请参见“55音频数据格式要求”。属性值：指向声音文件的URI。14GBT 210242007“azimuth”：属性描述：指明声源的水平方位角。属性值：可取值为下列五个关键词中的一个：“right”，“left”，“front”，“behind”，“center”，默认值为“center”。“elevation”：属性描述：指明声源相对于听者的高度。属性值：可取值“below”，“level”，“a

44、bove”，默认值为“level”。示例：524插入对象类元素5241 audio元素名：audio属于：基本集描述：在作用域位置插入一段声音样本。如果audio元素的内容非空，而且audio属性src表示的源文件无法播放时，应该使用合成引擎播放audio元素的内容。系统要求支持的声音文件格式，请参见“55音频数据格式要求”。允许的父元素：speak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis，voice，environment允许的子元素：paragraph，sentence，phrase，word，

45、say-as，phoneme，sub，lexicon，punctuation，prosody，emphasis，voice，environment，audio，value，break，mark，rdm属性表：“SFC”：属性描述：指明声音样本。属性值：URI指定的某个文件。示例：5242 value元素名：value属于：基本集描述：在作用域位置插入一个系统变量值的发音。允许的父元素：speak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis，voice，environment】5GBT 2 1 024-2

46、007允许的子元素：无。属性表：“name”：属性描述：变量的名称。属性值：currentTime，currentDate等。“type”：属性描述：与元素中的定义相同。属性值：与元素中的取值相同。示例：5243 break元素名：break属于：基本集描述：在作用域位置插入一个停顿。允许的父元素：speak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis，voice，environment允许的子元素：无。属性表：“strength”：属性描述：指明停顿强度。属性值：可取值“none”，“x-weak”，

47、weak”，“medium”，“strong”，“x strong”。“size”：属性描述：指明停顿长短。属性值：可取枚举值“none”，“x-small”，“small”，“medium”，“large”，“x_large”。“time”：属性描述：指明具体停顿时长。属性值：秒或毫秒绝对值(整数附加S或ms)，如“3s”，“300ms”。5244 mark元素名：mark属于：扩展集描述：在作用域位置插入一个标记，此标记可被用来快速检索文档，并在合成到此位置时触发mark事件。允许的父元素：1 6GBT 210242007speak，paragraph，sentence，phrase，word，lexicon，punctuation，prosody，emphasis，voice，environrflent允许的子元素：无。属性表：“name”：属性描述：触发的事件名称。属性值：唯一的ID值。525其他元素meta元

展开阅读全文