1、ICS 35.240.99 A 90 GA 中 华 人 民 共 和 国 公 共 安 全 行 业 标 准 GA/T XXXXX XXXX 警务智能语音服务平台接口 规范 Specifications for interface of intelligent voice service platform for the police 点击此处添加与国际标准一致性程度的标识 ( 报批稿 ) XXXX - XX - XX 发布 XXXX - XX - XX 实施 中华人民共和国公安部 发布 I 目 次 目次 . I 前言 . II 警务智能语音服务平台接口规范 . 1 1 范围 . 1 2 规范性引用
2、文件 . 1 3 术语和定义 . 1 4 数据对象 . 1 5 语音识别服务接口 . 2 6 语音合成服务接口 . 11 7 文本处理服务接口 . 15 附录 A(资料性附录)语音消息结果示例 . 20 参考文献 . 27 GA/T XXXXX XXXX II 前 言 本标准 按照 GB/T 1.1-2009给出的规则起草。 本标准由 安徽省公安厅提出。 本标准由 公安部计算机与信息处理标准化技术委员会 归口。 本标准起草单位: 智能语音技术公安部重点实验室 、安徽省公安厅、 讯飞智元信息科技有限公司 、 合肥市公 安局、 公安部第三研究所 、公安部第一研究所 、 苏州思必驰信息科技有限公司
3、。 本标准主要起草人: 祝占魁、冯祥 、 刘琼、胡先锋、刘磊、查飞、戎玲、孔耀晖、 周伟达 、李伟、 李磊、 吴波 、王伟 、 储明丽、吴鹏、程彪、刘韫韬、余洪祥、游寒旭 。 GA/T XXXXX XXXX 1 警务智能语音服务平台接口 规范 1 范围 本标准规定了警务智能语音服务平台 提供 服务 的 数据对象 、 语音识别服务接口 、 语音合成服务接口 、 文本处理服务接口 等 。 本标准适用于警务智能语音服务平台接口设计 、 开发 和应用 。 2 规范性引用文件 下列文件对于本 要求 的应用是必不可少的。凡是注日期的引用文件,仅注日期 的版本适用于本文件。 凡是不注日期的引用文件,其最新版
4、本(包括所有的修改单)适用于本文件。 GB/T 21023-2007 中文语音识别系统通用技术规范 GB/T 34083-2017 中文语音识别互联网服务接口规范 GB/T 34145-2017 中文语音合成互联网服务接口规范 GA/T XXXXX-XXXX 警务智能语音服务平台技术 要求 3 术语 和定义 GB/T 34083-2017、 GB/T 34145-2017和 GA/T XXXXX-XXXX界定 的 术语和定义适用于本文件。 4 数据 对象 4.1 基本数据类型 平台 数据对象采用的基本数据类型 见表 1。 表 1 基本数据类型 类型名称 说明 范围 Byte 字节 -128 1
5、27 Int 整型 -2147483648 2147483647 Long 长整型 -9223372036854774808 9223372036854774807 String 字符串 任意可变长度 Float 浮点数 3.402823e+38 1.401298e-45( e+38 表示是乘以 10的 38 次方,同样, e-45 表示乘以 10 的负 45 次方) Bool 布尔型 true 或 false 4.2 JSON 数据交换格式 平台采用 JSON数据交换格式来存储和表示数据对象 。 GA/T XXXXX XXXX 2 5 语音识别服务接口 5.1 接口请求调用关系 接口请求调用
6、关系 见 图 1。 注 1: 虚线框内定义的热词流程,为非必要流程。 注 2: “ For 0,N,1”表示起始值为 0、上 限 值为 N、步长为 1的循环。 图 1 语音识别服务接口请求调用关系 5.2 连续 语音识别 接口 5.2.1 初始化 连续 语音识别服务 行为描述: 初始化 连续 语 音识别服务客户端组件 。 本接口应和 逆 初始化 连续语音识别服务 ( 见 5.2.6) 配对使用 。 如果连续语音识别服务 系统不是通过客户端组件提供服务 ,则本接口可省略 。 输入参数 : 不做定义 。 输出 参数: 返回值等 。 5.2.2 创建 连续 语音 识别 会话 行为描述: 创建一路 连
7、续 语音识别会话 , 可 设置会话参数 ,参数有效范围应为设置成功时起 至本路 会话结束 。 输入参数: 参数 见表 2。 GA/T XXXXX XXXX 3 输出参数: 返回值等 。 5.2.3 设置 连续 语音识别会话 参数 行为描述: 设置 一路 连续 语音识别会话 参数 ,参数有效范围应为设置成功时起至本路会话结束。 输入参数 : 参数 见表 2。 输出参数: 返回值 等。 表 2 设置连续语音识别会话输入参数 序 号 参数 取值 默认值 功能 1 session-type/sst 字符串,取值包括 continuous和 command, continuous表示连续语音识别, co
8、mmand表示命 令字识别 continuous 指明会话类型 2 net-timeout/ntt 整数,单位毫秒( ms) 取值范围为 -1和 1 30 000的整数, -1表示无超 时限制 10000 指明网络交互超时间隔 3 speek-timeout/stt 整数,单位毫秒( ms) 取值范围为 -1和 1 30 000的整数, -1表示 无超 时限制 10000 指明语音写入超时间隔 4 confidence-threshold/cfd 浮点数,取值范围为 0.0 100.0 90.0 指明置信度阈值 5 result-format 字符串,取值包括 plain和 json, 应支持
9、 plain和 json json 指明识别结果格式 6 result-encode/rse 字符串,取值包括 GB18030、 GB13000等。 应支持 GB18030,宜支持 GB13000 GB18030 指明识别结果字符编码格式 7 vad-enable 布尔值,取 值包括 true和 false true表示开启, false表示关闭 true 开启音频端点检测 8 audio-format/auf 字符串,取值包括 audio/L16;rate=8000、 audio/L16;rate=16000等。 应支持 audio/L16;rate=8000和 audio/L16;rate
10、=16000 audio/L16;ra te=16000 指明识别音频数 据格式 9 audio-encode/aue 字符串,取值格式规范同 RFC 2045的 Content-Type参数,其中的 type取值为 audio, subtype取值包括 raw、 pcma、 pcmu、 amr、 amr-wb、 speex、 speex-wb、 mp3等 , 其中 raw表示不压缩。 对于支持可变码率编码的压缩算法,使用子参 数 level(或简写为 lvl)指定压缩等级。如取 值为“ audio/amr-wb;lvl=7”时,语音识别服 务系统在网络传输中使用 amr-wb算法的等级 7
11、压缩识别音频。 subtype的取值除 raw外,宜支 持以上音频压缩算法中的一种或多种 audio/raw 指明识别音频压缩算法 10 language/lang 字符 串 ,取值规范符合 RFC 5646,应支持中文zh-CN、 宜支持 en-US,缺省值为 zh-CN zh-CN 指明识别音频所属语种 GA/T XXXXX XXXX 4 表 2(续) 序号 参数 取值 默认值 功能 11 dialect 字符串, 取值规则满足 RFC 5646规范,应支持zh_cmn,宜支持 zh_yue等方言 zh_cmn 指明识别音频所属方言 12 vad-timeout 整数,单位毫秒( ms)。
12、取值范围为 -1和 1 60000的整数, -1表示无超时限制 10000 指明语音等待超时时长 13 vad-incomplete-timeout 整数,单位毫秒( ms)。取值范围为 -1和 1 60000的整数, -1表示无超时限制 10000 指明语音尾部静音长度 14 denoise-enable 布尔值,取值包括 true 和 false, true 表示开启, false 表示关闭 true 启用噪声抑制 15 result-type/rst 字符串,取值包括 word(字或词)、 sentence (整句)和 paragraph(段落) 应支持 word和 sentence w
13、ord 指明识别结果类型 16 progressive-mode 布尔值,取值 包括 true 和 false, true 表示进阶模式, false 表示非进阶模式 false 指明会话是否为进阶模式 17 punctuation 布尔值,取值包括 true 和 false, true 表示自动添加标点符号, false 表示不添加 true 指明是否自动添加标点符号 18 result-info 字符串,取值为表 3中所列参数或其组合,参数之间用 “ |”表示 分割 ,参数取值见表 3 获取完整的识 别结果 指明识别结果中的信息种类 19 vendor-x 字符串, json格式 无 自定
14、义参数 表 3 result-info 参数集合 序号 参数 参数 描述 1 confidence-threshold/cfd 置信度阈值 2 language/lang 语种 3 dialect 方言 4 gender 性别 5 age 年龄 6 role 角色 7 SNR 信噪比 8 error-reason 错误原因 9 pinyin 拼音 10 score 得分 11 user-word 热词 5.2.4 写入 连续语音 识别音频 数据 行为描述: 写入一路 连续 语音识别会话所用识别音频。 本接口可以被反复调用 , 待识别音频 流为空 时表示音频写入结束。 输入参数 :语音数据 。
15、输出参数 : 见表 4。 GA/T XXXXX XXXX 5 表 4 连续语音识别 输出 参数 序号 参数 取值 默认值 功能 1 version/ver 字符串,当前值为 0.1 0.1 协议版本号 2 sentence-number/sn 整数,从 1开始,递增加 1 1 句子序号 3 last-sentence/ls 布尔值,取值为 true或 false fale 是否为最后一句 4 begin 正整数,单位毫秒( ms) 0 开始识别时间 5 end 正整数,单位毫秒( ms) 0 结束识别时间 6 result-type/rst 字符串,取值包括 word(字或词)、sentenc
16、e(整句)和 paragraph(段落) word 结果类型 7 error-code 整数 ,0表示成功,非 0表示失败,不同非0值对应不同的错误原因 0 错误码 8 word 字符串 无 一段音频 识别结果 的文字 内容 9 score 浮点数,取值范围为 0.0 100.0 0.0 识别结果内容对应的匹配得分,得分越高越可信 10 instance 字符串 无 匹配到的语法中的词条 ,用于命令字识别中 11 user-input 字符串 无 用户说话内容,用于命令字识别中 12 error-reason 字符串 无 在 error-code为非 0值 时, error-reason描述发
17、 生错误的原因 13 confidence-threshold /cfd 浮点数,取值范围为 0.0 100.0 无 识别的置信度阈值,用于命令字识别中 14 language/lang 字符串 ,取值规则满足 RFC 5646规范,应支持 zh_CN,宜支持 en_US等 zh_CN 识别音频所属语种 15 dialect 字符串,取值规则满足 RFC 5646规范,应支持 zh_cmn,宜支持 zh_yue等方言 zh_cmn 识别音频所属方言 16 gender 字符串,取值包括 male(男)或 female(女) 无 说话者性别 17 age 字符串,取值包括 child(少年)、
18、youth (青年)、 adult(成年)、 elder(老 人) youth 说话者年龄 18 role 整数,取值范围大于等于 1,序数含义 1 指明在多人说话的场景 中,当前识别结果是哪个 人说的内容 19 progressive-type 字符串,取值包括 append(附加)、 overwrite(盖写)、 insert(插入)和 delete(删除) append 进阶类型 GA/T XXXXX XXXX 6 表 4(续) 序号 参数 取值 默认值 功能 20 progressive-range 对象,两个整数组成的范围,单位均为字 节( B)。第一个整数表示起点,第二个 整数表示
19、从起点算起的长度,例如: 0,6 无 进阶范围 21 SNR 浮点数,单位分贝( dB)取值规则符合 GB/T 21023 2007中 4.6的规范 无 信噪比 22 pinyin 字符串,描述的文本为中文字符时,取值 为每一个字符对应的汉语拼音按字符先 后顺序拼接起来的字符串,中间不加分隔 符。每一个字符对应的汉语拼音声韵组合 规律符合汉语拼音方案,声调中的阴 平、阳平、上声、去声和轻声分别用 1、 2、 3、 4和 0表示,如“北京”的普通话汉语 拼音表示为“ bei3jing1” 无 识别结果拼音 23 user-word 布尔值,取值包括 true或 false fale 是否为用户自
20、定义热词 24 vendor-x 字符串, json格式 无 厂商自定义参数 5.2.4 结束 连续 语音识别会话 行为描述: 结束一路 连续 语音识别会话 。 输入参数:会话句柄。 输出参数:返回值等 。 5.2.5 逆 初始化连续语音识别服务 行为描述: 释放资源。 如果 连续 语音识别服务 系统不是通过客户端组件提供 服务 ,则本接口可省略 。 输入参数:不做定义。 输出参数:返回值等。 5.3 语音识别 服务 接口 5.3.1 初始化语音识别服务 行为描述:初始化语音识别服务客户端组件 , 本接口应和 逆初始化 语音 识别 服务(见 5.3.6)配对 使用。 如果语音识别服务 系统不是
21、通过客户端组件提供服务 ,则本接口可 省 略 。 输入参数:不做定义 。 输出参数:返回值等 。 5.3.2 创建语音 识别 会话 行为描述: 创建一路语音识别会话,可以同时设置会话参数,参数有效范围应为设置成功时起至本 路会 话结束。 输入参数 : 可一次设置多个会话参数。 输出参数:返回值等 。 GA/T XXXXX XXXX 7 5.3.3 设置语音识别会话参数 行为描述: 设置一路语音识别会话参数,参数有效范围应为设置成功时起至本路会话结束。 输入参数: 参数 见表 5,示例 参见 附录 A.1。 输出 参数:返回值等。 表 5 设置语音识别会话输入参数 序号 参数 取值 默认值 功能
22、 1 session-id/ssid 字符串 ,必填 , 建议取值 uuid 无 会话 id应唯一 2 business-id/bizid 字符串,必填 ,如未设置 ,将默认与session_id相同 无 业务 id 3 business-name/biznm 字符串 无 业务名称 4 audio-format/auf 字符串,取值包括 audio/L16;rate=8000、 audio/L16;rate=16000等。 应支持 audio/L16;rate=8000和 audio/L16;rate=16000 audio/L16;rate=1600 0 指明识别音频数据 格式 5 resu
23、lt-format 字符串,取值包括 plain、 json,应支持 plain和 json json 指明识别结果格式 6 result-encode/rse 字符串,取值包括 GB18030、 GB13000等 , 应支持 GB18030,宜支持 GB13000 GB18030 指明识别结果字符编码格式 7 audio-encode/aue 字符串,取值格式规范同 RFC 2045 的 Content-Type参数,其中的 type 取值为 audio, subtype取值包括 raw、 pcma、 pcmu、 amr、 amr-wb、 speex、 speex-wb、 mp3等 , 其中
24、 raw 表示不压缩。对于支持可变码率编 码的压缩算法,使用子参数 level (或简写为 lvl)指定压缩等级。 如 取值为“ audio/amr-wb;lvl=7”时, 语音识别服务系统在网络传输中使 用 amr-wb算法的等级 7压缩识别音 频。 subtype的取值除 raw外,宜支 持以上音频压缩算法中的一种或多 种 audio/raw 指明识别音频压缩算法 8 dialect 字符串,取值规则满足 RFC 5646规 范,应支持 zh_cmn,宜支持 zh_yue 等方言 zh_cmn 指明识别音频所属方言 9 language/lang 字符串,取值规范符合 RFC 5646,
25、应支持中文 zh-CN、宜支持 en-US, 缺省值为 zh-CN zh-CN 指明识别音频所属语种 10 vendor-x 字符串, json格式 无 自定义参数 GA/T XXXXX XXXX 8 5.3.4 写入识别音频 数据 行为描述: 写入一路语音识别会话所用识别音频。 本接口可 被反复调用 。 输入参数 : 参数 见表 6。 输出参数:通过回调接口 返回 语音识别 结果 或实时返回 语音识别 结果 ,见表 7,示例参见附录 A.1。 表 6 写入 识别 音频数据 输入参数 序号 参数 取值 默认值 功能 1 session-id/ssid 字符串,必填,建议取值 uuid 无 会话
26、 id 2 business-id/bizid 字符串,必填 ,如未设置 ,将默认与 session-id相同 无 业务 id 3 audio-file-uri/afu 字符串 ,必填 无 待识别的音频文件 链接 地址 4 spkn 布尔类型, true是, false否 true 是否景分离 5 audio-encoding/aed 字符 串 ,取值 PCM、 ALAW、 G729、 AMR_NB、 GSM_HR、 GSMEFR、 SILK 等 PCM 语音的编码格式 6 call-back 可选,有值通过回调方式返回结果,空实时返回结果 无 回调地址 表 7 语音识别 输出 参数 序号 参
27、数 取值 默认 值 功能 1 session-id/ssid 字符串,必填,与输入的会话 id一致 输入的会话 id 会话 id 2 business-id/bizid 字符串,必填,与输入的 业务 id一致 输入的 业务 id 业务 id 3 begin 正整数,单位毫秒( ms) 0 开始识别时间 4 end 正整数,单位毫秒( ms) 0 结束识别时间 5 result-type/rst 字符串,取值包括 word (字或词)、 sentence (整句)和 paragraph (段落) word 结果类型 6 error-code 整 数 ,0表示成功,非 0 表示失败,不同非 0值
28、对应不同的错误原因 0 错误码 7 word 字符串 无 一段音频识别结果的文字内容 8 score 浮点数,取值范围为0.0 100.0 0.0 识别结果内容对应的匹配得分,得分越高越可信 9 error-reason 字符串 无 在 error-code为非 0值时, error-reason描述发生错 误的原因 GA/T XXXXX XXXX 9 表 7(续) 序号 参数 取值 默认值 功能 10 language/lang 字符串 ,取值规则满足 RFC 5646规范,应支持 zh_CN,宜支持 en_US等 zh_CN 识别音频所属语种 11 dialect 字符串 ,取值规则满足
29、RFC 5646规范,应支持 zh_cmn,宜支持 zh_yue 等方言 zh_cmn 识别音频所属方言 12 gender 字符串,取值包括 male(男)或 female(女) 无 说话者性别 13 age 字符串,取值包括 child(少年)、 youth (青年)、 adult(成 年)、 elder(老人) youth 说话者年龄 14 role 整数,取值范围大于等于 1,序数含义 1 指明在多人说话的场景中, 当前识别结果是哪个人 说 的内容 15 SNR 浮点数,单位分贝 ( dB),取值规则符合 GB/T 21023 2007中 4.6的规范 无 信噪比 16 pinyin
30、字符串,描述的文本为 中文字符时,取值为每 一个字符对应的汉语 拼音按字符先后顺序 拼接起来的字符串,中 间不加分隔符。每一个 字符对应的汉语拼音 声韵组合规律符合汉 语拼音方案,声调中 的阴平、阳平、上声、 去声和轻声分别用 1、 2、 3、 4和 0表示,如“北 京”的普通话汉语拼音 表示为“ bei3jing1” 无 识别结果拼音 17 user-word 布尔值,取值包括 true或 false fale 是否为用户自定义热词 18 vendor-x 字符串, json格式 json 厂商自定义参数 GA/T XXXXX XXXX 10 5.3.5 结束语音识别会话 行为描述: 结束一
31、路语音识别会话。 输入参数 : 会话句柄。 输出参数:返回值等 。 5.3.6 逆 初始化 语音识别 服务 行为描述:释放资源。如果语音识别服务 系统不是通过客户端组件提 供服务 ,则本接口可省略 。 输入参数:不做定义。 输出参数:返回值等。 5.4 语音文件质量检测 服务 接口 5.4.1 初始化 语音文件质量检测 服务 行为描述:初始化语音 文件质量检测 服务客户端组件 。 本接口应和逆初始化组件 (见 5.4.3)配对 使用 。 如果语音 文件质量检测 服务 系统不是通过客户端组件提供务 ,则本接口可省略 。 输入参数:不做定义 。 输出参数:返回值等 。 5.4.2 创建语音 文件质
32、量检测 会话 行为描述: 创建一路语音 文件质量检测 会话 。 输入参数 : 可一次设置多个会话参数 ,见表 8,示例 参见 附录 A.4。 输出参数:返回处理结果,见表 10,示例参见附录 A.4。 表 8 语音文件质量检测 会话 输入参数 序号 参数 取值 默认值 功能 1 session-id/ssid 字符串,必填,建议取值 uuid 无 会话 id 2 business-id/bizid 字符串,必填 ,如未设置 ,将默认与 session-id相同 无 业务 id 3 audios Audio类型 , 必填 ,参数取值见表9 无 语音基本信息 4 vendor-x 字符串, jso
33、n格式 无 厂家 自定义参数 表 9 Audio 类型定义 序号 参数 取值 默认值 功能 1 audio-id/aid 字符串,必填 语音 资源 的 id 2 uri 字符串,必填 语音链接地址 3 chnl 整数,单声道取 1、双声道取 2 1 语音信道 4 encoding 布字符串,取值 pcm、 ALaw、 G729、AMR_NB、 GSM_HR、 GSMEFR、 SILK等 pcm 语音的编码格式 GA/T XXXXX XXXX 11 表 9(续) 序号 参数 取值 默认值 功能 5 audio-format/auf 字符串,取值包括 audio/L16;rate=8000、 au
34、dio/L16;rate=16000等。 应支持 audio/L16;rate=8000和 audio/L16;rate=16000 audio/L16;rate=160 00 指明识别音频数据格 式 6 offset 整数,单位毫秒( ms) 0 偏移量,如果是有效 值,就做静音处理;应 用场景: 过滤 DTMF 按键片段 表 10 结果定义表 序号 参数 取值 默认值 功能 1 business-id/bizid 字符串,必填,与业务 id一致 无 业务 id 2 error-code 整数 ,0表示成功,非 0表示失败,不同非 0值对应不同的错误原因 0 错误码 3 error-reas
35、on 字符串 无 在 error-code为非 0值 时, error-reason描述 发生错误的原因 4 clipping-ratio/cr 浮点数 ,取值 0.0到 1.0 0.0 截幅比例 6 mos-score/ms 整数, 取值 按照 5分制定义: 1分 是基本单位, 2分不及格, 3分中等, 4分良好, 5分优秀 1 平均主观意见 得分 7 aver-energy/aey 浮点数 0.0 音频 平均能量 8 SNR 浮点数 ,单位是 分贝,信噪比越大, 混在信号里的噪声越小,声音的音 质量越高 无 信噪比 9 detail 字符串, json格式 无 语音质量检测 的 详细信息
36、5.4.3 逆 初始化 语音识别 服务 行为描述:释放资源。如果语音 文件质量检测 服务系统不是通过客户端组件提 供服务 ,则本接口可 省略 。 输入参数:不做定义。 输出参数:返回值等。 6 语音合成服务 接口 GA/T XXXXX XXXX 12 6.1 语音合成 输入 服务 行为描述: 语音 合成 客 户端发起一个请求,传入参数 。 输入参数: 参数 见表 11,示例参 见 附录 A.5。 表 11 语音合成 服务 输入参数 序号 参数 取值 默认值 功能 1 net-timeout/ntt 整数,单位毫秒( ms)。取值范围 为 -1和 1 30 000的整数, -1表示 无超时限制
37、10000 指明网络交互超时间隔 2 text-type/ttp 字符串,取值包括 plain和 CSSML, plain表示纯文本, CSSML表示中文 语音合成置标语言格式的文本。应 支持 plain,宜支持 CSSML plain 指明合成文本类型 3 text-info/tif 字符串, 必填 无 待识别的文本内容 4 text-encode/tte 字符串,取值包括 GB18030、 GB13000等。应支持 GB18030,宜支 持 GB13000 GB18030 指明合成文本字符编码格式 5 audio-format/auf 字符串, 取值包括 audio/L16;rate=80
38、00、 audio/L16;rate=16000等 应支持 audio/L16;rate=8000和 audio/L16;rate=16000 audio/L16;rate =16000 指明合成音频格式 6 audio-encode/aue 字符串, 取值格式规范同 RFC 2045 的 Content-Type参数,其中的 type 取值为 audio, subtype取值包括 raw、 pcma、 pcmu、 amr、 amr-wb、 speex、 speex-wb、 mp3等 , 其中 raw 表示不压缩。对于支持可变码率编 码的压缩算法,使用子参数 level (或简写为 lvl)指
39、定压缩等级。 如取值为“ audio/amr-wb;lvl=7” 时,语音识别服务系统在网络传输 中使用 amr-wb算法的等级 7压缩识 别音频。 subtype的取值除 raw外, 宜支持以上音频压缩算法中的一 种或多种 audio/raw 指明合成音频压缩算法 7 output-encode 字符串,取值格式规范同参数audio-encode audio/raw 指明输出合成音频压缩算法 GA/T XXXXX XXXX 13 表 11 (续) 序号 参数 取值 默认值 功能 8 voice-name/vcn 字符串,取值包括语音合成引擎内 置音色库名称和用户个性化音色 库名称 由语音合成
40、服务 提供商自定义 指明合成音色库名称 9 language/lang 字 符串,取值规范符合 RFC 5646。应支持中文 zh-CN zh-CN 指明合成音频所属语种 10 dialect 字符串,取值规则满足 RFC 5646 规范,应支持 zh_cmn,宜支持 zh_yue等方言 zh_cmn 指明合成音频所属方言 11 speed 类型、取值范围及各值含义和使用 规范见 SSML 1.1的 3.2.4中的 rate default 指明合成音频语速 12 pitch 类型、取值范围及各值含义和使用 规范见 SSML 1.1的 3.2.4中的 pitch default 指明合成音频音
41、高 13 volume/vol 类型、取值范围及各值含义和使用 规范见 SSML 1.1的 3.2.4中的 volume default 指明合成音频音量 14 number-read 字符串,取值包括 ordinal(按数 值发音)、 digits(按数字串发音)、 score(按比分读法发音)和 fraction(按分数读法发音),应 支持 ordinal和 digits ordinal 指明数字字符串读法 15 audio-info-format 字符串, json格式 json 指明合成音频描述信息文本格式 16 audio-info-encode 字符串,取值包括 GB18030、
42、GB13000等。应支持 GB18030,宜支 持 GB13000 GB18030 指明合成音频描述信息字符编码格式 17 mark-info 布尔值,取值包括 true和 false, true表示返回标注信息, false表 示不返回 true 指明 是否返回合成音频的标注信息 18 vendor-x 字符串, json格式 无 厂商自定义参数 6.2 语音合成 输出 服务 行为描述:返回语音合成的结果 。 输出参数: 语音合成 服务 输出的音频数据 , 至少 应 支持表 12定义的 音频 数据格式 ,输出参数见表 13, 示例参见附录 A.5。 GA/T XXXXX XXXX 14 表
43、12 合成音频数据 格式 音频数据格式 音频数据格式描述 audio/L16;rate=8000 无音频头 8kHz采样率 16位 单声道 小端次序 PCM audio/L16;rate=16000 无音频头 16kHz采样率 16位 单声道 小端次序 PCM 表 13 合成 服务输出 参数 序号 参数 取值 默认值 功能 1 version/ver 字符串,当前取值为 0.1 0.1 协议版本号 3 serial-number/sn 整数,从 1开 始,每次递增加 1 1 音频序列号 4 out-flag/ofg 整数,取值包括 1和 2, 1表示还有 后继的合成音频, 2表示当前音频 是最
44、后一块 1 音频状态标志 5 current-end/ced 整数,单位字节( B),取值范围大于等于零,小于合成文本总长度 0 当前文本合成位置 6 text 字符串 无 标注信息所对应的文本内容 7 phrase 字符串 无 短语信息 8 words 字符串 无 句子中各个字或词的标注信息 9 word 字符串 无 信息对应的字或词文本内容 10 pinyin 字 符串,描述的文本为中文字符 时,取值为每一个字符对应的汉语 拼音按字符先后顺序拼接起来的 字符串,中间不加分隔符。每一个 字符对应的汉语拼音声韵组合规 律符合汉语拼音方案,声调中 的阴平、阳平、上声、去声和轻声 分别用 1、 2、 3、 4和 0表示,如“北 京”的普通话汉语拼音表示为 “ bei3jing1” 无 文本对应的拼音 11 audio uri 字符串 ,必填 无 合成音频的完整链路地址 12 syllable 字符串 无 音节 13 audio-begin 浮点数,单位毫秒( ms) 0.0 音频起始时间 14 audio-end 浮点数,单位毫秒( ms) 0.0 音频终止时间 15 text-begin 整数,单位字节( B) 0 文本起始位置 16 text-end 整数,单位字节( B) 0 文本终止位置 17 vendor-