GA T 1591-2019 警务智能语音服务平台接口规范.pdf

资源描述

1、ICS 35.240.99 A 90 GA 中华人民共和国公共安全行业标准 GA/T XXXXX XXXX 警务智能语音服务平台接口规范 Specifications for interface of intelligent voice service platform for the police 点击此处添加与国际标准一致性程度的标识（报批稿） XXXX - XX - XX 发布 XXXX - XX - XX 实施中华人民共和国公安部发布 I 目次目次 . I 前言 . II 警务智能语音服务平台接口规范 . 1 1 范围 . 1 2 规范性引用

2、文件 . 1 3 术语和定义 . 1 4 数据对象 . 1 5 语音识别服务接口 . 2 6 语音合成服务接口 . 11 7 文本处理服务接口 . 15 附录 A（资料性附录）语音消息结果示例 . 20 参考文献 . 27 GA/T XXXXX XXXX II 前言本标准按照 GB/T 1.1-2009给出的规则起草。本标准由安徽省公安厅提出。本标准由公安部计算机与信息处理标准化技术委员会归口。本标准起草单位：智能语音技术公安部重点实验室、安徽省公安厅、讯飞智元信息科技有限公司、合肥市公安局、公安部第三研究所、公安部第一研究所、苏州思必驰信息科技有限公司

3、本标准主要起草人：祝占魁、冯祥、刘琼、胡先锋、刘磊、查飞、戎玲、孔耀晖、周伟达、李伟、李磊、吴波、王伟、储明丽、吴鹏、程彪、刘韫韬、余洪祥、游寒旭。 GA/T XXXXX XXXX 1 警务智能语音服务平台接口规范 1 范围本标准规定了警务智能语音服务平台提供服务的数据对象、语音识别服务接口、语音合成服务接口、文本处理服务接口等。本标准适用于警务智能语音服务平台接口设计、开发和应用。 2 规范性引用文件下列文件对于本要求的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版

4、本（包括所有的修改单）适用于本文件。 GB/T 21023-2007 中文语音识别系统通用技术规范 GB/T 34083-2017 中文语音识别互联网服务接口规范 GB/T 34145-2017 中文语音合成互联网服务接口规范 GA/T XXXXX-XXXX 警务智能语音服务平台技术要求 3 术语和定义 GB/T 34083-2017、 GB/T 34145-2017和 GA/T XXXXX-XXXX界定的术语和定义适用于本文件。 4 数据对象 4.1 基本数据类型平台数据对象采用的基本数据类型见表 1。表 1 基本数据类型类型名称说明范围 Byte 字节 -128 1

5、27 Int 整型 -2147483648 2147483647 Long 长整型 -9223372036854774808 9223372036854774807 String 字符串任意可变长度 Float 浮点数 3.402823e+38 1.401298e-45（ e+38 表示是乘以 10的 38 次方，同样， e-45 表示乘以 10 的负 45 次方） Bool 布尔型 true 或 false 4.2 JSON 数据交换格式平台采用 JSON数据交换格式来存储和表示数据对象。 GA/T XXXXX XXXX 2 5 语音识别服务接口 5.1 接口请求调用关系接口请求调用

6、关系见图 1。注 1：虚线框内定义的热词流程，为非必要流程。注 2： “ For 0,N,1”表示起始值为 0、上限值为 N、步长为 1的循环。图 1 语音识别服务接口请求调用关系 5.2 连续语音识别接口 5.2.1 初始化连续语音识别服务行为描述：初始化连续语音识别服务客户端组件。本接口应和逆初始化连续语音识别服务（见 5.2.6）配对使用。如果连续语音识别服务系统不是通过客户端组件提供服务 ,则本接口可省略。输入参数：不做定义。输出参数：返回值等。 5.2.2 创建连续语音识别会话行为描述：创建一路连

7、续语音识别会话，可设置会话参数，参数有效范围应为设置成功时起至本路会话结束。输入参数：参数见表 2。 GA/T XXXXX XXXX 3 输出参数：返回值等。 5.2.3 设置连续语音识别会话参数行为描述：设置一路连续语音识别会话参数，参数有效范围应为设置成功时起至本路会话结束。输入参数：参数见表 2。输出参数：返回值等。表 2 设置连续语音识别会话输入参数序号参数取值默认值功能 1 session-type/sst 字符串，取值包括 continuous和 command， continuous表示连续语音识别， co

8、mmand表示命令字识别 continuous 指明会话类型 2 net-timeout/ntt 整数，单位毫秒（ ms）取值范围为 -1和 1 30 000的整数， -1表示无超时限制 10000 指明网络交互超时间隔 3 speek-timeout/stt 整数，单位毫秒（ ms）取值范围为 -1和 1 30 000的整数， -1表示无超时限制 10000 指明语音写入超时间隔 4 confidence-threshold/cfd 浮点数，取值范围为 0.0 100.0 90.0 指明置信度阈值 5 result-format 字符串，取值包括 plain和 json，应支持

9、 plain和 json json 指明识别结果格式 6 result-encode/rse 字符串，取值包括 GB18030、 GB13000等。应支持 GB18030，宜支持 GB13000 GB18030 指明识别结果字符编码格式 7 vad-enable 布尔值，取值包括 true和 false true表示开启， false表示关闭 true 开启音频端点检测 8 audio-format/auf 字符串，取值包括 audio/L16;rate=8000、 audio/L16;rate=16000等。应支持 audio/L16;rate=8000和 audio/L16;rate

10、16000 audio/L16;ra te=16000 指明识别音频数据格式 9 audio-encode/aue 字符串，取值格式规范同 RFC 2045的 Content-Type参数，其中的 type取值为 audio， subtype取值包括 raw、 pcma、 pcmu、 amr、 amr-wb、 speex、 speex-wb、 mp3等 , 其中 raw表示不压缩。对于支持可变码率编码的压缩算法，使用子参数 level（或简写为 lvl）指定压缩等级。如取值为“ audio/amr-wb;lvl=7”时，语音识别服务系统在网络传输中使用 amr-wb算法的等级 7

11、压缩识别音频。 subtype的取值除 raw外，宜支持以上音频压缩算法中的一种或多种 audio/raw 指明识别音频压缩算法 10 language/lang 字符串 ,取值规范符合 RFC 5646，应支持中文zh-CN、宜支持 en-US,缺省值为 zh-CN zh-CN 指明识别音频所属语种 GA/T XXXXX XXXX 4 表 2（续）序号参数取值默认值功能 11 dialect 字符串，取值规则满足 RFC 5646规范，应支持zh_cmn，宜支持 zh_yue等方言 zh_cmn 指明识别音频所属方言 12 vad-timeout 整数，单位毫秒（ ms）。

12、取值范围为 -1和 1 60000的整数， -1表示无超时限制 10000 指明语音等待超时时长 13 vad-incomplete-timeout 整数，单位毫秒（ ms）。取值范围为 -1和 1 60000的整数， -1表示无超时限制 10000 指明语音尾部静音长度 14 denoise-enable 布尔值，取值包括 true 和 false， true 表示开启， false 表示关闭 true 启用噪声抑制 15 result-type/rst 字符串，取值包括 word（字或词）、 sentence （整句）和 paragraph（段落）应支持 word和 sentence w

13、ord 指明识别结果类型 16 progressive-mode 布尔值，取值包括 true 和 false， true 表示进阶模式， false 表示非进阶模式 false 指明会话是否为进阶模式 17 punctuation 布尔值，取值包括 true 和 false， true 表示自动添加标点符号， false 表示不添加 true 指明是否自动添加标点符号 18 result-info 字符串，取值为表 3中所列参数或其组合，参数之间用 “ |”表示分割，参数取值见表 3 获取完整的识别结果指明识别结果中的信息种类 19 vendor-x 字符串， json格式无自定

14、义参数表 3 result-info 参数集合序号参数参数描述 1 confidence-threshold/cfd 置信度阈值 2 language/lang 语种 3 dialect 方言 4 gender 性别 5 age 年龄 6 role 角色 7 SNR 信噪比 8 error-reason 错误原因 9 pinyin 拼音 10 score 得分 11 user-word 热词 5.2.4 写入连续语音识别音频数据行为描述：写入一路连续语音识别会话所用识别音频。本接口可以被反复调用，待识别音频流为空时表示音频写入结束。输入参数：语音数据。

15、输出参数：见表 4。 GA/T XXXXX XXXX 5 表 4 连续语音识别输出参数序号参数取值默认值功能 1 version/ver 字符串，当前值为 0.1 0.1 协议版本号 2 sentence-number/sn 整数，从 1开始，递增加 1 1 句子序号 3 last-sentence/ls 布尔值，取值为 true或 false fale 是否为最后一句 4 begin 正整数，单位毫秒（ ms） 0 开始识别时间 5 end 正整数，单位毫秒（ ms） 0 结束识别时间 6 result-type/rst 字符串，取值包括 word（字或词）、sentenc

16、e（整句）和 paragraph（段落） word 结果类型 7 error-code 整数 ,0表示成功，非 0表示失败，不同非0值对应不同的错误原因 0 错误码 8 word 字符串无一段音频识别结果的文字内容 9 score 浮点数，取值范围为 0.0 100.0 0.0 识别结果内容对应的匹配得分，得分越高越可信 10 instance 字符串无匹配到的语法中的词条，用于命令字识别中 11 user-input 字符串无用户说话内容，用于命令字识别中 12 error-reason 字符串无在 error-code为非 0值时， error-reason描述发

17、生错误的原因 13 confidence-threshold /cfd 浮点数，取值范围为 0.0 100.0 无识别的置信度阈值，用于命令字识别中 14 language/lang 字符串 ,取值规则满足 RFC 5646规范，应支持 zh_CN,宜支持 en_US等 zh_CN 识别音频所属语种 15 dialect 字符串，取值规则满足 RFC 5646规范，应支持 zh_cmn，宜支持 zh_yue等方言 zh_cmn 识别音频所属方言 16 gender 字符串，取值包括 male（男）或 female（女）无说话者性别 17 age 字符串，取值包括 child（少年）、

18、youth （青年）、 adult（成年）、 elder（老人） youth 说话者年龄 18 role 整数，取值范围大于等于 1，序数含义 1 指明在多人说话的场景中，当前识别结果是哪个人说的内容 19 progressive-type 字符串，取值包括 append（附加）、 overwrite（盖写）、 insert（插入）和 delete（删除） append 进阶类型 GA/T XXXXX XXXX 6 表 4（续）序号参数取值默认值功能 20 progressive-range 对象，两个整数组成的范围，单位均为字节（ B）。第一个整数表示起点，第二个整数表示

19、从起点算起的长度，例如： 0,6 无进阶范围 21 SNR 浮点数，单位分贝（ dB）取值规则符合 GB/T 21023 2007中 4.6的规范无信噪比 22 pinyin 字符串，描述的文本为中文字符时，取值为每一个字符对应的汉语拼音按字符先后顺序拼接起来的字符串，中间不加分隔符。每一个字符对应的汉语拼音声韵组合规律符合汉语拼音方案，声调中的阴平、阳平、上声、去声和轻声分别用 1、 2、 3、 4和 0表示，如“北京”的普通话汉语拼音表示为“ bei3jing1” 无识别结果拼音 23 user-word 布尔值，取值包括 true或 false fale 是否为用户自

20、定义热词 24 vendor-x 字符串， json格式无厂商自定义参数 5.2.4 结束连续语音识别会话行为描述：结束一路连续语音识别会话。输入参数：会话句柄。输出参数：返回值等。 5.2.5 逆初始化连续语音识别服务行为描述：释放资源。如果连续语音识别服务系统不是通过客户端组件提供服务 ,则本接口可省略。输入参数：不做定义。输出参数：返回值等。 5.3 语音识别服务接口 5.3.1 初始化语音识别服务行为描述：初始化语音识别服务客户端组件，本接口应和逆初始化语音识别服务（见 5.3.6）配对使用。如果语音识别服务系统不是

21、通过客户端组件提供服务 ,则本接口可省略。输入参数：不做定义。输出参数：返回值等。 5.3.2 创建语音识别会话行为描述：创建一路语音识别会话，可以同时设置会话参数，参数有效范围应为设置成功时起至本路会话结束。输入参数：可一次设置多个会话参数。输出参数：返回值等。 GA/T XXXXX XXXX 7 5.3.3 设置语音识别会话参数行为描述：设置一路语音识别会话参数，参数有效范围应为设置成功时起至本路会话结束。输入参数：参数见表 5，示例参见附录 A.1。输出参数：返回值等。表 5 设置语音识别会话输入参数序号参数取值默认值功能

22、 1 session-id/ssid 字符串，必填，建议取值 uuid 无会话 id应唯一 2 business-id/bizid 字符串，必填 ,如未设置 ,将默认与session_id相同无业务 id 3 business-name/biznm 字符串无业务名称 4 audio-format/auf 字符串，取值包括 audio/L16;rate=8000、 audio/L16;rate=16000等。应支持 audio/L16;rate=8000和 audio/L16;rate=16000 audio/L16;rate=1600 0 指明识别音频数据格式 5 resu

23、lt-format 字符串，取值包括 plain、 json，应支持 plain和 json json 指明识别结果格式 6 result-encode/rse 字符串，取值包括 GB18030、 GB13000等，应支持 GB18030，宜支持 GB13000 GB18030 指明识别结果字符编码格式 7 audio-encode/aue 字符串，取值格式规范同 RFC 2045 的 Content-Type参数，其中的 type 取值为 audio， subtype取值包括 raw、 pcma、 pcmu、 amr、 amr-wb、 speex、 speex-wb、 mp3等 , 其中

24、 raw 表示不压缩。对于支持可变码率编码的压缩算法，使用子参数 level （或简写为 lvl）指定压缩等级。如取值为“ audio/amr-wb;lvl=7”时，语音识别服务系统在网络传输中使用 amr-wb算法的等级 7压缩识别音频。 subtype的取值除 raw外，宜支持以上音频压缩算法中的一种或多种 audio/raw 指明识别音频压缩算法 8 dialect 字符串，取值规则满足 RFC 5646规范，应支持 zh_cmn，宜支持 zh_yue 等方言 zh_cmn 指明识别音频所属方言 9 language/lang 字符串，取值规范符合 RFC 5646，

25、应支持中文 zh-CN、宜支持 en-US, 缺省值为 zh-CN zh-CN 指明识别音频所属语种 10 vendor-x 字符串， json格式无自定义参数 GA/T XXXXX XXXX 8 5.3.4 写入识别音频数据行为描述：写入一路语音识别会话所用识别音频。本接口可被反复调用。输入参数：参数见表 6。输出参数：通过回调接口返回语音识别结果或实时返回语音识别结果 ,见表 7，示例参见附录 A.1。表 6 写入识别音频数据输入参数序号参数取值默认值功能 1 session-id/ssid 字符串，必填，建议取值 uuid 无会话

26、 id 2 business-id/bizid 字符串，必填 ,如未设置 ,将默认与 session-id相同无业务 id 3 audio-file-uri/afu 字符串，必填无待识别的音频文件链接地址 4 spkn 布尔类型， true是， false否 true 是否景分离 5 audio-encoding/aed 字符串，取值 PCM、 ALAW、 G729、 AMR_NB、 GSM_HR、 GSMEFR、 SILK 等 PCM 语音的编码格式 6 call-back 可选，有值通过回调方式返回结果，空实时返回结果无回调地址表 7 语音识别输出参数序号参

27、数取值默认值功能 1 session-id/ssid 字符串，必填，与输入的会话 id一致输入的会话 id 会话 id 2 business-id/bizid 字符串，必填，与输入的业务 id一致输入的业务 id 业务 id 3 begin 正整数，单位毫秒（ ms） 0 开始识别时间 4 end 正整数，单位毫秒（ ms） 0 结束识别时间 5 result-type/rst 字符串，取值包括 word （字或词）、 sentence （整句）和 paragraph （段落） word 结果类型 6 error-code 整数 ,0表示成功，非 0 表示失败，不同非 0值

28、对应不同的错误原因 0 错误码 7 word 字符串无一段音频识别结果的文字内容 8 score 浮点数，取值范围为0.0 100.0 0.0 识别结果内容对应的匹配得分，得分越高越可信 9 error-reason 字符串无在 error-code为非 0值时， error-reason描述发生错误的原因 GA/T XXXXX XXXX 9 表 7（续）序号参数取值默认值功能 10 language/lang 字符串 ,取值规则满足 RFC 5646规范，应支持 zh_CN,宜支持 en_US等 zh_CN 识别音频所属语种 11 dialect 字符串 ,取值规则满足

29、RFC 5646规范，应支持 zh_cmn，宜支持 zh_yue 等方言 zh_cmn 识别音频所属方言 12 gender 字符串，取值包括 male（男）或 female（女）无说话者性别 13 age 字符串，取值包括 child（少年）、 youth （青年）、 adult（成年）、 elder（老人） youth 说话者年龄 14 role 整数，取值范围大于等于 1，序数含义 1 指明在多人说话的场景中，当前识别结果是哪个人说的内容 15 SNR 浮点数，单位分贝（ dB），取值规则符合 GB/T 21023 2007中 4.6的规范无信噪比 16 pinyin

30、字符串，描述的文本为中文字符时，取值为每一个字符对应的汉语拼音按字符先后顺序拼接起来的字符串，中间不加分隔符。每一个字符对应的汉语拼音声韵组合规律符合汉语拼音方案，声调中的阴平、阳平、上声、去声和轻声分别用 1、 2、 3、 4和 0表示，如“北京”的普通话汉语拼音表示为“ bei3jing1” 无识别结果拼音 17 user-word 布尔值，取值包括 true或 false fale 是否为用户自定义热词 18 vendor-x 字符串， json格式 json 厂商自定义参数 GA/T XXXXX XXXX 10 5.3.5 结束语音识别会话行为描述：结束一

31、路语音识别会话。输入参数：会话句柄。输出参数：返回值等。 5.3.6 逆初始化语音识别服务行为描述：释放资源。如果语音识别服务系统不是通过客户端组件提供服务 ,则本接口可省略。输入参数：不做定义。输出参数：返回值等。 5.4 语音文件质量检测服务接口 5.4.1 初始化语音文件质量检测服务行为描述：初始化语音文件质量检测服务客户端组件。本接口应和逆初始化组件（见 5.4.3）配对使用。如果语音文件质量检测服务系统不是通过客户端组件提供务 ,则本接口可省略。输入参数：不做定义。输出参数：返回值等。 5.4.2 创建语音文件质

32、量检测会话行为描述：创建一路语音文件质量检测会话。输入参数：可一次设置多个会话参数，见表 8，示例参见附录 A.4。输出参数：返回处理结果，见表 10，示例参见附录 A.4。表 8 语音文件质量检测会话输入参数序号参数取值默认值功能 1 session-id/ssid 字符串，必填，建议取值 uuid 无会话 id 2 business-id/bizid 字符串，必填 ,如未设置 ,将默认与 session-id相同无业务 id 3 audios Audio类型，必填，参数取值见表9 无语音基本信息 4 vendor-x 字符串， jso

33、n格式无厂家自定义参数表 9 Audio 类型定义序号参数取值默认值功能 1 audio-id/aid 字符串，必填语音资源的 id 2 uri 字符串，必填语音链接地址 3 chnl 整数，单声道取 1、双声道取 2 1 语音信道 4 encoding 布字符串，取值 pcm、 ALaw、 G729、AMR_NB、 GSM_HR、 GSMEFR、 SILK等 pcm 语音的编码格式 GA/T XXXXX XXXX 11 表 9（续）序号参数取值默认值功能 5 audio-format/auf 字符串，取值包括 audio/L16;rate=8000、 au

34、dio/L16;rate=16000等。应支持 audio/L16;rate=8000和 audio/L16;rate=16000 audio/L16;rate=160 00 指明识别音频数据格式 6 offset 整数，单位毫秒（ ms） 0 偏移量，如果是有效值，就做静音处理；应用场景：过滤 DTMF 按键片段表 10 结果定义表序号参数取值默认值功能 1 business-id/bizid 字符串，必填，与业务 id一致无业务 id 2 error-code 整数 ,0表示成功，非 0表示失败，不同非 0值对应不同的错误原因 0 错误码 3 error-reas

35、on 字符串无在 error-code为非 0值时， error-reason描述发生错误的原因 4 clipping-ratio/cr 浮点数，取值 0.0到 1.0 0.0 截幅比例 6 mos-score/ms 整数，取值按照 5分制定义： 1分是基本单位， 2分不及格， 3分中等， 4分良好， 5分优秀 1 平均主观意见得分 7 aver-energy/aey 浮点数 0.0 音频平均能量 8 SNR 浮点数，单位是分贝，信噪比越大，混在信号里的噪声越小，声音的音质量越高无信噪比 9 detail 字符串， json格式无语音质量检测的详细信息

36、5.4.3 逆初始化语音识别服务行为描述：释放资源。如果语音文件质量检测服务系统不是通过客户端组件提供服务 ,则本接口可省略。输入参数：不做定义。输出参数：返回值等。 6 语音合成服务接口 GA/T XXXXX XXXX 12 6.1 语音合成输入服务行为描述：语音合成客户端发起一个请求，传入参数。输入参数：参数见表 11，示例参见附录 A.5。表 11 语音合成服务输入参数序号参数取值默认值功能 1 net-timeout/ntt 整数，单位毫秒（ ms）。取值范围为 -1和 1 30 000的整数， -1表示无超时限制

37、10000 指明网络交互超时间隔 2 text-type/ttp 字符串，取值包括 plain和 CSSML， plain表示纯文本， CSSML表示中文语音合成置标语言格式的文本。应支持 plain，宜支持 CSSML plain 指明合成文本类型 3 text-info/tif 字符串，必填无待识别的文本内容 4 text-encode/tte 字符串，取值包括 GB18030、 GB13000等。应支持 GB18030，宜支持 GB13000 GB18030 指明合成文本字符编码格式 5 audio-format/auf 字符串，取值包括 audio/L16;rate=80

38、00、 audio/L16;rate=16000等应支持 audio/L16;rate=8000和 audio/L16;rate=16000 audio/L16;rate =16000 指明合成音频格式 6 audio-encode/aue 字符串，取值格式规范同 RFC 2045 的 Content-Type参数，其中的 type 取值为 audio， subtype取值包括 raw、 pcma、 pcmu、 amr、 amr-wb、 speex、 speex-wb、 mp3等 , 其中 raw 表示不压缩。对于支持可变码率编码的压缩算法，使用子参数 level （或简写为 lvl）指

39、定压缩等级。如取值为“ audio/amr-wb;lvl=7” 时，语音识别服务系统在网络传输中使用 amr-wb算法的等级 7压缩识别音频。 subtype的取值除 raw外，宜支持以上音频压缩算法中的一种或多种 audio/raw 指明合成音频压缩算法 7 output-encode 字符串，取值格式规范同参数audio-encode audio/raw 指明输出合成音频压缩算法 GA/T XXXXX XXXX 13 表 11 （续）序号参数取值默认值功能 8 voice-name/vcn 字符串，取值包括语音合成引擎内置音色库名称和用户个性化音色库名称由语音合成

40、服务提供商自定义指明合成音色库名称 9 language/lang 字符串，取值规范符合 RFC 5646。应支持中文 zh-CN zh-CN 指明合成音频所属语种 10 dialect 字符串，取值规则满足 RFC 5646 规范，应支持 zh_cmn，宜支持 zh_yue等方言 zh_cmn 指明合成音频所属方言 11 speed 类型、取值范围及各值含义和使用规范见 SSML 1.1的 3.2.4中的 rate default 指明合成音频语速 12 pitch 类型、取值范围及各值含义和使用规范见 SSML 1.1的 3.2.4中的 pitch default 指明合成音频音

41、高 13 volume/vol 类型、取值范围及各值含义和使用规范见 SSML 1.1的 3.2.4中的 volume default 指明合成音频音量 14 number-read 字符串，取值包括 ordinal（按数值发音）、 digits（按数字串发音）、 score（按比分读法发音）和 fraction（按分数读法发音），应支持 ordinal和 digits ordinal 指明数字字符串读法 15 audio-info-format 字符串， json格式 json 指明合成音频描述信息文本格式 16 audio-info-encode 字符串，取值包括 GB18030、

42、GB13000等。应支持 GB18030，宜支持 GB13000 GB18030 指明合成音频描述信息字符编码格式 17 mark-info 布尔值，取值包括 true和 false， true表示返回标注信息， false表示不返回 true 指明是否返回合成音频的标注信息 18 vendor-x 字符串， json格式无厂商自定义参数 6.2 语音合成输出服务行为描述：返回语音合成的结果。输出参数：语音合成服务输出的音频数据，至少应支持表 12定义的音频数据格式，输出参数见表 13，示例参见附录 A.5。 GA/T XXXXX XXXX 14 表

43、12 合成音频数据格式音频数据格式音频数据格式描述 audio/L16;rate=8000 无音频头 8kHz采样率 16位单声道小端次序 PCM audio/L16;rate=16000 无音频头 16kHz采样率 16位单声道小端次序 PCM 表 13 合成服务输出参数序号参数取值默认值功能 1 version/ver 字符串，当前取值为 0.1 0.1 协议版本号 3 serial-number/sn 整数，从 1开始，每次递增加 1 1 音频序列号 4 out-flag/ofg 整数，取值包括 1和 2， 1表示还有后继的合成音频， 2表示当前音频是最

44、后一块 1 音频状态标志 5 current-end/ced 整数，单位字节（ B），取值范围大于等于零，小于合成文本总长度 0 当前文本合成位置 6 text 字符串无标注信息所对应的文本内容 7 phrase 字符串无短语信息 8 words 字符串无句子中各个字或词的标注信息 9 word 字符串无信息对应的字或词文本内容 10 pinyin 字符串，描述的文本为中文字符时，取值为每一个字符对应的汉语拼音按字符先后顺序拼接起来的字符串，中间不加分隔符。每一个字符对应的汉语拼音声韵组合规律符合汉语拼音方案，声调中的阴平、阳平、上声、去声和轻声分别用 1、 2、 3、 4和 0表示，如“北京”的普通话汉语拼音表示为 “ bei3jing1” 无文本对应的拼音 11 audio uri 字符串，必填无合成音频的完整链路地址 12 syllable 字符串无音节 13 audio-begin 浮点数，单位毫秒（ ms） 0.0 音频起始时间 14 audio-end 浮点数，单位毫秒（ ms） 0.0 音频终止时间 15 text-begin 整数，单位字节（ B） 0 文本起始位置 16 text-end 整数，单位字节（ B） 0 文本终止位置 17 vendor-

展开阅读全文