DB35 T 1979-2021 智慧家庭人工智能语音服务通用技术规范.pdf

资源描述

1、 ICS 35.240.01 CCS L 77 35 福建省地方标准 DB35/T 1979 2021 智慧家庭人工智能语音服务通用技术规范 General technical specification for artificial intelligence voice service of smart home 2021 - 06 - 21 发布 2021 - 09 - 21 实施福建省市场监督管理局发布 DB35/T 1979 2021 I 目次前言 . . II 1 范围 . . 1 2 规范性引用文件 . . 1 3 术语和定义 . . 1 4 缩略语 . . 2 5 语音

2、服务的组成及能力等级划分 . 3 6 环境要求 . . 3 7 基本要求 . . 4 8 测试方法 . . 10 附录 A（规范性）语音测试集录音质量要求 . 15 附录 B（规范性）测试用设备要求 . 16 DB35/T 19792021 II 前言本文件按照GB/T 1.12020标准化工作导则第1部分：标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由福建省工业和信息化厅提出并归口。本文件起草单位：中国移动通信集团福建有限公司、科大讯飞股份有限公司、中移（杭州）信息技术有限公司、福建福诺移动通信技术

3、有限公司、中国电信股份有限公司福建分公司、中国联合网络通信有限公司福建省分公司、福建广电网络集团、华为技术有限公司、福建星网锐捷通讯股份有限公司、新大陆通信科技股份有限公司、福建福日电子股份有限公司。本文件主要起草人：章金水、黄海辉、林海、俞晓梅、罗新喜、孙凯廷、马培培、罗红、程宝平、李栋、黄晓明、韦观明、屈彤、吴振文、沈绍昌、王献飞、杨韬。 DB35/T 1979 2021 1 智慧家庭人工智能语音服务通用技术规范 1 范围本文件规定了智慧家庭人工智能语音服务的组成及能力等级划分、环境要求、基本要求和测试方法。本文件适用于智慧家庭人工智能语音服务的建设、测试和评价。 2 规范

4、性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。 GB 30962008 声环境质量标准 GB/T 210232007 中文语音识别系统通用技术规范 GB/T 210242007 中文语音合成系统通用技术规范 GB/T 22239201 9 信息安全技术网络安全等级保护基本要求 GB/T 36464.1202 0 信息技术智能语音交互系统第1部分：通用规范 GB/T 36464.2201 8 信息技术智能语音交互系统第2部分：智能

5、家居 3 术语和定义 GB/T 210232007、GB/T 210242007、GB/T 36464.12020、GB/T 36464.2 2018界定的以及下列术语和定义适用于本文件。语音服务 voice service 人机之间通过自然语言对话来获取信息的服务。语音采集 voice ac quisition 通过传声器或麦克风阵列等拾音设备对语音进行采集。语音识别 speech r ecognition 将人类的声音信号转化为文字或指令的过程。来源：GB/T 210 232007，3.1 语义理解 semantic u nderstanding 使功能单元理解人说话的意图。来

6、源：GB/T 36464.12020，3.11 DB35/T 1979 2021 2 语音合成 speech s ynthesis 通过机械的、电子的方法合成人类语言的过程。来源：GB/T 210 242007，3.1 端点检测 voice acti vity detection 一种用于分析、判断连续音频流中有效起始点和结束点的语音处理技术。来源：GB/T 36464.12020，3.22 智能语音终端 artificial i ntelligence voice terminal 可接收用户的语音，使得用户可以获取在线音视频等内容，或可通过语音进行控制的设备。噪声 noise 语音采

7、集过程中，采集到的由非有效语音信源发出的，能干扰、影响对有效语音信号的理解或处理的声音信号。来源：GB/T 36464.12020，3.27 等效声级 equivalent co ntinuous A-weighted sound pressure level 在声场中的某个位置上，用某一段时间内能量平均的方法，将间歇暴露的几个不同噪声，用这样一个声级来表示该段时间的噪声大小。平均意见得分 mean opi nion score 语音质量的一种主观度量。来源：GB/T 36464.22018，3.26 语音唤醒 speech w akeup；voic e trigger 处于音频流监

8、听状态的语音交互系统，在检测到特定的特征或事件出现后，切换到命令词识别、连续语音识别等其他处理状态的过程。来源：GB/T 36464.22018，3.13 媒资 media assets 媒体单位生产的文字、图片、音视频等数据。媒资库 media pool 存储媒资的数据库。 4 缩略语下列缩略语适用于本文件。 PCM：脉冲编码调制（Pulse Co de Modulation） MOS：平均意见得分（Mean Opi nion Score） DB35/T 1979 2021 3 5 语音服务的组成及能力等级划分语音服务的组成由语音采集与识别、语义理解、语音合成与播放、语音技能四个

9、部分组成。语音服务能力等级划分语音服务能力根据成熟度划分为五个等级，见表1。表1 语音服务能力等级语音服务能力等级定义主体语音采集与识别语义理解语音合成与播放语音技能 Level 5 语义深度理解与智能互动端点检测上下文及多场景语义理解与智能终端控制智能翻译多级互动 Level 4 语义理解与语音互动语义理解自然合成（多语种、多发音人）应用唤醒、栏目唤起、内容搜索 Level 3 语音深度识别与自然合成 Level 2 语音识别与机器合成语音识别机器合成 Level 1 语音采集与播放语音采集语音播放 6 环境要求自然环境智能语音终

10、端主要在家庭环境下使用，在表2所示自然环境条件下应正常工作。表2 自然环境要求温度相对湿度大气压力 KPa 040 10%90%无凝结 86106 网络环境智能语音终端或与之相连的智能设备应支持无线或有线网络接入互联网，网络接入速度应不低于 128 kbit/s。噪声环境智能语音终端主要在家庭环境下使用，家庭噪声环境具体要求按照GB 30962008第4章中0、1、2 类声环境功能区的规定执行。 DB35/T 1979 2021 4 7 基本要求语音采集与识别 7.1.1 语音采集人工智能语音服务使用智能语音终端进行语音采集，应能通过传声器或麦克风阵列等具备语音采集能力的

11、拾音设备对语音、连续语音进行单声道或多声道的采集。语音采集应满足以下要求： a) 支持 8 kHz 或 16 kHz 采样率，16 bit 及以上的采样精度； b) 音频文件编码支持 PCM 或 Opus 或 Speex 格式； c) 对于连续性音频，支持 30 s 或 60 s 为时间单位进行切片分割。注： Opus是有损音频的一种编码格式；Speex是一套针对语音音频的压缩格式。 7.1.2 端点检测人工智能语音服务在进行语音采集时，应对采集的音频进行端点检测，以区分用户说话的自然停顿和主观停止。 7.1.3 语音识别应满足以下要求： a) 支持家庭场景下关键词语音识别能力，如影视

12、、音乐、医疗、教育等； b) 支持简单中英文混合识别； c) 支持数字、电话号码； d) 支持普通话、带有福建口音的普通话； e) 宜支持福建省内主流方言，如闽南语、客家语； f) 语音识别句识别率应满足表 3 要求。表3 语音识别句识别率要求声环境功能区类别环境噪声等效声级 dB（A）句识别率 % 0类昼间50，夜间40 90 1类昼间55，夜间45 85 2类昼间60，夜间50 80 句识别率计算方法按公式(1)。 null nullnull null null nullnull null nullnull null100% (1) 式中： Psr 句识别率，单位为百分数（%

13、）； Nsr 智能语音终端语音交互系统正确识别的句数； Nsi 标注总句数。 DB35/T 1979 2021 5 语义理解应满足以下要求： a) 支持简称、别名、代码、数字的理解； b) 具有用户表达存在错字、缺字、模糊时的容错理解能力； c) 支持多轮、全双工对话的人机交互方式； d) 语义理解正确率应满足表 4 要求。表4 语义理解等级表语义理解等级场景语义理解正确率 % 0类影视，电视直播，节目回看 90 1类音乐，医疗，购物，教育 85 语义理解正确率计算方法按公式(2)。 null nullnull null null nullnull null null 100%

14、(2) 式中： Rss 语义理解正确率，单位为百分数（%）； Nss 操作意图及语义要素均被正确判断的次数； N 用户输入被正确识别出文本信息的总次数。语音播放与合成 7.3.1 语音播放具备声音外放功能的智能语音终端，昼间播放的语音提醒以及其它音频，外放声音应不低于60 dB。 7.3.2 语音合成应满足以下要求： a) 支持在线或离线方式合成近似人类的语音； b) 支持普通话和英语，宜支持福建省内主流方言，如闽南语、客家语； c) 支持中英文数字等各种混合音，宜支持多音色合成和个性化合成； d) MOS 应大于或等于 4，MOS 量化分值见表 5。表5 MOS 量化分值分值

15、主观测听效果 5 非常接近播音员真人发声，达到以假乱真的程度，总体听感很好，清晰、流畅。 4 发音清晰、可懂，总体听感好、流畅，听测人愿意接受（半小时左右不觉疲劳），没有明显韵律错误。 3 基本可以听懂，但在语气节奏处理上问题较多，音节之间拼接不流畅感较重，听测人不太愿意接受，有明显的疲劳感。 2 语音吐字不清晰，字词之间有较为严重的顿挫感，体验性不好，但不影响正常理解。 DB35/T 1979 2021 6 表 5 MOS 量化分值（续）分值主观测听效果 1 发音不清晰，机器音质，听不懂，只能表达断续、个别的语音信息，猜测语意都很困难，不能接受。注：参考GB/T 36464.

16、12020中A.8.3的表A.1，结合家庭环境要求，对主观测听效果作更详细描述。语音唤醒 7.4.1 夜间唤醒具备语音唤醒功能的智能语音终端在夜间的唤醒率应满足表6要求。表6 夜间不同噪声环境下的唤醒率要求声环境功能区类别夜间环境噪声等效声级 dB（A）发声大小 dB 唤醒率要求 0类 40 55 不作要求 55 3 m优于95% 1类 45 60 不作要求 60 1 m优于95% 3 m优于90% 5 m优于85% 2类 50 65 不作要求 65 3 m优于85% 夜间唤醒率计算方法按公式(3)。 null nullnull null null nullnull null nu

17、ll null 100% (3) 式中： Rnw 夜间唤醒率，单位为百分数（%）； Nsw 成功唤醒次数； Nw 语音唤醒操作次数。 7.4.2 昼间唤醒具备语音唤醒功能的智能语音终端在昼间的唤醒率应满足表7要求。表7 昼间不同噪声环境下的唤醒率要求声环境功能区类别昼间环境噪声等效声级 dB（A）发声大小 dB 唤醒率要求 0类 50 65 不作要求 65 3 m优于90% DB35/T 1979 2021 7 表 7 昼间不同噪声环境下的唤醒率要求（续）声环境功能区类别昼间环境噪声等效声级 dB（A）发声大小 dB 唤醒率要求 1类 55 70 不作要求 70 1 m优于9

18、0% 3 m优于85% 5 m优于80% 2类 60 75 不作要求 75 3 m优于80% 昼间唤醒率计算方法按公式(4)。 null nullnull null null nullnull null null null 100% (4) 式中： Rdw 昼间唤醒率，单位为百分数（%）； Nsw 成功唤醒次数； Nw 语音唤醒操作次数。 7.4.3 误唤醒次数具备语音唤醒功能的智能语音终端误唤醒次数应满足表8要求。表8 误唤醒次数要求环境噪音（S） dB（A） 12 h内误唤醒次数 S45 0次 45S55 不作要求 55S65 低于2次 S65 不作要求语音技能 7.5.1 通用技

19、能 7.5.1.1 响应时间因调用网络资源的不同，音频端点检测方式的不同，语音技能的响应时间也会有所不同，但最长响应时间应小于或等于2 s。响应时间计算方法按公式(5)。 null nullnullnull nullnull null nullnull null (5) 式中： Tack 响应时间，单位为秒（s）； DB35/T 1979 2021 8 tr 给出结果时刻； te 语音输入结束的时刻。注1：如语音交互系统支持识别结果分多次返回， te为第一部分识别结果返回的时刻。注2：如智能语音终端具备语音唤醒功能， tr为终端返回指定内容、反馈的时刻。注3：如智能语音终端具

20、备显示屏幕， tr为终端以屏幕显示或音频播放方式返回指定内容、反馈的时刻。 7.5.1.2 交互反馈应满足以下要求： a) 支持查询类技能通过语音播报加信息展示的形式向用户反馈； b) 支持媒资检索类技能通过语音播报加搜索结果展示的形式向用户反馈； c) 支持技能处理遇到异常情况时通过语音或者文本展示的形式向用户反馈。 7.5.1.3 反馈语设计宜满足以下要求： a) 准确：实事求是，清楚明了传达信息，避免歧义； b) 简洁：用最少的话传达最重要的信息； c) 自然：口语化不生硬，容易理解，有停顿，符合正常说话节奏； d) 明晰：明确、具体完成任务，并传达理解程度； e) 亲和：遇到出错情

21、况，主动推荐并引导用户。 7.5.2 应用唤起 7.5.2.1 单说指令唤起应支持按应用名称唤起应用。 7.5.2.2 指定句式唤起应支持按固定的句式进行应用的唤起，句式为：前缀词+应用名称+后缀词。前缀词至少包括：打开、启动、开启、我要玩、我想玩、我要用。后缀词至少包括：应用、软件。 7.5.2.3 关联语义唤起宜支持根据语音指令的语义理解，抽取出用户的意图所属的语义范围，然后根据该语义范围将相匹配的应用唤起。涉屏语音服务技能 7.6.1 媒资管理应支持媒资的栏目管理、索引建立、审核、发布功能。媒资信息应满足以下要求： a) 影视媒资信息包括：名称、主演、上映时间、类型，宜包

22、括季集、导演、简介、评分、热度等信息； b) 音乐媒资信息包括：名称、歌手、音乐来源、类型，宜包括地区、简介、评分、热度等信息； c) 游戏媒资信息包括：名称、类型，宜包括简介、评分、上架时间、热度等信息； DB35/T 1979 2021 9 d) 应用媒资信息包括：名称、类型，宜包括简介、评分、上架时间、热度等信息。 7.6.2 媒资检索 7.6.2.1 标签检索应满足以下要求： a) 支持根据媒资库中的 1 个标签进行检索； b) 支持根据媒资库中的任意 2 个或 2 个以上标签进行检索。 7.6.2.2 容错处理当用户所说的检索条件出现多音字、同义字、多字少字情况时，应能够正确处

23、理并搜索出对应的结果。 7.6.2.3 关联推荐宜支持基于内容及用户喜好的关联推荐检索。关联推荐计算维度应包括物品关联度以及权重，其中影视媒资关联维度宜包括类型、导演、演员信息。 7.6.3 页面操控 7.6.3.1 页面基础操控应满足以下要求： a) 支持通过语音控制，实现返回上级页面和退出当前应用等基本操作； b) 支持通过语音唤起当前页面上所列栏目。 7.6.3.2 搜索页操控搜索页应支持语音的翻页及选择指令，具体指令见表9。表9 搜索页操控指令指令名称指令英文标识指令参数跳到下一页 NEXT 跳到上一页 PREV 跳到指定页 INDEX index页号（整数值型，

24、负数表示倒数）选择 SELECT row：第X行（整数值型，负数表示倒数） index：第X个（整数值型，负数表示倒数） 7.6.3.3 播放页面操控播放页面应支持语音的播控操作指令，播控操作相关指令见表10。 DB35/T 1979 2021 10 表10 播放操控指令指令名称指令英文标识指令参数播放 PLAY 暂停 PAUSE 继续播放 RESUME 重头播放 RESTART 跳到指定位置 SEEK position位置（整数值型，单位：秒）快进指定时间 FORWARD offset偏移（整数值型，单位：秒）后退指定时间 BACKWARD offset偏移（整数值型，单位：

25、秒） 7.6.4 涉屏终端控制应支持对带屏类智能语音终端设备的基础控制指令，如音量控制、打开设置页面、关机。服务安全 7.7.1 基础服务安全按照GB/T 222392019中8.1.2规定的执行。 7.7.2 隐私保护 7.7.2.1 麦克风隐私保护具有语音唤醒功能的智能语音终端应具备关闭麦克风的功能，用户可通过手工关闭麦克风。宜支持一键禁麦。 7.7.2.2 摄像头隐私保护具有摄像头的智能语音终端应具备关闭摄像头的功能，用户可通过手工关闭摄像头。宜具备物理遮挡开关。 8 测试方法测试准备 8.1.1 测试语料 8.1.1.1 文本测试集应满足以下要求： a) 覆盖影视、音

26、乐、医疗、教育等领域； b) 包含智能语音终端的唤醒词、操控指令、多音字、频道别名等常用性语句。 8.1.1.2 语音测试集应满足以下要求： DB35/T 1979 2021 11 a) 至少由 50 名发音人进行录制； b) 由不同年龄段发音人参与录制，其中男女比例为 1:1，年龄段在 912 岁、2050 岁、60 75 岁的人员比例为 1:4:1； c) 测试文本满足 8.1.1.1 的要求； d) 发音人以普通话或带有福建口音的普通话录制； e) 宜包含福建省内主流方言，如闽南语、客家语； f) 语音测试集录音质量要求应符合附录 A 的规定。 8.1.2 测试用设备应符合附录B的规

27、定。测试环境 8.2.1 被测语音交互系统部署被测语音交互系统，测试用回放设备通过对话方式对其进行控制和交互。 8.2.2 被测系统网络环境应满足6.2的要求，保持稳定的连通状态。 8.2.3 远近场拾音距离近场拾音距离为1 m，远场拾音距离为3 m。 8.2.4 测试场景可采用真实的家庭场景的环境噪声或模拟家庭场景的环境噪声，分为低噪声环境和高噪声环境，要求噪音保持稳定且不包含命令词相关的声音，具体要求见表11。表11 测试场景要求环境噪音场景测试语音声压级（S） dB 环境噪音声压级（V） dB（A）夜间2类 S65 V50 昼间2类 S75 V60 误唤醒测试场景 6

28、0S75 60V75 测试方法 8.3.1 语音采集测试使用测试用回放设备播放任意语音测试集，使用被测设备进行录音，由被测设备提供录音音频记录数据，查看数据的编码格式和采样率。通过上述测试方法验证是否满足7.1.1的要求。 DB35/T 1979 2021 12 8.3.2 端点检测测试使用测试用回放设备连续播放语音测试集，被测设备可以远场进行语句端点检测，并正确理解用户意图，进行多个指令操作。通过上述测试方法验证是否满足7.1.2的要求。 8.3.3 语音识别测试使用测试用回放设备播放语音测试集，被测设备进行录音，记录各场景下被测系统的识别结果，与预期结果进行比对，计算出句识

29、别率。通过上述测试方法验证是否满足7.1.3的要求。 8.3.4 语义理解测试采用机器和人工的方式输入文本测试集，统计系统反馈的文本信息，统计正确次数，计算出语义理解正确率。通过上述测试方法验证是否满足7.2的要求。 8.3.5 语音播放测试在昼间2类噪声环境中触发被测设备语音播放场景，使用声压计在距离设备0.1 m范围内测试声音分贝值，记录分贝数据。通过上述测试方法验证是否满足7.3.1的要求。 8.3.6 语音合成测试选取10个体验人员，男女各5人，年龄在2050岁之间，通过对被测设备人为的唤醒或识别命令反馈，测听合成语音与真人语音在音质、可懂度和自然度方面的差异，并按表

30、5给出MOS量化分值，记录平均结果。通过上述测试方法验证是否满足7.3.2要求。 8.3.7 语音唤醒测试 8.3.7.1 唤醒率测试按8.2.4的测试场景要求，将被测设备调至待命状态，使用测试用回放设备在远场距离播放唤醒语音测试集不少于50条，统计岀正确响应次数，计算出唤醒正确率。测试唤醒率时，应确保环境噪音声压比被测设备声压低15 dB，确保测试用播放设备正对被测设备，从前后左右四个方位播放唤醒词各50次。通过上述测试方法验证是否满足7.4.1、7.4.2的要求。 8.3.7.2 误唤醒测试按8.2.4误唤醒测试场景要求，将测试用回放设备连续播放12 h，统计被测设备给

31、出的响应次数。通过上述测试方法验证是否满足7.4.3的要求。 8.3.8 语音技能测试 8.3.8.1 响应时间测试 DB35/T 1979 2021 13 按8.3.3语音识别测试方法，从拾音设备拾音结束到语音交互系统显示正确的反馈，计为一个交互响应时间。对被测设备的基本交互时间进行统计、分析，给出在线响应时间。通过上述测试方法验证是否满足7.5.1.1的要求。 8.3.8.2 交互反馈测试在被测设备支持的业务场景范围内，选择不少于5个业务场景，由测试人员发出操控指令，记录被测设备交互反馈情况。通过上述测试方法验证是否满足7.5.1.2和7.5.1.3的要求。 8.3.8.3 应

32、用唤起测试测试人员对被测设备说，“我要玩游戏”、“我要听音乐”。可以启动被测设备上已安装的游戏、音乐应用，即为通过。通过上述测试方法验证是否满足7.5.2的要求。 8.3.9 涉屏语音服务技能测试 8.3.9.1 媒资管理和媒资检索测试在被测试设备支持的媒资领域，选择不少于10个媒资，由测试人员根据媒资的任意1个或任意2个标签发出搜索指令，记录检索结果情况。通过上述测试方法验证是否满足7.6.1、7.6.2.1和7.6.2.2的要求。 8.3.9.2 关联推荐测试测试人员连续观看同类影片，当搜索无结果时，被测设备给出与用户搜索语相关的影视推荐。如用户搜索：“熊出没狂野大陆”，被

33、测设备无对应媒资时，给出“熊出没”相关联的影片推荐。通过上述测试方法验证是否满足7.6.2.3的要求。 8.3.9.3 页面操控测试测试人员通过语音进行媒资搜索，被测设备出现多页搜索结果时，可进行翻页操控；播放状态下，支持播放状态的控制。如用户搜索：“我要看电影”，出现多页时，可进行上下页的操控；电影播放状态下通过语音操控“暂停”、“重新播放”，被测设备给出正确响应。通过上述测试方法验证是否满足7.6.3的要求。 8.3.9.4 涉屏终端控制测试测试人员通过语音进行被测设备的控制，如：增大音量、减小音量、打开设置页面、关机。通过上述测试方法验证是否满足7.6.4的要求。 8.3.

34、10 服务安全测试 8.3.10.1 基础服务安全要求测试按照GB/T 222392019中8.1.2的规定执行。 DB35/T 1979 2021 14 8.3.10.2 麦克风关闭测试测试人员在离被测设备正面1 m处用唤醒词进行唤醒，确认麦克风是正常工作，然后关闭被测设备的麦克风，使用唤醒词在同一位置连续唤醒5次，被测设备应处于无响应的状态。通过上述测试方法验证是否满足 7.7.2.1的要求。 8.3.10.3 摄像头关闭测试测试人员首先通过视频应用确认摄像头处于正常工作状态，然后关闭被测设备的摄像头，通过视频应用判断设备是否已经关闭摄像头。通过上述测试方法验证是否满足7

35、.7.2.2的要求。 DB35/T 1979 2021 15 A A 附录A （规范性）语音测试集录音质量要求 A.1 概述本附录给出了语音测试集录音质量的组成部分及对应要求。 A.2 录音棚要求应满足以下要求： a) 本底噪声小于 25 dB（A）； b) 混响时间小于 0.3 s。注1：本底噪声又称为等效噪声电平，是话筒本身产生的电噪声。注2：混响时间指声源停止发声后，声压级减少60 dB所需要的时间，单位为秒（s）。 A.3 音频录制要求录音语料（唤醒词、命令词）应提前准备，语音测试集音频应在A.2要求的录音棚中进行录制，音频应满足以下要求： a) 音频波形采样范围在

36、 5 000 smpl 20 000 smpl； b) 音频采样率为 44.1 kHz，16 bit，单声道； c) 音频时长至少在 2 s3 s； d) 音频底噪波形采样范围控制在 100 smpl 以内； e) 录制音频时需检查、确定不能存在固定频率现象。 DB35/T 19792021 15 A A 附录A （规范性）语音测试集录音质量要求 A.1 概述本附录给出了语音测试集录音质量的组成部分及对应要求。 A.2 录音棚要求应满足以下要求： a) 本底噪声小于 25 dB（A）； b) 混响时间小于 0.3 s。注1：本底噪声又称为等效噪声电平，是话筒本身产生的电噪声。注2：混响时间指声源停止发声后，声压级减少60 dB所需要的时间，单位为秒（s）。 A.3 音频录制要求录音语料（唤醒词、命令词）应提前准备，语音测试集音频应在A.2要求的录音棚中进行录制，音频应满足以下要求： a) 音频波形采样范围在 5 000 smpl20 000 smpl； b) 音频采样率为 44.1 kHz，16 bit，单声道； c) 音频时长至少在 2 s3 s； d) 音频底噪波形采样范围控制在 100 smpl 以内； e) 录制音频时需检查、确定不能存在固定频率现象。

展开阅读全文