1、 ICS 33.160.01 CCS M60 43 湖南省地方标准 DB 43/T 25622023 人工智能手语播报软件系统 技术要求 Technical requirements for software system of signed language broadcasting based on artificial intelligence 2023-02-17 发布 2023-05-17 实施湖南省市场监督管理局发 布 DB 43/T 25622023 I 目次 前言.III 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 4 系统结构.2 5 摘要要求.3 6 摘要稿翻
2、译要求.3 7 手语计算要求.4 8 虚拟主播要求.4 9 手语播出要求.6 附录 A(资料性)摘要稿示例.12 参考文献.13 DB 43/T 25622023 III 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由湖南省广播电视局提出并归口。本文件起草单位:长沙广播电视集团、湖南长广千博科技有限公司、国家广播电视总局广播电视科学研究院、5G高新视频多场景应用国家广播电视总局重点实验室、长沙千博信息技术有限公司、希而思(长沙)科技研究院有限公司、长沙市无
3、障碍环境建设促进会、长沙广电数字移动传媒有限公司、长沙市标准化协会。本文件主要起草人:周国强、余江、邓佳乐、欧阳霁、谭丽、张定京、魏娜、脱羚、郑伟峰、李超、李斌、彭钰洁、邓成、高春鸣、龙丽萍、郭松睿、李蓉、陈昌健、田亚、陈玲、陈惺惺、秦志发、谢倩玉。DB 43/T 25622023 1 人工智能手语播报软件系统 技术要求 1 范围 本文件规定了人工智能手语播报软件系统的结构、摘要要求、摘要稿翻译要求、手语计算要求、虚拟主播要求以及手语播出要求。本文件适用于人工智能手语播报软件系统的设计、开发与应用。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期
4、的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 5271.282001 信息技术 词汇 第28部分:人工智能 基本概念与专家系统 GB/T 244352009 中国手语基本手势 GF 00202018 国家通用手语常用词表 3 术语和定义 GB/T 5271.282001和GB/T 244352009界定的以及下列术语和定义适用于本文件。人工智能 artificial intelligence 一门交叉学科,通常视为计算机科学的分支,研究表现出与人类智能(如推理和学习)相关的各种功能的模型和系统。来源:GB/T 5271.2
5、82001,28.01.01 手语 signed languages 以手的动作为主,配以身体姿势、表情及口形进行交流的语言表达形式。来源:GB/T 244352009,2.1.1 人工智能手语播报软件系统 software system of signed language broadcasting based on artificial intelligence 采用人工智能技术,将稿件内容准确翻译成手语信息,通过手语计算,驱动虚拟主播的手势,进而生成手语视频并播出的应用系统。稿件 manuscript 与节目内容相关的文稿。手势 sign 用手做的表达意思的姿势,也是对手势语每个动作和手
6、指语每个指示的简称。来源:GB/T 244352009,2.1.5 DB 43/T 25622023 2 手语模块 sign language module 包含手语信号、背景信号以及相关联的信号,能够在屏幕终端显示手语播出的所有要素。合成模块 compound module 将手语模块和视频模块进行合成,能够在生活场景屏幕显示的视频的所有要素。摘要 make a summary of sign language 基于电视、影视剧等已设定好视频或播出时长、有文字稿件等的视频应用场景要求,结合手语播报特性,为确保手语信号内容与原视频或节目时长基本一致,通过提炼、概括等方法,对文字稿件进行压缩并确
7、保核心事实没有改变的过程。手语稿 sign language manuscript 根据摘要稿的内容通过手语翻译转换成由手语词汇构成的稿件。4 系统结构 概述 人工智能手语播报软件系统的结构如图1所示。图1 人工智能手语播报软件系统基本结构 人工智能子系统 DB 43/T 25622023 3 人工智能子系统由摘要模块和手语翻译模块组成,完成对文字信息的提取并将其翻译为手语表达所需的词汇及语序。其中,摘要模块实现对文字的核心词汇和句子的提取,形成摘要稿;手语翻译模块通过查询系统内建的手语库,进行对比调整,翻译形成手语稿。可视化子系统 可视化子系统由手语计算模块和虚拟主播模块组成,完成对虚拟主播
8、手语手势的驱动,并将手语可视化展示。其中,手语计算模块根据手语稿查询出对应的手语动作数据,并对动作数据进行融合,驱动虚拟主播打出连续且正确的手势;虚拟主播模块通过图像引擎将手语计算后的信息进行可视化展现。手语播出子系统 手语播出子系统用来协调手语视频信号和源视频信号的比例关系,并实现手语节目在各种显示终端的播出。5 摘要要求 基本要求 5.1.1 摘要应源于完整的稿件。5.1.2 摘要后形成的摘要稿应比稿件简短。5.1.3 一些新词语,在社会层面已经广泛流行的情况下,如:“非典”“甲流”“博客”等,应予以保留。内容要求 5.2.1 应确保核心事实和信息的准确,不应有虚假成分。5.2.2 应运用
9、白描手法,不加渲染,并去掉形容词、修辞手法、成语、俗语等。5.2.3 应将书面语言转换为大众化的语言,并删掉或调整专业性、技术型或议论性的叙述。比例要求 按照手语每分钟100个动作的速度,摘要稿与稿件的比例约为1:3。摘要稿示例见附录A。6 摘要稿翻译要求 语义要求 6.1.1 语序要求 对语句中的动宾结构,系统应调整摘要稿中短语的语序。示例1:“灭火”:“火灭”。示例2:“捉鱼”:“鱼捉”。示例3:“开门”:“门开”。6.1.2 词汇省略和转换要求 6.1.2.1 对摘要稿中的感叹词,系统应进行省略;形容词以及副词,应酌情省略。6.1.2.2 如果省略词汇导致语句的含义发生变化,则应通过虚拟
10、主播的表情和口型表达。DB 43/T 25622023 4 6.1.3 阿拉伯数字转换要求 系统应将摘要稿中的阿拉伯数字转换成中文数字。示例1:“1 千 8 百”:“一千八百”。示例2:“2022 年”:“二零二二年”。示例3:“13111118888”:“一三一一一一一八八八八”。示例4:“125 个”:“一百二十五个”。6.1.4 带有否定的词汇转换要求 6.1.4.1 系统应对摘要稿中带有否定含义的词汇进行转换,转换方式为否定词+肯定语气词。6.1.4.2 双重否定句应直接翻译成肯定句。手语库要求 6.2.1 词汇要求 手语库中的手语词汇应至少覆盖2019年出版的国家通用手语词典的821
11、4个词汇。6.2.2 新词要求 对于国家通用手语词典中没有规定的手语新词,应在基本词的基础上,按照以下规则创造:a)补充;示例1:“民生”手语:“人民+生活”。b)简化;示例2:“神采奕奕”手语:“精神+样子+好”。c)近义词替代。示例3:“腼腆”手语:“害羞”。7 手语计算要求 手语动作融合 虚拟主播的手语动作应连贯。每个手语动作根据动作的位置和时间关系分成头部,中部和尾部。相邻手语词汇在虚拟主播表达时,系统应对前一个手语词汇的尾部和后一个手语词汇头部进行融合,以保证手语动作整体连贯一致。手语动作时序 虚拟主播的手语动作时序应合理。为表达句子中核心思想或主题,调整手语动作的时序关系,延长和缩
12、短手语动作的时长,调整后手语动作的总时长应不变。手势规范 7.3.1 虚拟主播打出的手势应符合 GB/T 244352009、GF 00202018 以及国家通用手语词典的规定。7.3.2 虚拟主播手部动作的空间位置误差应在可接受的范围内。8 虚拟主播要求 DB 43/T 25622023 5 模型静态要求 8.1.1 模型比例 8.1.1.1 虚拟主播的三维模型与真实人物的比例应为 1:1。8.1.1.2 参照的真实人物应五官端正,不应有身体缺陷。8.1.2 模型精度与配合 8.1.2.1 虚拟主播的面部模型应具有独立的网格,且网格应由至少 1 万个顶点组成。8.1.2.2 虚拟主播的五官应
13、有孤立口腔网格、上下牙网格、舌头网格、独立左右眼球网格、眼睑网格以及泪腺网格。8.1.2.3 虚拟主播的头部模型与身体模型合并后,彼此不应有冲突,且应与实际相符。8.1.3 模型服饰 8.1.3.1 虚拟主播的服饰应得体、大方,且应符合电视节目的要求,不应出现奇装异服和暴露的衣服。8.1.3.2 服装的款式应采用西装长裤套装,服装颜色应适合上屏。模型动态要求 8.2.1 运动原理 虚拟主播的各种动作应运用骨骼驱动原理,各种面部表情的表达应运用压扁和拉长原理。8.2.2 脸部 8.2.2.1 口型 8.2.2.1.1 虚拟主播的口唇动画应包括以下 6 种基本口型:a)闭合口型;b)微张口型;c)
14、张开口型;d)宽张口型;e)圆形口型;f)收窄口型。8.2.2.1.2 虚拟主播的口唇动画应与人的口唇运动相符合,6 种口型应相互融合和切换。8.2.2.2 表情 虚拟主播的基本表情分为5种,对应的表情特征应符合表1的规定。表1 虚拟主播基本表情 序号 基本表情 特征 1 中性 无 2 生气 外侧眼皮抬起,眼皮下垂,鼻子皱起,上嘴唇抬起,下嘴唇下扬 3 高兴 内侧眼皮上翘,眉毛上扬,嘴巴微张,嘴角上扬 4 伤心 内侧眼皮抬起,眉毛下压,嘴角紧绷 5 惊讶 眼皮、眉毛上扬,面部表情拉伸,嘴巴打开 8.2.3 身体 DB 43/T 25622023 6 虚拟主播的身体应能完成简单的运动来配合表达手
15、语稿的手语含义,身体动作如:向前、后、左、右运动。8.2.4 手部 虚拟主播的手部应能够灵活地打开和收拢,完成手语的表达。9 手语播出要求 总体要求 9.1.1 由手语稿生成的手语视频时长不应长于原视频时长。9.1.2 针对不同的终端应用场景,系统应调整不同的手语模块参数,使视频图像合适地展现。终端应用场景分为以下两类:a)电视节目。按照节目内容,分为:1)新闻、访谈类节目;2)生活、教育类节目;3)影视剧类节目。b)互联网节目。按照终端类型,分为:1)网站;2)APP 客户端。电视节目参数要求 9.2.1 新闻、访谈类节目 9.2.1.1 新闻、访谈类节目中手语模块尺寸不应过大,应根据现有节
16、目包装来确定手语模块在合成模块中的位置和尺寸参数。手语模块在合成模块(高清)中的参数应符合表 2 的要求。表2 手语模块在合成模块(高清)中的参数 项目 参数 手语模块尺寸(像素)(30010)(35010)手语模块应用区域 画面下2/3区域 合成模块的尺寸(像素)19201080 虚拟主播和手语模块比例 2:3 虚拟主播的朝向 正向 9.2.1.2 新闻、访谈类节目中手语模块在合成模块(高清)中的位置示意参见图 2。DB 43/T 25622023 7 标引序列说明:1手语模块显示区域;2合成模块范围;3手语模块显示区域可移动的范围。图2 新闻、访谈类节目手语模块在合成模块(高清)中的位置示
17、意图 9.2.2 生活、教育类节目 9.2.2.1 生活、教育类节目中手语模块尺寸应比新闻、访谈类节目中大,应根据现有节目包装来确定手语模块在合成模块的位置和尺寸参数。手语模块在合成模块(高清)中的参数应符合表 3 的要求。表3 手语模块在合成模块(高清)中的参数 项目 参数 手语模块尺寸(像素)(96020)1080 手语模块应用区域 画面右1/2区域 合成模块的尺寸(像素)19201080 虚拟主播和手语模块比例 4:7 虚拟主播的朝向 正向 9.2.2.2 生活、教育类节目中手语图像在合成模块(高清)中的位置示意参见图 3。DB 43/T 25622023 8 标引序列说明:1合成模块范
18、围;2手语模块显示区域。图3 生活、教育类节目手语模块在合成模块(高清)中的位置示意图 9.2.3 影视剧类节目 9.2.3.1 影视剧类节目中手语模块尺寸不应过大,应根据所在终端屏幕的大小来确定手语模块在合成模块中的位置和尺寸参数。手语模块在合成模块(高清)中的参数应符合表 4 的要求。表4 手语模块在合成模块中的参数 项目 参数 手语模块尺寸(像素)(45010)(50010)手语模块应用区域 画面下2/3区域 合成模块的尺寸(像素)19201080 虚拟主播和手语模块比例 4:5 虚拟主播的朝向 正向 9.2.3.2 影视剧类节目中手语模块在合成模块(高清)中的位置示意参见图 2。互联网
19、节目参数要求 9.3.1 网站 9.3.1.1 网站内容应允许用户自主选择是否进行翻译。用户点击翻译按钮并用鼠标选择需要翻译的内容后,虚拟主播应进行对应的翻译。9.3.1.2 网页内手语模块显示的长宽比例应为 9:16,大小和位置参数参见图 4。DB 43/T 25622023 9 标引序列说明:1手语模块显示区域;2合成模块范围;3手语模块显示区域可移动的范围。图4 网站中手语模块在合成模块的位置示意图 9.3.2 APP 客户端 9.3.2.1 分类 在APP客户端中,手语模块分为两种显示模式:浮窗式和嵌入式。9.3.2.2 浮窗式 9.3.2.2.1 浮窗式应能允许用户调整手语模块的显示
20、位置,且屏幕右上角应提供由用户选择关闭以及切换为嵌入式观看的按钮。9.3.2.2.2 浮窗式的显示长宽比例应为 3:4,显示大小不应大于客户端屏幕的 40%,不应影响用户主要阅读浏览,且应显示虚拟主播的上半身。9.3.2.2.3 浮窗式手语模块在合成模块中的位置参见图 5。DB 43/T 25622023 10 标引序列说明:1合成模块范围;2手语模块显示区域可移动的范围;3手语模块显示区域。图5 浮窗式手语模块在合成模块中的位置示意图 9.3.2.3 嵌入式 9.3.2.3.1 嵌入式手语模块的显示大小应占据移动端屏幕的 40%,显示长宽比例应为 3:2。9.3.2.3.2 嵌入式手语模块的
21、右上角应提供由用户选择关闭以及切换为浮窗式观看的按钮。9.3.2.3.3 嵌入式手语模块在合成模块中的位置参见图 6。DB 43/T 25622023 11 标引序列说明:1合成模块范围;2手语模块显示区域。图6 嵌入式手语模块在合成模块中的位置示意图 DB 43/T 25622023 12 A A 附录A (资料性)摘要稿示例【标题】首届湖南旅游发展大会将于11月19日在张家界开幕 【导语】办一次会,兴一座城。记者今天从首届湖南旅游发展大会组委会获悉,大会将于11月19日至20日在张家界市举行。【正文】本次大会由中共湖南省委、湖南省人民政府主办,中共张家界市委、张家界市人民政府、湖南省文化和
22、旅游厅承办,首届湖南旅游发展大会组委会成员单位协办。大会包括开幕式暨文化旅游推介会、文旅项目观摩和湖南省旅游产业发展推进会议三大主体活动,以及2022中国旅游高峰论坛、湖南首届非遗博览会、湖南文旅产业投融资大会三个配套活动。举办首届湖南旅游发展大会是我省学习贯彻党的二十大精神,以文塑旅、以旅彰文,推进文化和旅游深度融合发展的具体行动,也是全面落实“三高四新”战略定位和使命任务,加快建设世界旅游目的地的重要举措。大会突出“办一次会、兴一座城”理念,通过“立标打样”,探索高效统筹疫情防控和文旅产业发展的新路径,促进全省文旅产业、经济社会高质量发展。大会开幕式暨文化旅游推介会将由湖南卫视和芒果TV直
23、播,并同步启动“云直播”。【摘要稿】首届湖南旅游发展大会将于11月19日至20日在张家界市举行。大会突出“办一次会、兴一座城”理念,通过“立标打样”,探索高效统筹疫情防控和文旅产业发展的新路径,促进全省文旅产业、经济社会高质量发展。大会开幕式暨文化旅游推介会将由湖南卫视和芒果TV直播。DB 43/T 25622023 13 参考文献 1 GB/T 148571993 演播室数字电视编码参数规范 2 GY/T 3052017 电视播出二维码技术要求 3 无障碍环境建设条例(2012年6月28日中华人民共和国国务院令第622号公布)4 国家手语和盲文规范化行动计划(2015-2020年)(中国残疾人联合会、教育部、国家语委、国家新闻出版广电总局2015年10月13日印发)5 国家通用手语推广方案(中央宣传部、中国残联、教育部、国家语委、国家广播电视总局2018年6月18日印发)6 关于促进智慧广电发展的指导意见(国家广播电视总局2018年11月16日印发)7 湖南省无障碍环境建设管理办法(2020年10月24日湖南省人民政府令第300号公布)8 国家广播电视总局.广播电视人工智能应用白皮书R.2019-4-28 9 中国残疾人联合会,中国聋人协会,国家手语和盲文研究中心.国家通用手语词典M.北京:华夏出版社,2019