GB T 17191.3-1997 信息技术 具有1.5Mbit s 数据传输率的数字存储媒体运动图像及其伴音的编码 第3部分;音频.pdf

上传人:confusegate185 文档编号:162672 上传时间:2019-07-15 格式:PDF 页数:146 大小:16.91MB
下载 相关 举报
GB T 17191.3-1997 信息技术 具有1.5Mbit s 数据传输率的数字存储媒体运动图像及其伴音的编码 第3部分;音频.pdf_第1页
第1页 / 共146页
GB T 17191.3-1997 信息技术 具有1.5Mbit s 数据传输率的数字存储媒体运动图像及其伴音的编码 第3部分;音频.pdf_第2页
第2页 / 共146页
GB T 17191.3-1997 信息技术 具有1.5Mbit s 数据传输率的数字存储媒体运动图像及其伴音的编码 第3部分;音频.pdf_第3页
第3页 / 共146页
GB T 17191.3-1997 信息技术 具有1.5Mbit s 数据传输率的数字存储媒体运动图像及其伴音的编码 第3部分;音频.pdf_第4页
第4页 / 共146页
GB T 17191.3-1997 信息技术 具有1.5Mbit s 数据传输率的数字存储媒体运动图像及其伴音的编码 第3部分;音频.pdf_第5页
第5页 / 共146页
亲,该文档总共146页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、中华人民共和国国家标准信息技术具有数据传输率的数字存储媒体运动图像及其伴音的编码第部分音频发布实施国家技术监督局发布前言本标准等同采用国际标准 信息技术 具有 数据传输率的数字存储媒体运动图像及其伴音的编码 第 部分 音频在 信息技术 具有 数据传输率的数字存储媒体运动图像及其伴音的编码 总标题下 目前包括以下 个部分第 部分 系统第 部分 视频第 部分 音频第 部分 一致性测试本标准的附录 附录 是标准的附录 附录 附录 附录 附录 附录 附录 是提示的附录本标准由中华人民共和国电子工业部提出本标准由电子工业部标准化研究所归口本标准起草单位 清华大学本标准主要起草人 钟玉琢 智西湖前言国际标

2、准化组织 和 国际电工委员会 是世界性的标准化专门机构 国家成员体 它们都是 或 的成员国 通过国际组织建立的各个技术委员会参与制定针对特定技术范围的国际标准 和 的各技术委员会在共同感兴趣的领域内进行合作 与 和 有联系的其他官方和非官方国际组织也可参与国际标准的制定工作对于信息技术 和 建立了一个联合技术委员会 即 由联合技术委员会提出的国际标准草案需分发给国家成员体进行表决 发布一项国际标准 至少需要 的参与表决的国家成员体投标赞成国际标准 是由 信息技术 联合技术委员会制定的在 信息技术 具有 数据传输率的数字存储媒体运动图象及其伴音的编码 总标题下 目前包括以下 个部分第 部分 系统

3、第 部分 视频第 部分 音频第 部分 一致性测试附录 附录 构成标准的一部分 附录 附录 附录 附录 附录 附录 仅提供参考信息引言注 对运动图像编码标准 中音频部分感兴趣的读者 在阅读正文第 章和第 章之前 应该先阅读本引言 附录 图 和附录 编码过程为了帮助读者理解存储的压缩数据流和它的译码 下面依次介绍 编码 存储和解码编码编码器处理数字音频信号 并产生存储所需的数据流 编码器的算法没有标准化 可以使用多种算法进行编码 如音频掩蔽阈值估计 量化和缩放 然而编码器的输出应使 说明的解码器能产生适合实际应用的音频信号图 音频编码器基本结构框图图 表明了音频编码器的基本结构 编码过程如下 输入

4、音频抽样被读入编码器 映射建立输入音频数据流的经滤波的子抽样表示 经映射的抽样可能是子带抽样 如层 和层 见下面 或变换子带抽样 如层 心理声学模型建立一组控制量化器和编码的数据 这些数据随实际编码器实现的不同而不同 一种可能性是利用音频掩蔽阈值估计来实现量化器的控制 量化器和编码部分从已映射的输入抽样中生成一组编码符号 该部分依赖于编码系统 帧封装将来自其他部分的输出数据汇集成实际数据流 如果需要的话 再加上其他信息 如误差校正有四种不同的编码模式 单声道模式 双声道模式 两个独立的音频信号编在一个数据流内 立体声模式 立体声的左和右声道编在一个数据流内 和联合立体声模式 带有与立体声不相关

5、或冗余信息的立体声左 右声道编在一个数据流内层根据应用需求 可以使用不同层次的编码系统 编码器的复杂性和性能随之增高 本标准音频 层解码器能够解出 层内或低于 层的所有层的数据流层这一层包括 将数字音频输入信号映射成 个子带 固定分段以便按格式把数据分成块 心理声学模型用以确定自适应位分配 利用块压扩量化并格式化 理论上 层 编码 解码的最少延时约为层这一层提供位分配 缩放因子和抽样的附加编码 使用了不同的帧格式 这层理论上的最小编码解码延时约为层这一层采用混合带通滤波器来提高频率分辨率 它还增加了一个差值量化量 非均匀 自适应分段和量化值的熵编码 这层理论上的最小编码 解码延时为联合立体声编

6、码能够作为一个附加的特性加入到任何层中存储已编码的视频 音频 同步数据 系统数据和辅助数据等各种数据流可以一并存入一种存储媒体中如果将限定编辑点和可寻址点一致 音频编辑是很容易的对存储器的存取可能包括在通信系统中的远程存取 假定存取被一个功能单元控制 而不是被音频解码器本身控制 这个控制单元接收用户命令 读取并解释数据的基本结构信息 从媒体中读取已存储的信息 分解非音频信息 以所需的速率将存储的音频数据流传送给音频解码器解码解码器按 定义的语法接收压缩的音频数据流 按 的方法解出数据元素 按 的规定用这些信息产生数字音频输出图 表明了音频解码器的基本结构 其解码过程如下 数据流输入到解码器 首

7、先进行数据流扩展如果在编码器中使用了误差校验 见 解码器将进行误差检测 数据流扩展后恢复各种信息重构单元将重构一组映射抽样的量化方案 逆映射单元把这些映射抽样变换回均匀图 音频解码器结构框图中华人民共和国国家标准信息技术具有数据传输率的数字存储媒体运动图像及其伴音的编码第部分音频国家技术监督局批准实施概述范围本标准规定了为存储媒体提供高质量的音频编码表示和高质量音频信号的解码方法 编码器的输入和解码器的输出与现在的 标准兼容 如标准的压缩光盘 和数字音频磁带本标准以 的数据 为应用存储媒体提供连续的音频和视频数据流 如 和硬盘 存储媒体可以直接连到解码器上 也可以用其他方式 如通过通信线路 或

8、按 定义的多数据方式与解码器相连 本标准使用的采样率为 和引用标准下列标准所包含的条文 通过在本标准中引用而构成为本标准的条文 本标准出版时 所示版本均为有效 所有标准都会被修订 使用本标准的各方应探讨使用下列标准最新版本的可能性信息技术 具有 数据传输率的数字存储媒体运动图像及其伴音的编码 第 部分 系统信息技术 具有 数据传输率的数字存储媒体运动图像及其伴音的编码 第 部分 视频建议 演播室数字电视编码参数报告 单色和彩色电视系统特性建议 音频信号的录制报告 便携和移动式卫星接收器的声音信号广播 附录 中的先进数字系统 的综述建议 声音编程电路的预增强实现离散余弦逆变换的详细说明数字音频系

9、统技术要素定义采用下列定义 如果仅针对某一部分 则在方括号内注明系数 视频在一个或两个方向上为非零的所有 系数存取单元 系统对压缩音频 存取单元是音频存取单元 对压缩视频 存取单元是一幅图象的编码表示自适应段 音频音频信号数字表示的一分段 其时间是可变的自适应位分配 音频根据心理声学模型 以时间和频率变化的方式对子带进行位分配自适应噪声分配 音频按照心理声学模型 以时间和频率变化的方式对频带赋以编码噪声混迭 音频奈奎斯特子采样所产生的镜象信号分量分析滤波器组 音频在编码器中把宽带 音频信号变换成一组子采样的子带样值音频存取单元 音频对层 和 音频存取单元定义为可由自身进行解码的编码位流的最小部

10、分 其中解码是指 完全重构的声音 对层 音频存取单元是指利用以前获得的主要信息可以解码的一部分位流音频缓冲器 音频系统目标解码器中用于存储压缩音频数据的缓冲器音频序列 音频一个不中断的音频帧序列 其中以下的参数保持不变标识符层采样频率对层 和 位速率索引向后运动矢量 视频按照显示顺序 利用后继图作为运动补偿的参考图中的运动矢量巴 音频临界频带速率单位 巴尺度是一个从频率尺度到与人耳的频率选择性相对应的音频范围的非线性映射双向预测编码图 图 视频使用根据过去和 或将来的参考图的运动补偿预测进行编码的图位速率压缩位流从存储媒体输入到解码器的速率块压扩 音频某一时间内音频信号数字表示的归一化块 视频

11、一个 行 列的正交像素块边界 音频利用强度立体声编码的最低子带字节对齐在编码位流中 如果一位的位置 从位流的第一位开始 是 的倍数 则该位就称为字节对齐的字节位的序列信道存储和传输 流的数字媒体声道 音频立体声信号的左 右信道色度 分量 视频按照 建议 中定义的方式 用于表示与主色彩相关的两色差信号之一的矩阵 块或单个像素编码音频位流 音频按照本标准中规定的音频信号的编码表示编码视频位流 视频按照 的规定 一幅或多幅图像序列的编码表示编码顺序 视频图像存储和解码的顺序 该顺序未必与显示的顺序一样编码表示以编码形式表示的数据元素编码参数 视频表现编码视频位流特征的 可以由用户定义的参数的集合 由

12、编码参数表征位流 由能够解码的位流表征解码器分量 视频组成一幅图的 个矩阵 亮度和两个色度 之一的矩阵 块或单个像素压缩缩减表示数据项的位数恒位速率编码视频 视频具有恒定的平均位速率的压缩视频位流恒位速率压缩位流时从开始到结束的位速率是常数的操作约束参数 视频中定义的编码参数集中的值约束系统参数流 系统符合 的 中定义的约束的 多路流循环冗余码临界带速率 音频频率的心理声学函数 对一给定的可听频率 它正比于低于该频率的临界带的个数临界带 音频与人耳的频率选择性相对应的谱域的心理声学度量数据元素编码前或解码后的数据项的表示系数 视频在两个方向上频率均为零的 系数编码图 图 视频仅用其自身信息进行

13、编码的图 在编码表示的 系数中 仅有 系数系数一给定的余弦基函数的幅值解码流压缩位流的解码重构解码器输入缓冲器 视频在视频缓冲检验器中规定的先进先出 缓冲器解码器输入速率 视频在视频缓冲检验器中规定的且在编码视频位流中编码的数据速率解码器解码处理的实体解码 处理中定义的处理 即读入编码的位流并产生解码图像或音频采样值解码时标 系统可在数据包头中出现的一个域 它用于表明系统目标解码器解码一个存取单元的时间去矫 音频对存储或传输的音频信号所采取的一种滤波以消除因加重而引起的线性失真逆量化 视频量化 系数在对其位流中的表示进行解码之后和作 逆变换之前所进行的比例变换处理数字存储媒体数字存储或传输的器

14、件或系统离散余弦变换 视频离散余弦正变换或离散余弦逆变换 是一种可逆的正交变换 的附录 中定义了 逆变换显示顺序 视频解码图像进行显示的顺序 通常与输入编码器编码的顺序相同双声道模式 音频在一个位流中编码有两个相互独立节目内容 如两种语言 的音频信道模式 编码过程与立体声的相同编辑对一个或多个压缩位流进行操作 以产生一个新的位流 合格的编辑位流必须满足 规定的要求基本流 系统编码视频 音频或其他编码位流的统称加重 音频音频信号在进行存储或传输前所进行的滤波 以提高高频下的信噪比编码器编码处理的实体编码 处理在 中没有规定的一种处理 读入输入的图像或音频样值流 以产生一个符合中定义的有效的位流熵

15、编码信号数字表示的一种变长无损编码 用以减少冗余快速正放 视频按显示顺序 以比真实时间快的速度播放一图像序列或图像序列的一部分快速傅立叶变换 离散傅立叶变换的快速算法 一种正交变换滤波器组 音频覆盖全部音频范围的一组带通滤波器固定分段 音频分成固定时间段的音频信号数字表示的一段禁止定义编码位流的条款中用到的 禁止 表示某值决不能被使用 这常用于避免起始码的误判强迫更新 视频不时地对宏块进行帧内编码处理 以确保编码器和解码器间的 逆变换不匹配误差不至于过分积累向前运动矢量 视频用于运动补偿的运动矢量 它以显示顺序上在其前的图为其参考图帧 音频与从音频存取单元的音频 样值相对应的部分音频信号自由格

16、式 音频对每层小于最大有效位速率且与所定的位速率不同的所有位速率将来参考图 视频依显示顺序在当前图之后的参考图区组 层 音频量化前被一起考虑的 个子带中连续 个子带样值的集合 它们对应于 个 样本区组 层 音频载有自身辅助信息的 频率线图组 视频支持随机操作的一幅或多幅编码图的序列汉宁窗口 音频傅立叶变换之前将逐个样值应用于音频样值块的时间函数哈夫曼编码一种熵编码方法混合滤波器组 音频子带滤波器组和 的串行组合音频改进的离散余弦逆变换强度立体声 音频基于在高频下仅保留左 右声道的能量包络以缩减立体声音频节目中的立体声不相关或冗余的一种方法隔行扫描 视频常规电视图像的一种性质 其中相间各行在时间

17、上连续帧内编码 视频宏块或图像仅用其自身的信息进行编码帧内编码图 图 视频仅用其自身信息进行编码的图多路复用 流 系统由零个或零个以上的基本流 按 的定义组成的 组成的位流联合立体声编码 音频缩减立体声不相关或立体声冗余的所有方法联合立体声模式 音频使用联合立体声编码的音频编码算法的一种模式层 音频本标准中定义的音频系统编码层次的一个层次层 视频和系统以及 中定义的视频和系统规范中数据层次中的一个层次亮度 分量 视频表示单色信号的矩阵 块或单个像素 符合 建议 定义的与基色差信号相联系 表示亮度的符号是宏块 视频从图像的亮度分量的一个 区域得到的 个 的亮度数据块和与之相对应的 个色度数据块

18、宏块有时指像素数据 有时指像素值的编码表示 以及 所定义的其他宏块层语法中的数据元素 从上下文可明确具体用法映射 音频通过子带滤波和 或 音频信号从时域到频域的转换屏蔽现象 音频人类听觉系统的一种性质 当存在另外一种音频信号时 一种音频信号不能被感知屏蔽阈值 音频是一个频率和时间的函数 在该值以下 音频信号不能被人类听觉系统所感知音频改进离散余弦变换运动补偿 视频利用运动矢量来改善像素值预测的效率 预测利用运动矢量提供相对过去或 和将来参考图的偏移 参考图中包含有用于形成预测差值信号的以前解码的像素值运动估值 视频编码过程中估算运动矢量的处理过程运动矢量 视频用于运动补偿的二维矢量 它提供从当

19、前图像的坐标位置到参考图像坐标的偏移立体声 音频基于对和信号与差信号而不是左右声道进行编码来减小立体声音频节目中出现的立体声不相关和或冗余的一种方法帧间编码 视频宏块或图像的编码不仅用到其自身的信息而且还用到其他时间的宏块或图像的信息非音调成分 音频音频信号中的一种类似噪声的分量奈奎斯特采样以大于或等于信号带宽的两倍的频率进行采样包 系统一个包由一个包头和跟随其后的一个或多个分组组成 它是 中描述的系统编码语法中的一层分组数据 系统分组中基本流的连续字节分组头 系统包含于分组数据中的载有基础流数据信息的数据结构分组 系统一个分组由一个头和其后面的一些基础数据流中的连续数据字节组成填充 音频通过

20、有条件地在音频帧中加入一槽来调整音频帧的平均时间长度 使其与对应的 采样值的持续期相适应过去参考图 视频按显示次序出现在当前图之前的参考图像素纵横比 视频显示像素的标称垂直高度与标称水平宽度之比像素 视频图元素图周期 视频图速率的倒数图速率 视频解码输出图的标称速率图 视频源 编码的或重构的图像数据 个源图或重构图由 个 的矩阵组成 个矩阵分别代表一个亮度信号和两个色度信号 图层是 中定义的编码语法的一个层 注意 总是用 图 这个词 而不是场或帧多相滤波器组 音频一组具有相等带宽的且相位之间有特殊关系的滤波器 它使滤波器组能有效地实现预测 视频利用预测值提供当前解码图像的像素值或数据元素的估计

21、值预测编码图 图 视频利用从过去的参考图得到的运动补偿预测进行编码的图预测差值 视频像素或数据元素的实际值同预测值的差预测值 视频以前解码的像素值或数据元素的线性组合演示时标 系统可出现在分组头中的一个域 它指示演示单元出现在系统目标解码器中的时间演示单元 系统解码的音频操作单元或解码的图心理声学模型 音频人类听觉系统屏蔽行为的一个数学模型量化矩阵 视频逆量化器使用的一组 位的 个数量化 系数 视频逆量化之前的 系数 量化 系数的变长编码表示作为压缩视频的一部分进行存储量化器比例因子 视频位流中的一个数据元素 解码过程中用其确定逆量化尺度随机操作在任一点上进行读取并对编码的数据流进行解码的处理

22、过程参考图 视频按显示顺序与当前图最邻近的 图或 图顺序调整缓冲器 视频系统目标解码器中的缓冲器 用来存储重构的 图或 图重量化 音频对编码子带样值进行解码以恢复原始量化值保留当在定义编码位流的条文中使用 保留 一词时 表明其值可用于国家标准将来定义的扩充中反向播放 视频以与正常播放顺序相反的顺序显示图像序列的过程比例因子带 音频层 中的一组频率线 它可通过一个比例因子进行缩放比例因子索引 音频比例因子的一个数值码比例因子 音频量化前对一组数值进行缩放的因子序列头 视频编码位流中的一种数据块 包含有一些数据元素的编码表示辅助信息位流中的控制解码器所需的信息空白宏块 视频没有存储数据的宏块子图

23、视频一系列的宏块 它是 中定义的编码语法的一层槽 音频槽是位流的一个基本部分 在层 中 一个槽为 个字节 在层 中 一个槽为 个字节源流压缩编码前 一个单一的非多路复用的采样值流传播函数 音频描述屏蔽频率传播的函数起始码 系统和视频嵌入编码位流中的唯一的 位码 它可用于包括标识编码语法中的层在内的多种目的输入缓冲器 系统系统目标解码器输入时的一种先进先出缓冲器 用于存储解码前基础流的压缩数据立体声模式 音频是这样一种模式 形成一个立体声对 左和右 的两个音频信道编码在一个位流中 编码过程与双通道模式相同填充 位 填充 字节插入到压缩位流中的码字 但在解码过程中被丢弃 它用于增加流的位速率子带

24、音频音频频带的一部分子带滤波器组 音频覆盖全部音频频率范围的一组带滤波器 本标准中子带滤波器组是一个多相滤波器组子带样值 音频音频编码器中的子带滤波器组产生一输入音频流的滤波 子采样表示 其中滤波样值叫子带样值从输入的 个时间连续的音频样值中 在 个子带中每个子带产生 个时间连续的子带样值同步字 音频音频流中嵌入的一个 位码 它用于标识一帧的开始合成滤波器组 音频解码器中的用于从子带样值重构 音频信号的滤波器组系统头 系统中定义的一种数据结构 它载有概括 多路流系统特征的信息系统目标解码器 系统解码过程的一个假设的参考模型 它用于描述 多路流的语义时标 系统用来标明一个事件发生的时间三重组 音

25、频一个子带中的三个连续的子带样值集合 个子带的三重组形成一个区组音调分量 音频音频信号的一个正弦波状的分量可变位速率解码压缩位流过程中位速率随时间而变化的操作变长编码一种可逆的编码过程 对较常出现的事件赋予较短的码字 不常出现的事件赋予较长的码字视频缓冲检验器 视频概念上与编码器的输出相连接的一种假设的解码器 它用于约束编码器或编辑过程中生成的数据速率的变化量视频序列 视频一个或多个图组组成的序列 它是 所定义的编码语法的一个层字扫描顺序 视频系数的一种从 大约 最低空域频率到最高空域频率的顺序符号与缩略语用于描述本标准的数学运算符号与 程序设计语言中的类似 然而 关于整数除法的取位和舍入又有

26、专门的规定 位运算符的定义假设整数是用补码表示的 数字和计数的循环一般从零开始算术运算符加减 作为二元运算符 或负 作为一元运算符增减乘乘方整数除法 结果取整 例如 和 取整结果为 和取整结果为整数除法 结果四舍五入 若不特殊说明小数部分的 作进位处理 如整数除法 往负向取整 即取小于正常除法运算结果的最大整数绝对值取模运算 仅对正数有定义取整运算符 将其实参舍入成与它最接近的整数 小数部分的 作进位处理正弦余弦指数平方根以 为底的对数以 为底的对数以 为底的对数逻辑运算符逻辑 或逻辑 与逻辑 非关系运算符大于大于或等于小于小于或等于等于不等于取参数中的最大值取参数中的最小值位运算使用按位运算

27、时 操作数均假设采用补码表示与或右移 带符号扩展左移 移后填赋值运算赋值运算符助记符下列助记符用于描述编码位串流中的不同数据类型位串 左边位开始 规定位串从左开始书写 位串是单引号内的 或 组成的串 如 位串当中的空白只是为了阅读方便 没有其他意义通道 如果 值是 是指立体声信号的左通道或两个独立信号中的第一个信号 音频通道号 等于 表示单通道模式 等于 表示其他模式 音频音频层 子带采样的粒度 音频层 子带采样中的粒度位串流的 部分包含比例因子 哈夫曼编码数据以及辅助信息音频位于位串流中帧的 的开始处 具体位置是前帧 末端的位置再加上 位 它由前帧的 值计算出来 音频中比例因子所占的位数 音

28、频余数多项式的系数 最高幂在前 音频子波段 音频没有分配位的最低子波段的个数 音频选择比例因子的信息 音频使用了窗口开关上的点的长块比例因子波段的个数 音频使用了窗口开关上的点的短块比例因子波段的个数 音频无符号整数 最高位在前变长码 左边位开始 这里 左 指 码的书写顺序当 时 实际时间槽的个数 音频常量描述位流的语法规则中描述了解码器得到的位流 位流中的每一数据项用黑体字印刷 并描述了它们的名称 位长度 类型助记符以及传送顺序等 在位流中由解码数据元素所引起的动作与该数据元素的值以及前面解码的数据元素有关 中描述了数据元素的解码以及解码中所用的状态变量的定义 以下结构用于表述数据元素何时出

29、现以及何时为正常类型的条件注意 本语法中使用了这样的 代码约定 一个非零的变量或表达式相当于一个为真的条件条件 如条件为真 数据流中将出现数据元素组 直到条件为假为止数据元素至少出现一次条件数据元素不停重复直到条件为假条件如果条件为真 则接下来数据流中出现第一组数据元素若条件为假 接下来在数据流中出现第二组数据元素是一个说明循环起始条件的表达式 通常它给出计数器的初始状态 是每次重复循环的测试条件 当条件为假时结束循环是一个表达式 每循环一次 它发生一次作用 通常它是计数器的增量注意以下是本结构最普通的用法数据元素组出现 次数据元素组中的条件结构同循环控制变量 有关 第一次出现时 被置 第二次

30、被加 等等数据元素组中可含有嵌套的条件结构 为简短起见 若只有一个数据元素时 可以省略是一个数据数组 由上下文指明数据元素的个数是数据数组中第 个元素是二维数据数组中第 个元素是三维数据数组中第 个元素的范围从 至若是用程序的方式表示语法 则 的解码程序是不能令人满意的 尤其 语法定义了一个正确无差错的输入位流 实际的解码器在解码过程中必须能检出起始码 以使其能正确地开始解码 识别错误 删除 插入等 至于识别这些状态的方法以及所采取的行动不必统一函数的定义如果当前位置处在字节的边界上 即位流中的下一个位是一个字节的第一位 则函数返回值为 否则返回值为函数的定义函数 允许一个位串同位流中下一个解

31、码的位进行比较函数的定义函数除去所有零位和零字节填充位并定位下一个起始码 见表表语 法 位数 助记符该函数检验当前位置是否是字节对准的 若不是 则加入零填充位 在起始码前可加入任意个零字节 因此 起始码总是字节对准的 在其前可有任意个数的零填充位要求音频位流的编码语法说明音频序列 见表表语法 位数 助记符音频帧 见表表语法 位数 助记符头 见表表语法 位数 助记符错误检查 见表表语法 位数 助记符音频数据 第 层 见表表语法 位数 助记符音频数据 第 层 见表表语法 位数 助记符表 完语法 位数 助记符音频数据 第 层 见表表语法 位数 助记符表 完语法 位数 助记符主数据位流定义如下 在 语

32、法中的 域包含来自主数据位流的字节 见表然而 由于在第 层中使用的哈夫曼编码的可变特性 见表 一帧的主数据并不总是尾随在此帧的头和附加信息之后 一帧的 在位流中的起始位置先于此帧的头一个负偏移量 此偏移量由 的值给出 见 的定义及图表语法 位数 助记符表 完语法 位数 助记符表语法 位数 助记符表 完语法 位数 助记符辅助数据 见表表语法 位数 助记符音频位流语法的语义音频序列概述第 和第 层 位流的一部分 它利用自身的信息可解码 在第 层中它含有 个样点的信息 在第 层中含有 个样点的信息 它以一个同步字打头 在下一个同步字到来前结束 它由整数个槽组成 在第 层为 字节 在第 层为 字节第

33、层 位流的一部分 它利用前面得到的主信息可进行解码 在第 层它含有个样点的信息 虽然连续的同步字起始位置间的距离是整数个槽 在第 层为 字节但属于一帧的音频信息并不总是包含在两个相继的同步字之间音频帧位流的一部分 它包含同步和状态信息位流的一部分 它包含错误检测信息位流的一部分 它包含有关音频样点的信息位流的一部分 它可用于辅助数据头所有层的开始 位 字节 都是头信息位串位 用来指明算法的标识符 等于 时是 音频 是保留的位 用来指明使用了哪一层 如表 所示表第 层第 层第 层保留如要改变层次 则需要重置此音频解码器位 用来指明冗余信息是否加入音频位流 此冗余信息使错误检查和屏蔽更易实现 等于

34、 时无冗余信息加入 等于 时加入了冗余信息指明位率 全零值表示 自由格式 的情况 此时可使用一个不必列于表中的固定的位率 固定意味着根据填充位的值 一帧可包含 或个槽 是一个表的下标 此表对不同的层有不同的内容指明的是各种模式 立体声 联合立体声 双声道 单声道 的总位率 见表表规定的位率层 层 层为了提供最小可能的延迟和复杂度 解码器在第 或第 层可以不支持连续可变的位率 第 层通过切换 来支持可变位率 的切换可用于 时优化存储需求 或插值任何中间数据速率 这可通过在位率表中相近的两个值之间进行切换来实现 然而 在自由格式中需要固定位率 解码器也不必在自由格式模式中支持高于 的位率 这三个位

35、率值分别对应于第 层 第 层和第 层对于第 层 并不允许总位率和模式的所有组合 见表表位率 允许模式自由格式 全部模式全部模式全部模式表 完位率 允许模式全部模式全部模式全部模式立体声 强度立体声 双声道立体声 强度立体声 双声道立体声 强度立体声 双声道立体声 强度立体声 双声道指明采样频率 见表表规定频率留用如要改变采样率 则需要重置音频解码器如果此位等于 则这帧包含一个附加的槽 用来把中间位率调整到采样频率 否则此位将为 当采样频率为 时 填充是必需的 在自由格式中也需要填充应用填充 使得经过一定数目的音频帧后 编码帧的累积长度与下面计算的值的偏离不会超过槽累积帧长当前帧第一帧帧的大小

36、位率 采样频率式中 帧的大小 对第 层对第 或第 层下面的方法可用来确定是否进行填充对第一音频帧对随后的每一音频帧个人使用的位 以后将不使用此位根据表 指明模式 在第 和第 层中 模式是在第 层中 它是 和 或表规定模式在第 层 除联合立体声外的所有模式 其界限值等于 在第 层 除联合立体声外的所有模式其界限值等于最低子带数 在联合立体声模式中 界限值由模式扩展来确定这些位用于联合立体声模式中 在第 和第 层中 它们指明哪些子带是强度立体声 所有其他子带以立体声编码 见表表在第 层 它们指明应用了哪类联合立体声编码模式 使用强度立体声和 模式的频率范围在算法中是默认的 见表 要知更多的信息 见

37、表注意 当模式位指明为立体声 或等价地当模式位指明为联合立体声且模式扩展指明强度立体声为为 时 则使用的是 立体声 模式如果此位等于 则这个 位流没有版权 如果等于 则意味着版权保护如果这个位流是一个复制品 则此位等于 如果它是原始流 则此位等于指明将要使用的解增强类型 见表表规定增强留用错误检查一个 位的奇偶校验字 用于编码位流中可选的错误检测音频数据 第 层指明在声道 的子带 中 用来编码样点的位数 对强度立体声模式中的子带 每个子带只有一个分配数据单元包含在位流中 见表表位每样本禁用注意 对于码字 没有样点传送指明声道 的子带 的因子 利用它可缩放该子带内的逆量化样点 此六位组成一个无符

38、号整数 指向表 第 层 第 层缩放因子声道 的子带 中的第 个样点的编码表示 对强度立体声模式的子带 样点的编码表示对两个声道都是有效的音频数据 第 层包含声道 的子带 中的样点所用量化器的有关信息 而不管该信息是关于三个相继样点已组成一个码字的 还是关于用来编码这些样点的位数的 此域的含义和长度依赖于子带数 位率和采样频率 域中的这些位组成一个无符号整数 用作在表 第 层的位分配表 中相关的表的索引 此表给出了用于量化的级数 对强度立体声模式中的子带 位流对每个子带只提供一个分配数据单元缩放因子选择信息 它给出的信息是关于传送来用子声道 的子带 的缩放因子数 以及关于它们对此帧信号的哪一部分

39、才有效 每个子带中的帧分成三个相等的部分 每部分 个子带样点 见表表传送三个缩放因子 对部分 分别有效传送二个缩放因子 第一个对部分 有效 第二个对部分 有效传送一个缩放因子 对三部分均有效传送二个缩放因子 第一个对部分 有效 第二个对部分 有效指明一个因子 利用它可缩放声道 的子带 的及这帧的第 部分的逆量化样点 此六位组成一个无符号整数 指向表 第 层 第 层缩放因子是一个函数 它决定对声道 的子带 的样点编码时 分组是否有效 分组意味在声道 的当前子带 的当前区组 中的三个相继样点 一个三元组 的编码和传送是使用一个公共的码字 而不是三个独立的码字 如果当前正在使用的位分配表 见第 章

40、中 行 和列 处的值是 或 则 为真 否则就为假 对强度立体声模式中的子带 分组对两个声道都是有效的声道 的子带 中的区组 中的三个相继样点的编码表示 对强度立体声模式的子带 样点码字的编码表示对两个声道都是有效的声道 的子带 中的第 个样点的编码表示 对强度立体声模式的子带 样点的编码表示对两个声道都是有效的音频数据 第 层主数据开始的值是用来确定一帧的主数据的第一位的位置 主数据开始值指定的位置是以音频同步字的第一个字节为基准的一个负偏移量 此偏移量以字节为单位 属于头和附加信息的字节数没有计算在内 例如 如果主数据开始等于 则主数据在附加信息之后开始 在图和图 中给出了例子个人使用的位

41、以后将不使用这些位 私有位的数目依赖于声道数目 分配给私有位的位数应该等于用于附加信息的总位数在第 层 缩放因子选择信息的工作类似于音频的第 层 主要不同之处在于使用了可变的 使 适用于缩放因子组 而不是单个的缩放因子 缩放因子对粒度组的应用是由 控制的 见表表为每个粒度组传送缩放因子为粒度组 传送的缩放因子对粒度组 也有效如果切换到短窗 也即粒度组中的一个 则 对此帧总是控制对一组缩放因子的选择信息的使用 见表表缩放因子带 见表此值包含了用于缩放因子和哈夫曼码数据的主数据位数 因为附加信息的长度总是相同的 所以此值可用来计算下一粒度组的主信息的开头或辅助信息 如果有的话 的位置 注意单声道音

42、频帧包含 字节的附加信息 双声道音频帧包含 字节的附加信息 见 音频数据 第 层 的语法大值 每一粒度组的频谱值都是用不同的哈夫曼码表来进行编码 整个从零到奈魁斯特频率的频率范围被分成几个区域 然后再用不同的表编码 划分过程是根据最大的量化值来完成的 它假设较高频率的值有较低的幅度或根本不需要编码 从高频开始 计算一对对量化值等于零的数目 此数目记为 然后 个一组地计算绝对值不超过 的量化值 也即只有 个可能的量化级别 的数目 此数目记为 再剩下的是偶数个值 最后 频谱中一直到零的区域上的一对对的值的数目记为 在此范围里的最大绝对值限制为 下面表示了这个划分过程量化器步长信息是以附加信息变量

43、传送的 它是对数量化的有关 的应用 见 逆量化和全缩放公式 中的公式根据下表选择用于传送缩放因子的位数如果 是 或用于缩放因子频带 的缩放因子长度用于缩放因子频带 的缩放因子长度如果 是 及 是用于缩放因子频带 的缩放因子长度用于缩放因子频带 的缩放因子长度如果 是 及 是用于缩放因子频带 长窗缩放因子频带 和 短窗缩放因子频带 的缩放因子长度 注意 缩放因子频带 来自 长窗缩放因子频带 表 缩放因子频带 来自 短窗缩放因子频带 表 这种划分的组合是相邻的 并覆盖了整个频率谱用于缩放因子频带 的缩放因子长度 见表使用非正常型 类型 窗的块的信号标志如果设置了 则会自动默认几个另外的变量当 或

44、或 及设置了当 及没设置这样 区域中的所有保留的值都包含在区域 中如果没设置 则 的值是零指明粒度组的窗类型 见滤波器组的描述 第 层 见表表表 完表留用开始块短窗结束块和 给出的信息是有关块中的值的组合及变换 见图 的图解描述 附录 的解析描述 的长度和计数的 如果 则 指明低频多相滤波器子带是否使用正常窗类型进行编码 中描述了多相滤波器组在长块 不等于 或设置了 时的 为 的较低子带 情况下 对每 个输入值产生一个 值的输出 输出根据 加窗 并且后一块的前半部分与前一块的后半部重叠 结果矢量是一个频带的多相滤波器组的合成部分的输入在短块 设置了 时类型 的块的较高子带或没设置 时的类型 的

45、块的所有子带 情况下 执行三个变换 每个变换产生 个输出值 这三个矢量均要加窗并互相重叠 在结果矢量的两端各连上 个零 则能得到一个长度为 的矢量 它的处理就象一个长变换的输出指明较低频率变换的窗类型不同于较高频率所使用的窗类型 当混合块标志为零时 所有块按 变换 当混合块标志为 时 对应于两个最低频率多相子带的频率线用正常窗 块类型 变换 而剩下的 个子带按 变换根据最大的量化值和信号的局部统计特性选用不同的哈夫曼码表 在表 中给出了总共 个可能的表指明一个子块对全局增益的增益偏移 量化 因子为 只用于块类型为 短窗 时 在解码器中 子块的值必须除以 见 中反量化和全缩放公式频谱的进一步划分

46、被用来增强哈夫曼编码器的性能 也就是再分由描述的区域 此再分的目的是为了得到更好的错误顽健性和更好的编码效率 共用了三个区域 分别命名为区域 和 根据最大的量化值和局部信号统计特性 每个区域分别使用不同的哈夫曼码表进行编码和 用来指明区域的边界 这些区域边界对应于把频谱划分成缩放因子频带域中的计数值比区域 中的缩放因子频带数少 在短块情况下 每个缩放因子频带计 次 每个短窗 次 这样 的值为 时表示区域 开始于缩放因子频带 处如果块类型 且混合块标志 则在这种情况下 粒度组的缩放因子频带的总数为如果块类型 且混合块标志 则缩放因子频带的数量为 如果块类型 则缩放因子频带的数量为计入的数比区域

47、中的缩放因子频带数少 另外 如果块类型 则代表不同时间槽的缩放因子频带各自分别计数这是对量化值的附加高频放大的一种简化表示 如果 被设置了 则一个表的值加到缩放因子上 见表 这相当于逆量化缩放因子乘以表的值 如果块类型 短块 则从不使用根据 缩放因子以步长 或 进行对数量化 下表指明了用于每个步长的逆量化等式中的缩放因子倍数 见表表此标志在两个可能的哈夫曼码表中选择一个 这两个码表用于四个一组且幅值不超过 的量化值区域 见表表表表缩放因子用予量化噪声成形 如果将量化噪声谱加工成合适的形状 即可将其完全掩蔽 不象第 层和第 层 第 层的缩放因子与量化信号的局部最大值无关 在第 层 缩放因子用于解

48、码器中以得到各组值的除法因子在第 层的情况下 这些组覆盖几个频率线 它们叫做缩放因子频带 并且被选来尽可能地模拟临界频带表显示了缩放因子 的范围为 最大长度 缩放因子的范围为 最大长度如果强度立体声是允许的 则差分 右 声道的 的缩放因子被用来作为强度立体声位置 即 见 模式 是缩放因子频带的强度立体声位置 把频谱再分成缩放因子频带 这对每个块长度和采样频率都是固定的 并且存于编码器和解码器的表中 见表 那些超过表中最高线的频率线的缩放因子为零 也即意味着实际乘法因子为缩放因子是对数量化的 量化步长是用 设置的哈夫曼编码数据的语法显示了量化值是怎样编码的 在 部分 绝对值小于 的量化值对直接用

49、一个哈夫曼码进行编码 这个码是选自表 中的哈夫曼表 值 总是成对编码 如果幅度大于或等于 的量化值被编码 则这些值使用哈夫曼码后的一个独立域进行编码 如果一对中的一个或二个值不为零 则在码字中加入一个或二个符号位部分的哈夫曼表由三个参数组成是值 的哈夫曼码表的入口是值 的哈夫曼长度表的入口是 或 被编码时的长度的语法包含下面的域和参数是 的符号 正为 负为是 的符号 正为 负为是 的符号 正为 负为是 的符号 正为 负为当 的幅值大于或等于 时用来对 值进行编码 此域仅当 在中等于 时才编码 如果 为零 即当 时 没有位被实际编码 则值 定义为零同 只是把 改为是频率线 的量化值或 域仅当一个大于或等于 的值需要编码时才使用 这些域被看作无符号整数并加上 以获得编码值 当选择的表是对应于最大量化值小于 的块时 则 和 域从不使用 注意 值 仍可用哈夫曼表编码 此时 为零 在这种情况下 因为 为零 所以或 域实际上并不编码 在 部分 按 个一组计算 其幅值小于或等于 的值被编码

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 标准规范 > 国家标准

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1