1、多媒体技术及其新发展,华中科技大学计算机学院 鲁宏伟,报告提纲,什么是多媒体 语音处理技术 图像、视频处理技术 多媒体人机交互技术 多媒体信息检索 多媒体传输(流媒体和P2P) 未来的发展,1,一什么是多媒体,2,什么是多媒体,1人类生活发生的变化,什么是多媒体,视听 电视、电影:形式、渠道 音乐:Walkman、CD Player、MP3 存储 通信手段 电话:固定电话、移动电话、网络 文字:电报、Email 内容:文字、话音、视频 学习方式 图书馆、教室 电视教学、远程教学,3,2什么改变了我们的生活,什么是多媒体,网络 33.6K Modem、ISDN、ADSL ATM、IP 有线网络、
2、无线网络 计算机 无硬盘计算机、386、486、586 单核处理器、多核处理器 CRT显示器、液晶、等离子体 多媒体技术,4,2什么是多媒体,什么是多媒体,“多媒体”译自20世纪80年代初产生的英文词“multimedia”,最早出现于美国麻省理工学院(MIT)递交给国防部的一个项目计划报告中。 多媒体是指信息表示媒体的多样化,常见的多媒体有文字、图形、图像、声音、音乐、视频、动画等多种形式。 多媒体技术是利用计算机技术把文本、声音、视频、动画、图形和图像等多种媒体进行综合处理,使多种信息之间建立逻辑连接,集成为一个完整的系统。,二语音处理技术,5,语音处理技术,语音处理技术包括语音识别、说话
3、人的鉴别和确认、语种的鉴别和确认、关键词检测和确认、语音合成、语音编码等,其中最具有挑战性和最富有应用前景的是语音识别技术。,1声音的特点,声音是重要的信息表现手段,自然科学家们关于声音的研究清楚地表明:“声音是弹性媒质中的一种机械扰动、弹性媒质包括固体、液体和气体。机械扰动是指媒质的某种性质(譬如压力、质点位移或密度)发生了可以用仪器检测出来或者可被人听到的交替变化。”,6,语音处理技术,2声音处理技术,音频压缩技术 三维音效技术 语音识别技术 语音合成技术,声音的特点,声音是一种弹性波,声音信号可以分成周期信号与非周期信号两类。 声音的质量与声音的频率范围有关。人的听觉器官能感知的频率范围
4、为2020000Hz ,能感知的声音幅度范围在0120dB之间,而人的发音器官能够发出的声音频率范围为803,400Hz。,语音处理技术,1分钟数字音频信号需要的存储空间,语音处理技术,音频压缩技术,音频文件格式 主要用在PC上的以.wav为扩展名的文件格式 主要用在Unix工作站上的以.au为扩展名的文件格式 主要用在苹果机和美国视算科技有限公司的工作站上的以.aiff和.snd为扩展名的文件格式 目前流行的格式.rm、.mp3、.wma语音压缩标准 G.711、G.723.1、GSM、MPEG Audio Layer 3(MP3)语音压缩技术,语音处理技术,音频压缩技术,音频压缩技术指的是
5、对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。 研究发现,直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行4:1压缩,即只用25的数字量保留所有的信息,语音处理技术,MP3音频压缩编码,MP3是一种音频压缩的国际技术标准。MP3格式开始于二十世纪80年代中期,是在德国夫朗和费研究所(Fraunhofer Institute)开始的,研究致力于高质量、低
6、数据率的声音编码 MP3格式是一个让音乐界产生巨大震动的一个声音格式。MP3的全称是Moving Picture Experts Group, Audio Layer 3,它所使用的技术是在VCD(MPEG-1)的音频压缩技术上发展出的第三代,而不是MPEG-3。 MP3的压缩率则高达10:112:1,也就是说一分钟CD音质的音乐未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。,语音处理技术,三维音效,日常生活中,我们用两只耳朵来听东西,从各处音源中获得信息,再通过人脑的计算来定位声音。计算机模拟人脑的3D(三维)音效计算,通过数字音源播放出来,让
7、我们感到自己处身于虚拟的世界。 既然在现实世界中,我们可以用一双耳朵分辨出3D音场,那么仅靠贴近耳朵的两只耳机也能实现近似效果。用两只扬声器也可以吗?,语音处理技术,三维音效,人耳的基本声音定位原理是IID(两侧声音强度差别)和ITD(两侧声音时间延迟差别)。 耳廓(外耳)的作用是滤波器,根据声音的不同角度,加强/减弱音波能量,过滤之后传给大脑,让我们更准确地确定声源的位置。 许多时候,我们听到的声音并不是直线进入耳朵,而是通过了几次反射才进入大脑。在音波行进的过程中,音波能量会减弱,再加上反射造成的消音和延迟作用,声音已经有了变化,这种反射混合起来的效果称为交互混响。 模拟3D音效需要还原以
8、上定位效果:IID、ITD、耳廓、反射,并分析不同角度声音发生的变化,通过计算机模拟合成来建立一种虚拟声音系统-数字化音场。,语音处理技术,3D音效的分类,扩展式立体声 它使用声音延迟技术对传统的立体声进行额外处理,扩宽了音场的位置,使声音延展到音箱以外的空间,让我们感觉的3D世界更广阔。 环绕立体声 它采用音频压缩技术(如:杜比AC-3)把多通道音源编码成一段程序,再以一组多扬声器系统来进行解码,实现多区域环绕效果。这也是一种被动播放音轨的技术,最适合于电影播放。 交互式3D音效 交互式3D尽量地复制了人耳在真实世界中听到的声音,并使用一定的算法来播放出来,让我们感到整个三维空间的所有地方都
9、可能产生声音,并随听者的移动而做出相应改变。它是最接近实际生活的3D音效,通常应用于第一人称3D游戏。,语音处理技术,语音识别,“让计算机能和人类自由交流”一直是人们的梦想,语言是描述人类思维的工具之一,因此将人类语言和计算机联系起来,应当是实现这一梦想的重要一步。 语音识别技术是语音处理技术中最具有挑战性和最富有应用前景的技术。 语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。 由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于4类
10、因素:1. 识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。,语音处理技术,语音识别系统的原理框图,语音处理技术,IBM语音识别输入系统 ViaVoice Pro 9.1,该系统可用于声控打字和语音导航。只要对着微机讲话,不用敲键盘即可打汉字,每分钟可输入150个汉字,是键盘输入的两倍,是普通手写输入的六倍。该系统识别率可达95%以上。 IBM潜心研究26年,领导了世界的语音识别技术,其语音识别产品在全球销售已达一百万套以上。,语音处理技术,自然语言理解,自然语言理解(NLU,Natural Language Understanding)就是研究
11、如何能让计算机理解并生成人们日常所使用的(如汉语、英语)语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。 自然语言处理的核心技术是语言分析技术,即将句子(数量无限)变换成由词语(数量可控)及其抽象形式(数量有限)构成的用某种数据结构(句法树、复杂特征集或语义网络)表示的内部形式(数量有限)。 语言分析可以划分为词法析、句法分析、语义分析、篇章分析等步骤。现在,词法分析和句法分析相对成熟,语义分析逐渐成为研究重点。,语音处理技术,语音合成,语音合成是以言语产生模型为基础,分析抽取激励源,声道的特征参数;再利用这些特征参数重新综合出语音信号的过程。
12、 语音合成是通过一个声学模块来具体实现的。早期的语音合成技术的研究,往往集中在语音合成算法本身,其研究的方法和手段与语音编码有很多相似之处。其声学模型的构筑,也多通过模拟人的口腔的声道特性来产生。 进入20世纪90年代以来,波形拼接(PSOLA,Pitch Synchronous OverLap Add) 算法,越来越被广泛地应用在语音合成系统中。 近年来,一些新的方法,如人工神经网络、决策树、隐马尔可夫模型等被广泛地应用于语音合成技术。这些方法的运用,彻底改变了汉语语音合成研究的研究重点,使汉语语音合成的研究突破了早期重点对单纯算法的研究,而变成一个系统工程的研究。,语音处理技术,TTS,T
13、TS即文本语音转换技术(Text To Speech),它涉及声学、语言学、数学信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术,实现把计算机中任意出现的文字转换成自然流畅的语音输出。,语音处理技术,视觉语音,视觉语音是指人们在用语言交流时所表达出的面部表情和动作,它能在一定程度上传达人们想要表达的意思,并能帮助人们加深对语言的理解。 研究表明,在环境噪声较大或听者有听力障碍的情况下,如果在给出声音信息的同时能给出一个“讲话的头”(talking head),即表现说话者面部表情和嘴部、眼部等变化情况,则会大大改善人们对声音的理解。,语音处理技术,三图像、视频处理技术,
14、5,图像、视频处理技术,图像处理,图像处理根据处理的程度和目的,可以分为三个层次:图像处理、图像分析识别和图像理解,图像、视频处理技术,图像处理,图像编码格式:GIF,JPEG,PNG 图像编码标准:JPEG、JPEG2000,图像、视频处理技术,数字视频处理,数字视频含有丰富的内容,结构复杂,不同于传统的字符型数据,主要表现在以下几个方面: 视频数据量大:一幅中等分辨率的图像(640*480),颜色为24bit/象素,数字视频图像的数据量大约为1MB,如播放速度每秒30帧,则1秒的数据量约为30MB,一个600MB的硬盘也只能存放20s的动态图像。 视频数据内容的多样性 视频数据解释的多样性
15、和模糊性 视频数据结构复杂:视频数据既有空间属性又有时间属性。,图像、视频处理技术,数字视频处理,数字视频是视频数据库存储的对象,为了从视频数据库中方便地检索视频对象,数字视频均应以一定的结构存储。如果视频信息仅以帧图像和视频流这两级存储,对视频内容的检索是十分不便的。因此,通常用帧、镜头、场景和幕等描述把视频序列分层表示。,图像、视频处理技术,数字视频处理,数字视频处理的主要研究内容包括视频编码压缩、镜头检测与分割、运动对象检测与分割等等。 数字视频处理常用的算法: 傅里叶变换 小波变换 分形变换 人工神经网络,图像、视频处理技术,视频编码压缩标准,H系列标准:H.261、H.263、H.2
16、64 MPEG系列标准:MPEG1、MPEG2、MPEG4,图像、视频处理技术,四多媒体人机交互,7,多媒体人机交互,人机交互的意义,传统的信息处理环境一直是“人适应计算机”,而当今的目标或理念是要逐步使“计算机适应人”,人们要求通过视觉、听觉、触觉、嗅觉,以及形体、手势或口令,参与到信息处理的环境中去,从而取得身临其境的体验。这种信息处理系统已不再是建立在单维的数字化空间上,而是建立在一个多维的信息空间中。 计算机包括了三个主要部分:人机信息交互、信息处理和存储以及信息显示,其中“信息处理和存储”和“信息展示”技术更新和发展的速度相当快。但人机交互技术多年来并未有重大技术突破。,8,多媒体人
17、机交互,人机交互的意义,计算机缺乏仿生的眼睛和耳朵,也没有从外部世界收集信息所需的触觉、味觉和嗅觉。计算机没有语言能力,没有四肢,没有建立各种各样信息表达形式的能力,这就限制了人和计算机之间的信息沟通。因为通过多种渠道来沟通信息将更有效,例如手势和其它的人体动作伴随着语音可增强对语音的理解, 眼光的接触在人际信息沟通中带有意义。 在计算机系统中使用音频、视频、图形和动画等不只是常规计算机的扩充,而是试图将计算机开发成一台“通用机器”,使它能完整地理解人的需要,并和人沟通信息,因此一个易于使用的、形象直观的用户接口将极大地改善系统的可用性。,多媒体人机交互,人机界面,人机界面(HCI, Huma
18、n-computer Interface)又称用户界面、人机交互人机接口等是人与计算机之间传递交换信息的媒介,是用户使用计算机系统的综合操作环境 人机界面的设计在计算机系统设计中占有重要地位。 三维用户界面 多媒体和超媒体界面 多通道交互界面 虚拟现实技术,多媒体人机交互,多通道用户界面,多通道人机界面技术基于视线跟踪、语音识别、手势输入、感觉反馈等新的交互技术,允许用户利用自身的内在感觉和认知技能,使用多个交互通道,以并行、非精确方式与计算机系统进行交互,旨在提高人机交互的自然性和高效性 它代表了人机交互的一种新范式,与传统的图形用户界面相比,能将互补的通道进行整合来获取增强的混合,通道之间
19、可以相互补充,克服彼此的缺陷,多媒体人机交互,多通道用户界面的主要研究内容,认知心理学 界面模型及描述方法 软件结构 多通道整合 多通道的错误纠正机制,多媒体人机交互,三维人机交互技术,三维人机交互技术与传统的WIMP(Window,Icon,Menu,Pointer,窗口、图标、菜单和指点装置)图形交互技术不同, 它采用六自由度输入设备。 所谓六自由度,指X、Y、Z轴平移和绕X、Y、Z轴旋转,而现在流行的用于桌面型图形界面的交互设备,如鼠标、轨迹球、触摸屏等只有两个自由度(沿平面X、Y轴平移)。,多媒体人机交互,三维交互设备,目前三维交互设备还处于摸索阶段,还没有一种输入装置像二维图形界面中
20、的鼠标那样处于主流地位。现有的三维设备中被广泛应用的主要有以下几种: 浮动鼠标(Flying Mouse):浮动鼠标类似于标准的计算机鼠标,但当离开桌面后就成为一个六自由度探测器,大多数浮动鼠标器内部装有电磁探测器。 数据手套 手持式操作器(Wand):类似于浮动鼠标,但没有鼠标球,因此不能在桌面上滚动。 力矩球:安装在一个小型的固定平台上,可以扭转、压下的拉出、来回摇摆等。力矩球通常使用发光二极管和光接收器进行测量。,多媒体人机交互,人机交互中的视线跟踪技术,视线跟踪技术早期主要应用于心理学研究(如阅读研究)、助残等领域,后来才被应用于图像压缩及人机交互技术。 从理论上说,由于几乎所有的人机
21、交互形式都离不开视觉介入,因此,当用户凝视其感兴趣的目标时,如果系统能“自动”将光标置于其上或触发必要的动作,则比利用鼠标器等间接指点设备甚至触屏这样的直接指点设备更为直接。,多媒体人机交互,人机交互中的视线跟踪技术,多媒体人机交互,基于手势的人机交互技术,手势是人手或者手和臂结合所产生的各种姿势和动作,它包括静态手势(指姿态,单个手形)和动态手势(指动作,由一系列姿态组成)。 静态手势对应空间里的一个点,而动态手势对应着模型参数空间里的一条轨迹,需要使用随时间变化的空间特征来表述。 手势和姿势(Posture)的主要区别在于,姿势更为强调手和身体的形态和状态,而手势更为强调手的运动。,多媒体
22、人机交互,基于手势的人机交互技术,手势逐渐成为人机界面中一种新颖的交互手段,研究手势识别的主要目的就是把手势这种既自然又直观的交流方式引入人机接口中,实现更符合人类行为习惯的人机接口。 手势识别还可用于虚拟现实、三维设计、临场感、可视化、医学研究、手语理解等领域 手势识别问题的解决方法对于表情识别、唇读、步态识别、时空纹理分类、视觉导航、图像拼接和基于内容的视频检索等研究都有直接推广的意义。,多媒体人机交互,基于手势的人机交互技术,多媒体人机交互,五多媒体信息检索,10,多媒体信息检索,查询语言,查询语言是数据库系统极其重要的特性之一,是鉴别一个数据库管理系统成功与否的重要依据 关键字查询 可
23、视化查询 语义查询,多媒体信息检索,全文检索技术,所谓全文检索技术就是给定一个字符串或字符串的逻辑表达式,在全文数据库中进行相应的检索,查出与指定表达式相匹配的出现,并将这些出现的原文件作为检索结果返回给用户。 当数据库数据量巨大时,实现快速的全文检索包括以下几个方面的技术问题: 检索的快速响应 如何建立索引库 如何压缩索引数据 提供完整、丰富的检索操作手段 超文本处理 分布式网络文档的检索处理,多媒体信息检索,Web信息检索,目前许多搜索引擎一般都使用传统信息检索算法和技术。传统的信息检索算法主要是从相对少量和同构的文献集合(如新闻、书目等) 发展过来的。然而,Web上的信息具有巨量的、异构
24、的、非结构或半结构的、动态的、分布的等特点,对传统的信息检索技术提出了挑战。 典型的搜索引擎由以下几个部分组成:爬行器(或称为机器人、蜘蛛等)、索引生成器、查询检索器等三大模块。,11,多媒体信息检索,基于内容的图像检索,在图像检索系统中,传统的方法是基于文字或数值的信息检索技术。在检索之前,人们要对图像数据库中的每幅图像进行人工标注,用文字描述图像的内容,形成图像描述数据库,并使用图像编号的方式与图像数据库联系起来。 基于内容的图像检索技术就是对图像内容进行标注或索引,并据此实现图像检索的一项综合性技术。 通过对图像内容的语义分析,从中抽取其颜色、纹理、形状、对象空间关系以及对象语义等特征,
25、在此基础之上,利用图像相似性度量函数计算或评估图像之间的相似性(评价的准则是预先定义的),并将最相似的一些图像作为检索结果返回给用户。,多媒体信息检索,六多媒体传输,17,多媒体传输,流媒体技术,18,流媒体是指在网络中使用流式传输技术的连续时基媒体,例如:音频、视频、动画或其他多媒体文件。 流媒体技术(或称为流式媒体技术)就是把连续的影像和声音信息经过压缩处理后放到网络服务器上,让浏览者一边下载一边观看、收听,而不需要等到整个多媒体文件下载完成就可以即时观看的技术。,多媒体传输,流式传输,流媒体实现的关键技术就是流式传输。 实现流式传输有两种方法:实时流式传输和顺序流式传输。一般说来,如视频
26、为实时广播,或使用流式传输媒体服务器,或应用如RTSP的实时协议,即为实时流式传输。如使用HTTP服务器,文件即通过顺序流发送。采用哪种传输方法依赖用户的需求。,多媒体传输,流媒体播放方式,单播:从一台服务器送出的每个数据包只能传送给一个客户机,这种传送方式称为单播。 组播:采用IP组播技术构建一种具有组播能力的网络,允许路由器一次将数据包复制到多个通道上 点播:点播连接是客户端与服务器之间的主动的连接。在点播连接中,用户通过选择内容项目来初始化客户端连接。用户可以开始、停止、后退、快进或暂停流。 广播:广播指的是用户被动接收流。在广播过程中,客户端接收流,但不能控制流。,多媒体传输,流媒体文
27、件格式,RealNetworks公司的RealMedia包括RealAudio、RealVideo和RealFlash三类文件 Apple公司的QuickTime Microsoft公司的Windows Media Macromedia的Shockwave Flash技术,多媒体传输,P2P技术,P2P(Peer to Peer)技术称为对等网络技术,它是一种用于不同PC客户之间,不经过中间设备直接交换信息的技术,实质上是一种网络结构思想。 与目前网络中占主导地位的客户端/服务器(Client/Server,简写为C/S)结构的本质区别使整个网络不存在中心节点(或中心服务器)。 P2P节点之间
28、是平等的、直接联系的,每个节点都具有提供信息和处理信息的功能。每台PC可以直接连接到其它PC,并进行文件交换,而不需要连接到服务器上再进行浏览与下载。P2P技术弱化了服务器的作用,甚至可以取消服务器,任意两台PC互为服务器,同时又是客户机。,多媒体传输,P2P技术体系结构与分类,P2P技术存在三种结构模式的体系结构: 以Napster为代表的集中目录式结构 以Gnutella为代表的纯P2P网络结构 混合式P2P网络结构。,多媒体传输,七未来的发展,20,未来的发展,多媒体处理芯片 移动多媒体技术 多媒体产品的安全 高速多媒体通信技术 更为完善的人机交互技术 多媒体技术应用的拓展,未来的发展,Thanks,
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1