【技术文章】

从MPEG-1到MPEG-21
罗森林 潘丽敏
本文作者罗森林先生,北京理工大学电子工程系副教授;潘丽敏女士,电子工程系研究生。
  随着数字化、网络化、全球一体化信息时代的来临,多媒体技术成为信息技术的重要组成部分。它包括声音、图形、数据以及图像在内的多种媒体信息的传送和处理,其关键在于压缩技术。此外,在多媒体的传输、处理、应用中还有许多问题:如何在网络上传输视频?如何通过手机上网并接收视频和图像?如何对多媒体数据进行快速有效的检索?如何对多媒体信息进行统一的存取?等等。MPEG组织在这些方面作了充分考虑,给出了完整的规划。对于常规视音频压缩,MPEG组织制定了MPEG-1和MPEG-2标准;对基于对象和内容的多媒体压缩制定了MPEG-4标准;对多媒体的信息检索制定了MPEG-7标准;近期又针对集成的统一多媒体框架加紧制定MPEG-21标准。
  这些标准已经或将要给业界带来深远的影响和巨大的市场。其中,VCD采用了MPEG-1作为视音频压缩标准,在中国已形成巨大的市场,并领导了世界潮流;DVD在视频方面采用MPEG-2标准,音频方面采用AC-3标准(国内部分DVD厂家使用MPEG-1作为音频压缩标准),正以其优异的视听效果和逐渐走低的价格风靡世界;数字卫星电视接收机(IRD)、数字视频广播(DVB)、高清晰度电视(HDTV)中的视频压缩标准准备采用MPEG-2,音频压缩标准采用MPEG-1,也将形成很大的市场。
  活动图像专家组(MPEG)成立于1988年,目前已拥有300多名成员,包括IBM、SUN、BBC、NEC、INTEL、AT&T等世界知名公司。MPEG组织最初得到的授权是制定用于“活动图像”编码的各种标准,随后扩充为“及其伴随的音频”及其组合编码。后来针对不同的应用需求,解除了“用于数字存储媒体”的限制,成为现在制定“活动图像和音频编码”标准的组织。MPEG组织制定的各个标准都有不同的目标和应用,MPEG-1和MPEG-2标准已为大家熟知,下面主要介绍MPEG-4、MPEG-7和MPEG-21标准。
MPEG-4
  MPEG-4标准是“关于各种视听对象的编码”(Coding of Audio-visual Objects)。该标准从1993年7月开始制定,1999年5月形成国际标准(V1),国际标准编号是ISO/IEC14496。MPEG-4是以视频、音频、文字、数据为对象的编码标准。该标准在以前5个部分(系统、视频、音频、符合性测试、参考软件)的基础上增加了第6部分——多媒体传输接口(DMIF),定义了用于管理多媒体流的通讯协议。MPEG-4标准的主要目标是各种音频和视频对象的压缩和管理,它包容了MPEG-1和MPEG-2标准,为多媒体数据压缩提供了一个更为广阔的平台。MPEG-4定义的是一种格式、一种框架,而不是具体算法,人们可以在系统中加入许多新的算法,使软件编解码更方便。
  MPEG-4标准特点如下:(1)一个音频或视频景物由若干“对象”组成,这些“对象”不仅包含各种“自然”对象(如MPEG-1和MPEG-2那样),也可以包含各种“合成”对象,如图形、图画等,用户可与每个对象进行交互;(2)标准采用“版本”方法,以便不断升级,适用于不同的情况,目前已通过了4个版本;(3)视频码率5kb/s~5Mb/s,音频码率2~ 64kb/s,覆盖范围广,既可用于低码率视频的窄带传输,也可用于高码率广播级视频的宽带传输;既可用于低比特率的语音(电话音质)传输,也可用于高比特率的音乐(CD音质)传输;既能支持解码器合成的语音和音乐,又能支持三维动画和三维音频空间(如5.1环绕声);(4)在场景中独立地表示各种对象,允许对这些对象单独进行处理并再次使用;也可将音频与视频、自然与合成的对象集成到一个场景中;(5)对视音频内容及算法的知识产权进行管理和保护。
  MPEG-4是一种通用的编码标准,能满足各种应用需要,适应不同的传输带宽、图像尺寸和分辨率,提供不同的服务。MPEG-4应用非常广泛,如多媒体互联网、网上音频点播、网上流式视频、网络数据库服务、交互式视频游戏、视频会议、数字多媒体广播、电子节目指南等。
MPEG-7
  
MPEG-7标准是“关于多媒体内容描述的接口”(Multimedia Content Description interface)。该标准从1997年7月开始制定,计划在2001年9月完成,编号是ISO/IEC15938。MPEG-7不是信息压缩编码技术,而是一种多媒体内容描述的标准,定义了描述符、描述语言和描述方案,便于处理多媒体内容。MPEG-7的主要目标是,对多媒体信息内容进行各种标准化的描述和有效的检索。
  随着视听信息的激增,信息的查找显得愈加重要。对于文本信息,已有许多查询方法,但对视听信息,还未找到一种被普遍认可的描述和搜索方法,还无法实现在网上搜索图像。MPEG-7就是针对这个问题,把现在有限的查询能力扩展到更多的信息形式,确立各种类型的多媒体信息的标准描述方法,这种描述与内容密切相关,支持用户做快速而高效的搜索。
  MPEG-7标准将为其它标准所表达的信息提供一种检索手段,其描述建立在这些标准之上。例如,MPEG-4中的形状描述子、MPEG-1和MPEG-2标准中的运动矢量描述等将在MPEG-7中得到充分利用。由于MPEG-4可将视听素材编码成具有特定时空意义的对象,对媒体内容的检索细化到了视听对象的层次,丰富了MPEG-7的内容和应用范围,MPEG-4也因此成为MPEG-7标准描述中的主要成分。需要指出的是,尽管MPEG-7的描述对象与以往的标准息息相关,其形式却并不依赖描述内容具体的编码或存储方式,而是独立于所表达的媒体而存在。
MPEG-7可广泛应用于:
  (1)数字图书馆(如图像编目、音乐词典等);
  2)多媒体查询服务(如电话号码薄、旅游信息等);
  (3)多媒体编辑(如个人化的电子新闻服务、媒体创作等);
  (4)广播媒体选择(如广播与电视频道选取);
  (5)娱乐业(如游戏搜索、卡拉OK等);
  (6)调查服务(人的特征识别、法律调查等);
  (7)地理信息系统;
  (8)医疗服务;
  (9)网上购物;
  (10)建筑、房地产、室内设计等。
  目前MPEG-7标准正在征集提案阶段。
MPEG-21
  互联网改变了物质商品交换的商业模式,这就是“电子商务”。新的市场必然带来新的问题:如何获取数字视频、音频以及合成图形等“数字商品”,如何保护多媒体内容的知识产权,如何为用户提供透明的媒体信息服务,如何检索内容,如何保证服务质量等。此外,有许多数字媒体(图片、音乐等)是由用户个人生成、使用的。这些“内容供应者”同商业内容供应商一样关心相同的事情:内容的管理和重定位、各种权利的保护、非授权存取和修改的保护、商业机密与个人隐私的保护等。目前虽然建立了传输和数字媒体消费的基础结构并确定了与此相关的诸多要素,但这些要素、规范之间还没有一个明确的关系描述方法,迫切需要一种结构或框架保证数字媒体消费的简单性,很好地处理“数字类消费”中诸要素之间的关系。MPEG-21就是在这种情况下提出的。
  制定MPEG-21标准的目的是:(1)将不同的协议、标准、技术等有机地融合在一起;(2)制定新的标准;(3)将这些不同的标准集成在一起。MPEG-21标准其实就是一些关键技术的集成,通过这种集成环境就对全球数字媒体资源进行透明和增强管理,实现内容描述、创建、发布、使用、识别、收费管理、产权保护、用户隐私权保护、终端和网络资源抽取、事件报告等功能,如图所示。
  任何与MPEG-21多媒体框架标准环境交互或使用MPEG-21数字项实体的个人或团体都可以看作是用户。从纯技术角度来看,MPEG-21对于“内容供应商”和“消费者”没有任何区别。MPEG-21多媒体框架标准包括如下用户需求:(1)内容传送和价值交换的安全性;(2)数字项的理解;(3)内容的个性化;(4)价值链中的商业规则;(5)兼容实体的操作;(6)其它多媒体框架的引入;(7)对MPEG之外标准的兼容和支持;(8)一般规则的遵从;(9)MPEG-21标准功能及各个部分通信性能的测试;(10)价值链中媒体数据的增强使用;(11)用户隐私的保护;(12)数据项完整性的保证;(13)内容与交易的跟踪;(14)商业处理过程视图的提供;(15)通用商业内容处理库标准的提供;(16)长线投资时商业与技术独立发展的考虑;(17)用户权利的保护,包括:服务的可靠性、债务与保险、损失与破坏、付费处理与风险防范等;(18)新商业模型的建立和使用。
国内MPEG标准的研究情况
  
多年来,国家信息标准化委员会多媒体分会和863-306专家组一直在跟踪国际上MPEG标准和技术的发展,积极开展多媒体技术的研究工作。主要活动和进展如下:(1)1996年863-306专家组组长高文教授接受专家组和多媒体分会的委托,参与国际MPEG专家组的标准制定工作;(2)1998年底成立了中国MPEG论坛,每两个月举行一次研讨会;(3)1999年7月,我国首次派出了一个七人代表团参加了在温哥华举行的第48次MPEG会议,微软(中国)研究院、中科院计算所、清华大学、北京工业大学提交了4个提案,其中,清华大学计算机系的“运动补偿算法”和北京工业大学的“人脸粗检测算法”均被采纳,并将上升为国际标准;(4)2000年2月建立了MPEG-CHINA资料站点(www.mpegchina.com. cn);(5)2000年7月在北京举办了第53次MPEG国际会议,中国代表团人员增至30多人;(6)计划于2002年10月在上海举办MPEG国际会议。
  国内在标准的应用方面也取得了令人瞩目的成绩(VCD首先就是在中国被设计出来并迅速普及的)。(1)中科院声学所在MPEG-1解码设备的设计与产业化方面取得突破;(2)由哈工大和中科院计算所国家智能计算机研究开发中心联合完成的MPEG-2解码设备,已经成功地应用到了DVD和数字卫星电视接收机等产品中,进入产业化阶段;(3)四川鼎天公司设计的具有实时MPEG-1和MPEG-2解码功能的多媒体计算机于1996年就已经研制成功,并在当年美国秋季计算机展览会上公开亮相;(4)深圳亿特信息技术有限公司采用MPEG-4标准,推出具有自主产知识产权的“3N技术”用于互联网的直播压缩,轰动网络界,打破了微软、IBM等大公司对“流媒体”的技术垄断。
  目前国内的主要研究情况如下:北京航空航天大学计算机系主要研究“运动估计”,北京工业大学计算机系主要研究“人脸检测”和“多尺度小波形状描述”,清华大学电子工程系主要研究“MPEG4形状编码的超大规模集成电路实现及超低比特率编码”,清华大学计算机系主要研究“运动补偿”,中科院计算所主要研究“人脸特征抽取和人脸合成”,哈尔滨工业大学计算机系主要研究“人脸识别、检测与合成”、“基于对象的编码”等,微软中国研究院主要研究“分层编码传输”。此外参与单位还有国家信标委、海信、华为、中科院自动化所、香港大学、上海交大、北京邮电大学、北京理工大学、浙江大学等。
  参与MPEG标准研究主要有以下几方面的原因:(1)标准就是知识产权,就是核心竞争力,掌握了标准也就掌握了市场;(2)可以提高我国在这一领域的学术水平和技术水平;(3)具有广告效能,能够提升参与单位特别是企业的“社会形象”——世界知名的大公司一般都参与这方面的研究;(4)把握世界先进技术的发展方向,制定中国在这一高新技术领域的发展规划。
  从目前情况看,我国虽然在MPEG-4标准中取得一些成绩,但相差还很远;MPEG-7方面,虽然北京工业大学曾参加过MPEG国际会议,但由于经费等原因,进展迟缓;至于MPEG-21标准的研究还没有得到足够重视。总的来看,形势比较严峻。

 

来源:《世界广播电视》