Switchbox 中国

【技术文章】

媒体资源管理系统中的关键技术——视频素材语义自动提取技术
奥维迅科技有限公司

关键词：检索　视觉特征　语义提取　　近年来，各类音像制作播出单位已意识到一些历史性视音频资料是一笔重要的财富。利用新技术来保护和挽救这些珍贵的历史资料已成为可能。奥维迅公司研发的“奥维迅精鼎媒体资源管理系统”，可谓智能化海量媒体资源管理系统。它采用海量的数字化、数据化存贮方式，以解决大量视音频素材的保存问题；并采用多种编目标引和智能视觉特征信息管理，以有效地解决海量信息的管理、检索和再利用问题。采用基于视频特征信息的智能检索，有别于传统基于分类和关键词的查询技术，其核心是视频素材语义自动提取技术。　　对于一个给定对象的大型集合，选择满足某些指定准则的子集，是信息检索的一个中心问题。在传统视频信息检索手段中，常用方法是采用文本信息来标引媒体对象，并在标引文本信息和媒体对象之间建立某种关联，然后将标引信息存入关系数据库，并对之进行有效的管理和检索操作，从而达到检索视频信息的目的。从逻辑上讲，这种方法主要突出文本注释信息，但对重要的数据却没有给予充分的考虑。　　采用基于视频内容的检索可以解决上述问题。基于内容的检索是指根据多媒体对象的语义、特征进行检索，如图像中的颜色、纹理、形状，视频中的镜头、场景、镜头的运动，声音中的音调、响度、音色等。基于视频内容的检索具有以下特点：　　(1)从媒体内容中提取信息线索。基于内容的检索直接对图像、视频、音频内容进行分析，抽取特征和语义，建立索引并进行检索。　　(2)基于内容的检索是一种近似匹配。它一般采用相似性匹配的方法逐步求精，以获得查询结果，这是一个迭代过程。与常规数据库检索中的精确匹配方法不同。　　(3)大型数据库的快速检索。　　与模式识别、图像处理及计算机视觉等学科的重要区别在于，基于内容的检索技术是一种信息检索技术，能从大型分布数据库中，以用户可以接受的响应时间查询到所要求的信息。视频息特征　　根据视频息的特点，可以将其特征分为低层次的视觉特征信息和高层次的语义内容属性。视觉特征信息包括图像的颜色、纹理、形状、镜头的运动等属性；高层次语义特征包括人物、地点、事件、情节等属性。视觉特征　　颜色　　颜色特征包含两方面的内容：全局颜色分布和局部颜色信息。前者应于图像全局的颜色直方图统计；后者对应于局部相似的颜色区域，考虑了颜色的分类与一些初级的几何特征。颜色特征易于提取，计算简单，是一种直观而又易于处理的视觉特征。　　纹理　　图像可以看成是不同纹理区域的组合，纹理通常定义为图像的某种局部性质，或是对局部区域象素之间关系的一种度量。纹理特征可用于定量描述图像中的空间信息它通常与物体的位置、走向、尺寸、形状有关，但与平均灰度级无关。可分为统计纹理特征、频谱特征和结构特征。　　形状　　一般地，形状特征表示分为两类，即边界轮廓表示和区域表示。前者只用于某个形状的外轮廓，而后者使用全部区域。基于形状特征的检索方法主要有两种：一是分割图像经过边缘提取后得到目标图像的轮廓线，并针对之进行的形状特征检索；二是直接针对图形寻找适当的矢量特征用于检索算法。通常，在采用形状特征进行检索时，用户首先勾勒出图像的形状或轮廓，然后从图像库中检出形状类似的图像。镜头运动特征　　镜头的运动特征包括镜头的持续时间、镜头内容的活动性，以及摄像机的运动轨迹或运动方向等。这涉及活动视频运动特征分析、跟踪、理解等各方面技术，是体现视频时基特性的一个重要方面。语义特征视频素材除包含视觉特征外，还包含一些更便于人们理解、接受的高级语义特征。这些特征主要有：　　文字　　在视频中，会存在一些标题文本或包含于对象上的非标题文本。这些信息对理解视频内容、建立索引结构和检索有很大的帮助。例如，在电视节目中，新闻的标题、节目的内容、播出时的时间、旁白、节目后的致谢、工作人员名单等，通常都是以视频字符形式出现的。显然，合理利用这些信息可以为视频流建立有效的索引结构。尤其是新闻、记录片、体育比赛等节目，这些文本信息通常用来说明这段视频素材的主要内容。因此，利用这些文本信息来提取视频语义特征更加有效。　　人脸　　人脸是人的一个重要特征。辨别视频中出现的重要目标是理解视频内容的关键步骤。无论是电视新闻、还是电视剧，人都是最重要、最常见的目标。因此，如果能够自动检测视频图像中出现的人脸，进一步分析其表情并予以识别，就可以容易地理解和描述视频内容。　　伴音　　视频中的伴音是一种重要的高级语义提取的信息源。视频是图像和声音的结合体。目前的语音识别技术，可以使得声音信息有效地转化成文字信息，进而可以从文字中提取对应于声音片段的画面片段的内容特征。特别是新闻节目，播音员的伴音就是对该新闻素材的一个准确而凝练的描述。视觉特征计算　　颜色特征　　一般用颜色直方图表示。一幅图像的颜色直方图是一个N维矢量，其横轴表示颜色等级，纵轴表示在某一个颜色等级上具有该颜色的象素在整幅图像中所占的比例。直方图描述对于图像的旋转、平移来说是不变的，但它不能反映图像中对象的空间特征。在使用直方图的图像索引技术中，特征矢量是直方图，它用作索引项，相似度计算是在直方图空间中进行。　　纹理特征　　所有视觉表面都具有纹理特征，它包含体结构及其与周围环境的关系等重要信息。表示纹理特征的方法有：　　(1)灰度共生矩阵。它在灰度图像象素距离和方位的基础上产生，从矩阵中可抽取有意义的图像纹理特征。　　(2)Tamura纹理特征。Tamura以人的主观心理度量为标准，提出了六个基本的纹理特征，包括：粒度、对比度、方向性、线度、周期性、粗糙度。和共生矩阵相比，Tamura特征的物理含义更加明确，因此得到广泛应用。　　(3)小波变换。利用统计学方法从小波变换中抽取表征纹理的特征。小波变换还可与其他方法结合使用，以达到更好的效果。　　形状特征　　分为全局特征和局部特征。目前，形状特征最成功的表示方法是傅立叶描述子和矩不变量。　　全局特征由整个形状计算出来，有：圆度、中心矩、主轴方向、偏心率等。一般地，全局特征对失真来说是鲁棒的，但是它不能处理遮挡等问题。局部特征由部分形状计算得到，它不依赖于整个形状，有：连续线段的长度和方向、曲线的点、角点、转弯的角度等，可以对付遮挡情形，但是对噪声敏感。　　运动特征　　视频运动分析是图像处理、计算机视觉和信号处理等多种学科的重要研究课题，也是目前的热点问题。通常，视频序列中的镜头运动特征可以分为像机运动和目标运动两大类，在进行检索时，用户提交要检索像机运动类镜头还属目标运动类镜头，以实现基于运动特征的检索。运动估计算法主要分为离散方法和微分方法两类，前者采用特征点的运动参数估计方法，后者使用光流场的运动参数估计方法。高级语义提取技术　　文字识别　　数字视频中包含大量的文字信息，可以分为两大类：一类是通过字模机人工加到视频中的“图形文字”，如电视新闻中的标题等；另一类是存在于场景中的“场景文字”，如路牌上的街道名、标语等，这类文字往往由于摄像机的透视投影作用而发生形变。对于视频流中文字的探测与识别，一般都是针对前者进行的。视频字符识别是一项用来自动提取和阅读电视新闻节目标题的重要技术，在其基础上，再结合其它视频理解技术，可以提高对视频内容的整体理解程度。然而，和普通印刷体光学字符识别(OCR)不同，视频字符识别面临两大技术难题：　　(1)很低的分辨率。由于电视制式的限制，视频标题的分辨率不可能太大。　　(2)复杂多变的背景。字符通常叠加在复杂背景之上，有时候字符和背景具有类似颜色，有时候字符区域呈半透明状态，因此不易区分字符和背景，难以实现字符分割。文字识别通常的技术路线有：　　(1)文字区域检测。利用文字的一些先验知识可以减少计算的复杂度。例如在电视新闻节目中，一个典型的文本区域可以看成一个水平矩形区域，其中有很陡峭的边缘，字符与背景之间有显著差异。　　(2)改善字符区域的图像质量。利用双线形插值方法，可以将水平和垂直方向的分辨率分别提高2或4倍，然后用多个连续图像帧综合方法提高插值后的图像质量。一般情况下，字符亮度不变而背景变化，因此可以利用这个特点综合几帧相继图像，以提高字符区域的图像质量。　　(3)字符抽取。对字符区域的图像进行二值化处理，然后分割出每个字符。　　(4)字符识别。采用目前比较成熟的印刷体字符识别技术进行识别。　　人脸识别　　目前，已存在多种人脸识别技术，如神经网络、变形摸板、特征脸等。对于视频，通常人们更重视人脸的检测技术。由于视频内容的多样复杂性，给人脸的检测带来困难，像人脸的数目、位置、方向没有限制，背景通常较复杂等。　　现在有人提出一种MPEG压缩域视频流上的高效人脸检测技术，该算法包括三个阶段。首先，算法利用训练数据获得肤色在Cb-Cr空间上的统计分布，基于该统计分布信息在探测时利用贝叶斯最小风险决策算法区分某一点是否为候选的人脸区域，于是会产生一个二值掩码图像，其中“1”代表候选的人脸区域，“0”为非人脸区域。经过上面的处理，可能会产生许多假判断，因为在视频帧中可能存在的其他裸露人体部分也同样具有肤色，另外一些复杂的场景中也可能存在具有类似肤色的景物。所以，算法在第二阶段采用人脸的形状特点等先验知识过滤掉假脸。最后，算法对第二阶段产生的候选人脸区域进行能量分布检查过滤掉假脸。主要是基于人脸存在眼、鼻、唇、齿的缘故，使得在垂直方向上比水平方向上存在更多的能量。　　语音识别　　相对于视频内容分析、理解技术，语音识别技术走在了前列，并早已进入实用阶段。目前，比较流行的语音识别引擎主要是IBM的ViaVoice，一些相关的应用产品也主要是在该引擎上开发而成。计算机语音识别过程与人对语音识别处理过程基本一致。　　目前，主流语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统大致可分为三部分：　　(1)语音特征提取。其目的是从语音波形中提取随时间变化的语音特征序列。　　(2)声学模型与模式匹配(识别算法)。声学模型通常将获取的语音特征通过学习算法产生，在识别时将输入的语音特征同声学模型(模式)进行匹配与比较，得到最佳识别结果。　　(3)语言模型与语言处理。语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。　　通过对以上三个方面的处理，可以完成语音信息到文本语义信息的转换，以及一个语音自动识别过程。　　事实上，限于目前计算机视觉与视频分析的现状，单纯依赖视频信号对视频内容的分析和理解将有一定的局限性，所以应该尽量利用多种不同的信息源，如视频帧、音频、文字、特定应用的背景及先验知识，采用广泛的技术途径，如计算机视觉、视频分析、语音识别、话者识别、自然语言理解、人脸探测与识别及文字探测与识别等，来实现对视频内容的更广泛深入的理解与描述，从而实现各种视频信息的语义特征信息自动提取，轻松完成媒体资产管理中视频素材的自动标引和检索。

	来源：《世界广播电视》