大规模场景图像的情感语义分析若干关键技术研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 研究背景与意义

1.1.1 研究背景

近年来,随着互联网和多媒体技术的飞速发展,大数据时代悄然而至。全球数字媒体资源数量正以惊人的速度增长,每天都会产生数以万兆字节的图像。作为一种蕴含丰富语义的信息载体,图像蕴藏着比文本更丰富的信息,其本身易于超越文化、种族和时间障碍,传递更丰富的情感和意境。因此,如何使用计算机提取图像的情感语义信息因其直接影响图像的检索效率而在众多的研究和应用领域引起了广泛关注。为了有效地组织和管理这些海量的图像,人们急需获取图像的情感语义检索各类图像库,从而使得检索结果更加符合人们对图像的实际理解。场景图像是人们在日常生活中最常见的一类图像,对其进行情感语义分析和检索技术研究是实现各类图像情感语义检索的基础,其目标是从用户对图像理解的角度出发,即从情感语义层面,迅速、准确地从海量图像数据中找到所需要的图像数据,最终达到满足用户需求的目的。一直以来,对场景图像没有一个统一的定义,比较经典的是Henderson和Hollingworth 1999年在High-level scene perception一文中将场景图像定义为“由空间分布合理的背景和离散的物体构成真实环境的连贯图像”[1]。从这个意义上讲,场景图像一般由背景和物体两部分组成。图1-1是SUN Database[2]中已经标注的部分场景图像,可以看出,该数据库只对场景图像中的背景和物体进行了标注,从而也只能按照图像中的背景和物体进行检索。事实上,“触景生情”,当人们看到一幅图像时,就会油然而生不同的情感,从情感层面去理解看到的图像。但目前SUN Database以及其他一些常用图像库、还有一些自建图像库大多是按照图像的背景及图像中包括的物体对象进行标注、分类、检索的,这样导致检索的结果有时会与人们的需求大相径庭。例如,图1-1中的(8)和(9)、(19)和(20),它们的标注结果完全一样,但人们观察这两组图像时,产生的情感和对它们的理解可能是完全不一样的。面对越来越多的场景图像,人们更多地需要分析场景图像的情感语义,实现高效的情感语义检索。

图1-1 场景图像示例

Fig.1-1 The Examples of Scene Images

20世纪70年代,主要使用的是基于文本的图像检索(Text-based Image Retrieval, TBIR)方法,利用文本描述的方式表示图像的特征[3]。其本质是手工对图像进行标注,然后利用数据库管理系统的查询机制,用查询关键字与图像库中标注的词语进行匹配完成检索。在早期Internet环境下,百度、Google、Yahoo等搜索引擎采用的都是TBIR技术,优点是使用成熟的文本检索和搜索引擎技术,实现简单;缺点是手工标注的准确性差,不能满足用户对图像原始特征信息的检索,更不会满足用户从情感语义的角度理解图像的需求。其检索流程[3]如图1-2所示。

图1-2 基于文本的图像检索流程

Fig.1-2 The Flow of Text-based Image Retrieval

这种传统的检索技术强调的是文本注解,但文本注解主观性较强,也无法涵盖图像的全部内容,而且随着大数据的发展,人工标注文本的工作量日益增大,因此,TBIR技术逐渐成为其他图像检索技术的辅助手段,而不再是图像检索的主流技术。

为了解决TBIR方法因人工标注带来的问题,1998年10月,国际标准化组织ISO/IEC提出了MPEG-7国际标准——多媒体内容描述接口(Multimedia Content Description Interface)的制定,该标准为各类多媒体数据提供了一种与描述内容相关的标准化描述,大大促进了用户对各类多媒体数据的快速查询和访问[4]。20世纪90年代,基于内容的图像检索技术(Contentbased Image Retrieval, CBIR)应运而生,该方法对图像的视觉内容(颜色、纹理、形状等)进行分析并检索图像,其特点是不需要人为干预和解释图像包含的客观视觉特性,而是让计算机自动提取和存储图像特征[5]。图1-3是图像内容的层次模型,CBIR技术利用第2层的低层视觉特征进行检索,特征提取是CBIR系统的基础,在很大程度上决定CBIR系统的成败[6]。当前主要的技术有基于颜色特征的图像检索、基于纹理特征的图像检索、基于形状特征的图像检索和基于空间特征的图像检索等。与TBIR技术相比,CBIR技术在图像研究领域取得了重大突破,它从图像自身的内容出发,更能符合用户的实际需求,因此是目前比较流行的图像检索技术,其关键技术主要集中在研究合理的特征提取方法和相似性度量标准上。

图1-3 图像内容的层次模型

Fig.1-3 The Hierarchical Model of Image Content

CBIR技术在检索时直接比较图像的低层视觉特征的相似度,并未考虑图像的高层语义,而图像的低层视觉特征与高层语义间存在巨大的“语义鸿沟”(Semantic Gap)(图1-3中第2层和第3层之间的差别),且人们在通常情况下是根据情感语义去观察和理解图像的,从而使得CBIR检索方法在实际应用中无法很好地满足用户需求。要架起“语义鸿沟”的桥梁,必须提取图像的高层语义特征。图像的语义检索主要包括对象语义、空间关系语义、场景语义、行为语义、情感语义及更高层的语义的检索。图像情感语义检索的目的就是使计算机检索图像的能力,达到人对图像的真实理解的水平,对图像进行情感语义分析并研究基于情感语义的检索技术目前是数字图像理解领域的一个研究热点,因此针对这一课题的深入研究具有很高的理论价值和广泛的应用前景。

1.1.2 研究意义

场景图像的情感语义分析是图像高层语义理解、模式识别和计算机视觉领域的重要研究内容,在处理许多实际问题中,如图像标注、分类、检索、人脸识别、室外监控、军事侦察等,都需要对场景图像先分析人的情感行为,提取其情感语义特征,然后再通过特征相似度计算等解决实际问题。场景图像情感语义分析的最终目的是使计算机能够表述人们观察场景图像时引起的情感反应。图像的语义从低到高可分为场景语义、行为语义和情感语义三层,其中,场景语义是指图像中包含的场景(如图1-1中的标注结果);行为语义是指图像中包含的物体的行为及所做的活动(如一场联欢晚会等);情感语义是指图像给人们带来的主观感受(如愉悦、生气等),它属于图像语义中的最高层语义[7]。图像情感语义特征的提取以图像低层视觉特征为基础,首先,通过相关的图像处理技术提取图像的颜色、纹理、形状和轮廓低层特征,其次,寻找图像低层特征与高层情感语义的相关性,最后,建立低层特征与高层情感语义的映射关系[8]。许多研究学者都在这方面做了一些积极的探讨研究,但一直未找到合理的情感语义分析方法,目前仍是研究的热点和难点。

近年来,数字图像呈几何级数增长,高效的图像检索方法已成为有效组合和管理图像的关键。图像中蕴含着丰富的语义信息,人们更多地需要按照主观情感检索图像,这就使得图像检索从原来的以图像信息内容为核心的检索转变成以情感语义为核心的检索,实现“以人为主导”的数字图像处理技术,其研究内容涉及计算机视觉、图像处理、模式识别、心理学等多个学科领域,是目前数字图像理解领域面临的重要挑战之一。图1-4(a)和(b)是在百度搜索引擎分别键入“太原理工大学”和“愉快的场景图像”时的检索结果,我们可以看到检索结果中许多图像与我们想要的结果差距很大。

图1-4 百度搜索引擎检索结果示例

Fig.1-4 The Retrieval Results of Baidu Search Engine

图像情感语义检索是数字图像理解领域的高级处理过程,也是图像高层语义自动获取的途径之一,它为人们提供可理解的图像检索,是实现真正实用的多媒体信息检索系统的有效途径。场景图像作为一类最常见的图像数据,研究场景图像的情感语义检索技术是实现其他各类图像情感语义检索的基础,因此有着很强的理论研究价值和广阔的应用前景。