Visual abstraction simplifies unnecessary details and precisely presents prominent visual content in the image. It has been widely adopted from cartoon and manga production, illustration, or even simplified map production, etc. With the overwhelming visual data (photo and video) available over the internet, automatic visual abstraction becomes even more crucial for users to efficiently identify the desired information. However, most existing high-quality abstraction results are manually prepared. This demonstrates the ineffectiveness of existing automatic abstraction methods which mainly based on low-level features. In fact, the success of abstraction is highly related to human visual perception. Psychologists already proved that human visual perception does not solely rely on low-level features, but on more complex interaction among various stimuli. In particular, gestalt psychology describes the phenomenon of the human perception in recognizing "form" (gestalt), instead of a set of unrelated primitive points or segments (low-level features). For instance, we perceive a set of collinearly and equally spaced line segments as a continuous line, instead of a set of unrelated dashes. We believe, by computationally modeling the gestalt phenomena, we may identify the middle-level features (gestalts) which in turn should facilitate the subsequent abstraction. As gestalt phenomena describe how primitives are grouped and collectively be identified as a form/object (gestalt), we need a computational method to group the low-level features into gestalts. In this project, we plan to formulate such gestalt-based grouping as a multi-label graph-cut problem, which can be optimally solved by optimization. Our goal is to push forward one step in computational modeling of the human visual perception, from originally relying on low-level features to our proposed middle-level representation. The research findings should eventually benefit several potential applications including image abstraction and summation, image retargeting, computational manga, and location-based services that strongly rely on simplified map production.
图像的抽象化简化了不必要的图像细节,精确地保留下重要的视觉内容,被广泛地运用到了卡通,漫画,插图,以及简化地图等应用中。但是,现有大多数高质量的抽象结果都是人工完成的。随着互联网上海量的图像和视频数据激增,自动的图像抽象化方法变得越来越重要,可令用户更有效地从图像中搜寻需要的信息。现有算法主要是基于低阶的图像特征,效果不能满足要求。心理学家已经证实人们的视觉感知不仅基于低阶的图像特征,更依赖于众多图像元素的复杂交互。格式塔心理学描述了人们综合认知一组表面上没有关联视觉元素,识别结构形状的现象。我们相信,通过对格式塔现象进行计算建模,可以识别中阶的图像特征并将之应用到相关的图像抽象化中。本项目计划将之转化成一个多标签图割分组问题,并用优化算法来求解。本项目的研究成果终将会令该领域许多潜在应用获益良多,包括图像抽象化和概括化,图像尺寸调整,计算漫画,以及依赖于简化地图的诸多基于位置的服务。
随着互联网图像和视频数据的激增,用户需要更有效地从图像中搜寻需要的信息。在卡通、漫画、插图、地图简化等应用中,自动的图像抽象化方法变得越来越重要。本项目对格式塔心理学进行建模,精确地识别图像中重要的视觉内容,提取中阶的图像特征并将之应用到相关的图像抽象和计算动漫中。具体来讲,我们构建了一个通用的计算方法对各种格式塔法则(如近邻性、相似性、连续性等)建立数学模型,并对多种格式塔的交互过程进行建模。对于定量的数学模型,我们通过用户测试用心理物理学的方法对建模结果进行评估和修正。在本项目中,我们还将这些格式塔分析模型应用与图像抽象化的实例中。以尺寸调整为例,我们设计基于视觉感知的图像合成方法,研究格式塔法则及各种格式塔法则交互的数学模型在实际图像分析和处理中的应用。..我们按照原定计划开展了研究,取得了预期研究成果并全面完成考核指标。在科研方面,我们完成了图像视觉元素提取和格式塔建模,将已有的格式塔近邻性法则(Proximity),相似性法则 (Similarity),规则性法则(Regularity)和连续性法则(Continuity)进行建模,并实现智能化的元素分类和组合。与此同时,我们的格式塔交互建模也成功利用多标签图割算法(graph-cut)识别图像元素,并应用于图像抽象和尺寸调整中。试验结果表明,格式塔数学模型和人类识别过程一致,抽象的视觉效果优秀,算法系统的运算性能表现突出。我们的研究(包括知识、出版文献及算法) 填补了格式塔在建模和量化计算方面的空白,促进其在图像分析及抽象化方面的深入研究。..本项目研究成果主要体现为学术论文,预期发表论文10-15篇,SCI或EI收录论文4篇以上,培养博士研究生4名。实际发表国外核心期刊会议论文14篇,SCI收录8篇,EI收录3篇 ;国际和国内学术会议专题报告或讲座8次;培养博士5名,硕士研究生2名。..在财务方面严格按照国际自然科学基金委的要求进行经费支出,总拨款82万元,已花费64.9874万元,结余17.0126万元。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于格式塔理论的局部遮挡目标识别方法研究
格式塔规律的几何推理关键技术研究
面向格式塔空间的地下洞室群安全标识视觉认知机理
基于时频分析与能量法则的长周期结构动力反应特征及破坏机制研究