BoVW(Bag-of-Visual-Words) is the state-of-the-art algorithm in the semantic-based visual retrieval domain. So far, visual words generated by K-Means and similarity measure based on Euclidean distance have achieved advantageouos performance. However, K-Means clustering algorithm has some deficiencies, such as visual word synonymy, polysemy, high computational cost and not supportive of scalability, the maximum and minimum Euclidean distance between any two points tend to be equal in high-dimensional space, which suppress the performance. Locality Sensitive Hash(LSH) is adopted as a new semantic-based visual retrieval model for its good performance in high-dimensional space retrieval task. This project mainly study on semantic-based image retrieval based on LSH, including: development and improvement of LSH, distance metric learning, and visual language model,etc. On one hand, the distinctness of visual words is enhanced and recognition rate and scalability are improved by LSH; On the other hand, the robustness of the model and algorithm is boosted by integrating spatial structure similarity matching and distance metric learning into LSH, resulting in good performance in complicated situation. Research of above technologies brings new vigor into the semantic-based visual retrieval development.
视觉词典法是图像语义检索的主流算法,采用K-Means聚类产生视觉词典的方法虽然获得了较为优越的性能。但是存在同义性、多义性、计算效率低、不支持动态扩展、相似性度量效果差等缺点,因此还很难满足实际应用所提出的准确性、鲁棒性和速度要求。位置敏感哈希由于在高维向量搜索的优良性能被作为一种新型的视觉语义检索模型。本项目主要研究基于位置敏感哈希的图像语义检索技术,搭建面向真实网络数据集的图像语义检索原型平台,具体包括:位置敏感哈希的拓展与改进,学习式度量、视觉语言模型等视觉语义检索算法。一方面通过位置敏感哈希的拓展和改进,使得视觉词典区分性更强、识别率更高、具有可扩展性;另一方面将视觉语言模型和学习式度量等多种方法整合到随机映射中,提高模型和算法的鲁棒性,使得视觉语义搜索系统在复杂情况下仍然能够保持良好的性能,为图像语义检索技术的整体发展提供新的研究思路和研究方法。
随着互联网的迅速发展,图像和视频的数量急速增加。如何从图像中提取语义用于图像检索,是近年来多媒体计算领域的热点和难点问题。基于K-Means聚类的视觉词典法是图像语义检索的主流算法,但是存在计算效率低、相似性度量效果差等缺点。该项目主要对位置敏感哈希应用到图像语义检索中面临的部分共同问题和难点问题展开研究。具体研究内容和执行情况如下:.1)基于位置敏感哈希的视觉词典的描述形式和生成方法.研究了位置敏感哈希技术应用于视觉聚类的内在机理,提出了基于位置敏感哈希的图像聚类方法,进而提出了基于E2LSH的集成式位置敏感聚类、基于二进制哈希、基于哈希编码和二进制k-means的视觉词典生成方法。实验表明,上述方法降低了由于LSH的随机性导致的词典的不确定性,提高视觉词典的区分性和可扩展性。.2)基于局部特征的图像语义表达和相似性度量方法.在视觉单词相关性方面,提出了基于近义词自适应软分配和卡方模型的图像语义表达方法,增强视觉词典的语义分辨能力;在度量式学习方面,提出了基于深度学习模型和位置敏感哈希的图像检索方法,更好地反映图像视觉相似程度;在视觉语言模型方面,利用空间金字塔与视觉词典进行结合,弥补了局部特征空间信息的缺失。.3)以快速和准确为目标,研究面向真实网络数据集的图像语义检索方法.在搜集网络真实数据的基础上,编程实现了基于位置敏感哈希的图像语义检索原型平台,实现了图像检索核心算法的模块化,并且能够方便有效的对各种方法进行应用评测。.迄今为止,在本基金的资助下,课题组共发表或录用了学术论文15篇,其中中文核心期刊3篇,英文期刊2篇,英文会议6篇,5篇被SCI/EI收录。培养硕士研究生2名。在研究成果的产业化应用方面,部分研究成果应用于中国移动、金惠等内容安全企业。本项目圆满完成预定要求,其研究成果为图像语义检索技术的整体发展提供新的研究思路和研究方法,对于推动海量数据集下的图像搜索和图像过滤应用具有重要意义和实用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
掘进工作面局部通风风筒悬挂位置的数值模拟
敏感性水利工程社会稳定风险演化SD模型
基于深度语义哈希的大规模图像检索算法研究
面向社交网络图像快速检索的语义哈希算法研究
面向社交图像检索的语义迁移离散哈希方法研究
查询引导的位置敏感哈希