基于视觉的手势分析与理解是实现新一代人机交互的关键技术,而复杂环境下的手势分割以及手部细节的恢复一直是手势分析实用化的瓶颈问题。本项目面向手势分析与理解问题,从融合2D图像表观信息和3D深度信息的有效特征表示出发,利用所提出的基于判别式的像素点前、背景初始概率图计算方法,结合图分割优化,以期实现适应复杂光照和背景变化的快速可靠的手势分割。手部3D深度信息的重建是手部细节恢复的难点和关键问题,本项目拟以像素点的显著性为依据,采用分级重构策略,构建一种适合纹理稀疏目标的立体视3D信息快速重建算法,对平坦纹理区域像素点,自动选择不同尺度意义上的邻域显著性点,以丰富所在区域的纹理信息,实现视图间的准确快速的配准。在获取精确的手势分割与手部细节基础上,本项目进一步探索一种融合视点与手指信息的3D空间交互目标定位新方法,以期实现基于手势的自然高效的人机交互。
本项目面向复杂环境下的手势分割以及手势分析问题,以手势、手语的识别为例展开研究。从融合2D 图像表观信息和3D深度信息的有效特征表示出发,对跟踪、分割问题和框架进行研究,以期实现适应复杂光照和背景变化的快速可靠的手部跟踪和手势分割。通过对融合2D和3D的特征表示的研究,我们设计并实现了新的手势和手语识别算法。具体来说,重要的研究点总结如下:(1) 在手部分割方面,利用立体视照相机,提出一种结合肤色先验和视差竞争的手部分割方法。其核心思想在于:人手部像素一定是肤色像素,而主图像中的人手像素依照人手平均视差提示一定比依照背景视差提示在副图像中更可能找到对应像素。(2)在跟踪方面,提出深度限制的表观特征建模及跟踪方法。所谓深度限制,即认为跟踪目标的深度是平滑连续的,因此,通过深度限制可以有效区分前景、背景,进行紧致有效的建模,从而改善跟踪性能。(3)在手势交互方面,提出基于运动历史图的手势识别方法,该特征是从深度数据中提取到的,利用运动历史图对图像进行编码,并对这些运动历史图进行构造组合,形成多个子运动集,进行最终的识别。(4)在手语识别方面,我们提出一种基于多通道信息的稀疏表示来对手语词汇进行描述。从人类认知学的观点出发,将层次模型用于最终的识别以有效提高计算效率。通过观察,我们发现,手语的绝大部分视觉信息集中在运动速度相对较慢的部分,因此我们只利用关键手型片段来对手语词汇的外观进行建模,并通过融合全局轨迹信息来实现手语词汇的完备表示和识别。.基于已有的研究工作,我们搭建了两个典型的系统,分别简述如下:(1)基于Kinect的手势控制的PPT浏览系统:其可以有效检测出用户的五种有效动作(PPT前、后翻页,文档上、下翻页,内嵌视频播放操作)并进行识别,从而触发PPT系统进行相应的操作。(2)3D手语识别系统:该系统可有效识别370个孤立手语词,并对限定句子集合的手语句子进行识别。通过引入Avatar和3D手语合成,可以实现残疾人和正常人的有效交流。.总体来讲,被本基金资助的已发表论文共计15篇,包括3篇期刊文章,12篇会议文章;已授权专利2项;除此以外,还有1篇软件学报论文,即将刊出,另有在投论文3篇。在学生培养方面,项目相关的1名博士生、1名硕士生已经顺利毕业。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
2D/3D视觉信息融合仿生SLAM关键问题研究
基于手势自然交互的增强视域信息感知融合机理研究
保持全局形状和视觉舒适度的2D和3D媒体适应方法研究
基于2D视频视觉关注度的3D重建方法研究