Semantics is the main object of whispered speech perception. This project plans to study on the characteristics representation and model optimization method of Chinese whispered speech perception. Based on the peripheral auditory pathway and auditory neural processing mechanism, the auditory cortex perception spectrum of whispered speech is represented. Then the low dimensional characteristics with topological structure of whispered speech is obtained by nonlinear dimension reduction method. A method is proposed to improve the discrimination and robustness of the above characteristics based on strengthening the time axis wight of topological structure characteristics and non-semantix information suppression locality preserving projection. A kind of corpus construction mode is put forward. The corpus consists of three sub-corpus which are called: "mother corpus", "family corpus" and "society corpus". The initial acoustic model, which is obtained by training the annotated "mother corpus" and "family corpus", is used to recognized the unannotating data of "society corpus". We propose a confidence measure criterion based on whispered speech features and the data with low confidence measure is returned. The feedback data is annotated to train and optimize the initial model, which can reduce the manual annotataion cost and optimizate the regional model. This research aims to establish a whispered speech perception system based on the auditory spectrum dimension reduction characteristics and active learning model. This research is significant for auditory perception theory and its realization methods can be widely used in human machine interaction system, national security system, medical system and some other fields. The research also have reference value for normal speech recognization and speech enhancement.
语义是耳语音感知的主要目标。本项目拟研究耳语音感知中特征表示及模型优化方法。本项目根据外围听觉通路和听神经处理机制,提取耳语音听觉皮层感知谱,并非线性降维得到耳语音拓扑结构低维特征。提出通过加强拓扑结构时序性和非语义信息抑制的局部保距投影方法提高特征的区分性和稳健性。提出"母亲库"、"家庭库"、"社会库"的语料建库方式。首先用已标注的"母亲库"和"家庭库"训练初始声学模型,进而由初始模型对未标注的"社会库"进行识别,根据所设计的符合耳语音特征的置信度计算方法,选择低置信度样本反馈作标注后对模型进行优化训练,达到降低样本标注工作量和模型区域优化的目的。本研究拟建立一个基于听觉谱非线性降维拓扑结构特征和反馈式学习模型的汉语耳语音感知实验系统,并进行测试分析。本研究不仅对听觉感知理论深入探索有理论意义,而且在物联网人机交互、安全、医学等领域有实际应用前景,对正常语音识别以及语音增强也有参考意义。
耳语音是一种特殊的发音模式。人们在某种特定场合下为了避免影响他人而使用耳语进行手机通话,国家安全部门安全保密工作及侦察与反侦察的需要,金融部门保障客户的私密信息及身份认证的需要,嗓音病人或发音功能不正常者进行的语音交流等。耳语音由于音量低,无基频,其分析方法有别于正常语音,本项目主要研究数字耳语音识别方法。取得以下研究成果:(1)耳语音的端点检测是系统识别性能的关键环节。根据耳语音的特性,本项目提出一种邻域极值差分信号功率谱的分形维值算法,用于低信噪比环境下的语音活动检测。该方法在语音端点检测和效率两方面具有良好的综合性能。(2)耳语音的声调估计是一个难题。考虑声道参数与激励之间的协变关系建立了一个语料一致的耳语音和正常语音数据库,该数据库中耳语音和正常语音的说话人、语音内容、语序完全一致。将耳语音的线性预测倒谱参数、正常语音线性预测倒谱参数和基频参数对齐,将其划分为40个区间,对每个区间的数据训练一个高斯混合模型并得到一个估计函数。估计阶段,提取耳语音的线性预测倒谱参数,将其与每一个高斯混合模型匹配,搜索最佳匹配的模型,然后采用该模型的估计函数估计耳语音的F0值。(3)耳语音和正常音的许多不同点,本项目比较了汉语数字正常音和耳语音的声学特征,分析了正常音和耳语音的数字区分度,同时建立了一个汉语数字语音识别系统,比较了耳语音和正常音的识别率。在相同特征的情况下,无论是孤立字之间的区分度还是最终识别率,耳语音的效果都不如正常语音。为改善识别率,根据特征距离的特点找到数字耳语音中易混淆发音,并进一步采用多级判据进行识别。(4)本项目对耳语音提取听觉感知频谱以改善识别率。根据皮层表征模型,对耳语音信号的能量谱在不同尺度和朝向进行卷积并滤波。进一步对特征做稀疏平均和降维,此特征可保留信号听觉谱的拓扑结构,对于数字耳语音识别率有比较明显的改善。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于分形维数和支持向量机的串联电弧故障诊断方法
基于空间听觉感知的双耳语音分离和识别关键问题研究
神经网络在非特定人汉语孤立音识别中的应用
汉语隐喻理解关键技术研究
汉语抽象意义表示关键技术研究