Pathological voice is mainly caused by various diseases of vocal cords and larynx, which leads anomalies of closure or vibration and some changes of acoustic properties. The performances in clinical are certain degrees of hoarseness and distortion etc.. At present, researchers at home and abroad focus on the diagnosis, analysis and evaluation of normal voices and pathological voices to assist in medical treatment. These studies still haven't achieved the accurate diagnosis of different types of pathological voices. In addition, there are few researches on the recovery of pathological voice. This project tends to study the parameters of pathological voice, taking use of a algrithm which combines adaptive weight distribution and Support Vector Machine (SVM). The purpose is to achieve the segmentation of pathological voice. What's more, according to the deviation of pitch frequency and the exception of resonance peak energy distribution, we use wavelet transform and empirical models of chaotic time series to obtain the estimation and correction of fundamental frequency, as well as Gaussian Mixture Model (GMM) algorithm. At the same time, we take use of Bayesian filtering algorithm to track and modify the resonance peak, and ultimately to repair pathological voice. This study not only has significant academic meanings to the future exploration of vocal learning and laryngology, it also can be directly applied to fields of speech communications and speech recognition systems with extensive application prospects.
病理嗓音主要是由于声带和喉的各种疾病导致其闭合或振动异常而发生,致使其声学性质发生改变,在临床上表现出不同程度的声音嘶哑、失真等。目前国内外关于这方面的研究侧重于正常嗓音与病理嗓音的诊断、分析和评价来辅助医学治疗,并未实现不同病理嗓音种类的精确诊断,也鲜有病理嗓音修复方面的研究。本项目拟研究表征病理嗓音特征的参数,采用自适应权重分配与支持向量机相结合的算法,实现病理嗓音的细分。并依据基音频率偏离和共振峰上的能量分布异常,采用小波变换与混沌时间序列经验模型并结合混合高斯模型算法实现基频的估计和修正,对共振峰则采用贝叶斯滤波算法进行跟踪及修正,最终实现病理嗓音的修复。这项研究不仅对嗓音学和喉科学的深入探索有重要的学术意义,并可直接应用于语音通信和语音识别系统等诸多领域,具有广泛的应用前景。
尽管目前有多种方法用于喉科疾病方面的医学研究及诊断,但是大都为侵入性的检查方式,对患者会造成一定的痛苦及损伤。而声学分析方法通过深入研究嗓音中所包含的各类参数,实现非侵入性识别嗓音疾病,为后续的确诊及治疗争取宝贵的时间。. 通过本项目开展,在病理嗓音非线性特征提取及优化、病理嗓音细分识别及病理嗓音共振峰修复等诸多方面都开展了卓有成效的工作。提出了一种采用感知语谱结构边界参数(PSSB)的病理嗓音端点检测算法及感知听觉场景分析的缺失数据特征提取方法,实验表明该方法能够更有效地检测出语音的端点及提高语音信号的鲁棒性,为在医院嘈杂的环境下采集病人的嗓音提供了良好的环境基础。. 在特征参数提取方面,所提出的巴克滤波器组及最大李雅普诺夫指数下的非线性特征提取方法已申请国家发明专利并授权。而将Gammatone听觉滤波器组和非线性时间序列分析结合提出了MBLLE特征参数,识别率有了显著的提高,将MBLLE和最优核函数结合最佳识别率可提升至97.82%。同时通过研究发现目前传统声学参数结合模式识别算法对嗓音疾病细分识别率较低,故根据实际发声机理,提出了一种建立发声动力学模型辅助息肉和麻痹喉声源分类的方法。根据最大李雅普诺夫指数随声门下压变化的差异性分布,有助于识别并分类声带息肉和声带麻痹。此外又通过声带动力学模型参数反演方法,从发声机理角度对声带病变嗓音进行有效区分。. 在嘶哑嗓音修复领域,所提出的扩展型双线性变换法将嗓音转换方法有效减小了转换语音与正常语音的谱失真距离, 进一步提高转换语音音质和可懂度。而所提出的采用线谱对分段定值偏移的方法,通过实验表明修正后的线谱对参数较修正前相更接近于正常嗓音。. 此外,与苏州大学附属第一人民医院合作共建了苏州大学病理嗓音数据库,为国内首个较为完整的病理嗓音数据库,为本项目的实验样本需求提供了有力的支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于余量谐波平衡的两质点动力学系统振动频率与响应分析
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
语言嗓音发声类型声学研究
基于非线性方法探讨病嗓音和病理声带振动的发生机制
汉语普通话嗓音声学研究
戏曲嗓音发声类型声学分析及建模研究