保留话者特征的中远距离水声语音通信关键技术研究

基本信息
批准号:61302109
项目类别:青年科学基金项目
资助金额:28.00
负责人:肖东
学科分类:
依托单位:中国科学院声学研究所
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:贾宁,戈弋,黄建纯,李军,杜林
关键词:
低码速率语音编码水声通信保留话者特征
结项摘要

In underwater acoustic speech communication, the bit rate of vocoder is affected by many disadvantages in underwater acoustic channel, such that the speech quality is also restricted. Usually, the low bit rate vocoders just meet the need of semantic comprehension. The individual characteristics of speakers can not be kept. In general, the bit rate of usual vocoders with retention of speakers' characteristics exceeds 1kbps, which is relatively higher for medium or long distance (>10km) underwater acoustic communication. This project considers that the relatively long time delay of underwater acoustic propagation provides conditions for buffering longer speech signal to sufficient processing. This project plans to refer to parametric speech coding algorithms and refine types of speech signal according to auditory perception features. The limited coding bits will be assigned to the types of speech signal, which contributes more for auditory perception and carries more individual characteristics of speakers, as many as possible. The feasibility of using compressed sensing method to quantize the speech parameter matrix will be investigated. An effective combination point of variable bit rate vocoder and the existed underwater acoustic communication system will be searched for, in order to increase the bandwidth utilization rate as much as possible. An underwater acoustic speech communication system applicable for medium to long range with retention of individual characteristics of speakers will be realized at last. This project will provide theoretical basis and technical foundation for high-fidelity underwater acoustic speech communication.

水声语音通信中,水声信道中各种不利因素限制了语音编码速率,进而制约了话音质量。目前常见的低码速率语音编码算法通常只满足理解语义的要求,难以保留说话人特征。而可以保留说话人特征的语音编码算法的编码速率一般在1kbps量级以上,对于中远距离(>10km)水声语音通信来说偏高。本项目考虑到水声传播的时延较大的特点,为缓存较长时间的语音信号进行充分处理提供了条件。本项目计划以参数语音编码算法为参考,根据听觉感知特性细化语音信号类型;将有限的编码比特数尽可能多的分配给对听觉感知贡献的大和携带说话人特征的多的语音信号类型;考察采用压缩感知的方法对语音参数矩阵进行量化的可行性;寻找该变速率语音编码算法与现有水声通信系统的有效结合点,尽可能的提高带宽利用率。最终实现一个保留说话人特征的适用于中远距离的水声语音通信系统。为高话音质量的水声语音通信提供理论依据和技术基础。

项目摘要

水声语音通信中,水声信道中各种不利因素限制了语音编码速率,进而制约了话音质量。目前常见的低码速率语音编码算法通常只满足理解语义的要求,难以保留说话人特征。而可以保留说话人特征的语音编码算法的编码速率一般在1kbps量级以上,对于中远距离(>10km)水声语音通信来说偏高。.为降低编码速率,以混合激励线性预测编码为基础,缓存若干帧语音信号之后,将语音帧细化为静音、清音、浊音、过渡四大类后分别精简处理。设计了低码率语音编码(<1kbps)算法,并提出了一系列检测与处理过渡音征的方法。以PESQ MOS评分作为参考进行分析后得出如下结论:不同的过渡音征对人耳听觉感知的贡献也不同。由清、静音向浊音变化的过渡音征对人耳听觉感知的贡献最大;介于浊辅音与元音之间的过渡音征也不应被忽略。对编码结果填充无效数据进行分帧,并使用可选CRC的方式进行校验。该方法在10-3以下的误码率可以获得较好的清晰度、可懂度并保留了说话人特征,并已经形成可与现有水声通信系统兼容的dll文件,嵌入其中,并进行了海上试验。该语音编码算法可用于网络语音聊天以及长时间群语音记录存储设备。.为了解人耳如何通过说话人特征辨别说话人。选取不同说话人所说的同样内容的语料,将这些语料进行手工音节对齐。混合不同说话人的声道响应参数和声源激励参数,生成混合语料。请57位被试逐一听取原始语料和混合语料,辨别其说话人。实验证明:人耳在听辨说话人时,并不单一的依靠声道响应特征或声源激励特征,而是根据不同说话人特征的差异。根据实验数据,我们提出了一个声源激励特征与声道响应特征差异比的参数与一个阈值:当差异比小于该参数时,声道响应特征对人耳听辨说话人起决定性作用;当差异比大于该参数时,声源激励特征对人耳听辨说话人起决定性作用。该结果可用于指导机器进行说话人识别。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
2

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
3

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019
4

空气电晕放电发展过程的特征发射光谱分析与放电识别

空气电晕放电发展过程的特征发射光谱分析与放电识别

DOI:10.3964/j.issn.1000-0593(2022)09-2956-07
发表时间:2022
5

三级硅基填料的构筑及其对牙科复合树脂性能的影响

三级硅基填料的构筑及其对牙科复合树脂性能的影响

DOI:10.11951/j.issn.1005-0299.20200093
发表时间:2020

相似国自然基金

1

水声语音通信性能的实时感知方法与关键技术研究

批准号:61771412
批准年份:2017
负责人:高春仙
学科分类:F0107
资助金额:55.00
项目类别:面上项目
2

水声传感器网络中水声通信关键技术研究

批准号:60672118
批准年份:2006
负责人:黄海宁
学科分类:F0103
资助金额:8.00
项目类别:面上项目
3

浅海水声通信网通信节点关键技术研究

批准号:60772141
批准年份:2007
负责人:胡晓毅
学科分类:F0103
资助金额:29.00
项目类别:面上项目
4

低功耗物联网中远距离并发传输关键技术研究

批准号:61802309
批准年份:2018
负责人:徐丹
学科分类:F0208
资助金额:27.00
项目类别:青年科学基金项目