保留话者特征的中远距离水声语音通信关键技术研究

基本信息

批准号：61302109

项目类别：青年科学基金项目

资助金额：28.00

负责人：肖东

学科分类：

依托单位：中国科学院声学研究所

批准年份：2013

结题年份：2016

起止时间：2014-01-01 - 2016-12-31

项目状态：已结题

项目参与者：贾宁,戈弋,黄建纯,李军,杜林

关键词：

低码速率语音编码水声通信保留话者特征

结项摘要

In underwater acoustic speech communication, the bit rate of vocoder is affected by many disadvantages in underwater acoustic channel, such that the speech quality is also restricted. Usually, the low bit rate vocoders just meet the need of semantic comprehension. The individual characteristics of speakers can not be kept. In general, the bit rate of usual vocoders with retention of speakers' characteristics exceeds 1kbps, which is relatively higher for medium or long distance (>10km) underwater acoustic communication. This project considers that the relatively long time delay of underwater acoustic propagation provides conditions for buffering longer speech signal to sufficient processing. This project plans to refer to parametric speech coding algorithms and refine types of speech signal according to auditory perception features. The limited coding bits will be assigned to the types of speech signal, which contributes more for auditory perception and carries more individual characteristics of speakers, as many as possible. The feasibility of using compressed sensing method to quantize the speech parameter matrix will be investigated. An effective combination point of variable bit rate vocoder and the existed underwater acoustic communication system will be searched for, in order to increase the bandwidth utilization rate as much as possible. An underwater acoustic speech communication system applicable for medium to long range with retention of individual characteristics of speakers will be realized at last. This project will provide theoretical basis and technical foundation for high-fidelity underwater acoustic speech communication.

水声语音通信中，水声信道中各种不利因素限制了语音编码速率，进而制约了话音质量。目前常见的低码速率语音编码算法通常只满足理解语义的要求，难以保留说话人特征。而可以保留说话人特征的语音编码算法的编码速率一般在1kbps量级以上，对于中远距离(>10km)水声语音通信来说偏高。本项目考虑到水声传播的时延较大的特点，为缓存较长时间的语音信号进行充分处理提供了条件。本项目计划以参数语音编码算法为参考，根据听觉感知特性细化语音信号类型；将有限的编码比特数尽可能多的分配给对听觉感知贡献的大和携带说话人特征的多的语音信号类型；考察采用压缩感知的方法对语音参数矩阵进行量化的可行性；寻找该变速率语音编码算法与现有水声通信系统的有效结合点，尽可能的提高带宽利用率。最终实现一个保留说话人特征的适用于中远距离的水声语音通信系统。为高话音质量的水声语音通信提供理论依据和技术基础。

项目摘要

水声语音通信中，水声信道中各种不利因素限制了语音编码速率，进而制约了话音质量。目前常见的低码速率语音编码算法通常只满足理解语义的要求，难以保留说话人特征。而可以保留说话人特征的语音编码算法的编码速率一般在1kbps量级以上，对于中远距离(>10km)水声语音通信来说偏高。.为降低编码速率，以混合激励线性预测编码为基础，缓存若干帧语音信号之后，将语音帧细化为静音、清音、浊音、过渡四大类后分别精简处理。设计了低码率语音编码(<1kbps)算法，并提出了一系列检测与处理过渡音征的方法。以PESQ MOS评分作为参考进行分析后得出如下结论：不同的过渡音征对人耳听觉感知的贡献也不同。由清、静音向浊音变化的过渡音征对人耳听觉感知的贡献最大；介于浊辅音与元音之间的过渡音征也不应被忽略。对编码结果填充无效数据进行分帧，并使用可选CRC的方式进行校验。该方法在10-3以下的误码率可以获得较好的清晰度、可懂度并保留了说话人特征，并已经形成可与现有水声通信系统兼容的dll文件，嵌入其中，并进行了海上试验。该语音编码算法可用于网络语音聊天以及长时间群语音记录存储设备。.为了解人耳如何通过说话人特征辨别说话人。选取不同说话人所说的同样内容的语料，将这些语料进行手工音节对齐。混合不同说话人的声道响应参数和声源激励参数，生成混合语料。请57位被试逐一听取原始语料和混合语料，辨别其说话人。实验证明：人耳在听辨说话人时，并不单一的依靠声道响应特征或声源激励特征，而是根据不同说话人特征的差异。根据实验数据，我们提出了一个声源激励特征与声道响应特征差异比的参数与一个阈值：当差异比小于该参数时，声道响应特征对人耳听辨说话人起决定性作用；当差异比大于该参数时，声源激励特征对人耳听辨说话人起决定性作用。该结果可用于指导机器进行说话人识别。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.3778/j.issn.1673-9418.2104120

发表时间：

DOI：10.11936/bjutxb2021010011

发表时间：2021

DOI：10.15957/j.cnki.jjdl.2022.03.003

发表时间：2022

DOI：

发表时间：2017

肖东的其他基金

批准号：81372896

批准年份：2013

资助金额：70.00

项目类别：面上项目

批准号：81672689

批准年份：2016

资助金额：60.00

项目类别：面上项目

批准号：81172587

批准年份：2011

资助金额：63.00

项目类别：面上项目

批准号：30271177

批准年份：2002

资助金额：6.00

项目类别：面上项目

批准号：11373051

批准年份：2013

资助金额：96.00

项目类别：面上项目

批准号：81872209

批准年份：2018

资助金额：57.00

项目类别：面上项目

相似国自然基金

水声语音通信性能的实时感知方法与关键技术研究

批准号：61771412

批准年份：2017

负责人：高春仙

学科分类：F0107

资助金额：55.00

项目类别：面上项目

水声传感器网络中水声通信关键技术研究

批准号：60672118

批准年份：2006

负责人：黄海宁

学科分类：F0103

资助金额：8.00

项目类别：面上项目

浅海水声通信网通信节点关键技术研究

批准号：60772141

批准年份：2007

负责人：胡晓毅

学科分类：F0103

资助金额：29.00

项目类别：面上项目

低功耗物联网中远距离并发传输关键技术研究

批准号：61802309

批准年份：2018

负责人：徐丹

学科分类：F0208

资助金额：27.00

项目类别：青年科学基金项目

保留话者特征的中远距离水声语音通信关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

基于直观图的三支概念获取及属性特征分析

城市生活垃圾热值的特征变量选择方法及预测建模

泛"胡焕庸线"过渡带的地学认知与国土空间开发利用保护策略建构

基于小波高阶统计量的数字图像来源取证方法

肖东的其他基金

miR-9对鼻咽癌肿瘤干细胞生物学特性的调控作用与机制及靶向干预研究

转录因子Hes1靶向EZH2调控鼻咽癌分化的研究

利用miR-155转基因小鼠解析miR-155在鼻咽癌发生中的作用及机制

运用四环素调控系统建立HBV全基因的转基因小鼠模型

利用空间光调制器研究多模光纤的散斑特性

EBV-miR-BART2-5p靶向m6A甲基转移酶METTL14调控EMT促进鼻咽癌侵袭转移的研究

相似国自然基金