基于向量模型的语音线性预测研究

基于向量模型的语音线性预测研究

一、基于矢量模型的语音线性预测研究(论文文献综述)

宫晓飞[1](2020)在《一种低速率保密语音通信系统的设计与实现》文中研究指明语音是人类沟通和交流的重要媒介,进入新世纪以来,语音通信技术得到了广泛研究和飞速发展,支持语音交互已经成为众多移动通信终端设备的必要功能。然而,在很多移动语音通信系统中,空中接口以外的地面部分以明文方式进行传输,具有巨大的安全隐患。因此近年来,移动语音通信系统的端到端加密技术得到了广泛关注和深入研究。其中,基于低速率语音压缩编码和类语音调制技术来实现端到端语音保密通信成为研究的热点之一。本文首先基于增强型混合激励线性预测(enhanced Mixed Excitation Linear Prediction,MELPe)模型实现了一种500bps语音压缩编码算法。MELPe编码模型在低速率语音编码领域展示出了较大的潜力而被广泛采用,论文为了在更低编码速率下获得更高质量的解码语音,对模型进行了进一步的改进,删除了编码参数中的余量谱幅度参数和非基音周期标志,仅保留了提取线谱频率参数、基音周期、增益、带通浊音度和能量参数,来实现低速率语音编码,最终设计实现了一种500bps语音压缩编码算法,并对其语音压缩效果进行了仿真实验。实验结果表明,该500bps低速率语音压缩编码算法合成语音MOS分均达到2.3以上且可懂度均为100%,具有较高的合成语音质量。其次,针对语音通信系统存在的共性问题——呼吸声干扰问题,本文提供了一种以时频特征为基础的呼吸声检测算法,利用短时能量、短时过零率、中低频语音能量比等参数,对语音中的呼吸声进行检测,并作后处理,改善听觉效果。测试显示,对正常语音与呼吸声,运用此算法能够有效区分,从而消除呼吸声干扰,实现对通话质量的优化。由实验可知,本文呼吸声检测算法所处理的语音具有较好的可懂度;且呼吸声的漏检率和误检率分别为4.2%和0.3%,对语音中的呼吸声具有明显的抑制效果。最后,论文基于上述设计实现的500bps语音编码算法和呼吸声检测算法,结合基于遗传算法的类语音调制解调方法,构建了低速率语音保密通信系统,并对该系统进行了实验仿真。测试结果表明,该系统可有效消除呼吸声干扰,在选取的GSM-EFR信道环境下,具有较高的保密性能,并且解密后的语音具有较高的可懂度。

梁宁欣[2](2020)在《基于时域信号的端到端的说话人识别算法研究》文中进行了进一步梳理随着科学技术的高速发展,网络信息化时代下社会对信息安全的需求日益增长。如何准确识别某个人的身份,更好地保护个人的信息安全是智能化时代亟待解决的关键问题。生物特征识别作为一种利用人的生理和行为特征来进行个人身份认证的技术,因其兼具生物特征方便、安全和高效的特点逐渐获得越来越多的关注。其中,说话人识别技术,又称声纹识别技术是生物特征识别领域的热门研究方向之一,具备声纹语音特征稳定、唯一、便于采集等优点,被广泛应用于人机交互、身份识别等现实场合中。深度学习的引入进一步促进了说话人识别技术的发展,基于神经网络的端到端的说话人识别技术吸引了众多科研工作者,然而,目前端到端的说话人识别系统普遍采用“分而治之”的流程:即先从原始语音信号中提取出传统的语音特征,如梅尔频率倒谱系数,再基于传统的语音特征进行说话人分类器网络的训练。这种方法通常依赖于人工设计固定的、复杂的传统语音声学特征,并且传统语音特征的提取和说话人识别模型的训练往往是单独进行的,并未从整体的角度出发,难以实现语音特征提取及说话人识别分类的共同优化。因此如何有机地结合说话人语音特征的提取器和说话人识别的分类器,实现端到端的说话人识别算法是有必要的同时又是极富挑战性的课题。针对上述问题,本文提出了一个新的端到端的说话人识别框架:基于时域卷积直接从原始时域信号提取语音特征,并搭建基于深度神经网络的说话人分类器模型,从而实现说话人的身份识别。本文的主要工作有:第一,提出了一个新的基于时域信号的端到端的说话人识别框架,即联合语音特征提取器、基于深度神经网络(Deep Neural Networks,DNN)的分类器、AM-Softmax和Triplet损失函数的说话人识别框架。该识别框架能够实现共同优化语音特征的提取和说话人的识别分类,并达到稳定、准确的说话人识别目的。第二,提出了一种新的基于时域卷积的语音特征提取方法,该方法能够从原始的时域信号中学习提取出一种有效的时间域语音特征表达(Raw-Front Feature),并且可以替代传统的固定语音特征嵌入到说话人识别系统中,提高了直接从时域信号中提取语音特征的准确性和鲁棒性。第三,为验证本文提出的新的语音特征提取方法的可行性,以及该方法在端到端说话人识别框架中的可移植性,本文搭建了多个将时间域语音特征(Raw-Front Feature)作为输入和不同深度神经网络作为分类模型的文本无关说话人识别系统,探讨了基于时域卷积的语音特征提取方法在端到端的说话人识别技术上的应用。在开源数据集CSTR VCTK Corpus和TIMIT上的大量实验结果对比和分析表明,本文提出的新的基于时域信号的端到端的说话人识别框架能够分别取得1.93%和9.61%的等错误率(Equal Error Rate,EER),实现了良好的说话人识别准确率性能。并且相比于传统的语音特征方法,本文提出的时间域语音特征表达在固定分类器模型实验配置下,能够获得更低的EER值。

牟正宇[3](2020)在《基于弹性网正则的稀疏先验多通道语音去混响》文中研究说明在室内和车内等声学环境密闭的地方,麦克风采集到的语音信号中会包含混响噪声。作为语音增强的一个重要组成部分,语音去混响算法可以为语音识别等技术进行预处理,去除语音信号中的混响噪声,提高语音信号的质量和可懂度。本文基于多通道线性预测(MCLP)语音去混响算法,做了如下几部分的研究:(1)分析了传统的加权预测误差(WPE)算法。传统的WPE算法是对期望的原始语音信号的短时傅里叶变换系数进行统计建模,发现其符合时变高斯模型,然后利用最大似然估计的方法求出期望语音信号。改进的算法是利用更能逼近真实语音信号的广义高斯分布先验概率模型来估计期望语音信号。本文研究改进型WPE算法发现,在利用最大似然估计法求未知参数时,对概率模型方差的估计不够准确。因此引入了非负矩阵分解方法,利用I-S散度求解非负矩阵分解优化的方差参数,从而提高了去混响效果。(2)根据原始语音信号的稀疏特性,利用稀疏重构的方法求解WPE算法中的预测滤波器系数。方法是将期望语音信号改写为稀疏表示模型,利用迭代加权最小二乘(IRLS)算法求解目标函数。本文研究了该算法的求解过程,发现如果麦克风矩阵比较紧密,会导致观测矩阵产生奇异值,降低稀疏表示模型的精度,因此本文考虑引入正则项约束原稀疏表示模型。再分析了岭回归模型和套索回归模型的优缺点后,本文采用弹性网(Elastic Network)回归模型对原目标函数进行约束。最后通过MATLAB仿真实验验证上述两种改进算法的去混响效果。利用镜像声源模型算法模拟出不同程度的房间冲激响应,与原始语音信号进行卷积得到混响语音信号,利用上述算法对混响语音信号进行去混响处理。通过评价增强语音信号的去混响效果,可以看出本文提出算法改善了原算法的去混响能力。

何莹男[4](2020)在《G.722.1语音编码技术研究》文中研究说明语音是人与人之间进行高效信息交流的重要途径。为了提高语音传输效率或节省存储空间,通常需要对语音信号进行压缩编码。语音编码技术已在通信网络、消费电子、数字娱乐、国防军事等领域得到了广泛应用。G.722.1语音编码器是国际电信联盟推出的一种低复杂度的宽带语音编码算法,该算法主要采用变换域编码方法,可对3004000Hz语音和7kHz以内的音乐进行编码;MELP语音编码器是码率为2.4kbps的低速率语音编码器。尽管G.722.1和MELP语音编码器已得到实际应用,但在网络丢包等情况下,其性能明显下降。为了提高编码器的语音质量,本文对G.722.1和MELP语音编码器进行了研究,主要工作如下:(1)基于ITU G.722.1语音编码器,提出一种多描述语音编码方法。该方法应用多描述编码(Multiple Description Coding,MDC)思想,在G.722.1编码器的基础上,构建一个互补编码器;然后在编码端,对同一帧语音分别用G.722.1编码器和其互补编码器进行语音编码;在解码端,在接收到其中任一语音码流时,用G.722.1解码器进行解码,而在接收到两个语音码流时,用G.722.1解码器先分别对两个语音码流进行解码,然后对解码结果进行联合处理,其最终的语音质量有明显提升。仿真实验结果表明,该方法的抗丢包效果明显,语音质量有一定提高。(2)为了提高解码语音质量,给出一种基于LSTM网络的G.722.1编码器后处理方法。该方法利用长短期记忆(LSTM)网络学习G.722.1编码器编码前、后语音倒谱参数之间的关系,然后将编解码后受损的语音输入到训练好的LSTM网络来进行增强,最后将增强的解码语音与原始解码语音进行频域相加处理。实验结果表明,该方法增强了原始解码语音中7kHz-8kHz频带的频谱,改善了解码语音质量。(3)针对MELP编码器,分析了线谱频率、基音周期、残差谐波幅度等编码参数量化误差对解码语音质量的影响,并给出了实验结果,这对改进MELP编码器具有一定指导作用。

赵丽颖[5](2019)在《针对性别的说话人识别中语音特征性能的研究》文中提出说话人识别是一种利用说话者的声学特征来进行身份验证的技术,又称为声纹识别。我们知道,人类的声纹是独特的、简单易得的、并且非常稳定的,说话人识别技术利用人类声纹的特点,现在已经在日常社会生活中得到广泛的应用,例如在身份识别领域就被人们所看好。近些年来国内外对于声纹识别技术的应用领域已经日渐增多,例如在公安领域说话人识别系统,声纹识别亲情电话系统[1],声纹识别定位追踪系统,居民住宅、重要办公场合的声纹锁,网上交易身份验证等诸多方面的应用,但如今黑客或者现实中模拟盗版技术又十分普遍,这就十分迫切的需要声纹识别系统的准确性和稳定性的支撑,来提高身份识别的安全保障。在说话人识别领域的研究领域,其技术大概分别声音文本的采集,声音文本的预处理,语音特征的提取,声音文本的建模以及识别。在研究中,我们都迫切的寻找能让识别率达到更高的算法,随着人工智能技术的不断发展,利用深度学习的方法已然研究达到了一个新高度,再通过算法方向来提高识别效率难度太高,换而言之,对于识别算法的优化已经到了一个瓶颈期。对于高准确率的追求过程中,研究者们往往只看重算法好坏给系统带来的准确率的提高,却忽视在说话人提取过程中对语音文本建模这个方向对于提高系统性能也是有帮助的。我们通常利用的是对整体的说话人进行语音特征提取并建立特征模型,本文要提出一种细化建模的思想,当然细化建模的方式有很多种,例如分地域,分年龄,分性别。本文讨论的主要是对于说话人群按照性别区别,分别进行特征提取以及建立声学特征模型。使用了基于矢量量化的说话人识别方法和基于深度神经网络的说话人识别系统。对男女语音特征分别进行MFCC,LPCC,MFSC,双重MFCC等特征提取,探究语音特征分别适用的性别。通过实验结果进行分析和对比,结果表明在利用相同的识别系统的情况下,MFCC及其相关特征提取方式对于男声的表征能力优于对女声的表征能力,LPCC对于女声的表征能力优于对男声的表征能力;并且利用高纬度的识别模型进行实验时,MFSC的性能要高于MFCC。这就为今后对于提高说话人识别系统性能的研究方面提供了方向,即可以对男女说话人分开进行研究,分别探究适用于不同性别的算法或者模型,从根本上提高系统性能。

查琳[6](2020)在《基于声音传感器的目标识别技术研究》文中指出目前指纹识别、虹膜识别、声音识别等生物特征识别技术发展十分迅速,已经在军事、金融和安全等领域有着广泛的应用。因为声音目标识别技术有样本易采集、算法复杂度低、隐蔽性强等优点,所以适用于更多的场景也有更重大的研究意义,已成为近年来的研究热点。但是现有的声音目标识别技术的相关研究多是在实验室中进行的,不适用于野外这类噪声较大的环境中。本文主要研究了在噪声环境中的声音目标识别,利用放置在野外环境中的声音传感器采集声音数据,经过一系列处理,最终能够识别出声音是由人、车还是小型飞行器发出的。为此,本文将从以下几个方面进行讨论和研究:(1)对在噪声环境中采集的声音信号进行预处理,提取较纯净的声音信号。本文采用基于Teager能量算子的端点检测来达到预处理的目的。传统的端点检测方法大部分是基于声音信号的短时能量和短时过零率特征研究出来的。这两种特征是在时域中检测到的,简单且易于实现,但不适用于信噪比较低的情况,会增加误判的可能性。但是在小波域中,有用声音信号段的小波系数明显大于无声和噪声段而且更稳定。因此,基于小波域Teager能量算子的端点检测更适用于野外环境中的声音目标识别。(2)将现有的声音特征参数分为时域参数和频域参数两类,逐一介绍了常用声音特征参数的原理及优缺点。本文使用的声音数据是由放置在野外环境中的声音传感器采集到的,会产生信噪比低、不稳定等问题。单一的特征参数不能达到很好的识别效果,所以使用梅尔频率倒谱系数和线性预测倒谱系数的融合特征作为本次研究的特征参数。(3)本次实验需要在短时间内识别出声音是由人、车还是小型飞行器发出的,所以在保证识别率的条件下,对识别速度也有一定的要求。因此,最终选择使用矢量量化模型(VQ)进行分类。经过分析和研究,发现目前矢量量化模型多使用欧式距离作为失真测度。由于本文使用梅尔频率倒谱系数和线性预测倒谱系数的融合特征作为特征参数,所以改用对数似然比作为矢量量化模型的失真测度。利用MATLAB对模型进行了设计与实现,通过实验证明该识别系统能够在保证识别率的情况下提高识别速度,而且可以适用于更广泛的场景中。

闫宏鹏[7](2019)在《基于TMS320C64的G.729语音编码器实时实现》文中研究指明语音编码就是应用信号处理方法,对语音信号进行压缩,以便于在通信系统中有效地进行传输。近些年来,语音编码技术取得了突破性进展,涌现出许多性能优良的语音编码算法和标准,以适用于不同的应用场景。针对VoIP等网络语音传输需求,国际电信联盟(ITU)推出了基于共轭结构代数码激励线性预测(CS-ACELP)语音编码标准,即ITU G.729标准。该标准算法延迟小、重建语音质量高,但其计算复杂度较大,对处理器的处理能力要求较高,不利于实时处理与应用。因此,在给定的处理器上,如何高效地实现语音编解码算法,这是工程实际中需要解决的重要问题。本文在分析语音编解码基本原理的基础上,基于德州仪器公司TMS320C64 DSP处理器,研究ITU G.729语音编解码的实时实现与优化问题,主要工作如下:(1)在简要论述语音信号产生模型、线性预测、矢量量化、感知加权滤波器等语音编码技术的基础上,阐述了G.729语音编解码原理和算法,并对线性预测分析、Levinson-Durbin算法、线谱对、开环基音分析、自适应码本与固定码本搜索、增益量化与预测、码本解码、长短期后置滤波等主要模块进行了较详细的分析。(2)在TMS320C64 DSP上,用软件实现了G.729编解码算法和标准。首先,在Windows系统的Microsoft Visual Studio环境中用C语言实现了G.729编解码标准;然后,为了提高运行效率,便于实时处理,根据TMS320C64+DSP结构特点,基于TI CCS软件开发环境,给出了多种代码优化技术,并对G.729编解码程序进行了性能优化,显着提高了代码的执行效率。(3)用ITU标准测试序列和长时间语音数据,验证了优化后的G.729语音编解码器的正确性,并对其语音质量进行了客观测试和主观测试。测试结果表明,优化后的G.729软件能有效地完成语音信号的实时编解码处理,且具有良好的语音质量。

曾汐[8](2019)在《基于源滤波器听觉感知的说话人识别研究》文中认为作为人们日常交流的主要方式,语音不仅包含着说话人要表达的内容,其本身还蕴含着说话人特有的身份信息。近几十年,声纹领域的研究取得了重大的进展,在实验室中的识别效果更是取得了质的飞越,而在实际应用中,由于信道和环境等因素的影响,语音会夹杂各种噪音,导致说话人识别系统的性能显着下降。同时,由于说话人识别商业化的迫切需求,噪声下的说话人识别成为了研究的热点。针对说话人识别的鲁棒性问题,本文重点从语音增强和特征提取两方面进行研究。主要研究内容和创新点如下:1、本文重点研究调制域卡尔曼滤波和理想二值掩码(Ideal Binary Mask,IBM)的原理,通过对调制域卡尔曼滤波进行改进,得到一种基于IBM的调制域卡尔曼滤波模型(IBM-Based Modulation-Domain Kalman Filter,IMDKF)。利用IBM对于目标语音的T-F单元的辨别能力对卡尔曼滤波模型中的噪声估计和目标语音的线性预测模块进行先验估计。实验结果证明,IMDKF模型比调制域卡尔曼滤波模型具有更好的语音增强性能。2、通过研究语音信号的产生原理,将源滤波器模型引入语音识别。基于源滤波器模型和Bark尺度划分方式,本文提出一种新的语音特征——源滤波器bark子带感知特征(Source Filter Model Bark Perception,SFBP)。根据语音源滤波器生成模型,首先提取表达声道特征的线性预测系数;然后根据Bark尺度划分,对源滤波器模型中的激励信号进行子带感知滤波;最后将线性预测系数和子带滤波能量特征联合作为说话人识别特征。实验证明,SFBP特征对于非平稳噪声具有较强的鲁棒性,但在平稳噪声情况下的效果不是特别理想。因此,结合人耳听觉模型,本文又提出一种新的改进识别特征——源滤波器听觉模型感知特征(Source Filter Auditory Perception,SFAP)。SFAP特征主要根据人耳听觉模型,通过Gammatone滤波器对源滤波器模型中的激励信号进行听觉感知滤波;然后将表达声道特征的线性预测系数和通道系数能量特征联合作为识别特征。实验证明,相比传统MFCC和GFCC,无论是在平稳还是非平稳噪声环境中,SFAP特征的识别性能都更好。3、结合提出的IMDKF语音增强方法和源滤波器感知特征特征提取方法,本文构建了基于i-vector模型的说话人识别系统。实验结果表明相比原MDKF-MFCC识别系统,在white噪声下,基于IMDKF-SFAP和基于IMDKF-SFBP的说话人系统的EER值分别降低了约3个百分点和1.8个百分点;在babble噪声下,基于IMDKF-SFAP和基于IMDKFSFBP识别系统的EER值分别降低了约2.7个百分点和3.3个百分点。并通过采集真实噪声进一步验证了IMDKF,SFAP和SFBP的有效性。

耿姝雅[9](2019)在《基于深度学习的说话人识别算法研究》文中研究说明语音信号是人类生活工作中非常重要的交流手段之一。而每个人的声音都是具有自己的独特特征的,从理论上来说,声音就像人的指纹一样,很少会有两个人具有相同的声纹特征,所以通过不同人的声纹特质,我们可以区分出不同人的声音从而识别不同人的身份。说话人识别技术,就是根据语音信号中所反映的说话人生理和行为特征的特征参数,来自动识别说话人的身份,是一种生物特征识别技术。相比于指纹识别、人脸识别、瞳孔识别等方法,说话人识别技术应用在身份识别领域时具有易于被用户接受、设备所需成本较低、可扩展性好等优点。深度学习近几年来在模式识别、语音识别、图像处理等领域中都取得了令人瞩目的成绩。同传统的浅层学习相比,深度学习的不同之处在于强调了深度神经网络模型的深度,明确了特征学习在深度神经网络中的重要性,使得样本的分类或者识别更加简单、容易。将说话人识别和深度学习结合起来,可以大大增加说话人识别的准确率,从而推动说话人识别技术在身份认证领域的应用。本文的工作内容如下,录制了两个不同的的语音库。语音库1是由实验室内14名同学在安静无干扰的办公室内录制的。语音库2是由一个企业的五十名员工在工作的大房间内录制的。同时还选取了 Kaldi平台上的开源中文普通话数据库中的五十个人的语音数据作为语音库3。使用这三个语音库对后续的实验进行训练、测试。实现了以MFCC及其一二阶差分为特征参数,用VQLBG算法进行聚类的传统说话人识别算法。采用不同特征参数组合以及码本质心参数,研究了在不同参数条件下系统的性能变化情况。用三个语音库进行训练、测试,所得到的最高识别率分别为97.14%、73.12%和98.26%。设计并实现了基于DNN网络的说话人识别算法。选取语音库2,研究在不同特征参数以及隐藏层节点数的条件下,系统性能的变化情况。得到的最高识别率为80.3 1%。选取语音库3,在固定特征参数及网络层的情况下,进行多次训练、测试,研究系统性能的波动情况。得到的识别率范围在96.36%~98.07%内,平均识别率为97.36%。提出了一种基于性别的说话人识别算法,并进行具体实现。选取语音库3在固定的特征参数和网络层条件下,多次对系统进行训练测试,研究系统性能的变化情况。识别率范围在97.80%~98.56%内,平均识别率为98.07%。与基于DNN的说话人识别算法对比结果,发现基于性别的说话人识别算法提高了一部分识别率,并且识别率的波动范围明显更小。

黄美伦[10](2019)在《面向自适应多速率语音的隐写分析技术研究》文中进行了进一步梳理随着自适应多速率(Adaptive multi-rate,AMR)语音在IP电话及移动通信领域的广泛应用,基于AMR语音的隐写方法层出不穷。然而,与大多数安全技术类似,基于AMR语音的隐写技术若被不法分子利用,将会给信息安全带来巨大的安全隐患。因此,面向AMR语音的隐写分析技术成为了一个重要的研究课题。从已有研究成果来看,该技术仍存在诸多问题亟待解决,例如检测特征维度过高等。论文针对已有研究存在的问题,结合AMR语音编码的原理,分别对基音延迟参数域、固定码本参数域和线性预测参数域上的隐写分析方法进行了深入研究,具体研究工作如下:(1)针对现有研究存在特征维度过高和对AMR语音基音延迟特性表述欠完整的问题,提出了一种基于基音延迟统计特性的隐写分析方法。该方法对已有特征进行细致筛选提出了低维度但高效的基音延迟值二阶差分统计特征,并引入奇偶统计特征以弥补基音延迟值二阶差分统计特征表达能力的不足。以支持向量机为分类器,通过大量的样本对所提出的方法进行了性能评估,并与已有方法进行比较。实验结果表明,本方法在不同嵌入率和不同样本长度条件下均能得到较现有方法更好的检测效果。(2)为了解决现有方法检测特征维度过高的问题,提出了一种基于XGBoost(e Xtreme Gradient Boosting)的AMR固定码本域隐写分析方法。该方法利用XGBoost算法对基于脉冲值对统计特性的特征进行特征选择,得到有效且维度更低的特征集合。选用XGBoost作为分类器,通过大量的样本对所提出的方法进行了性能评估,并与相关工作进行性能对比。结果表明,本方法特征维度(最低70维,最高不超过289维)明显低于目前最好方法的498维,而其检测性能优于次最优方法,且并不逊色于当前最好方法。(3)为实现线性预测参数域上隐写方法的高效检测,提出了一种基于空间局部统计特性的隐写分析方法,其原理是将一维参数序列转换成二维“参数块”,利用卷积神经网络从整体上对语音参数块的空间局部统计特性进行建模,并提取有效特征。以支持向量机为分类器,通过大量的样本对所提出的方法进行了性能评估,并与已有方法进行比较。实验结果表明,本方法在检测线性预测参数上的隐写方法是可行有效的,且较之已有方法具有更好的检测性能。

二、基于矢量模型的语音线性预测研究(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、基于矢量模型的语音线性预测研究(论文提纲范文)

(1)一种低速率保密语音通信系统的设计与实现(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 保密语音通信概述
        1.1.1 保密语音通信的研究背景
        1.1.2 国内外研究现状及趋势
    1.2 低速率保密语音通信的关键技术
        1.2.1 保密语音通信系统组成
        1.2.2 低速率语音编码技术
        1.2.3 数字语音加密技术
    1.3 论文结构安排
第2章 基于MELPe的500bps语音压缩编码
    2.1 MELPe算法概述
    2.2 MELPe编码参数分析
        2.2.1 预处理
        2.2.2 线性预测分析
        2.2.3 能量参数分析
        2.2.4 基音周期分析
        2.2.5 子带清浊音分析
    2.3 声码器超帧联合方案与参数量化方案
        2.3.1 线谱频率参数的量化方案
        2.3.2 子带通浊音度参数的量化方案
        2.3.3 基音周期的量化方案
        2.3.4 能量参数的量化方案
    2.4 码本训练与优化
    2.5 500bps解码语音合成方案
        2.5.1 混合激励的生成
        2.5.2 自适应谱增强
        2.5.3 线性预测的合成
        2.5.4 增益的调整
        2.5.5 脉冲散布滤波器
        2.5.6 合成环路控制
    2.6 500bps语音编码算法性能测试
    2.7 小结
第3章 基于时频特性的呼吸声检测方法
    3.1 呼吸声检测算法原理
    3.2 呼吸声的声学特征参数
        3.2.1 短时过零率(Zero Crossing Rate,ZCR)
        3.2.2 高低频和低中频语音能量比(Energy)
    3.3 呼吸声的检测与处理方法
        3.3.1 呼吸声的检测
        3.3.2 呼吸声的处理
    3.4 实验及结果
    3.5 小结
第4章 低速率语音加密系统的实现
    4.1 引言
    4.2 基于遗传算法的类语音保密算法
        4.2.1 基于类语音的语音加密技术
        4.2.2 基于遗传算法的类语音调制解调算法
        4.2.3 实验结果及分析
    4.3 系统整体设计
        4.3.1 呼吸声检测模块
        4.3.2 低速率语音压缩模块
        4.3.3 低速率语音解压缩模块
        4.3.4 基于类语音调制技术的语音加密模块
    4.4 系统整体性能测试
    4.5 小结
第5章 论文工作总结
    5.1 本文主要工作
    5.2 展望
参考文献
附录A
致谢
在学期间主要科研成果

(2)基于时域信号的端到端的说话人识别算法研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景
    1.2 研究目的和意义
    1.3 研究现状
        1.3.1 说话人识别现状
        1.3.2 端到端的说话人识别现状
    1.4 论文的研究内容
    1.5 论文的组织结构
第二章 说话人识别算法的基本原理
    2.1 说话人识别的基本框架
    2.2 语音预处理
    2.3 语音特征提取
        2.3.1 线性预测分析系数
        2.3.2 线性预测倒谱系数
        2.3.3 瓶颈特征(Bottleneck Feature)
        2.3.4 拼接特征(Tandem Feature)
    2.4 常用的说话人识别模型
        2.4.1 模板匹配算法
        2.4.2 概率模型算法
        2.4.3 支持向量机和神经网络
    2.5 相似度测量方法
        2.5.1 余弦相似度
        2.5.2 概率线性判别分析
        2.5.3 距离度量
    2.6 说话人识别评价标准
    2.7 本章小结
第三章 基于时域信号的语音特征提取算法研究
    3.1 引言
    3.2 语音频谱图
    3.3 梅尔频率倒谱系数
    3.4 基于时域卷积的语音特征提取算法
        3.4.1 时域卷积
        3.4.2 时间域语音特征提取算法
    3.5 本章小结
第四章 基于深度神经网络的端到端的说话人识别算法研究
    4.1 引言
    4.2 基于DNN的端到端的说话人识别框架
        4.2.1 基于DNN分类的说话人识别系统
        4.2.2 基于DNN建模的说话人识别系统
    4.3 基于DNN的端到端的说话人识别模型
        4.3.1 基于VGGNet的识别模型
        4.3.2 基于Res Net的识别模型
        4.3.3 基于Dense Net的识别模型
    4.4 基于时域信号的端到端的说话人识别算法实现
    4.5 本章小结
第五章 实验结果与分析
    5.1 实验设置
        5.1.1 实验数据集
        5.1.2 实验环境
    5.2 基于时域信号的语音特征提取算法实验
        5.2.1 实验方案
        5.2.2 实验结果与分析
    5.3 基于时域信号的端到端的说话人识别算法实验
        5.3.1 实验方案
        5.3.2 实验结果与分析
    5.4 本章小结
总结与展望
参考文献
攻读硕士学位期间取得的研究成果
    已发表论文
    已申请专利
致谢
附录

(3)基于弹性网正则的稀疏先验多通道语音去混响(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 研究的背景及意义
    1.2 国内外研究现状
    1.3 本文的研究内容及章节安排
        1.3.1 研究内容
        1.3.2 章节安排
    1.4 本章小结
2 混响简介及语音去混响算法概述
    2.1 引言
    2.2 混响简介
        2.2.1 混响的产生
        2.2.2 混响的数学模型
        2.2.3 混响的衡量参数
        2.2.4 混响的仿真模型
        2.2.5 混响的特征
        2.2.6 语音去混响技术的难点
    2.3 语音去混响算法概述
        2.3.1 基于语音增强技术的语音去混响技术
        2.3.2 基于逆滤波的语音去混响方法
        2.3.3 基于深度学习的语音去混响方法
    2.4 语音去混响效果的评价方法
        2.4.1 主观评价
        2.4.2 客观评价
3 基于非负约束的WPE-GGD语音去混响算法
    3.1 引言
    3.2 多通道线性预测语音去混响算法简介
        3.2.1 语音信号线性预测简介
        3.2.2 多通道线性预测语音去混响算法的数学模型
    3.3 改进型加权预测误差语音去混响算法
        3.3.1 加权预测误差语音去混响算法
        3.3.2 基于广义高斯分布的WPE语音去混响算法
    3.4 基于非负约束的WPE-GGD语音去混响算法
        3.4.1 非负矩阵分解简介
        3.4.2 基于NMF的WPE-GGD语音去混响算法
    3.5 实验仿真与结果分析
        3.5.1 实验仿真
        3.5.2 结果分析
    3.6 本章小结
4 基于弹性网约束的稀疏先验多通道语音去混响算法
    4.1 引言
    4.2 基于稀疏先验的WPE算法
        4.2.1 稀疏重构的目标函数
        4.2.2 基于迭代加权最小二乘的稀疏先验WPE算法
    4.3 弹性网约束的稀疏先验WPE算法
    4.4 实验仿真与结果分析
        4.4.1 参数选择与实验仿真
        4.4.2 结果分析
    4.5 本章小结
5 结论与展望
    5.1 工作总结
    5.2 工作展望
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果

(4)G.722.1语音编码技术研究(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究历史及现状
    1.3 本文研究内容和章节安排
2 语音编码基础
    2.1 语音信号的生成模型
        2.1.1 经典的语音生成模型
        2.1.2 基于深度学习的语音生成模型
    2.2 语音信号的分析与合成
        2.2.1 语音信号的线性预测分析
        2.2.2 语音信号的变换分析
    2.3 语音编码中的量化与编码技术
        2.3.1 标量量化
        2.3.2 矢量量化
        2.3.3 熵编码简介
    2.4 长短时记忆网络
        2.4.1 循环神经网络
        2.4.2 长短时记忆网络
    2.5 多描述语音编码
    2.6 本章小结
3 基于G.722.1编码器的多描述编码方法
    3.1 G.722.1编码器简介
    3.2 基于G.722.1的多描述编码器
        3.2.1 互补编码器的构造
        3.2.2 解码端的处理
    3.3 实验结果与讨论
        3.3.1 语音质量的主观评价实验
        3.3.2 语音质量的客观评价实验
        3.3.3 算法实时性分析
    3.4 本章小结
4 基于LSTM网络的G.722.1编码器后处理方法
    4.1 基于LSTM网络的后处理方法概述
    4.2 数据预处理
        4.2.1 加窗处理与FFT
        4.2.2 幅值对数谱与DCT-2变换
        4.2.3 重构语音信号
    4.3 LSTM网络模型
    4.4 频谱相加
    4.5 实验结果与讨论
        4.5.1 实验配置
        4.5.2 LSTM网络的训练
        4.5.3 实验结果及分析
    4.6 本章小结
5 MELP语音编码器量化误差分析
    5.1 MELP编码器简介
        5.1.1 MELP编码器的参数提取
        5.1.2 MELP编码器参数的量化与编码
        5.1.3 MELP解码器
    5.2 MELP编码器参数的量化误差分析
    5.3 MELP编码器改进方向的探索
    5.4 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢

(5)针对性别的说话人识别中语音特征性能的研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究背景和意义
    1.2 说话人识别的发展和现状
    1.3 研究内容与论文结构
        1.3.1 主要研究
        1.3.2 结构安排
第二章 说话人识别基本理论
    2.1 语音产生机理
    2.2 说话人识别概述
        2.2.1 说话人识别概念
        2.2.2 说话人识别分类
    2.3 说话人语音预处理
        2.3.1 数据降噪
        2.3.2 预加重
        2.3.3 分帧加窗
        2.3.4 端点检测
    2.4 说话人语音特征提取
        2.4.1 梅尔倒谱系数
        2.4.2 对数能量倒谱系数
        2.4.3 线性预测倒谱系数
    2.5 说话人识别性能评价指标
    2.6 本章小结
第三章 相关说话人识别模型算法及分析
    3.1 说话人识别模型
    3.2 矢量量化
        3.2.1 矢量量化(VQ)的概述
        3.2.2 矢量量化的定义
        3.2.3 矢量量化的失帧测度
        3.2.4 最佳矢量量化的设计
        3.2.5 LBG算法
        3.2.6 改进LBG算法
    3.3 深度神经网络识别模型
        3.3.1 深度神经网络
        3.3.2 玻尔兹曼机RBM
        3.3.3 Dropout层
        3.3.4 深度神经网络在说话人识别中的应用
    3.4 本章小结
第四章 应用实验与结果分析
    4.1 基于矢量量化的针对性别说话人识别系统的实验
        4.1.1 系统概述
        4.1.2 实验数据集
        4.1.3 实验过程
        4.1.4 实验结果
    4.2 基于深度神经网络的针对性别的说话人识别系统的实验
        4.2.1 实验环境
        4.2.2 说话人识别系统识别率的计算
        4.2.3 实验数据
        4.2.4 网络结构
        4.2.5 实验结果
    4.3 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望
参考文献
攻读学位期间取得的研究成果
致谢

(6)基于声音传感器的目标识别技术研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究的背景和意义
    1.2 国内外研究现状
        1.2.1 声音目标识别国内外研究现状
        1.2.2 特征融合技术国内外研究现状
    1.3 论文主要研究内容及结构安排
    1.4 技术路线
第2章 基于端点检测的声音信号预处理
    2.1 声音信号预处理
    2.2 端点检测
        2.2.1 声音信号的端点检测
        2.2.2 端点检测基本原理
    2.3 基于短时能量和短时过零率的端点检测
    2.4 基于Teager能量算子的端点检测
        2.4.1 Teager能量算子原理
        2.4.2 Teager能量算子特性
    2.5 本章小节
第3章 声音特征参数提取
    3.1 时域特征参数
    3.2 频域特征参数
    3.3 本章小节
第4章 基于主成分分析的特征融合
    4.1 特征融合理论基础
    4.2 PCA基本原理
    4.3 基于PCA的特征融合
    4.4 本章小结
第5章 基于声音传感器的目标识别方法
    5.1 声音目标识别方法
    5.2 基于传统矢量量化的声音目标识别
        5.2.1 标量量化与矢量量化
        5.2.2 矢量量化原理
    5.3 基于改进矢量量化的声音目标识别
    5.4 仿真实验与结果分析
        5.4.1 实验参数设置及模块
        5.4.2 不同特征参数下识别率分析
        5.4.3 不同特征参数下识别速度分析
        5.4.4 预处理对识别率影响分析
        5.4.5 失真测度对识别率影响分析
    5.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和获得的科研成果
致谢

(7)基于TMS320C64的G.729语音编码器实时实现(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文主要内容及章节安排
2 语音编码的理论基础
    2.1 语音信号产生的数学模型
    2.2 语音信号的短时分析
        2.2.1 预处理和加窗处理
        2.2.2 语音信号短时处理方法
    2.3 线性预测分析
        2.3.1 线性预测原理
        2.3.2 LPC正则方程及其快速解法
    2.4 矢量量化
        2.4.1 矢量量化系统
        2.4.2 码本搜索原则和特征矢量的选择
        2.4.3 多级矢量量化
    2.5 感知加权滤波器
    2.6 语音信号混合编码基础
        2.6.1 线性预测编码
        2.6.2 综合分析法
    2.7 本章小结
3 G.729 语音编解码算法标准
    3.1 G.729 编解码算法简介
    3.2 G.729 编码算法
        3.2.1 编码器概述
        3.2.2 预处理
        3.2.3 线性预测分析和量化
        3.2.4 感知加权滤波器
        3.2.5 开环基音分析
        3.2.6 自适应码本搜索
        3.2.7 固定码本结构与搜索
        3.2.8 增益量化
        3.2.9 存储器更新
    3.3 G.729 解码算法
        3.3.1 解码器概述
        3.3.2 参数解码
        3.3.3 后置处理
    3.4 本章小结
4 G.729 语音编码器的TMS320C64+实时实现
    4.1 TMS320C64+的结构和特点
        4.1.1 TMS320C64xx简介
        4.1.2 C64+对C64 性能的提升
    4.2 CCS软件开发系统
    4.3 G.729 语音编码器的实现与代码优化
        4.3.1 G.729 语音编码器的实现
        4.3.2 G.729 语音编码器的代码优化
        4.3.3 G.729 语音编码器的优化结果
    4.4 测试结果与分析
        4.4.1 语音编码器的正确性测试
        4.4.2 语音质量的客观性能测试
        4.4.3 语音质量的主观性能测试
    4.5 本章小结
结论
参考文献
致谢

(8)基于源滤波器听觉感知的说话人识别研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 说话人识别研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 说话人识别的发展历程和研究现状
        1.2.1 发展历程
        1.2.2 噪声情况下的研究现状
    1.3 说话人识别有待解决的关键问题
    1.4 论文研究内容与组织结构
        1.4.1 论文的研究内容和创新点
        1.4.2 论文的结构安排
第2章 说话人识别技术基础
    2.1 说话人识别系统
    2.2 常用的语音增强方法
        2.2.1 谱减法
        2.2.2 维纳滤波法
        2.2.3 最小均方误差法
    2.3 语音增强的性能评价指标
        2.3.1 分段信噪比
        2.3.2 语音质量感知评价
    2.4 说话人识别特征的提取
        2.4.1 常用的说话人特征
        2.4.2 Mel频率倒谱系数的提取
    2.5 模型匹配
    2.6 说话人识别系统的性能评价指标
    2.7 本章小结
第3章 改进的卡尔曼滤波器的语音增强算法
    3.1 传统的卡尔曼滤波方法
    3.2 调制域卡尔曼滤波
        3.2.1 调制域的概念
        3.2.2 调制域卡尔曼滤波原理
    3.3 基于IBM的调制域卡尔曼滤波器
        3.3.1 理想二值掩码
        3.3.2 改进的调制域卡尔曼滤波器
    3.4 实验结果和分析
        3.4.1 语料库
        3.4.2 实验参数设置
        3.4.3 实验结果及分析
    3.5 本章小结
第4章 源滤波器模型感知特征的提取
    4.1 语音信号的产生原理
        4.1.1 语音的生理产生机理
        4.1.2 语音信号的数字模型
    4.2 源滤波器模型BARK子带感知特征的提取
        4.2.1 bark尺度的划分
        4.2.2 源滤波器模型bark子带感知特征
    4.3 源滤波器听觉模型感知特征的提取
        4.3.1 听觉系统的构造
        4.3.2 Gammatone滤波器原理
        4.3.3 源滤波器听觉模型感知特征
    4.4 本章小结
第5章 说话人识别系统的实现
    5.1 说话人识别系统
        5.1.1 语音信号的预处理
        5.1.2 模型匹配
    5.2 实验环境
    5.3 语料库
    5.4 基本参数设置
    5.5 实验结果和分析
        5.5.1 源滤波器感知特征对系统性能的影响
        5.5.2 噪声情况下改进的说话人识别系统性能
    5.6 本章小结
总结与展望
致谢
参考文献
攻读硕士学位期间发表的论文及科研成果

(9)基于深度学习的说话人识别算法研究(论文提纲范文)

摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 说话人识别的研究目的及意义
    1.2 说话人识别的发展历程及现状
    1.3 说话人识别技术的难点
    1.4 本文研究内容及章节安排
第二章 语音信号的预处理以及特征提取
    2.1 声音的基本原理
        2.1.1 发声器官
        2.1.2 语音信号的数字模型
    2.2 语音信号的预处理
        2.2.1 采样与量化
        2.2.2 分帧加窗
    2.3 语音特征参数及其提取
        2.3.1 线性预测系数
        2.3.2 线性预测倒谱系数
        2.3.3 梅尔频率倒谱系数
        2.3.4 差分参数
第三章 传统说话人识别算法研究
    3.1 经典的说话人识别算法概述
        3.1.1 模版匹配法
        3.1.2 统计概率模型法
        3.1.3 判决模型法
    3.2 基于矢量量化的说话人识别算法设计
        3.2.1 矢量量化原理
        3.2.2 矢量量化的失真测度
        3.2.3 采用LBG方法设计矢量量化器
    3.3 实验结果及分析
        3.3.1 实验步骤
        3.3.2 实验环境及语音数据
        3.3.3 实验结果
        3.3.4 类似算法实验结果
    3.4 本章小结
第四章 基于DNN网络的说话人识别算法研究
    4.1 神经网络概述
        4.1.1 神经网络基础
        4.1.2 神经网络模型
    4.2 深度学习模型
        4.2.1 卷积神经网络模型
        4.2.2 循环神经网络模型
        4.2.3 长短时记忆模型
    4.3 基于DNN网络的说话人识别算法设计
    4.4 实验结果与分析
        4.4.1 语音库及实验环境
        4.4.2 实验结果与分析
        4.4.3 类似算法实验结果
    4.5 本章小结
第五章 基于性别的说话人识别算法研究
    5.1 基于性别的说话人识别算法
        5.1.1 系统设计
        5.1.2 实验数据
        5.1.3 实验结果
        5.1.4 类似算法实验结果
    5.2 本章小结
第六章 总结与展望
    6.1 论文完成工作
    6.2 遗留问题及后续工作的考虑
参考文献
致谢
作者简介

(10)面向自适应多速率语音的隐写分析技术研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 隐写技术和隐写分析技术
        1.2.1 隐写技术及其评价指标
        1.2.2 隐写分析技术及其评价指标
    1.3 语音隐写及隐写分析研究现状
        1.3.1 语音隐写技术研究现状
        1.3.2 语音隐写分析技术研究现状
        1.3.3 基于自适应多速率语音的隐写及隐写分析技术研究现状
    1.4 论文的主要工作和组织结构
        1.4.1 论文的主要工作
        1.4.2 论文的组织结构
第2章 基于基音延迟统计特性的自适应多速率语音隐写分析方法
    2.1 自适应多速率语音自适应码本搜索原理
    2.2 相关工作
    2.3 基于基音延迟统计特性的隐写分析方法
        2.3.1 改进的基音延迟校准二阶差分马尔科夫转移概率矩阵特征
        2.3.2 基音延迟奇偶分布特征
        2.3.3 提出的隐写分析方法
    2.4 实验结果与分析
    2.5 本章小结
第3章 基于XGBoost的自适应多速率语音隐写分析方法
    3.1 自适应多速率语音固定码本搜索原理
    3.2 相关工作
    3.3 基于XGBoost的隐写分析方法
        3.3.1 基于XGBoost的特征选择策略
        3.3.2 提出的隐写分析方法
    3.4 实验结果与分析
    3.5 本章小结
第4章 基于线性预测参数空间局部特性的自适应多速率语音隐写分析方法
    4.1 自适应多速率语音线性预测分析原理及可隐藏性分析
    4.2 基于线性预测参数局部特性的隐写分析方法
        4.2.1 基于卷积神经网络的检测特征提取机制
        4.2.2 提出的隐写分析方法
    4.3 实验结果与分析
    4.4 本章小结
第5章 总结与展望
    5.1 全文总结
    5.2 研究展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果

四、基于矢量模型的语音线性预测研究(论文参考文献)

  • [1]一种低速率保密语音通信系统的设计与实现[D]. 宫晓飞. 齐鲁工业大学, 2020(02)
  • [2]基于时域信号的端到端的说话人识别算法研究[D]. 梁宁欣. 华南理工大学, 2020(02)
  • [3]基于弹性网正则的稀疏先验多通道语音去混响[D]. 牟正宇. 大连海事大学, 2020(01)
  • [4]G.722.1语音编码技术研究[D]. 何莹男. 大连理工大学, 2020(02)
  • [5]针对性别的说话人识别中语音特征性能的研究[D]. 赵丽颖. 天津工业大学, 2019(02)
  • [6]基于声音传感器的目标识别技术研究[D]. 查琳. 沈阳理工大学, 2020(08)
  • [7]基于TMS320C64的G.729语音编码器实时实现[D]. 闫宏鹏. 大连理工大学, 2019(07)
  • [8]基于源滤波器听觉感知的说话人识别研究[D]. 曾汐. 西南交通大学, 2019(03)
  • [9]基于深度学习的说话人识别算法研究[D]. 耿姝雅. 西安电子科技大学, 2019(04)
  • [10]面向自适应多速率语音的隐写分析技术研究[D]. 黄美伦. 华侨大学, 2019(01)

标签:;  ;  ;  ;  ;  

基于向量模型的语音线性预测研究
下载Doc文档

猜你喜欢