一、基于段长分布的HMM的资源受限语音识别系统(论文文献综述)
王凯[1](2021)在《基于Kaldi的语音识别研究》文中提出随着人工智能技术的不断发展,人机交互的方式也在不断更新迭代,语音交互作为一种智能高效的交互方式逐渐成为研究热点。语音交互的第一步是语音识别,通过语音识别将人类语言转换为机器可以识别的指令。神经网络技术的兴起和计算机性能的不断提升,为语音识别技术发展创造了良好的条件,在这些优势的加持下语音识别的准确率已经上升到了一个很高的水准,这使得语音识别技术被更加广泛的应用到了生活中。本文研究的主要内容是基于Kaldi的语音识别系统的搭建和优化。首先介绍语音识别技术的基本原理,包括语音信号的产生、语音信号的分析方法以及语音信号特征提取的方法等内容。研究了Kaldi的相关技术,重点研究了Kaldi下加权有限状态转换器(WFST),分析加权有限状转换器的实现以及基于加权有限状态转换器构建解码图的方法,并给出了在线构建WFST的方法。使用Kaldi进行GMM-HMM模型的训练,分析使用GMM和HMM进行声学建模的原理以及模型的训练方法,同时研究了声学模型各个模块在Kaldi当中的实现以及模块之间的作用机制。训练了基本的单音子模型系统,为了解决实际场景下的协同发音问题,又在单音子模型的基础上研究三音子模型。三音子模型的训练中,分别使用无监督变换的特征和有监督变换的特征进行模型训练,不断的提升GMM-HMM模型的性能,为后续神经网络模型训练提供良好的训练数据。在GMM-HMM模型的基础上,研究了DNN-HMM模型的实现方法。首先研究了不同结构神经网络的原理以及应用场景,在此基础上研究使用DNN进行声学建模的原理和方法。然后分析了Kaldi下对于神经网络模型的实现以及应用,并使用Kaldi进行DNN-HMM模型搭建和训练,训练出的DNN-HMM模型词错误率比性能最好的GMM-HMM模型要低6%左右。解码部分使用RNN和N-gram语言模型混合重打分的方法进一步降低了语音识别系统的词错误率,最终实现了一个稳定可用的语音识别系统。
丁伊丽[2](2021)在《维吾尔语语音识别中的子词建模方法研究》文中认为自动语音识别任务在人工智能领域举足轻重,是人与智能设备沟通交流的桥梁,广泛适用于自动问答系统、无障碍自动语音翻译等多个领域。不同于世界上主流语言识别技术的快速发展,维吾尔语等少数民族使用语言在资源匮乏的情况下发展缓慢,现今5G时代对低资源语言的语音识别性能需求越来越高,维吾尔语是典型的黏着性语言,与哈萨克语、土耳其语类似,存在词汇爆炸问题。本文结合维吾尔语本身的语言特点,为提高语音识别的正确率进行了以下工作:维吾尔语因本身的语言特性,在一个语音识别系统中,发音词典通常很难覆盖所有的单词,容易出现集外词问题,为了缓解此问题,语音识别系统采用子词单元进行建模,使用基于统计的字节对编码(Byte Pair Encoding,BPE)算法来获取子词单元,并在此方面做了相关研究,研究了子词建模单元的数目可能对识别系统的影响。BPE算法因本身特点,具有一定的缺陷,机器翻译任务中修改BPE算法的解码过程,得到BPE-Dropout算法,提高了分割过程中的鲁棒性,却不适用于维吾尔语的语音识别任务,在此基础上,本文提出Improved_BPE-Dropout算法来构建更适合于子词建模的语言模型,综合了BPE算法和BPE-Dropout算法二者的优点,识别性能得到明显改善。针对维吾尔语的训练数据无法构建强壮的声学模型的情况,本文在原有数据上进行数据增广,使用音量扰动和速度扰动的方法增加数据量,采用目前工业界中使用广泛的链式(Chain)模型,结合子词单元建模方法,识别效果相对于传统DNN建模取得显着提升。使用Kaldi语音识别工具包和GStreamer工具包,以服务端-客户端的结构方式,结合HTML标签、CSS样式和Java Script脚本搭建在线的WEB页面版实时语音识别系统,构建人机交互的语音识别平台。此平台可提供维吾尔语、英语、汉语三种语言的在线语音识别,页面简单,功能实用。
姚锦玮[3](2021)在《智能泵站平台人机交互中语音识别和语音合成的研究与设计》文中研究表明人机交互可以减少人工干预、解放双手,是泵站平台实现智能化的过程中必不可少的部分。虽然目前语音交互系统已经有比较成熟的技术和产品,但在实际泵站平台的应用中仍有一些问题亟待解决:一是实际泵站控制指令多变,现有的语音识别模型泛化能力低,无法在实际泵站下使用;二是现有的中文语音合成存在推断效率和语音合成质量不高的情况。针对这两个问题,本文针对智能泵站平台下的语音交互技术进行研究与设计,实现了泵站平台的语音人机交互。主要研究内容如下:(1)录制泵站控制指令数据集,改进数据预处理方法。音素和文本一旦发生错误对齐,合成的语音质量将会降低,传统的音素和文本的对齐方法为软对齐,极易出现对齐错误的情况,因此利用MFA方法将音素和文本进行硬对齐。此外,通过提取音节和音素的持续时长,缓解了语音合成中跳字或重复字的问题。(2)设计实现了端到端的语音识别模型。语音识别模型由声学模型和语言模型组成。声学模型上,对语音信号同时进行空间和时间上的建模,利用CNN提取语音信号在空间上的特征,利用BiLSTM对语音信号进行时序上的建模,采用CTC对语音帧和真实语音标注进行对齐,获得更好的识别效果,同时将迁移学习用于声学模型,对公开数据集下的声学模型进行微调,提升了小数据量的泵站特定控制指令词汇的识别率;设计了 Transformer语言模型,通过计算拼音之间的注意力分数,将任意位置的拼音进行联系,相比于传统的RNN结构语言模型,解码效率得到了提升,同时加入编辑距离,使用STransformer语言模型,提升了特定词汇的识别效果,满足实际泵站环境的要求。(3)设计实现了中文语音合成模型。语音合成模型由声学模型和声码器组成。现存的中文语音合成声学模型易出现韵律错误、漏字、重复字的情况,对此,本文设计了 FastSpeech2x声学模型,引入可变信息适配器,改善合成语音的韵律,同时加入了受限的注意力机制PNCA,减少语音合成中发生跳步和后退的情况,提升语音质量;常用的声码器在解码速度和语音质量上很难平衡,本文实现了基于MelGAN和HiFi-GAN的语音合成声码器,加速梅尔频谱向语音波形解码的过程,同时提高了合成语音的质量。满足了语音合成中对合成质量和推断速率的要求。(4)在智能泵站平台下搭建了语音交互系统。实现了语音采集、语音识别、泵站控制和状态监测、语音合成这四个模块的功能,满足了系统的需求。
萨仁高娃[4](2021)在《蒙古语发音词典建设及其语音识别的应用研究》文中认为蒙古文是一种拼音文字,其口语音位和字符之间有对应的关系。传统蒙古文,自创制以后其文字系统本身没有发生质的变化。而蒙古口语本身却发生了很大的变化,即蒙古书面语与口语之间存在差异。这种差异主要体现在长元音和复合元音的书面字符组合及其读音对应关系、书面词末尾的大部分短元音在口语中的脱落、口语中的辅音结合构成复辅音而引起音节数的变化、元音和谐律、附加成分的口语读音与位于其前面的词末尾音节读音之间的变化等。解决这些差异也是蒙古语语音识别的一个难点问题。研制面向语音识别的发音词典是解决上述差异的有效途径。一、蒙古语的发音词典包含书面蒙古语词和其读音标注平行对,用于语音识别和合成等言语工程。依靠语言学家人工构造发音词典是一项费时费力的工作。如何自动构造蒙古语单词读音标注而研制发音词典是本研究的主要部分。研制发音词典时需要解决字素和音素转换(G2P conversion)问题,即从词的书面形式序列对应转换为词的读音音素序列。在低资源的情况下,本研究中提出了基于规则和决策树相结合的研制发音词典的方法。二、为了建立研制发音词典的规则,进一步研究了蒙古文字符与口语音位对应关系、书面语与口语词之间的音节对应关系、蒙古语口语元音和谐律、影响研制发音词典的词汇和词法因素。结合蒙古语口语元音和谐律,重点关注书面相邻两个音节,从前面音节中的元音和辅音读音怎么影响后面音节中的元音字符读音的角度进行研究并列出了规则;针对形成复辅音时可能产生的不同情况即音节中的元音前移、脱落、不脱落也不前移,扩展了原传统语法知识中的前列辅音和后列辅音的二元分析方法,提出了首音节元音、前音节、当前音节、词中和词末等从多个角度研究的多元数据分析方法。三、为了采用决策树算法提出了蒙古语长短元音的特征分类标签、蒙古语扩展的长元音化结构的分类特征向量、非词首音节中的单个元音字符分类特征向量、首音节元音特征向量。其中,提出扩展的长元音化结构的分类特征向量的目的是处理传统语法知识中的长元音和复合元音现象。提出首音节元音特征向量的目的是处理传统语法知识中的词首音节的元音字符的读音变化现象。提出非词首音节中的单个元音字符分类特征向量的目的是处理传统语法知识中的非词首音节的元音字符的读音变化现象。先通过决策树算法分别局部处理了词首音节的元音字符读音变化、长元音和复合元音对应的字符组合的读音、非词首音节中的单个元音字符的读音变化。然后再使用新提出的基于多元数据的规则去处理音节数的变化、复辅音的结合和元音的和谐问题。四、对于带附加成分的词条,根据附加成分读音变化方面的传统语法知识,也总结了规则。具体地,带附加成分的词分两次读音转换,先转换不带附加成分的词和附加成分的读音,然后根据附加成分读音变化规则,连接词的读音和附加成分的读音。五、使用基于规则和决策树相结合的字素和音素转换方法对《蒙汉词典》的26348个词进行比对测试并改进,为发音词典建设提供了自动化程序。目前,通过该字素和音素转换程序针对《蒙汉词典》的26348个词进行比对的结果是21121个词得到了正确的读音转换,词读音转换正确率达到了80.16%。六、参照开源语音识别Kaldi工具包的发音词典的建设要求,对5600个句子的文本进行切词,并使用上一步得到的基于规则和决策树相结合的字素和音素转换程序,得到了10415个词的书写与读音标注平行对;然后在开源语音识别Kaldi工具环境下,搭建了语音识别系统。其中语言模型采用SRILM工具包构建了语言模型,声学模型分别使用了子空间高斯混合模型SGMM-HMM和DNNHMM声学模型并做了对比试验。试验结果表明在低资源的情况下,子空间高斯混合模型SGMM-HMM声学模型优于DNN-HMM声学模型。
梁鑫月[5](2021)在《儿童蒙古语语音识别研究》文中认为随着人工智能技术的发展和大规模数据的支持,在简单场景下的语音识别已经达到了不错的识别效果。然而大语音库只存在于使用人数较多的几种语言中,大部分语种和许多细分领域都存在着语音数据不足的问题,低资源的语音识别还有待研究。儿童蒙古语语音识别研究具有现实意义,可以满足智能教育等方面儿童语音交互的需求。本文围绕儿童蒙古语语音识别进行研究,具体内容如下:1.建立了儿童蒙古语语音数据库。从网络上不同蒙古语平台获取儿童蒙古语语音,包括儿童朗诵、对话等形式,再进行数据处理、识别、校对后获得有语音和对应标注的初始语料库。由于可获取的儿童蒙古语资源较少,实验中使用加噪、变换、语音合成等方法对儿童蒙古语语音进行了数据扩充。2.本文实现了基于链式时延神经网络(Time Delay Neural Network,TDNN)的儿童蒙古语语音识别基线系统,利用成年人蒙古语语音库和新建的儿童蒙古语语音库,采用TDNN模型建立了基线系统。并实验对比了链式TDNN和传统TDNN的建模性能,结果表明序列级别优化的链式模型的效果优于传统的单帧优化模型。3.本文提出了基于迁移学习的儿童蒙古语语音识别模型,本文采用三种迁移学习策略进行模型构建,分别是基于成年人蒙古语的迁移学习、基于跨语言的迁移学习和不同训练准则混合的多任务学习。实验结果表明基于迁移学习的模型能有效的优化儿童蒙古语语音识别系统的性能,并且结合不同训练准则的多任务混合模型词错误率最低达到了12.53%。4.在迁移模型的基础上,针对儿童语音的声学特性结合说话人归一化方法和说话人自适应方法做了声道长度归一化(Vocal Tract Length Normalisation,VTLN)的特征变换,并对比了不同特征在儿童蒙古语语音识别中的建模效果。实验结果表明,VTLN可以有效的提高儿童蒙古语语音识别系统性能,相比未进行特征变换的对照实验词错误相对降低了16.4%。
张经,杨健,苏鹏[6](2020)在《语音识别中单音节识别研究综述》文中研究表明声学模型建模可实现对语音信号的处理和特征抽取,是语音识别过程中必不可少的基础性工作,同时也是影响语音识别整体性能的一个重要因素。在语音识别中,选择合适的建模基元能使后续系统获得更高的准确率和更强的鲁棒性。音节是汉语等汉藏语系的最小发音单位,针对其发音特点,研究使用音节作为汉藏语系语音识别的建模基元,再提取相应的特征进行识别就有着尤为重要的意义。针对单音节识别目前的研究进展,首先介绍了基于有限状态矢量量化的算法,以及其改进算法在单音节识别中的研究成果;然后介绍了基于隐马尔可夫模型的算法,并详细介绍了将隐马尔可夫模型与其他算法相结合的音节识别研究成果;接着介绍了基于神经网络的算法;最后总结并提出了单音节识别研究未来发展的重要方向。
郇晋侠[7](2020)在《山西朔州方言语音识别方法研究》文中研究指明语音作为人机交互的最重要的手段和研究形势之一,随着科学技术的发展,自动语音识别(Automatic Speech Recognition,ASR)已经应用于日常生活之中。但目前山西朔州的语音识别系统大多为普通话识别,各地方言用户只有以近似标准的普通话发音才能得到较好的识别结果。加之方言语音语料数据采集成本高,仅有少量的资源可用于研究。在低资源条件下的语音识别相关系统识别率低。所以为满足大众的交互需求和实现高识别率,针对山西朔州方言的研究与应用就显得十分必要。在此背景下,本文一方面对现有的模型进进行对比,另一方面对低资源数据进行整理,从而提高山西朔州方言的语音识别系统识别率。首先,本文对语音识别的发展史和基本原理进行了简要的介绍,随后对语音识别从模拟信号的处理到声学模型的构建以及识别等每一项关键技术进行了阐述。之后,对声学模型和语言模型进行着重研究,包括:高斯混合模型和隐马尔可夫模型(GMM-HMM)、基于深度学习的神经网络模型(DNN-HMM)以及N-gram等模型。最后,本文对山西朔州方言的语言特征、低资源和小区域进行了分析研究,对各个模型下山西朔州方言的识别进行了对比实验。本文共搭建了四组不同的对照实验,比较了不同的模型和数据量对识别性能的影响结果。在山西朔州方言研究中,首先对低资源数据和小区域中的方言地区,使用传统的高斯混合模型和隐马尔可夫模型(GMM-HMM)和基于深度学习的神经网络模型(DNNHMM)两种模型来研究低资源和小区域对语音识别性能的影响;其次,通过加大数据量,查看通过加大数据量,对小区域识别提升的影响;再次,研究基于深度学习的神经网络模型(DNN-HMM)加入共享隐藏层,对提高数据量和识别性能的提升;最后研究基于DNN的声学模型,提出不同的激活函数对语音识别效果的影响。实验表明,在四组不同的实验中,GMM-HMM声学模型在小区域和低资源数据量的情况下,识别率较高,达到了90.32%,随着数据量的加大,基于DNN-HMM声学模型的准确率逐渐提升,达到92.61%,表明数据量越多,识别越准确。共享层确实起到了增大数据量的作用。
朱洪涛[8](2020)在《英语朗读发音质量评价模型的研究》文中研究表明语言是人类最便捷的交流方式,随着全球化程度的不断加深,越来越多的人希望掌握一门除母语之外的交流语言。英语作为一门全球性的通用语言,获得了日益广泛的关注,而其中口语学习至关重要。对于英语学习者来说,一对一的师生交流和指导是提高口语水平最有效的方式,但传统的英语课堂教学很难满足大多数学习者的口语学习需求。得益于语音处理技术的不断进步,计算机辅助语言学习(Computer Assisted Language Learning,CALL)系统日趋智能化,不仅能指出学习者的发音错误,还能评估其整体发音水平。本文就是对CALL系统中的发音错误检测和发音质量评测这两项关键技术进行研究,并将两者有效融合,旨在构建一个适合于中国学生的英语朗读发音质量评价模型。本文的主要研究内容如下:1、研究了两种不同的发音错误检测方法。第一种方法基于语音识别框架,将计算得到的音素发音标准度得分和判决门限进行比较,从而判断音素发音是否正确。其中,对标准美音声学模型进行了优化调整,使其适合于评价中国学生的英语发音,并设置音素独立门限来提高发音错误检测性能。2、针对第一种方法对易混淆音素检测能力有限的问题,本文采用了第二种基于声学语音学知识的发音错误检测方法,重点研究了中国学生在英语发音过程中出现的典型易混淆音素/i/和/(?)/,通过提取区分性的声学语音学特征,并使用支持向量机(Support Vector Machine,SVM)进行发音错误检测,取得了比第一种方法更高的发音错误检测性能。3、发音质量评测时,为了更全面地评估学生整体朗读发音质量,除了传统的发音标准度评测外,又分别从发音流畅度和语调两个维度进行评测。在发音流畅度评测中,设计了一种新的评测特征,即单词段长比;在语调评测中,研究了基于动态时间规整(Dynamic Time Warping,DTW)算法的语调评测方法。最后,引入支持向量回归(Support Vector Regression,SVR)算法实现以上不同维度评测特征的有效融合,显着提高了发音质量评测性能。
冯怡林[9](2020)在《基于HMM和DNN混合模型研究的语音识别技术》文中指出随着大数据和人工智能的快速发展,语音识别的相关应用变得越来越普及,如今很多电子产品都通过语音交互进行操作,这让人们更加方便地享受到了现代化智能服务。如何更加高效的实现语音交互,减少噪声对系统识别性能的影响,提高系统的识别准确性是研究的重点所在。本文首先研究了语音信号的预处理和特征参数提取过程,针对梅尔频率倒谱系数(MFCC)只能反映声音信号的静态特性,而经验模态分解(EMD)能够更细致地刻画信号的非平稳特性,本文将EMD融入到MFCC特征提取中。实验结果表明,改进的特征参数提取方法有效地提高了系统的识别效果,在不同的信噪比下识别率最大提高了3.15%。在传统的声学建模中,高斯混合模型(GMM)和隐马尔科夫(HMM)混合模型一直占主导地位,本文在MATLAB上建立小词汇量识别系统进行实验,对比分析可得GMM-HMM相对于单一的HMM来说,对训练数据量的要求不高且具有更好的识别性能。针对GMM对复杂数据的建模能力不足的问题,在此混合模型的基础上采用具有更强建模能力的深度神经网络(DNN)来代替GMM得到新的模型结构,在Linux系统上创建kaldi语音识别工具箱,基于THCHS-30语音数据库实现了大词汇量的连续语音识别系统,实验结果表明DNN-HMM模型比GMM-HMM模型在识别错误率明显下降,且Fbank特征比MFCC更适合深度神经网络模型的训练。在添加噪声环境下,降噪自编码器(DAE)对深层模型进行预训练能够恢复被噪声破坏的信号,有效提升识别的准确性。
张宁[10](2019)在《基于端到端的语音唤醒技术研究》文中研究说明随着人工智能的迅猛发展和人机交互需求的不断增大,智能语音技术获得了前所未有突破。语音领域的研究成果,不仅推动了前沿科技的进步,更创造了巨大的市场价值,意义重大。语音唤醒是智能语音领域的重要研究方向,它的任务是在连续的语音流中,将一组给定的唤醒词检测识别出来。针对有登记语音的语音唤醒任务,本文建立了基于深度超向量的语音唤醒系统用以满足该唤醒需求。针对固定唤醒词的任务,本文重点研究了端到端(End-to-End,E2E)技术,并实现了基于端到端的语音唤醒系统。另外,还通过各种深度学习模型的应用,优化了系统参数配置,提升了的系统性能。本文工作主要包含以下三个部分:1、全面地梳理了语音识别的发展历史主线,对语音唤醒和端到端技术的前人工作、研究现状和最新进展进行了充分而详实的调研。2、针对有登记语音的语音唤醒任务,建立了基于深度超向量的语音唤醒系统。该系统使用深度神经网络(Deep Neural Network,DNN)作为一个特征提取器,提取语音的深度超向量,最后计算测试语音和模板的深度超向量之间余弦相似度。实验结果证明基于深度超向量的系统相比基于分段动态时间规整(Segmental DTW,S-DTW)的系统具有全面的性能优势。3、本文实现了基于端到端的语音唤醒系统。该系统只需要一个预先训练好神经网络作为声学模型,输入声学特征后,通过神经网络的前向传播算法和后验概率后处理模块,就可以相应输出唤醒词的置信度得分,在这个过程中不需要复杂的解码过程,实现了端到端框架。并且,本文将TDNN、LSTM、GRU和TDNN-F在内的多种深度学习模型作为声学模型引入系统,通过多组实验,对比了各个模型的系统性能,验证了本文的端到端唤醒系统的有效性。
二、基于段长分布的HMM的资源受限语音识别系统(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于段长分布的HMM的资源受限语音识别系统(论文提纲范文)
(1)基于Kaldi的语音识别研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 语音识别研究与应用 |
1.2.1 语音识别的发展 |
1.2.2 语音识别的应用 |
1.3 本文主要工作 |
第二章 语音识别技术基本原理 |
2.1 语音信号的产生及特征 |
2.2 语音信号分析及预处理 |
2.2.1 语音信号预处理 |
2.2.2 语音信号分析 |
2.3 语音信号特征提取 |
2.4 语音识别方法 |
2.5 本章小结 |
第三章 Kaldi分析和数据准备 |
3.1 Kaldi介绍和安装 |
3.1.1 Kaldi介绍 |
3.1.2 Kaldi的安装和配置 |
3.1.3 Kaldi文件结构说明 |
3.2 Kaldi的 I/O和表单 |
3.2.1 Kaldi的 I/O机制 |
3.2.2 表单简介 |
3.3 WFST及其实现 |
3.4 基于WFST的构图和解码 |
3.4.1 模型的WFST表示与复合 |
3.4.2 HCLG的优化和搜索 |
3.4.3 Kaldi的解码器实现 |
3.5 训练数据准备 |
3.5.1 表单文件生成 |
3.5.2 发音词典生成 |
3.5.3 N元文法语言模型生成 |
3.6 本章小结 |
第四章 传统声学模型的研究和改进 |
4.1 混合高斯模型 |
4.1.1 高斯分布和混合高斯模型 |
4.1.2 混合高斯模型的参数估计 |
4.2 隐马尔可夫模型 |
4.2.1 HMM基本思想 |
4.2.2 Baum-Welch算法 |
4.3 Kaldi下的GMM-HMM模型训练 |
4.3.1 模型初始化和训练算法优化 |
4.3.2 单音子模型训练 |
4.3.3 三音子模型训练 |
4.3.4 有监督特征变换 |
4.4 实验结果分析 |
4.5 本章小结 |
第五章 深度神经网络模型的研究和改进 |
5.1 基于神经网络的声学模型 |
5.1.1 神经网络基础 |
5.1.2 神经网络声学模型结构 |
5.2 神经网络在Kaldi当中的实现 |
5.2.1 nnet1 |
5.2.2 nnet2 |
5.2.3 nnet3 |
5.3 Kaldi下的神经网络模型训练 |
5.3.1 训练数据增强 |
5.3.2 神经网络模型训练 |
5.3.3 实验结果分析 |
5.4 语言模型重打分提升识别率 |
5.4.1 带词网格生成的解码 |
5.4.2 语言模型的裁剪 |
5.4.3 RNN语言模型混合重打分 |
5.4.4 实验结果分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
致谢 |
(2)维吾尔语语音识别中的子词建模方法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 语音识别系统基本框架 |
1.3 低资源语音识别国内外现状 |
1.4 论文组织结构 |
第2章 语音识别系统的相关技术 |
2.1 语音信号处理及特征提取 |
2.1.1 传统声学特征 |
2.1.2 说话人特征 |
2.2 声学模型 |
2.2.1 传统声学模型 |
2.2.2 DNN-HMM声学模型 |
2.2.3 Chain模型 |
2.3 语言模型 |
2.4 基于WFST解码器 |
2.5 子词建模单元 |
2.6 本章小结 |
第3章 基于数据驱动的子词分割方法 |
3.1 子词分割算法简介 |
3.1.1 BPE算法与BPE-Dropout算法简介 |
3.1.2 Improved_BPE-Dropout算法 |
3.2 数据增广方法实验设置 |
3.3 实验环境 |
3.3.1 实验设备与搭建环境 |
3.3.2 实验数据 |
3.3.3 评价标准 |
3.4 模型训练以及参数设置 |
3.4.1 声学模型搭建过程 |
3.4.2 子词语言模型准备过程 |
3.5 整词-子词混合单元建模的实验结果与分析 |
3.5.1 实验结果总结 |
3.5.2 整词-子词混合单元建模的有效性分析 |
3.5.3 数据增广下整子词混合建模对识别效果的影响 |
3.5.4 不同的子词解码方法对于语音识别的影响 |
3.5.5 不同子词单元数目对于混合单元建模的影响 |
第4章 在线语音识别系统设计与实现 |
4.1 在线语音识别系统框架简介 |
4.2 软件平台技术介绍 |
4.2.1 GStreamer以及使用插件 |
4.2.2 声学模型选择 |
4.2.3 WEB前端开发技术简介 |
4.3 平台页面示例 |
第5章 总结 |
5.1 本文研究内容总结 |
5.2 展望 |
参考文献 |
致谢 |
个人简历 |
攻读学位期间的研究成果 |
(3)智能泵站平台人机交互中语音识别和语音合成的研究与设计(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景与研究意义 |
1.2 国内外研究现状 |
1.3 本文研究内容 |
1.4 本文主要章节 |
第2章 语音交互技术相关知识 |
2.1 语音交互基础理论知识 |
2.1.1 语音信号的特征提取 |
2.1.2 Transformer模型 |
2.2 语音识别基础理论知识 |
2.2.1 语音识别声学模型相关技术 |
2.2.2 语音识别语言模型相关技术 |
2.3 语音合成基础理论知识 |
2.3.1 语音合成声学模型相关技术 |
2.3.2 语音合成声码器相关技术 |
2.4 本章总结 |
第3章 语音交互技术算法设计 |
3.1 数据集介绍 |
3.1.1 公开语音数据集 |
3.1.2 特定指令数据集 |
3.2 普通话特征提取 |
3.2.1 MFA以及音长信息的提取 |
3.2.2 能量特征的提取 |
3.2.3 音高特征的提取 |
3.2.4 声音信号特征的提取 |
3.3 语音识别算法设计 |
3.3.1 声学模型算法设计 |
3.3.2 语言模型算法设计 |
3.4 语音合成算法设计 |
3.4.1 声学模型算法设计 |
3.4.2 声码器算法设计 |
3.5 实验与分析 |
3.5.1 语音识别实验与分析 |
3.5.2 语音合成实验与分析 |
3.6 本章总结 |
第4章 智能泵站平台的语音交互技术工程应用 |
4.1 需求分析 |
4.1.1 项目需求 |
4.1.2 功能需求 |
4.1.3 非功能性需求 |
4.2 系统概述 |
4.2.1 系统结构 |
4.2.2 系统开发环境 |
4.3 系统实现 |
4.3.1 语音采集 |
4.3.2 语音识别 |
4.3.3 泵站控制 |
4.3.4 状态监测 |
4.3.5 语音合成 |
4.3.6 开关机提示和保护设置 |
4.4 系统测试 |
4.4.1 功能测试 |
4.4.2 用户体验测试 |
4.5 本章总结 |
第5章 结束语 |
5.1 主要工作和贡献 |
5.2 前景与展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(4)蒙古语发音词典建设及其语音识别的应用研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题的研究背景和意义 |
1.2 蒙古语字素和音素转换与相关技术的国内外发展现状 |
1.3 本课题的研究内容及组织结构 |
第二章 蒙古书面语与口语词之间语音对应关系 |
2.1 蒙古文字符与口语音位对应关系 |
2.1.1 短元音 |
2.1.2 长元音 |
2.1.3 复合元音 |
2.1.4 借词元音 |
2.1.5 辅音 |
2.1.6 本课题研究借助的符号系统 |
2.2 书面语与口语词之间音节对应关系 |
2.2.1 音节概述 |
2.2.2 书面语与口语词之间音节对应关系 |
2.2.3 从分类角度研究书面语与口语词之间音节对应关系 |
2.3 蒙古语口语元音和谐律 |
2.3.1 蒙古语口语的元音和谐律概述 |
2.3.2 书面词非第一音节的短元音《??(i)》的元音和谐律 |
2.3.3 书面词非第一音节的其它元音(除《? (i)》外)的元音和谐律 |
2.4 本章小结 |
第三章 蒙古语发音词典建设研究 |
3.1 蒙古语字素和音素转换与发音词典建设总体设计思路 |
3.2 基于规则和决策树相结合的发音词典建设设计 |
3.2.1 决策树算法与监督式分类介绍 |
3.2.2 蒙古语长短元音的特征分类标签简介 |
3.2.3 现代蒙古语书面语长元音化结构的特征化处理 |
3.2.4 现代书面蒙古语词首音节元音分类的特征化处理 |
3.2.5 非词首音节中的单个元音字符分类的特征化处理 |
3.2.6 基于规则和决策树相结合的字素和音素转换 |
3.3 本章小结 |
第四章 蒙古语词法与词汇对发音词典建设的影响 |
4.1 蒙古语词汇对发音词典建设的影响 |
4.2 蒙古语词法对发音词典建设的影响 |
4.3 辅音知识对发音词典建设的影响 |
第五章 发音词典在蒙古语语音识别上的应用 |
5.1 语音识别技术及蒙古语发音词典在语音识别上的应用介绍 |
5.2 基于kaldi的语音识别 |
5.2.1 语音识别kaldi工具的介绍 |
5.2.2 隐马尔科夫模型(HMM) |
5.2.3 子空间高斯混合模型SGMM声学模型 |
5.2.4 DNN-HMM声学模型 |
5.2.5 N-gram语言模型 |
5.2.6 基于WFST的解码器 |
5.2.7 性能评价指标 |
5.3 实验数据准备与分析 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 1 书面蒙古语扩展的长元音化结构的分类特征向量举例 |
附录 2 非词首音节中的单个元音字符分类特征向量举例 |
附录 3 首音节元音字符特征向量举例 |
附录 4 开源语音识别工具 kaldi 环境使用的蒙古语发音词典举例 |
附录 5 |
致谢 |
(5)儿童蒙古语语音识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 引言 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 语音识别的研究现状 |
1.2.2 儿童语音识别的研究现状 |
1.3 研究内容及组织结构 |
1.3.1 研究内容 |
1.3.2 组织结构 |
第二章 儿童蒙古语语音识别相关技术 |
2.1 儿童蒙古语特点 |
2.1.1 蒙古语特点 |
2.1.2 儿童语音特点 |
2.2 系统架构 |
2.3 特征提取 |
2.3.1 声学特征 |
2.3.2 特征变换 |
2.4 声学模型 |
2.4.1 基于DNN-HMM的声学模型 |
2.4.2 深度神经网络模型 |
2.5 发音词典与语言模型 |
2.6 解码器 |
2.7 本章小结 |
第三章 基于链式TDNN的儿童声学模型建模 |
3.1 儿童蒙古语语料库的建立及优化 |
3.1.1 儿童蒙古语语音的获取 |
3.1.2 儿童蒙古语语音的扩充 |
3.2 儿童蒙古语语音识别基线系统框架 |
3.3 时延神经网络 |
3.3.1 时延神经网络结构 |
3.3.2 时延神经网络子采样 |
3.4 链式模型 |
3.4.1 最小化交叉熵训练准则 |
3.4.2 最大化互信息训练准则 |
3.5 儿童蒙古语语音识别基线实验 |
3.5.1 基线实验设置 |
3.5.2 基线实验结果与分析 |
3.6 本章小结 |
第四章 基于迁移学习的儿童声学模型建模 |
4.1 基于成人语音迁移的儿童声学模型建模 |
4.1.1 迁移学习 |
4.1.2 迁移策略 |
4.2 基于跨语言训练的儿童声学模型建模 |
4.2.1 跨语言训练 |
4.2.2 跨语言学习分类 |
4.3 多任务学习混合模型的儿童声学模型建模 |
4.3.1 多任务学习 |
4.3.2 模型结构 |
4.4 实验结果与分析 |
4.4.1 成人语音迁移模型实验 |
4.4.2 跨语言模型实验 |
4.4.3 多任务混合模型实验 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 工作展望 |
参考文献 |
致谢 |
(6)语音识别中单音节识别研究综述(论文提纲范文)
1 引言 |
2 基于矢量量化的算法 |
3 基于隐马尔可夫模型的算法 |
4 基于神经网络的算法 |
(7)山西朔州方言语音识别方法研究(论文提纲范文)
摘要 |
abstract |
1.绪论 |
1.1 山西朔州方言语音识别背景 |
1.2 语音识别技术的发展历史及研究现状 |
1.3 语音识别系统的框架 |
1.4 低资源的语音识别研究现状 |
1.5 山西朔州方言研究现状与意义 |
1.6 论文主要研究内容和工作安排 |
2.语音识别关键技术原理 |
2.1 语音信号预处理 |
2.1.1 语音信号的数字化处理过程 |
2.1.2 语音信号中的预加重 |
2.1.3 分帧和加窗 |
2.1.4 端点检测 |
2.1.5 语音信号中频域分析技术 |
2.2 语音特征参数的提取 |
2.3 语言模型 |
2.4 声学模型 |
2.5 本章总结 |
3.隐马尔可夫模型(HMM)与深度神经网络模型(DNN) |
3.1 基于HMM的声学模型 |
3.1.1 马尔科夫链 |
3.1.2 隐马尔可夫模型 |
3.1.3 隐马尔可夫模型的三个核心问题 |
3.2 GMM-HMM模型在语音识别中应用 |
3.2.1 高斯混合模型GMM |
3.2.2 高斯混合模型和隐马尔可夫模型(GMM-HMM) |
3.2.3 GMM-HMM的优劣势 |
3.3 深度神经网络DNN |
3.3.1 深度神经网络框架 |
3.3.2 深度神经网络模型(DNN)的参数训练准则 |
3.3.3 经典算法(BP算法) |
3.3.4 数据预处理 |
3.3.5 受限玻尔兹曼机 |
3.3.6 DNN-HMM模型 |
3.4 本章总结 |
4.山西朔州方言的语音识别的构建 |
4.1 山西朔州方言的语言分析 |
4.2 语音采集与语料库的建立 |
4.2.1 科学划分区域 |
4.2.2 确定录音人的相关设备及语音的高保真处理 |
4.2.3 语音语料的设计 |
4.2.4 语音语料的设计标注 |
4.3 语音识别系统开发工具介绍 |
4.3.1 HTK的基本介绍 |
4.3.2 kaldi的基本介绍 |
4.4 基于kaldi的山西朔州方言的语音识别系统 |
4.4.1 kaldi安装与运行 |
4.4.2 前期数据准备工作 |
4.4.3 山西朔州方言语音识别系统的搭建 |
4.5 本章总结 |
5.实验结果与分析 |
6.总结与展望 |
6.1 本文的主要完成的工作 |
6.2 展望 |
参考文献 |
攻读硕士期间发表的论文及所取得的研究成果 |
致谢 |
(8)英语朗读发音质量评价模型的研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
§1.1 研究背景与意义 |
§1.2 国内外研究现状 |
§1.2.1 发音错误检测研究现状 |
§1.2.2 发音质量评测研究现状 |
§1.3 论文主要工作 |
§1.4 论文组织结构 |
第二章 相关理论与方法 |
§2.1 隐马尔科夫模型 |
§2.2 语音信号预处理 |
§2.2.1 预加重 |
§2.2.2 分帧 |
§2.2.3 加窗 |
§2.3 语音信号声学特征提取 |
§2.3.1 梅尔频率倒谱系数 |
§2.4 知识库 |
§2.4.1 声学模型 |
§2.4.2 语言模型 |
§2.4.3 发音词典 |
§2.5 维特比束搜索解码 |
§2.5.1 搭建搜索网络 |
§2.5.2 Viterbi束搜索解码 |
§2.6 本章小结 |
第三章 英语朗读发音质量评价模型 |
§3.1 模型的总体结构 |
§3.2 单词发音错误检测模块 |
§3.2.1 单词发音音素错误检测算法 |
§3.2.2 单词发音易混淆音素检测算法 |
§3.3 发音质量评测模块 |
§3.3.1 发音标准度评测算法 |
§3.3.2 发音流畅度评测算法 |
§3.3.3 基于DTW的语调评测算法 |
§3.3.4 基于SVR的发音评分算法 |
§3.4 本章小结 |
第四章 评价模型的实验与分析 |
§4.1 实验环境与配置 |
§4.1.1 实验环境 |
§4.1.2 实验配置 |
§4.2 评价模型的实验数据 |
§4.3 单词发音错误检测实验与分析 |
§4.3.1 单词发音错误检测实验评价指标 |
§4.3.2 单词发音音素错误检测实验与分析 |
§4.3.3 单词发音易混淆音素检测实验与分析 |
§4.4 发音质量评测模块实验与分析 |
§4.4.1 发音质量评测实验的评价指标 |
§4.4.2 发音标准度评测实验与分析 |
§4.4.3 发音流畅度评测实验与分析 |
§4.4.4 发音语调评测实验与分析 |
§4.4.5 评价模型的评测实例实验与讨论 |
§4.5 评价模型的具体实现 |
§4.6 本章小结 |
第五章 总结与展望 |
§5.1 论文总结 |
§5.2 研究展望 |
参考文献 |
致谢 |
作者在攻读硕士期间的主要研究成果 |
(9)基于HMM和DNN混合模型研究的语音识别技术(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 语音识别发展概况 |
1.2.1 国外研究发展与现状 |
1.2.2 国内研究发展与现状 |
1.2.3 语音识别技术存在的问题 |
1.3 本文研究工作与组织结构 |
第2章 语音信号的分析和预处理 |
2.1 语音识别基本原理 |
2.2 语音信号的数学模型 |
2.2.1 激励模型 |
2.2.2 声道模型 |
2.2.3 辐射模型 |
2.3 语音信号的预处理 |
2.3.1 采样量化 |
2.3.2 预加重 |
2.3.3 加窗分帧 |
2.4 语音信号的端点检测 |
2.5 本章小结 |
第3章 语音特征参数提取 |
3.1 线性预测倒谱系数 |
3.2 梅尔频率倒谱系数 |
3.3 基于经验模态分解的MFCC |
3.4 本章小结 |
第4章 基于GMM-HMM声学模型的识别系统 |
4.1 隐马尔科夫模型 |
4.1.1 马尔可夫链 |
4.1.2 隐马尔科夫模型的定义 |
4.1.3 模型结构分类 |
4.2 HMM的基本问题及其解决算法 |
4.2.1 前向-后向算法 |
4.2.2 Viterbi算法 |
4.2.3 Baum-Welch算法 |
4.3 GMM-HMM声学模型构建 |
4.4 实验结果及分析 |
4.4.1 数据准备 |
4.4.2 算法实现 |
4.4.3 实验测试及结果分析 |
4.5 本章小结 |
第5章 基于DNN-HMM声学模型的识别系统 |
5.1 深度神经网络模型 |
5.1.1 人工神经网络 |
5.1.2 激活函数的选择 |
5.1.3 深度学习神经网络 |
5.2 DNN的训练过程 |
5.2.1 深度置信网络预训练 |
5.2.2 反向传播算法微调 |
5.3 深度自动编码器模型 |
5.3.1 自动编码器 |
5.3.2 降噪自动编码器 |
5.4 深度神经网络在声学建模中的应用 |
5.5 实验测试及结果分析 |
5.5.1 kaldi介绍 |
5.5.2 数据准备 |
5.5.3 GMM基线模型训练 |
5.5.4 DNN模型训练 |
5.5.5 实验测试及结果分析 |
5.6 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间所发表的论文 |
致谢 |
(10)基于端到端的语音唤醒技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 智能语音的发展历史 |
1.3 语音唤醒 |
1.4 本文主要工作和篇章结构 |
第二章 语音唤醒相关技术及背景知识 |
2.1 语音识别系统 |
2.2 语音信号预处理 |
2.2.1 采样和量化 |
2.2.2 端点检测 |
2.3 特征提取 |
2.4 GMM-HMM |
2.4.1 高斯混合模型GMM |
2.4.2 隐马尔可夫模型HMM |
2.4.3 GMM-HMM系统 |
2.5 DNN-HMM |
2.5.1 深度神经网络DNN |
2.5.2 DNN-HMM系统 |
2.6 端到端技术 |
2.7 语音唤醒技术 |
2.7.1 主流方法 |
2.7.2 语音唤醒的评价指标和难点 |
2.8 本章小结 |
第三章 基于深度超向量的自定义唤醒词系统 |
3.1 引言 |
3.2 基于S-DTW的自定义唤醒词系统 |
3.2.1 DTW技术 |
3.2.2 系统原理 |
3.3 基于深度超向量的自定义唤醒词技术 |
3.3.1 深度超向量 |
3.3.2 系统原理 |
3.4 实验结果与分析 |
3.4.1 实验基本流程 |
3.4.2 实验数据 |
3.4.3 实验结果 |
3.5 本章小结 |
第四章 基于端到端的固定唤醒词系统 |
4.1 引言 |
4.2 基于置信度的固定唤醒词系统 |
4.2.1 系统原理 |
4.3 基于端到端的固定唤醒词技术 |
4.3.1 系统原理 |
4.3.2 置信度计算 |
4.4 基于TDNN的语音唤醒 |
4.4.1 TDNN |
4.4.2 实验数据 |
4.4.3 实验结果与分析 |
4.5 基于RNN的语音唤醒 |
4.5.1 LSTM |
4.5.2 GRU |
4.5.3 实验数据 |
4.5.4 实验结果与分析 |
4.6 基于TDNN-F的语音唤醒 |
4.6.1 TDNN-F |
4.6.2 实验数据 |
4.6.3 实验结果与分析 |
4.7 本章小结 |
第五章 总结与展望 |
参考文献 |
攻读硕士期间的科研成果 |
致谢 |
四、基于段长分布的HMM的资源受限语音识别系统(论文参考文献)
- [1]基于Kaldi的语音识别研究[D]. 王凯. 南京邮电大学, 2021
- [2]维吾尔语语音识别中的子词建模方法研究[D]. 丁伊丽. 新疆大学, 2021
- [3]智能泵站平台人机交互中语音识别和语音合成的研究与设计[D]. 姚锦玮. 中国科学技术大学, 2021(08)
- [4]蒙古语发音词典建设及其语音识别的应用研究[D]. 萨仁高娃. 内蒙古大学, 2021
- [5]儿童蒙古语语音识别研究[D]. 梁鑫月. 内蒙古大学, 2021(12)
- [6]语音识别中单音节识别研究综述[J]. 张经,杨健,苏鹏. 计算机科学, 2020(S2)
- [7]山西朔州方言语音识别方法研究[D]. 郇晋侠. 中北大学, 2020(10)
- [8]英语朗读发音质量评价模型的研究[D]. 朱洪涛. 桂林电子科技大学, 2020(02)
- [9]基于HMM和DNN混合模型研究的语音识别技术[D]. 冯怡林. 河北科技大学, 2020(01)
- [10]基于端到端的语音唤醒技术研究[D]. 张宁. 厦门大学, 2019(02)
标签:语音识别论文; 自然语言处理论文; kaldi论文; kaldi语音识别论文; 元音音素论文;