语音信号的识别与转换研究

陈正军^[1]2007年在《语音与图像识别技术的嵌入式应用研究》文中研究说明模式识别能力是人类智能的重要组成部分。用计算机实现模式的自动识别，是开发智能机器的一个最关键的突破口。模式识别不仅是一个有重大科学意义的研究领域，也是数字化网络时代诸多实际应用需要突破的一项重大关键技术。语音和图像识别技术是模式识别重要的发展方向，随着人们生活水平不断提高，使用计算机的人也越来越多，为了让人与计算机更好的沟通，所依靠的关键技术就是语音识别技术与图像识别，并且语音识别与图像识别必将成为信息产业的标志性技术和未来计算机的重要特征。当前，语音识别技术与图像识别正在向嵌入式方面发展，嵌入式语音识别产品在人们的日常生活中还是很少，该领域具有广阔的市场前景。在此背景下，本文在重点对语音识别技术进行全面、深入研究的基础上，结合图像识别实现对简易机器人和小型车的语音和图像控制。文章主要内容包括以下几个方面：(1)首先介绍了语音与图像识别的研究与发展状况，并简单说明了语音识别与图像识别的基本原理和主要方法，为进一步的语音识别与图像研究打下了良好的基础。(2)研究统计模式识别基本原理，分析并研究语音和图像识别，在总结目前语音识别与图像识别基础上，对现有技术进行了仔细地分析比较，综合几种常用算法的优点，对系统的实现提供了技术支持。(3)分析语音信号特征参数提取方法的优劣，并总结得出了参数提取的原则，并对模板训练匹配的问题进行了研究。(4)分析图像分割技术的，结合本课题图像识别要求特征重点介绍最大类间方差阈值分割。(5)设计了一种基于SPCE061A处理器的特定人、小词汇量语音识别系统，结合凌阳公司Eagle图像识别模组完成对小车语音和图像识别控制。最后，在总结全文工作的基础上，对课题目前存在的问题进行了分析，并为进一步研究指明了方向。

杨阳^[2]2008年在《汉语语音转换系统的研究》文中提出语音转换(Voice Conversion)是指通过语音处理手段改变一个说话人(源说话人,Source Speaker)的语音个性特征,使之具有另外一个说话人(目标说话人,Target Speaker)的语音个性特征,但转换语音所包含的语意内容不变。语音转换技术涉及信号处理、语言学、声学、计算机科学等学科领域,它的深入研究势必将会对语音学其它领域的研究发展产生促进作用,同时它在电影、电视节目的配音、医疗及保密等许多方面有着广泛的应用前景。因此语音转换技术的研究具有重要的理论价值和实用价值。本文从不同说话人发声器官的差异入手,分析了说话人个性特征及其声学特征参数表示,并采用基于STRAIGHT分析—合成算法的混合高斯模型(GMM)转换算法实现了一个特定人语音转换系统,并利用该系统对影响转换性能的因素做了相关实验和分析。论文完成的主要工作有:1.分析了说话人个性信息的声学表征问题。本文主要研究了不同说话人在以声门波形参数为代表的声源特征,以及以共振峰为代表的声道特征的差异性,选取基频参数,基频范围和线谱对系数(LSF)作为转换特征参数。2.实现了基于STRAIGHT分析—合成算法和GMM转换算法的特定人语音转换系统。为了评测GMM转换算法,进行了客观和主观评测实验,指出了GMM转换算法的过平滑现象使得转换语音音质下降的问题。3.讨论了男女语音在声源特性和声道特性的不同,搭建了一个简单的男女语音转换系统。针对男女语音在声源特性和声道特性的不同,用基频线性调整和频谱线性插值的方法实现了男女声之间地转换。非正式听辨实验证明:该转换系统实现的女声到男声的转换效果要好于男声到女声的转换效果。实现了一个变声器应用软件,该系统可以通过改变声音的基频参数,频谱参数和时长参数,来改变音质。4.分析和讨论了训练语料类型、训练数据量、混合高斯混合度、说话人差异等影响语音转换系统性能的因素,并分别进行实验。实验结论为:①联合概率密度的方法同时观察源说话人和目标说话人的参数,比只观察源说话人的参数训练的GMM模型的分类效果要好,得到的转换语音带有更多的目标说话人特征。②当训练阶段使用单音节语料时,转换单音节的准确度比转换句子的准确度要高;当训练阶段使用句子语料时,转换句子的准确度比转换单音节的准确度要高。③只有当训练数据集增大,混合度数也随之增大时,转换效果变好。④特定女性到特定男性的声音转换效果要好于特定男性到特定女性的声音转换效果;特定女性之间的声音转换效果要好于特定男性之间的声音转换效果。

于俊凤^[3]2004年在《语音信号的识别与转换研究》文中提出语音信号处理有广泛的应用领域，也有较长的研究历史。本文介绍作者在进行说话人识别、混迭语音信号分离和应用神经网络技术进行语音转换方面的若干研究探索问题。本文共分六章。第一章，介绍研究背景；第二章，介绍语音信号分析的基本内容；第叁章，介绍关于说话人识别的基本内容与特征参数的提取；第四章，介绍利用隐马尔可夫模型实现说话人识别的方法技术；第五章，介绍利用盲信号分离技术分离线性混迭语音信号的理论与方法；第六章，介绍利用神经网络技术进行语音转换的方法技术和初步的实验结果；最后是总结、建议及致谢。通过理论分析和模拟实验获得了如下认识与成果： (1)特征参数的选取在说话人识别中是非常关键的部分，它的好坏直接影响着识别效果。在全面分析语音信号的众多特征参数的基础上，本文采用并提取Mel倒谱系数(Mel-Frequency Cepstrum Coefficient，MFCC)，进行说话人识别，Mel倒谱系数具有较好的识别性能与抗噪性能。 (2)现有的说话人识别方法有动态时间规整法、矢量量化法、隐马尔可夫模型和神经网络法等，其中HMM已成为目前最佳的说话人识别处理模型。本文建立了自左至右的隐马尔可夫模型，并成功地实现了两个说话人的识别。 (3)在现实生活中的许多语音信号都是混迭信号，运用盲源分离技术分离这些混迭信号有利于更好地识别说话人。本文运用四阶累积量法和独立分量分析技术成功地将线性混迭语音信号分离，再将分离出的源信号用于说话人识别，可较好地识别出说话人。 (4)本文利用BP神经网络来实现不同说话人语音特征的转换，基本上实现了单个词的语音特征的转换。

王小佳^[4]2007年在《基于特征选择的语音情感识别研究》文中研究表明近年来,随着人们对人机交互兴趣的增加,情感识别逐渐成为一个研究热点。语音情感识别是指利用计算机分析特定说话人的情感状态及变化,进而确定其内心情绪或思想活动,实现人机之间更自然更智能化的交互。语音情感识别的研究对于增强计算机的智能化和人性化,开发新型人机环境,以及推动心理学等学科的发展,有着重要的现实意义,并最终产生很大的经济效益和社会效益。本文首先综述课题的研究背景,并分析目前国内外已提出的语音情感特征的提取、特征选择以及语音情感识别方法。在此基础上,提出了基于神经网络贡献分析的特征选择算法、基于误识率的情感类别混淆度计算方法和基于选择性特征的SVM决策树算法。具体内容如下:(1)基于神经网络贡献分析的特征选择算法。由于语音情感特征参数较多,存在无关特征和冗余特征。本文提出了基于神经网络贡献分析的语音情感特征选择方法,以此来减少冗余信息的影响,同时也降低了计算量,提高了识别速度。该方法将从时间构造、振幅构造、基音构造、共振峰构造、MFCC系数以及Mel频谱能量动态系数上提取的101个语音情感特征,通过神经网络贡献分析进行选择,同时采用聚类性分析对经过选择后的情感特征进行有效性分析,以此来验证所选择特征的有效性。(2)基于误识率的情感类别混淆度计算方法。在情感类别中,某些情感状态较为相似,难以区分,而某些情感状态差别较大,比较容易对它们进行分类。该方法通过SVM一对一算法得出情感间的误识率,根据误识率计算出情感间的混淆度,并提出组间混淆度的概念。通过计算情感状态之间的混淆度以及组间混淆度完成对情感类别的分组,保证将容易混淆的情感类别归为一组,以便进一步考察组内的情感类别细微差异。(3)基于选择性特征的SVM决策树语音情感识别方法。该方法针对不同语音情感特征对不同语音情感类别的贡献存在差异的特点,根据神经网络贡献分析法选择出对每种情感状态贡献比较大的情感特征。同时,根据类间混淆度,将容易混淆的情感归为一组,建立SVM决策树中间节点,对每组情感采用其各自的贡献较大的特征进行分类。此外,对每一情感语句只需提取六类情感状态贡献较大的情感特征的并集的特征,以此来降低计算量,提高识别速度。(4)采用Matlab和VC结合的开发模式,设计实现了基于选择性特征的SVM决策树语音情感识别原型系统,从实验角度验证了上述方法的有效性。

吴杰^[5]2008年在《基于高斯混合模型的话者识别系统的研究》文中研究指明话者识别技术属于生物认证技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数来自动识别说话人身份的技术。在生物认证技术领域中,话者识别技术以其独特的方便性、经济性和准确性等优势受到世人关注。本文的工作是围绕基于高斯混合模型的话者识别系统展开研究,在完成多项基本性能的测试和比较的基础上,对分类算法中的某些环节进行一定的改进,以便获得较高的识别率。本文的工作主要有以下几个方面:(1)系统构建:在给出语音分段和识别率计算原则的基础上,首先研究了不同测试语音单位长度对识别率的影响情况,证明了这些原则的正确性和系统的可靠性。针对预处理过程中的预加重系数和加窗分帧帧长的选择进行实验,取得了预加重系数的最优值,以及在不同高斯混合模型阶数条件下的最佳帧长。(2)性能研究:在相同的测试条件下,研究了高斯混合模型的阶数对系统识别率的影响,分析了阶数过大或过小对系统的负面影响,并结合实际情况进行了选择;提出在EM算法的迭代过程中设置协方差阈值,并对不同阈值条件下的识别率进行实验对比,证明了将协方差阈值设置为0.10的普适性和可行性。(3)系统改进:考虑到传统最大期望算法存在着会出现奇异阵的缺陷,引入参数α来控制修正比例对迭代结果进行修正,验证了改进算法在参数估计上的有效性。

斯芸芸^[6]2012年在《嵌入式语音识别系统的设计与实现》文中研究表明随着计算技术的不断发展，人们对语音智能产品的需求越来越强烈，这不仅促进了语音识别技术发展，而且促使了语音实用化产品的大量涌现。语音识别系统一般是在PC机或嵌入式系统上实现的，虽然PC机的存储能力大、计算能力强、运算速度快，但是基于PC机的语音识别系统因为体积大、价格高、不方便携带等缺点不适合应用于实际产品中，而嵌入式语音识别系统具有体积小、低功耗、价格低、便携性好、可靠性高等优点，因此嵌入式语音识别系统更具有使用价值和实际价值。本文详细地阐述语音识别系统的基本理论，主要包括语音识别系统的分类、基本结构、语音信号预处理、端点检测、特征参数提取和语音识别技术等。语音识别的主要过程是对采集到的语音信号进行预处理操作，通过端点检测算法准确找出有效语音信号段，采用Mel频率倒谱系数及差分系数相结合的方式来进行特征参数提取，采用隐马尔可夫模型（HMM）来实现语音信号的训练与识别。本文设计一个基于凌阳单片机SPCE061A的嵌入式语音识别系统，此系统的主要研究：（1）在预处理方面，提出一种动态的端点检测算法——动态叁门限端点检测算法，此算法可以更加准确地找语音信号中的语音信息段。（2）在识别算法方面，提出一种更加有效的的训练算法——遗传连续隐马尔可夫模型（GA_CHMM），即用遗传算法来直接训练CHMM模型，它是通过对CHMM的参数值进行编码，根据适应度函数进行选择、交叉、变异等操作求出最优的模型，通过解码后最优的参数值所对应的就是CHMM模型，然后通过Viterbi算法进行语音识别。此算法可以节省大量的训练时间，进而提高识别率和识别速度。（3）根据语音识别和嵌入式的实际应用，设计一个有实用价值和可移植的嵌入式系统——基于SPCE061A单片机的嵌入式语音识别系统，在硬件系统设计上实现了语音信号的采集、语音信号的存储、语音信号处理、语音播报及LCD显示等功能，应用C语言编程将GA_CHMM算法实现，同时将其应用于硬件系统中，通过实验验证了该语音识别系统的可行性和实用性。

孙俊^[7]2006年在《基于激励源及其韵律特征的源—目标说话人声音转换研究》文中指出在不改变说话内容的前提下，实现源说话人声音向特定说话人声音的转换，其研究是在说话人识别和语音合成的研究基础上进行的，同时也是这两个领域的丰富和延拓，具有非常广阔的应用前景和理论研究价值。目前，声音转换的研究大多集中在声道谱参数的转换上，对于影响语音音色和听感的激励源及其韵律特征，由于提取和建立数学模型的困难，其研究较少。为了使转换后的语音音色具有更多的目标说话人倾向性，本文主要针对激励源和韵律特征的转换进行了相应研究，主要工作如下： 1 对于与文本无关的源—目标声音转换，本文给出了一种基于混合高斯模型(GMM)的分类线性加权组合映射方法。该方法对短时特征参数采用GMM描述参数空间的连续概率分布，并将其作为分类器，可在一定的分类数下利用概率加权组合获得远大于分类数的映射规则，提高了转换效果。实验表明，该方法明显优于基于矢量量化(VQ)的分类线性变换方法的转换效果。 2 声门激励的形状对合成语音的音色影响很大，通常采用声门闭合期间估计得到的声门波导数作为激励信号，对于声门激励的转换，本文提出了一种基于勒让德正交多项式分解的声门波导数波形参数化的方法。该方法将声门波导数波形的n维勒让德正交空间坐标组成的声门波导数特征矢量，去除了矢量中各维参数的冗余，因而对该特征矢量作相应源—目标的转换，相对于普通多项式系数构成的特征矢量而言，转换效果更好。

惠博^[8]2008年在《语音识别特征提取算法的研究及实现》文中研究指明语音信号具有很强的时变特性,在较短的时间间隔中语音信号的特征可看作基本保持不变,这是语音信号处理的一个重要出发点。语音识别率的高低,也都取决于语音信号特征提取的准确性和鲁棒性。因此,语音信号特征提取在语音信号处理应用中具有举足轻重的地位。论文首先研究了语音识别的基本知识,主要包括语音识别的原理;语音信号处理的基本知识;各种语音识别和训练的方法。在此基础上本文完成的工作有:1、着重研究了目前使用广泛的美尔频率倒谱系数(MFCC)参数,以24维MFCC参数为例,采用增减分量的方法分析了高阶参数缺失对识别率的影响,找出了对噪音不敏感的高阶MFCC参数,在识别率变化不大的情况下对24维MFCC参数进行了优化组合。2、使用VC++根据动态时间规整(DTW)模型实现了一个连接数字串语音识别系统,并进行了实验分析。系统的组成模块和语音识别系统的基本构成模型一致。在实现时选用了美尔频率系数(MFCC)。3、实验过程中发现了汉语数码易于混淆的问题,在模板训练方法和参考模板两方面做了改进,提出了使用多对特征矢量序列进行鲁棒性训练和进行声韵母分割来构造参考模板的方法。4、最后本文研究了汉语连续语音识别中的声学建模方法,给出了识别汉语易混淆词的方法。本文通过对实际语音识别系统各个部分的实验和研究,为进一步开发实用性语音识别系统的工作做了基础性的工作。

潘欣裕^[9]2016年在《谎言语音检测分析研究》文中研究指明本文的主要研究工作在于利用数字语音处理技术对谎言语音信号进行分析与识别分类。将数字信号处理手段用于分析语音信号中所包含的丰富信息(比如语义、身份、情绪等),是计算机信息处理技术发展过程中所获得的重要成果。在这些成果基础之上,近年来开展的基于语音信号处理技术的心理生理计算研究是融合了心理生理学、信息与计算机科学等诸多学科领域的综合性课题。谎言检测是心理生理信息计算中的重要分支,而目前主流的测谎手段以脑电信号处理(P300信号分析)与脑成像分析(大脑的功能磁共振成像,Functional Magnetic Resonance Imaging,FMRI)为主,这些手段以脑部信息记忆机理等生理学研究成果为支撑,在一定程度上获得了较好的效果。但此类方法对于某些缺少记忆信息的应用将会失效,且更为重要的一点是此类测谎方法使用过程较为繁琐,且需要被测者一定程度的配合,导致在很多应用场合的不适用。目前,脑电与脑成像测谎的结果只能在刑侦与司法领域作为参考依据。近年来,视频分析理论的成熟推动了基于面部表情分析说谎状态识别研究,概率图模型理论的发展也为自然语言分析谎言检测提供了更多的发展空间,而语言声学、听觉语音学、语言生理学研究的进一步深入,使得基于语音处理的谎言检测再次受到各国研究学者的重视。心理压力评估(Psychological Stress Evaluators,PSE),语音紧张度分析(Voice Stress Analyzers,VSA)和多层次语音分析技术(Layered Voice Analysis,LVA)等研究工作在数字信号处理理论的发展下有了新的意义,但是大部分谎言检测系统的正确率都只在60%-70%之间。随着各方面工作的深入,阻碍语音测谎技术发展的桎梏也逐渐显现:1、没有针对谎言检测的语音特征参数,导致原本就极为微弱的谎言信息无法被突出;2、识别模型缺乏创新,使得人在说谎时的时间动态特性没有充分考虑。鉴于谎言语音识别中尚存在的诸多问题,本文开展了关于谎言语音检测可计算性、匹配特征表达及时序建模等研究工作,具体内容如下:1、统计各类特征参数在正常语音和谎言中的分布,提出分布差异度函数,并证明了谎言信息在语音信号中的存在性,也表明基于语音测谎的可行性。鉴于现有相关研究成果中关于语音测谎可行性计算的缺失,本文首先采用分布统计手段对多种语音信号特征进行分析,并提出分布差异度函数,量化计算正常语音与谎言语音在特征分布上的差异,并由信息量估计证明了谎言信息在语音信号中的存在性,为基于语音技术的谎言检测提供可行性依据。2、提出基于语音信号听觉频段瞬时频率特征的谎言识别方法,突出了不同频段信号的频率细节特征,增强了说谎状态下特征参数关于语音异变的敏感度,从而提高谎言检测正确率。人在说谎时由于情绪紧张会导致发音器官变化,从而影响语音表达,这是语音测谎的主要生理依据。相关研究成果表明,基于听觉机理的声信号处理方法适合用于处理此类问题。本课题利用听觉Gammatone滤波器组对语音信号进行分解,提出利用格型迭代算法估计各个频段信号的瞬时频率,通过瞬时频率的变化表征人体发音器官在正常说话与说谎状态下的差异,强化谎言信息在语音信号中的比重,并利用数学模型予以分类识别。结果表明听觉瞬时频率特征的引入使得个体谎言语音检测正确率提高2%-10%左右。3、提出分数阶Mel倒谱系数(Fractional Mel Cepstral Coefficient,Fr CC)为特征参数的谎言语音检测方法,在保留语音特征稳健性的基础上强化了说话人的个性特征,进一步提高个体谎言识别率。由于谎言信息极为微弱,故检测参数既要对谎言信息有足够的敏感度,同时又要具有较高的鲁棒性。而本课题提出的Fr CC参数,利用分数阶分析方法对MFCC参数进行了优化,既保留了MFCC参数对语音信息表达的稳健性能,也体现了语音信号的相位信息,使得说话人的个性特征能够被保留,说谎状态也更容易被发现。实验结果表明Fr CC参数的引入,对于提高谎言语音的检测正确率起到了明显的促进作用。4、建立基于多尺度条件随机场(Multi-scale Conditional Random Fields,MCRF)的谎言检测时序模型,实现多层特征抽象到心理生理状态映射机制,使得谎言检测系统的性能得到显着提高。MCRF实现了从语音信号的声学特征提取,到韵律层信息抽象,再到心理生理层状态链估计的一体化模型,该模型拓展了语音信号的全局上下文相关信息,弥补了语音信号中谎言信息量较为微弱的缺点,实现了谎言语音信号的时序建模工作,最终的平均识别正确率达到75%以上。这些工作可以作为基于语音处理的谎言检测的参数和模型方面的初步研究成果,同时也为数字信号处理领域的人体心理生理计算研究提供一定的基础。

吕声^[10]2004年在《说话人转换方法的研究》文中提出说话人转换就是要将一个说话人(源说话人)的语音信号进行转换,使得听起来像另一个说话人(目标说话人)的语音信号的技术。说话人转换是语音信号处理领域的一个较新的分支,它的研究对语音分析,语音编码,语音合成,语音增强,语音识别等语音信号处理的其它各个领域有重要的促进作用。本文分别对同语种的说话人转换和跨语种的说话人转换进行了研究,主要内容包括:1.提出了一种改进的谱包络转换方法,作为说话人转换系统的重要组成部分,也是与其它说话人转换系统进行性能比较的一个基本标准。该方法利用一个基于高斯混合模型的转换函数,通过转换线性预测模型的线谱频率参数,实现谱包络的转换。语音信号的分析合成采用线性预测模型,线性预测模型是一种在技术上比较成熟的语音模型,大部分的语音编码器如CELP、MELP 等都是基于此模型,所以在需要减小语音库的存贮空间时有较大的优势。考虑了说话人的语音都很自然的情况,对说话人的发音没有任何限制,训练和转换都是用语调等韵律特征都很自然的语音。由于在训练过程中,去除了时间对齐不准确的训练数据,提高了高斯混合模型训练的效果,并且在转换过程中对谱包络进行平滑,保证了转换的有效性。非正式的听觉测试表明转换后的语音能明显地听出来是目标说话人,并且可懂度和自然度都比较高。客观评价标准的测试表明经过改进后,性能比以往的系统要好。2.提出一种改进的残差预测的方法,并由此构成一个高质量的说话人转换系统。残差预测是基于一个GMM 的分类器和目标说话人的残差码本,系统必须利用目标说话人的残差信号进行训练。在完成目标说话人的残差预测系统后,与谱包络转换系统共同构成最终的说话人转换系统。非正式的听觉测试表明转换后的语音很明显地听出是目标说话人,但保留了源说话人的韵律特征。转换语音的质量也比较高,只有一些LPC 处理中典型的嗡嗡声。3.提出一种基于音素的说话人转换方法。在该方法中,将说话人的参数空间比较明确地按照音素来划分,再用GMM 模型来为每个音素建立更细致的模型。这样不仅可以避免DTW 时间对齐的不准确对转换函数训练的影响,而且可以使用源说话人和目标说话人的不同语音来进行训练。通过进行客观评价标准的测试,基于音素的说话人转换频谱失真的性能指标要优于基于GMM 模型的方法。4.对跨语种的说话人转换进行了初步的研究。首先比较了汉语和英语音素,可以发现还是有一部分英语和汉语的音素是基本相同的,也有一部分是不相同的。

参考文献：

[1]. 语音与图像识别技术的嵌入式应用研究[D]. 陈正军. 景德镇陶瓷学院. 2007

[2]. 汉语语音转换系统的研究[D]. 杨阳. 北京交通大学. 2008

[3]. 语音信号的识别与转换研究[D]. 于俊凤. 成都理工大学. 2004

[4]. 基于特征选择的语音情感识别研究[D]. 王小佳. 江苏大学. 2007

[5]. 基于高斯混合模型的话者识别系统的研究[D]. 吴杰. 吉林大学. 2008

[6]. 嵌入式语音识别系统的设计与实现[D]. 斯芸芸. 重庆大学. 2012

[7]. 基于激励源及其韵律特征的源—目标说话人声音转换研究[D]. 孙俊. 中国科学技术大学. 2006

[8]. 语音识别特征提取算法的研究及实现[D]. 惠博. 西北大学. 2008

[9]. 谎言语音检测分析研究[D]. 潘欣裕. 苏州大学. 2016

[10]. 说话人转换方法的研究[D]. 吕声. 华南理工大学. 2004

标签：计算机软件及计算机应用论文; 语音识别论文; 特征提取论文; 情感识别论文; 嵌入式技术论文; 情感计算论文; 图像识别论文; 信号处理论文; gmm论文;

语音信号的识别与转换研究

参考文献：

猜你喜欢