基于物理模型的声音合成技术理论研究

基于物理模型的声音合成技术理论研究

朱嘉星[1]2013年在《乐器音响仿真及虚拟技术研究》文中认为乐器声音的仿真虚拟技术是一门当前比较热门的研究议题,脱胎于人们对于乐器声音的模拟与合成,并在其基础上融合了计算机技术、信号处理技术、数学等领域的知识。在虚拟仿真技术中,基于物理模型的仿真技术是当前各领域研究的重点,其是一种采用数学方程对物体振动进行描述的方法,与以往的声音合成不同,物理模型法并不关注描述乐器所发声音的各种特性,而是于侧重于描述乐器发音过程中的各项物理机制。关于物理模型的声音合成技术理论早在20世纪70年代就曾被提出,只是一直未引起较大规模的重视,直到90世纪初才得到了一定的发展。当前有关物理模型的合成的理论已经较为成熟,但是囿于计算机处理速度的瓶颈,使得其应用尚存在较大的局限。同时,在模型的设计和优化等许多方面还有待于进一步的研究和开拓。本文对各种虚拟仿真技术进行了介绍,其中着重对四种基于物理模型的虚拟仿真技术一—有限元法、数字波导算法、模态合成法以及偏微分方程法进行了比较细致的介绍,并对各种不同技术的优势和缺点进行了评价。同时以乐器的不同声学系统(激励体、共鸣体)为线索,对用不同仿真技术在其中的运用进行了介绍以及实践。具体研究过程如下:1.对乐器的振动体进行仿真,分别采用有限元法和数字波导方法对体鸣类乐器中的板体振动和弦鸣类的弦振动进行模拟,并分别进行了相关的验证实验。2.针对乐器的共鸣体的仿真技术进行研究,主要分为共鸣系统共振的模拟和耦合的模拟,其中共振的模拟采用了有限元法进行模拟与实践,并进行实验验证;3.文章的最后对乐器声音的虚拟仿真的发展前景和价值进行了分析和预判,同时对当前研究中的不足以及未来的研究重点进行了介绍。

吴永忠, 韩江洪, 张利, 郑淑丽, 程文娟[2]2003年在《基于物理模型的声音合成理论研究》文中认为基于物理模型的声音合成技术是一种可以精确描述物体发声的方法 ,其实质是以物体的振动PDE方程为基础来直接合成声音 ,该方法已逐步成为目前声音合成技术领域内的研究热点 .本文从理论上和试验上证明了一个被研究者广为引用的一维基础PDE方程存在的局限性 ,利用力学理论推导出了新的振动PDE方程 ,并从理论上和试验上证明了其正确性 ,从而提出了更具普遍意义的新一维声音合成基础方程 ,克服了传统方程的缺陷 .

吴永忠[3]2003年在《基于物理模型的声音合成技术理论研究》文中研究说明基于物理模型的声音合成技术是建立在声学、力学、数学和信号处理等理论基础之上的一门科学,它主要根据力学原理,通过振动偏微分方程、振动体的边界条件、振动的初始条件和激励条件来描述物体的振动物理特性。与其它合成技术不同的是:它是对声音产生的物理机制的描述,而不是对声音本身的描述,而其它方法则是对音频本身的时频特征的描述。 从物理特性上来说,管乐器(wind)、弦乐器(string)、长笛(flute)等可以用一维PDE来描述,鼓(drum)、锣(gong)、钹(cymbal)等可以用二维PDE来描述。由于它可以精确地描述物体的发声及其发声过程,精确地再现乐器的基波、高次谐波、非谐波以及ASDR过程,象真实乐器一样可以表达演奏者的演奏力度、速度、风格和情感,随着计算机处理速度的提高,尤其是MPEG4技术的公布,这种方法日趋活跃,成为目前乐器仿真、声音合成的研究热点。 作为一种可以精确描述物体发声而有广阔发展前景的技术,物理模型的历史还相对比较短暂,可以说它生于1970年代,培育于1980年代,成长于1990年代,至今尚未成熟而处于发展期,其主要标志是理论上的不完善和应用上的不足。在理论上,物理模型方法还存在基本模型不完善、不规则边界和激励条件数学模型难以建立等诸多不足,需要我们进一步去深入研究。 本文阐述了物理模型方法中各种技术,比较了各自的优缺点,分析了部分理想弦乐器和膜乐器的特性,重点研究了两个着名的传统一维和二维阻尼振动方程的局限性,建立了新的模型,其具体成果如下: 1.拨弹弦为例,从理论上详细地分析了着名的传统一维阻尼振动方程的局限性,并从仿真试验上对其局限性进行了验证。 2.根据振动和力学理论推导出了新的一维模型,从理论上证明了其收敛性,并从仿真试验上证明了其精确性。 3.以矩形膜和圆形膜为例,从理论上详细地分析了传统二维阻尼振动方程的局限性。 4.根据振动和力学理论推导出了新的二维模型,并从理论上证明了其收敛性。

张冰瑞[4]2014年在《基于冲击声的声源物理属性辨识及声线索提取》文中研究指明声目标识别中,如何提取有效特征以提高识别率一直是研究的热点。长期以来,研究者主要使用两种方法提取特征,一种是基于信号处理和变换提取时域、频域及非线性特征,另一种通过模拟听觉系统的听音过程提取响度、音调和音色等听觉感知特征。这两类特征虽然可以从不同角度对声音给予描述,但并未建立与声源的直接联系,因此最终的识别对象只能是“声音”而非“声源”,从而影响了目标识别能力的提高。近年来,声源的听觉辨识问题受到研究者的关注,发展出一种新的特征提取方法,即提取与构成声源的材料、尺寸和形状等物理属性有关的信息,由此获得的特征具有更加明确的物理意义,对声源的描述和分类也更加深入细致,从而有助于提高声目标的自动识别能力。本文针对声源物理属性辨识问题,围绕声源、声信号及听觉感知叁者之间的联系,以合成冲击声和主观评价实验为手段,模拟了声源的受击振动与声辐射过程,给出了基于物理模型的时域冲击声合成方法,研究了听觉系统辨识声源材料和尺寸的性能,以及对声信息的整合特性,最终获得描述声源物理属性的恒定声线索。论文主要内容包括:(1)建立了球-板撞击的时域模型,提出一种将时域有限差分法(FDTD)和模态展开法(MEM)相结合的时域混合方法,求解板的振动方程,解决了混合方法中的模态截断和阻尼一致性问题,并对方法的高效性和有效性进行了仿真及实验验证。(2)以复杂结构受击振动响应的时域计算为目的,给出了结构模态阻尼的理论计算和实验测量方法,提出一种基于有限元(FEM)、模态展开(MEM)和边界元(BEM)的综合数值方法用于声音合成。实验结果表明,合成声与实际录音的时域包络、频谱结构以及衰减趋势基本一致,从而验证了该方法的有效性。(3)设计和完成了一系列主观评价实验,研究了听觉系统辨识声源物理属性的能力。首先研究了现场声、录音和合成声下的材料辨识结果;其次分析了尺寸和边界条件变化对材料辨识的影响;最后研究了合成声和录音下平板尺寸的辨识水平。(4)设计了冲击声连续统模型,通过在铝、玻璃和木材叁种材料之间进行插值的方法,产生了材料连续变化的冲击声序列。利用不相似性评价实验和多维尺度分析,获得了材料辨识的感知空间,并对感知空间维度进行了物理解释。分别从时域、频域和听觉感知角度提取出一系列声特征,给出了特征的信息精确度和感知权重的计算方法,从而分别从客观和主观两种角度量化了声特征描述材料变化的能力,并分析了信息精确度和感知权重在材料自动识别中所起的作用,最终获得声源材料感知中的声信息整合策略。(5)利用铝和木材的合成冲击声,研究了受击板的尺寸感知空间维度,获得了尺寸的力学参数表征。通过对比不同声特征的信息精确度和感知权重,给出了尺寸辨识的可靠声线索,并分析了听者的尺寸感知策略。(6)对复杂结构的材料辨识展开研究,通过对比平板、加筋平板和圆柱壳的特征精确度计算结果,给出了不受声源类型影响的辨识材料的恒定声线索。综合信息精确度和感知权重的计算结果表明:听觉感知中,听者善于利用与材料有关的恒定声线索来完成感知任务,而忽略那些容易受声源类型和其它声源物理属性影响的声信息。

尹强[5]2016年在《交互式流体真实感声音合成技术研究》文中研究指明声音合成是虚拟现实领域中的重要研究方向之一。近期的研究中,实时的声音合成已经成为可能,但大多数声音合成方法聚焦于物体碰撞产生的声音,而对流体声音研究偏少,尤其是基于交互式流体声音合成的研究更是少有涉及。然而不同流体的物理模型和形态存在差别,并且声音合成的物理机制也存在不同,提出一种通用的算法模拟所有的流体声音合成效果是不现实的。因此,本文分别针对火焰以及水的交互式声音合成进行研究。首先,本文对不同燃烧介质提出了一种新的交互式火焰声音合成方法。对于火焰的交互式声音,目前的方法一般将火焰声音分为低频以及高频分别进行合成,但大多数研究普遍采用直接燃烧噪声合成低频声音而忽视了湍流旋涡噪声的影响。在高频部分,则普遍采用固定频率的噪声对高频声音进行模拟,产生的火焰声音具有很大的相似性。针对这两个问题,本文提出了一种新的基于高频混合片段匹配的火焰声音合成方法。其次,针对于不同介质的火焰燃烧的物理特性以及对真实火焰声音信号的分析,本文提出了一种基于交互声特征的不同燃烧介质的火焰声音生成方法,解决了交互声与高低频火焰信号融合过程中的声音同步问题,使得最终产生的火焰信号与动画同步,并且合成的不同燃烧介质的火焰声音具有差异性。其次,本文根据不同的碰撞固体材质提出了一种新的交互式水声音合成方法。对于水的交互式声音,大部分方法采用气泡谐波对气泡声音进行模拟。在气泡声音模拟过程中,会从气泡的不同形态以及位置对气泡进行模拟。这样做会产生巨大的时间消耗,也没有考虑液体与固体碰撞产生的加速度噪声。同时,不同介质与水的交互效果也会产生不同的声音。针对这两个问题,本文提出了一种新颖的交互式水声音真实感模拟方法。对于气泡的形态及位置问题,本文将气泡的形态由原来的球形及非球形气泡修改为了新的叁种状态:气泡、泡沫以及喷雾。通过对这叁种状态声音的模拟来合成最后的气泡声音。对于水与不同介质的固体交互的问题,本文将不同材质的固体与水的交互声引入水声中,增强了水声音在不同环境中的真实感。

张桂香[6]2007年在《个性化语音合成的研究与实现》文中指出随着计算机通信技术和多媒体技术的飞速发展,新型的人机交互方式已经成为当前计算机科学研究的一个热点。语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。目前语音合成技术已日趋成熟,各种语音合成产品已问世。如何使合成的语音更加自然,具有更多的表现力一直是语音研究的热点。国内外已经开始对不同说话风格的语音合成和情感语音合成进行了相关的研究,但能按不同说话人的个性特征进行语音合成的研究还很少。个性化语音合成的研究是建立在对语音分析、合成和识别技术的基础上进行的。本文首先根据语音产生的机理分析不同人有不同语音个性特征的原因,并根据语音的形成过程提出了语音信号建模的方法,重点研究了语音中影响个性特征的参数及参数提取和调整方法。最后尝试通过微软公司的TTS合成语音后,再对语音增加个性特征参数的控制,从而使语音合成具有更多的表现力,并对合成的语音进行测评。实验表明通过这种方法可以在不事先录制个人语音库的情况下来使合成的语音有说话人的个性特征。

吴永忠, 韩江洪, 程文娟, 郑淑丽[7]2003年在《基于物理模型的乐器仿真技术》文中认为基于物理模型的乐器仿真技术是运用声学和力学理论,通过偏微分方程来描述乐器的振动物理特性,它不仅可以精确地描述乐器发声及发声过程,而且还可以准确地再现演奏者的弹奏力度、速度和情感,表现方法与控制仿真参数完全与真实乐器一样而无人工合成的痕迹。随着计算机计算能力的快速提高以及MPEG4的问世,这种方法日趋活跃,成为目前乐器仿真、声音合成的研究热点。本文阐述了物理模型方法中常见的五种技术,分析了它们的特性及其缺陷,阐述了各自的基本思想及实现方法,重点论述了两个着名模型的局限性,并相应地提出了我们所推导出的一维和二维物理模型。

鞠垚[8]2014年在《数字波导方法在声道建模中的应用研究》文中认为数字波导方法是一种描述波在空间传播的理论,它使用数字解法来描述真实世界的声音产生过程和声音传播环境。数字波导的一维声道模型,可被简单的描述为轴线上的一系列相连的圆柱形管道,其中每个管道具有不同的直径。若考虑波在垂直于轴线方向的传播,这种一维声音的传播过程可被扩展到二维空间,得到声道的二维模型,二维模型可作为声道叁维建模的铺垫。本文的主要工作包括如何实现从一维声道模型到二维声道模型的转变。在二维数字波导网格模型中,声波的传播与反射将不仅存在于轴线上从声门到唇部的传播,也存在于声道两壁间的传播,这样,一维模型固有的平面波传播缺陷可被去除。针对上述目标,本文做了以下几个方面的工作。一、研究波在空气中传播的理论,得到一维波动方程的数字化解法。并将一维波动方程推广到二维网格空间,得到二维数字化解法。本文中运用波散射法和时域有限差分两种算法来求解。二、用数字波导方法来给声道建模,得到声道的一维数字波导模型,结合波在空气中的传播理论,得到声道中波传播的具体过程。考虑到声道壁对声波的影响,将一维模型扩展到二维空间,得到声道的二维数字波导网格模型。叁、引入LF声门波作为声门激励,并结合声道的一维、二维数字波导模型,合成了元音,验证了本文建立模型的有效性,为语音合成探索新的路径。

曹莎莎[9]2017年在《一种钢琴乐音仿真模型的研究》文中研究说明乐器的声音仿真技术是融合声学、数学、计算机软件以及信号处理等领域知识的一门科学,其主要目标是以真实乐器声音的物理特征为原型实现乐声的再现。随着计算机技术在音乐领域的不断融入,对于乐器声音的仿真日趋成为当前声音合成技术领域研究的重点,对推动多媒体技术以及电声乐器行业的发展都具有重要意义。本文对各种声音仿真技术进行了介绍,并以钢琴乐器为研究素材,在研究乐器的物理结构和发声机理的理论基础以及分析十二平均律和振动方程的数学基础上,通过对钢琴琴弦振动和衰减特性的分析以及共鸣箱共振作用的探讨,提出了一种新的数字化钢琴乐音仿真技术,仿真模型由激励系统和共振系统两部分组成。该模型是在一系列迭加的正弦波模拟琴弦振动的基础上,分别从时域和频域两个层面进行音色的修饰。首先根据短时均方根能量提取的振幅包络获得的包络函数来进行时域上的包络修饰,以模拟琴弦振动的自然衰减;其次,乐器的音色主要来源于共振体的修饰,频谱包络是共振体的主要体现,通过倒谱法提取钢琴各音符的频谱包络以此建模滤波器组来进行频域上的进一步修饰,从而实现共振系统的仿真。本文对提出的乐音系统仿真模型进行了具体的实验验证,通过实验证明:该技术不仅可以使乐音各音符间衔接和谐,更为有效的雕刻声音,同时较好的表现音色,使乐音听起来更加和谐,接近真实乐器。

栾悉道[10]2008年在《多媒体数据语义建模及应用研究》文中指出多媒体数据以其丰富的视听内容,越来越多地参与到当今以用户为中心的信息服务体系中。但是,其数据的多样性、语义提取和表示的复杂性、难以逾越的语义鸿沟及多媒体数据的可重用性等问题,已经越来越成为多媒体数据研究与应用的严重阻碍。本文从认知学的角度,探讨研究了多媒体数据服务过程中所遇到的各种难题,特别是多媒体数据的语义表示、建模及检索问题。通过认知心理学方面的研究,对信息用户的信息需求、语义鸿沟等问题进行了深入分析,并开展了多媒体数据语义内容模型、语义概念模型及语义建模等理论和应用研究。论文的主要贡献体现在以下几个方面:1、基于信息用户的认知心理学特点和需求,提出了信息用户的检索行为模型,并对语义鸿沟问题进行分析与扩展。该模型以用户为中心,描述了用户在外界刺激下,根据用户的信息心理和认知结构,对信息需求进行分析、认识、选择信息系统并对检索结果进行交互、过滤和修正检索的过程。将语义鸿沟问题进一步扩展为:思维与自然语言的鸿沟、人机交互鸿沟、特征提取鸿沟、实体语义鸿沟和抽象语义鸿沟等鸿沟。这种扩展与细化,有助于发现多媒体数据分析处理与使用过程中的症结所在。还通过具体分析与说明各个鸿沟的性质,对如何解决语义鸿沟问题、解决问题需要的条件等进行了深入的探讨。2、通过对多媒体数据获取过程的研究和总结,指出目前多媒体数据语义问题的根源在于多媒体数据的获取方式。在这种方式中,数据创作者与使用者分离。前期便利地“获取”数据,是以牺牲后期用户便利地“使用”多媒体数据为代价的。提出根据脚本的描述,结合对象模型、规则模型等数据,生成或者再现脚本所体现的视听觉场景,即基于脚本来生成、获取多媒体数据。提出多媒体数据的内容空间与表示模型。该模型能够对摘要、对象探测等多媒体数据处理进行形式化表示,并从时间、空间和表示粒度叁个维度表示出现在多媒体数据中的对象、场景及事件的变化关系。该模型既具有对故事进行整体抽象和概括的能力,又可以体现具体对象的细节,事件和场景的变化过程一目了然,还可以根据需要,在不同的粒度层次上了解场景的含义和内容。3、提出了多媒体数据的语义层次模型。该模型由R轴(规则)、原数据层、低层语义层、高层语义层所组成。提出了基于概念的多媒体数据语义表示模型——概念层次网。研究了概念层次网的扩展,使用概念层次网来表示概念间的空间关系,用以支持基于概念及概念分布的检索(甚至包括某些抽象语义的检索),以及概念层次网的存储、生成、表示以及一致性判断等问题。4、利用描述逻辑所具有的有效推理功能,开展基于描述逻辑表示多媒体数据领域的概念及其语义关系的研究,在理论模型与实际应用之间架起桥梁。研究包括:基于描述逻辑的多媒体数据语义建模相关定义,基于描述逻辑SHOQ(D)实现语义分层——概念层次网的构造、调整等一系列算法,以及基于描述逻辑的多媒体数据语义匹配和检索问题。5、结合国家863项目“数字媒体语义特征分析平台”,重点开展以下叁个方面的应用研究:①数字视频的分析、标注与检索;②图像语义标注与检索研究;③基于脚本的动画场景生成。在这个平台里,验证了本文提出的多媒体数据的语义层次模型、基于概念的多媒体数据语义表示和检索模型,以及基于描述逻辑的多媒体数据语义建模等内容。综上所述,本文针对多媒体数据的语义问题,探讨研究了该问题存在的各种症结,如语义鸿沟问题、语义提取和表示问题、语义扩展及检索问题,提出了多媒体的语义内容模型、语义概念模型等相关模型,并进行基于描述逻辑的多媒体数据语义的建模,在国家863项目“数字媒体语义特征分析平台”平台研究中对这些模型进行了验证。

参考文献:

[1]. 乐器音响仿真及虚拟技术研究[D]. 朱嘉星. 中央音乐学院. 2013

[2]. 基于物理模型的声音合成理论研究[J]. 吴永忠, 韩江洪, 张利, 郑淑丽, 程文娟. 电子学报. 2003

[3]. 基于物理模型的声音合成技术理论研究[D]. 吴永忠. 合肥工业大学. 2003

[4]. 基于冲击声的声源物理属性辨识及声线索提取[D]. 张冰瑞. 西北工业大学. 2014

[5]. 交互式流体真实感声音合成技术研究[D]. 尹强. 天津大学. 2016

[6]. 个性化语音合成的研究与实现[D]. 张桂香. 哈尔滨工程大学. 2007

[7]. 基于物理模型的乐器仿真技术[J]. 吴永忠, 韩江洪, 程文娟, 郑淑丽. 系统仿真学报. 2003

[8]. 数字波导方法在声道建模中的应用研究[D]. 鞠垚. 苏州大学. 2014

[9]. 一种钢琴乐音仿真模型的研究[D]. 曹莎莎. 合肥工业大学. 2017

[10]. 多媒体数据语义建模及应用研究[D]. 栾悉道. 国防科学技术大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  

基于物理模型的声音合成技术理论研究
下载Doc文档

猜你喜欢