音频分类与分割技术研究

音频分类与分割技术研究

白亮[1]2004年在《音频分类与分割技术研究》文中认为随着计算机技术、网络技术和通讯技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有很重要的地位。 原始音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容检索和辅助视频分析等应用的关键。音频分类与分割技术是解决这一问题的关键技术,是音频结构化的基础。本文在认真总结前人研究成果的基础上,着重解决了音频结构分析、音频特征分析与抽取、基于SVM的音频分类器和基于熵和动态规划算法的音频分割方法这四个方面的问题。 本文工作和研究成果主要包括以下几个方面: (1) 深入考察了音频信息的主要来源,在此基础上分析了音频的语义内容,明确了音频信息中主要的音频类型,据此将音频分为:纯语音,含背景音的语音,音乐,环境音,噪音,静音六类。定义了不同层次的音频结构单元,在此基础上提出了一个新的层次化音频结构分析框架。音频分类本质上是一个模式识别过程,根据模式识别理论,设计了音频分类与分割的技术流程,并对其中所涉及到的关键技术进行了探讨。 (2) 从帧层次上和clip层次上深入研究了不同类别音频之间的区别性特征。针对分类中存在的误分类情况,提出了四个新的特征——静音比率、High-ZCR比率、Low-Frequency Energy比率和频谱流量。深入研究了抽取的特征在本文提出的基于SVM的分类器中的分类性能。 (3) 深入研究了SVM的训练算法。SVM的训练算法是实现基于SVM分类器的核心问题,通过研究比较了不同训练算法的优缺点,确定了性能最优的一种训练算法,为基于SVM分类器的设计实现提供了坚实的基础。分析了传统的基于规则的分类器的缺点,结合决策树的思想提出了一种SVM决策树方法,利用该方法构造了一种适合于音频分类的基于SVM决策树的多类分类器。并结合实际分类问题,综合基于规则的和基于SVM的分类器的优点,设计实现了一个混合音频分类器。 (4) 分析了传统的基于滑窗的分割算法的缺点,提出了一种基于熵和动态规划算法的动态音频分割方法,通过实验分析了该方法的分割性能。

王冬冬[2]2017年在《基于节拍和关键背景模型的音频分类与分割》文中研究指明音频数据分类分割是音频数据处理系统最常用、最重要的预处理技术,显着地影响系统的性能和效果,具有重要的研究价值。在音频样例检索系统中,需要为操作人员提供便捷、高效的样例提取工具,从多媒体文件中截取音频片段,作为查询的样例数据。截取的样例一般是包含操作人员感兴趣、含有重要信息、内容具有一定完整性的片段。尽管音频信息无法快速浏览,但如果在操作人员截取音频样例之前,先使用音频分割分类技术获取音频文件内容的结构化信息,然后采用可视化技术呈现给操作人员,将便于操作人员快速浏览文件内容、便捷、高效地选取音频片段,完成样例制作任务。本文以音频样例提取为应用背景,研究并实现了基于多级分类的音频数据分类与分割算法,并将该算法用于样例提取,提高操作人员工作效率,具体工作如下:(1)采用随机森林算法实现音频的粗分类,将音频数据分为音乐、纯语音、含背景音乐语音、含背景噪音语音和背景音,共五类。采用基于音频段的分割方法实现音频的粗分割,将音频数据分为音乐、语音和背景音叁大段。(2)对于音乐类数据,针对操作人员更多关注有歌声音乐而非纯音乐的特点,提出了基于节拍的分类方法,将音乐类数据细分为纯音乐与有歌声音乐两种。实验结果表明,该方法对于不同类型的音乐数据均具有较好的性能。(3)对于语音类数据,如果语音时长过长,不利于快速地选择样例片段的提取位置。本文提出了基于高斯统计直方图特征和单高斯关键背景模型的语音分割方法。训练单高斯模型并优选关键背景模型,采用统计方法将梅尔倒谱系数特征映射为直方图特征,并用基于余弦距离的聚类方法进行聚类,聚类结果即为分割结果。利用该方法对语音类数据进行细分割,得到具有相对独立性的子片段作为候选的样例片段。实验结果表明本文提出的语音分割方法准确率高、速度快。

贾兰兰[3]2009年在《广播音频的分割分类算法研究》文中进行了进一步梳理音频分类分割技术作为音频信息分析的一个重要基础,是许多有关音频应用的不可缺少的一个部分。这项技术是利用计算机按音频的某种特性和根据后续需要,自动将音频信息切分为所要求的类别。本文是针对广播节目中的音频信号进行的音频分割分类方法的研究,即按照时间顺序对连续的广播音频数据进行分析,标识出音频流中音频类型的跳变点及当前音频段的类型。在对现有算法的充分研究和实验的基础上,实现了广播音频的分割分类的技术流程。本系统主要包括音频分割和音频分类两个模块。在分割方法上采用了基于检测熵变化趋势的方法进行分割点确认;在分类方法上采用了基于高斯混合模型(GMM)分类算法。实验证明,该系统是有效的。音频分类平均准确率能够达到89%以上,基本能够满足要求。

毕竞[4]2008年在《应用于视频内容分析的话者辨识系统》文中提出随着多媒体、互联网、大容量存储等技术的不断发展,数字化视频开始进入人们的日常生活。为发挥海量视频数据的资源共享优势,支持视频非线性编辑、语义理解和高效检索,完善和发展视频内容分析技术迫在眉睫。经过早期基于图像信息的研究,越来越多的研究者发现由于机器视觉和模式识别的发展限制,自动提取视频的语义是比较困难的。音频作为视频文档中包含的另外一种类型时间媒体,是一种可为视觉信息提供重要补充的信息源。音频流所包含的语义信息往往比图像流丰富,提取语义信息也更加直观方便。因此,基于音频的视频内容分析技术,近年来已逐渐成为基于内容多媒体检索和过滤研究的热点。本文提出了一种应用于视频内容分析的话者辨识系统。相对于通用的话者辨识系统,论文研究考虑以下几点:首先,从视频数据中提取的音频流中不仅包含静音和语音,还包括音乐和背景音;其次,视频内容中的话者数目无法预先得知,系统也无法直接获得用来训练话者模型的纯净的话者数据;最后,视频内容中大量存在的各种噪声将加剧训练数据和测试数据的失配,严重影响话者辨识系统的性能。基于上述实际系统中的考虑,本文提出的应用于视频内容分析的话者辨识系统架构主要包括:基于规则和支持向量机的音频分类与分割;基于谱聚类的话者聚类和基于高斯混合模型的话者辨识;基于谱减法的语音增强。围绕应用于视频内容分析的话者辨识系统,本文的主要工作包括:(1)本文对话者辨识的原理和算法进行了深入的研究和分析,实现了基于高斯混合模型的话者辨识,验证了该方法在应用于视频内容分析的话者辨识系统中的有效性。(2)SVM是建立在VC维,泛化性能和推广能力之上的一种理论,对SVM中的相关概念(支持向量、核函数等)进行了介绍。根据本文中实际系统的考虑,提出并实现了基于叁个支持向量机的分类器架构,验证了该架构的可用性。(3)本文对语音增强的原理和算法进行了分析和比较,实现了谱减法在应用于视频内容分析的话者辨识系统中的应用,验证了方法的可用性。实验数据来源于新闻视频、访谈视频和电影视频。实验结论证明了本文提出系统的有效性。

闫乐林[5]2012年在《基于视听信息的视频语义分析与检索技术研究》文中指出随着计算机技术、视频压缩技术和互联网技术的迅猛发展,人们可访问的信息资源空前丰富。视频资料因其具有直观性、信息综合性的特点,在数据库中的地位日渐增强,其数量增长更是惊人。但同时,由于视频结构的复杂性、数据内容的多样性以及时空多维性的特点,致使如何有效地组织视频数据、快速地检索和浏览用户需求的视频信息等成为视频领域内亟待解决的重大课题。在这种背景之下,基于内容的视频检索技术应运而生,它综合了图像处理、人工智能、模式识别及计算机视觉等领域的相关理论知识,并对视频特征和视频对象进行深入分析和研究,旨在获得蕴含在视频中的高层语义信息,建立可用的视频检索体系。因此,对视频语义的分析和检索技术的研究具有广阔的前景和现实意义。本文以影视类视频、球拍类体育视频和新闻类视频为研究对象,融合了视频中的视觉、音频等多模态信息,对各种视频进行了有针对性的语义分析和检索方法研究。影视类视频语义分析从情感角度展开,分析了此类视频的视觉低层情感特征与音频的情感特征,基于未确知测度模型对影视类视频场景的情感类型进行了检测和识别。通过分析球拍类体育视频的视觉、音频特征,对视频中的感兴趣事件进行语义识别和检索研究。基于条件随机场模型,比较系统的研究了新闻类视频故事场景的检测和分割方法。主要工作如下:(1)通过分析影视类视频的低层视觉情感特征和音频情感特征,基于未确知测度理论,提出了一种视频情感内容识别的新算法。该方法先分析了影视类视频的场景亮度、镜头切变率、色调效能叁个视觉类情感特征和多种音频情感特征,介绍了每种视频情感特征的数据提取方法,并分别构建了影视类视频场景的视觉情感特征向量和音频情感特征向量。其次,定义了视频情感识别的对象空间和指标空间,构造了各视听情感特征的未确知测度函数和未确知测度矩阵。最后,采用信息熵确定情感特征向量中各分量的权位,用置信度识别准则对视频场景的情感类型进行识别和判定。实验结果表明所捉算法是有效的、可行的。(2)提出一种融合视觉、音频特征信息的球拍类体育视频精彩片段检索的算法。首先,基于支持向量机(Support Vector Machine, SVM)视频镜头分类与帧图像边缘特征的方法,将视频流中的镜头分为比赛镜头(Court View Shot)和非比赛镜头(Non-Court View Shot)两类;然后,分析了球拍类体育视频中声音和感兴趣事件之间的内在联系,构建了一个基于击球声和掌声的SVM分类器模型;最后,将镜头分类与声音事件分类进行融合,并建立了视频中精彩片段的提取规则,并对检索结果进行了排序处理。(3)提出了一种基于条件随机场模型的新闻故事识别和检索方法。该方法首先对新闻视频的音频内容和结构特征进行分析,应用规则分类和隐马尔可夫模型(Hidden Markov Model, HMM)分类相结合的方法将新闻视频中的音频数据进行分层、细化处理,并按照语义将其分类为男主播语音、女主播语音、交替播报、现场声音、介分音乐和有效静音六种。接着,通过分析新闻视频中镜头的特点,将新闻类视频按照语义分为主播镜头、静态画面镜头、现场访录镜头、广告镜头和其它类镜头五种,辅以音频语义信息对视频中的镜头进行了识别和分类。在完成新闻类视频音频语义分类和镜头语义识别的基础之上,通过相应的关键词序列的转换,构建了新闻故事场景的条件随机场(Conditional Random Fields, CRFs)分割提取模型,对新闻类视频进行了较为成功的语义识别和检索。(4)设计并初步实现了一个基于内容的视频语义识别和检索的实验平台,验证了上述所提算法的性能。

刘立巍[6]2010年在《多模态融合的新闻故事单元分割》文中研究指明对视频数据的有效处理、浏览、检索和管理正伴随着视频数据的快速增长而成为亟待解决的现实问题。视频内容分析技术旨在将非结构化的视频数据结构化,并提取其中的语义内容,构建低层特征到高层语义之间的桥梁,最终建立视频的摘要、索引和检索等应用系统,提供给用户方便的视频内容获取方式。本文以新闻视频为研究对象,通过对字幕、音频、视频这叁个不同类型信息的研究,实现了对新闻视频故事单元的分割。并以Visual C++为开发平台,设计并实现了一个新闻视频故事单元分割系统。本文首先对视频进行了结构化的处理,提出了一种改进的镜头边界检测方法,即对运动补偿之后的像素不变点采用自适应双阈值来判定切变镜头和渐变镜头。在此基础之上,对一种字幕检测算法进行了改进,利用小波变换提取图像特征,对其进行模糊C均值聚类,判断出图像帧中的字幕信息;同时以提取的关键帧为基础实现一种主持人镜头的检测方法,利用新闻视频中主持人镜头的固有特点,提取区域图像的颜色特征进行判断,将镜头分为主持人镜头和一般报道镜头。本文利用基于隐马尔科夫模型的音频分类算法,提取视频中的底层音频信息特征,首先对音频进行静音判断,然后使用隐马尔科夫模型对其进行分类,实现对新闻音频信息的分类与识别。最后本文以Visual C++6.0为编程平台,实现了新闻故事单元分割系统,完成了对新闻视频的镜头检测、字幕检测,音频分类识别,主持人镜头检测,新闻故事单元分割以及数据库的管理和检索。

许荣[7]2008年在《融合音视频特征的足球视频检索研究》文中指出体育视频检索作为基于内容的视频检索领域的一个重要分支,一直备受关注。作为体育视频的一种,足球比赛视频有着广泛的收看群体,为满足观众个性化的检索要求,有必要对足球视频进行基于语义信息的检索。本文结合足球领域相关知识,对足球视频的结构化分析和进球事件检测进行研究。本文首先分析了一种基于颜色学习的主色区域检测算法,提取的主色将用于后续的镜头边界检测和镜头的分类。本文采用双阈值分割法来进行足球视频的镜头分割,实验表明该方法较传统的直方图差比较法在查全率和查准率上有较大的提高。在完成了镜头分割之后,本文提出了一种基于主色比率的关键帧提取算法,对于球场不可见镜头取首尾两帧作为关键帧,对于球场可见镜头等间隔抽取5帧。本文还提出了一种改进的镜头分类方法,此算法较之以往的基于草地比率的镜头分类算法在长镜头和中距离镜头的检测效果上有较大的提高。通过对足球视频进球事件的分析发现两个规律:(1)在视频域,视频镜头间存在很强的事件关联性,在进球镜头之后会有球员特写镜头和慢镜头回放。只要检测出其中的相关镜头,就可以实现对于进球事件的检测;(2)在音频域,进球事件的两个显着的音频特征是观众的欢呼声和精彩的解说声,只要检测出相对应的音频段中同时存在这两种音频,就可以辅助足球视频进球事件的检测。根据这两个的规律我们建立了进球事件的检测规则,并提出了一个可行的算法。在阐述了算法的具体实现过程之后,通过实验验证了算法的可行性,并且通过实验数据分析了算法的优点和需要改进的地方。

何新[8]2007年在《基于内容的音频信息分类检索技术研究》文中认为随着多媒体技术的飞速发展和计算机处理的不断增长,人们面临着一个巨大的数字化“信息海洋”,如何对这些信息进行快速准确地检索已经成为人们的迫切需要。在这样的条件下,多媒体信息检索技术于20世纪90年代开始蓬勃发展起来,成为信息检索技术研究的一个重要分支。开始阶段,研究的注意力主要集中在基于内容的图像检索和视频检索两个方面,而往往忽视了音频数据中所蕴含的丰富语义,加上原始的音频数据的非结构化特性,因此,音频检索相对滞后。随着音频数据的大量出现,基于内容的音频检索也逐渐成为多媒体信息检索技术的一个研究热点。本文在认真总结了前人研究成果的基础上,对基于内容的音频信息检索中的若干问题进行了相关探讨,着重研究了音频特征的分析、分类器设计和语音信息检索这几方面的问题。本文的主要工作和研究成果包括以下几个方面:(1)音频特征分类方法的研究音频分类主要以一些主观或者客观的音频特征为基础,音频特征的选取要能够充分体现出音频在时域和频域中的重要分类特性。因此,音频特征的分析与提取也就成为音频分类问题的基础和重点。如何有效地提取音频特征,并保持特征间相互独立,减少信息冗余就是需要进一步解决的重要问题。本文在音频特征分析中,引入独立分量分析算法,用来提取音频最为关键并高维独立的特征,提高特征的可分性。同时,在此基础上,利用支持向量机良好的分类性能,对各类音频数据的特征进行分类,即提出一种将独立分量分析和支持向量机结合而构成的混合模型用于音频特征分类问题,收到较好的效果。(2)音频分类器的设计与实现基于内容的音频检索就是要针对连续的音频信号进行分类。因此,如何构造一个分类器,使其能较好地表征音频的时间统计特性,同时又具有一定的类别区分能力是一个值得研究的问题。本文在结合课题组在语音识别研究中己完成的研究基础之上,将由隐马尔科夫模型引申出来的广义模型运用到音频分类检索中,将广义模型与支持向量机结合,提出将基于支持向量机和广义模型的混合模型用于音频分类检索。(3)基于广播新闻音频的检索技术研究语音是音频数据中的一个重要组成部分,比如,在广播新闻节目、学术会议的录音中包含着大量的语音信息。由于语音具有直观、自然、方便使用的特点,因此,如何直接利用语音来有效地检索多媒体中相关的音频信息,也是一个值得探讨的研究方向。本文针对广播新闻,进行音频检索探讨,研究其中的音频分类、音频检索以及语音识别问题。并在此基础上,设计和初步实现一个基于内容的音频信息检索原型系统。

马镇新[9]2011年在《复杂音频环境下的音频事件检测和语义分析研究》文中研究指明如何能够在一个复杂的音频环境下检测音频事件并进行相关语义分析研究在多媒体检索、安全领域和移动机器人领域等都有广泛的应,成为基于内容的音频语义分析和检索的热点问题,然而这尚未得到很好解决,主要难点在于它针对的是复杂的音频环境,导致音频事件类内变化不一、背景噪声容易淹没目标音频事件,并且还有大量容易混淆的音频事件,关键音频事件在整个音频流里的比例很小,数据不平衡导致检测结果的精度较低,无法满足应用需求。在复杂音频环境下进行音频事件检测和语义分析研究需要解决的问题有:音频事件定义、特征的区分性、模型选择、检测策略等。本文主要针对电影、电视剧、新闻联播等复杂音频环境,探索音频事件检测和语义分析研究方法和技术。研究在复杂音频环境下单一音频事件检测、关键音频事件检测、基于无监督的音频事件提取和场景分割等理论和实际应用相关问题,重点研究音频事件建模、检测策略、无监督方法应用,并针对数据不平衡和高层语义分析—场景分割问题做初步探讨和研究。因此,文本的主要工作如下:1.单一音频事件检测技术研究基于预分割的单一音频事件检测技术研究是复杂音频环境下音频事件检测和研究的基础。文本利用单一音频事件检测方法,针对新闻联播中说话人场景识别这一实际问题,在前人研究基础上,利用SVM模型识别场内和场外这两种单一音频事件,并用有限状态机对识别结果进行平滑,在测试集上的精度和召回率分别达到了81.25%和82%。针对不平衡数据集分类问题进行了初步的研究。提出了欠采样改进的办法,在正确类样本正确分类率下降不多的前提条件下,使分类器对错误类样本的正确识别率提高了5.4%。2.关键音频事件检测研究关键音频事件检测在广告检测、安全监控等领域中有广泛应用,在理论和实际应用中都有重要的研究意义,也是本文研究的重要方面。本文以检测电影音频中的爆炸声为例,提供复杂音频环境中关键音频事件检测的一般方法,通过选择合适的特征,利用基于Adaboost的决策树分类器建模,采用多级检索策略并对检测结果平滑处理,爆炸声的检测平均精度和召回分别为78.4%、81.2%,实验表明本文提出的方法具有良好的爆炸声检测性能。3.基于无监督的音频事件提取和场景分割研究基于有监督的音频事件检测方法受训练语料的约束,是个领域相关问题,推广能力有限。本文尝试使用无监督的方法提取音频事件并探索高层语义—场景分割研究,提出领域无关的关键音频事件检测通用方法。本文迭代使用基于幅度因子的谱聚类提取音频事件、并利用文本分析中的TF/IDF准则计算音频事件权重,得到关键音频事件,在此基础上,加入利于规则方法进行场景分割,取得不错的效果。

魏维[10]2006年在《基于统计学的视频语义分析与提取技术研究》文中研究表明视频分析是多媒体信息处理的重要研究内容。多媒体信息呈现爆炸式增长,海量视频数据需要高效的浏览、检索工具进行管理和访问。现有内容分析技术大多是基于非语义低层物理特征,不仅难以理解而且与人类思维中的高层语义概念相差甚远,严重影响和制约了基于内容的视频管理、检索技术进一步推广和应用。如何跨越低层特征和高层语义概念间的语义鸿沟,以语义概念来管理、访问视频数据,已成为多媒体领域颇具挑战性的研究课题。 本文基于统计学理论,提出了一个视频数据多粒度语义分析和提取的通用解决方案。在该方案中,多层次语义分析与多模式信息融合技术在同一模型中得到统一和应用。本文首先提出了一种基于统计分布的镜头渐变边界检测方法,并用一种具有时间语义语境约束的关键帧选取策略对时域内容进行表示;然后在基本视觉语义识别后,得出一种层次的多粒度视觉语义分析提取框架;随后把时频变换得到的声音频谱作为可观察特征,构建了基本声音语义识别的隐马尔可夫模型,通过语义窗口获得基本声音语义组后,按照高层逻辑定义提取音频高层语义;最后仿照人脑多感觉器官信息融合机理,将视频中多模式特征按不同类别进行划分,设计了一种基于仿生的视频语义分析两级多模式信息融合算法。 本文的创新点是: (1) 提出一种多层次/多粒度视觉语义分析的通用框架。仿照人类视觉系统的注意力机制,利用时空注意力模型选择动态和静态显着区域;将所选区域用模式分类技术进行基本视觉语义分类识别;设计了一种适合基本视觉语义分类识别的特征选择算法;得出一种定步长组合划分方法,用于对具有多峰分布属性的特殊显着区域进行基本视觉语义识别;将高层视觉语义看作是隐含状态,利用层次隐马尔可夫模型和帧切片策略建立时间语义语境约束后,对高层视觉语义进行提取。 (2) 提出一种对音频语义分析和提取的方法。采用隐马尔可夫模型(HMMs)对分析窗口内的基本声音语义进行识别;以贝叶斯决策排除语义窗口声音段中的未定义基本语义;按贝叶斯公式计算最大后验概率后,得到语义窗口内的一个基本声音语义组;采用高层语义逻辑定义来描述基本语义与高层声音语义概念间的联系,最终提取高层音频语义。 (3) 通过对人脑多种感官信息融合机理的分析,提出一种基于仿生的视频语义分析两级多模式信息融合算法。首先分别进行视频图像、音频、文字等各部分内的多模式特征融合,然后通过基于核的非线性算法把输入空间变换到高维特征空间,在特征空间中求取最优线性分类面,最终得到融合多模式信息的视频语义。

参考文献:

[1]. 音频分类与分割技术研究[D]. 白亮. 国防科学技术大学. 2004

[2]. 基于节拍和关键背景模型的音频分类与分割[D]. 王冬冬. 哈尔滨工业大学. 2017

[3]. 广播音频的分割分类算法研究[D]. 贾兰兰. 西安电子科技大学. 2009

[4]. 应用于视频内容分析的话者辨识系统[D]. 毕竞. 北京邮电大学. 2008

[5]. 基于视听信息的视频语义分析与检索技术研究[D]. 闫乐林. 北京邮电大学. 2012

[6]. 多模态融合的新闻故事单元分割[D]. 刘立巍. 南京理工大学. 2010

[7]. 融合音视频特征的足球视频检索研究[D]. 许荣. 吉林大学. 2008

[8]. 基于内容的音频信息分类检索技术研究[D]. 何新. 南京理工大学. 2007

[9]. 复杂音频环境下的音频事件检测和语义分析研究[D]. 马镇新. 北京邮电大学. 2011

[10]. 基于统计学的视频语义分析与提取技术研究[D]. 魏维. 南京理工大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

音频分类与分割技术研究
下载Doc文档

猜你喜欢