文本对齐论文_王苗

导读:本文包含了文本对齐论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文本,语料库,模型,自动机,特征,语音识别,余弦。

文本对齐论文文献综述

王苗[1](2019)在《基于交叉对齐方法的中文文本风格转换》一文中研究指出在人工智能技术的不断发展过程中,文本和图像的风格转换是对人工智能发展水平的重要衡量标准,然而语言风格转换滞后于图像的风格转换。由于图像是连续的,可以通过转换函数直接学习和优化,使得图像的风格转换实现起来较为简单,而语言的不连续性增大了研究的难度。在自然语言处理领域的研究中,需要大规模平行语料的支持,但是目前平行语料库的规模十分有限,尤其是在新兴领域,平行语料的数量更是匮乏。对于英文文本,国外已有一些研究能够实现跨语料库的文本风格转换,但是中文的风格转换缺少相关的研究。基于此,本文结合现有的交叉对齐方法和中文语言的特点,实现中文文本的风格转换,本文所做的工作如下:1.中文数据集的获取及处理。在本文中,用到的数据集是公开的豆瓣电影的评论数据,原始数据集包含200多万条评论。为了使数据满足模型的需要,本文主要对原始数据进行了以下处理:将原始数据按照评级分为正面数据和负面数据;将正、负面的句子按照词的个数分为短评论文本和长评论文本;对数据进行去除停用词和命名实体词识别。2.中文文本风格转换及评估。现有的文本风格转换都是基于英文文本的,本文借助交叉对齐方法实现了中文的文本风格转换,并在真实语料库中进行验证。通过两个衡量指标——风格转换强度和内容保留程度,分析了短评论文本、长评论文本和yelp英文短评论的转换效果。风格转换强度通过Libsvm分类器,计算转换到目标风格的句子占总句子的比例来衡量,中文短评论和yelp评论相比,从正面转换到负面的转换强度差距较大,从负面到正面的转换中英文差距较小;短文本的风格转换强度总体上比长文本的风格转换强度要高。内容的保留程度是通过计算文本的余弦相似性,中文的内容保留程度总体上略高于英文;中文长、短评论之间的内容保留程度,短评论的保留程度高于长文本。(本文来源于《华中师范大学》期刊2019-05-01)

韦向峰,袁毅,张全,池毓焕[2](2019)在《富媒体环境下语音和文本内容的对齐研究》一文中研究指出语音媒体和文本媒体是富媒体中重要的两种媒体,本文试图解决富媒体内容关联中语音和文本的自动对应和关联问题。本文通过自动语音识别、语音纠错处理、文本相似度计算等技术和方法,把语音和文本的对齐问题转化为文本之间相似和对齐的问题,通过从语音到文本、从文本到语音两种应用场景,用实验证明了该方法的可行性和有效性。本文的语音文本对齐技术将是富媒体融合特别是语音媒体和文本媒体之间进行融合的重要支撑技术,同时也为文本媒体和语音媒体的进一步关联重组和应用提供坚实的技术基础。(本文来源于《情报工程》期刊2019年02期)

封亚飞[3](2018)在《如何用Winalign软件对现有双语文本对齐组合》一文中研究指出计算机辅助翻译的核心技术是根据语言数据库来获取及重复利用以前的翻译成果。如果仅仅通过在翻译过程中所翻译的内容来扩大翻译记忆库,那么其容量的扩充速度将十分缓慢。本文主要讲了如何用Winalign软件对现有双语文本对齐组合,将原文文档和译文文档的句段进行对齐组合,创建新的翻译单元,生成文本(*.txt)文件或翻译记忆交换(*.tmx)文件,供导入翻译记忆库使用,这样可以提高翻译效率。(本文来源于《散文百家(新语文活页)》期刊2018年06期)

卢晨阳,康雁,杨成荣,蒲斌[4](2019)在《基于语义结构的迁移学习文本特征对齐算法》一文中研究指出特征对齐在源域和目标域空间不一致时会导致负迁移现象。为此,提出一种基于GloVe和WordNet模型的迁移学习文本特征对齐算法。根据数据样本词性和类别对分类任务进行特征筛选,选择源域和目标域的领域共有词作为枢纽词,使用GloVe模型对齐源域和目标域中最相似的非枢纽特征。在此基础上,根据源域和目标域的非共有特征,通过WordNet模型对领域独立特征完成强语义对齐,同时利用含有枢纽特征的对齐叁元组表示对齐特征。实验结果表明,该算法可有效降低特征维度,扩充特征空间,提高跨领域文本分类精度。(本文来源于《计算机工程》期刊2019年05期)

魏晓聪,林鸿飞[5](2017)在《面向迁移学习的文本特征对齐算法》一文中研究指出源领域和目标领域特征空间的不一致导致迁移学习准确率下降。为此,提出一种基于Word2Vec的不同领域特征对齐算法。只选取形容词、副词、名词、动词作为特征,针对每种词性,选择源领域和目标领域的枢纽特征,分别在源领域和目标领域为该枢纽特征计算出与之语义相似度最大的非枢纽特征,将其作为相似枢纽特征,从而为每个枢纽特征构成一个相似枢纽特征对。将出现在这些领域中的每一个相似枢纽特征按照枢纽特征对进行特征替换,从而将不同领域语义相似的特征进行对齐,并在特征替换后的源领域和目标领域数据上进行机器学习。实验结果表明,该算法的平均分类精度达到88.2%,高于Baseline算法。(本文来源于《计算机工程》期刊2017年02期)

平淡[6](2017)在《对齐更简单 玩转Word文本对齐》一文中研究指出在使用Word制作文档的时候,为了美观、统一,我们经常要对输入文本进行对齐。常规的方法是使用插入空格进行对齐,但是很多时候这种方法并不奏效。下面就一起来看看如何玩转Word 2016的对齐。使用标尺对齐文本在Word中可以启用视图的"标尺",这是一个天然的对齐参考线。因此对于文本较少的文档,我们可以通过标尺的方式实现对齐。比如在(本文来源于《电脑爱好者》期刊2017年04期)

陈兴俊[7](2016)在《基于词对齐模型的网络文本评价关系抽取》一文中研究指出评价关系抽取是情感分析的基础任务,它旨在抽取网络评论文本句中的评价对象以及评价词。目前国内外已开展了许多相关研究,并取得了一定的研究成果。但是现有方法还存在评价对象与评价词之间关系度量不准确,忽略评价对象,评价词自身关联关系等问题,影响了最终抽取的精度。因此,本文针对这一问题,进行了以下叁方面的工作:(1)针对现有研究工作在抽取评价对象与评价词关系时应用人工模板和规则的方式,对评价对象与评价词关系权重的度量不准确这一问题,提出了基于词对齐模型的评价对象与评价词抽取。该模型利用词对齐模型自动抽取评价对象与评价词搭配,并结合词间距离等特征来估计两者关系的强度,建立一张二分图,结合领域相关性度量,利用随机游走算法迭代计算候选评价对象与评价词的置信度。在COAE2011任务3的语料上进行实验验证,结果表明,该方法在电子产品,影视娱乐及金融证券叁个领域的抽取结果较基准方法在F1值上都有一定程度上的提升。(2)针对基于词对齐模型的评价对象与评价词抽取仅利用评价对象与评价词的距离因素来计算关系权重,而忽略了评价对象与评价词以及自身之间的多层关系这一问题,提出了一种基于多层关系的评价对象与评价词抽取模型。同样,它首先利用词对齐模型自动抽取评价对象与评价词搭配,然后同时考虑评价对象与评价词的依存句法关系,评价对象,评价词自身的共现关系,建立情感关系图,利用随机游走方法计算候选评价对象与评价词的置信度。在数据集上的实验结果表明,该方法与基于词对齐模型方法(WAM_I)相比在评价对象抽取上F1值平均提高3%。(3)针对在依存句法分析时往往只适合于句子成分完整的文本,而对于一些口语化的句子或者包含语法错误的网络评论文本可能产生错误的问题,提出了一种结合CRF评论句子压缩的评价对象与评价词抽取模型。首先利用条件随机场CRF模型对评论句子进行压缩,保留句子的主要情感成分,然后将其融入基于多层关系的评价对象与评价词抽取模型用于实验。实验结果表明,该方法较现有方法在准确率,召回率和F1值上都有不同程度的提高。(本文来源于《福州大学》期刊2016-01-01)

张巍,王永远,贾晓茹,李传越[8](2015)在《无标注的含噪中文长篇幅语音文本的文语对齐研究》一文中研究指出文语对齐技术是语音识别领域中的一项关键技术。传统文语对齐方法利用语音识别器将文语对齐问题转换成了文本与文本的对齐问题,但是该方法依赖于大量有标注数据训练的声学模型。本文提出一种利用开放识别引擎和基于有限状态自动机的语言模型来得到语音与文本一一对齐数据的算法,来摆脱对于大量标注数据的依赖。实验表明利用该算法得到语音文本数据的准确率为99%,可以用于识别器的训练。接着利用该部分数据训练一个面向要识别领域的声学模型,来对文本和语音进行迭代的,自适应的文语对齐。(本文来源于《中国海洋大学学报(自然科学版)》期刊2015年10期)

朱明东[9](2015)在《两端对齐的Android文本显示控件设计与实现》一文中研究指出两端对齐是中文排版显示时的基本要求,而Android自带的文本显示控件Text View不满足两端对齐的排版要求,分析了Android文本显示的实现原理,设计并实现了一个能够两端对齐的文本显示控件。(本文来源于《电脑编程技巧与维护》期刊2015年03期)

彭静,景成龙,吴亚东,童健康,王鹏[10](2014)在《基于逆序文本对齐的缩写词识别算法研究》一文中研究指出针对生物术语的缩写词识别问题,提出了一种基于逆序文本对齐的搜索算法,它实现简单,不需要大量训练数据。该算法在对Medstract标准语料库测试中,准确率和召回率分别为91%和93%;在对包含128篇全文文本的大测试集SBQTL测试中,准确率和召回率分别为96%和84%。在详细分析实验结果后,提出了将文本预处理以及语法规则等自然语言处理技术融入搜索算法作为未来工作的方向。(本文来源于《武汉理工大学学报(信息与管理工程版)》期刊2014年05期)

文本对齐论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

语音媒体和文本媒体是富媒体中重要的两种媒体,本文试图解决富媒体内容关联中语音和文本的自动对应和关联问题。本文通过自动语音识别、语音纠错处理、文本相似度计算等技术和方法,把语音和文本的对齐问题转化为文本之间相似和对齐的问题,通过从语音到文本、从文本到语音两种应用场景,用实验证明了该方法的可行性和有效性。本文的语音文本对齐技术将是富媒体融合特别是语音媒体和文本媒体之间进行融合的重要支撑技术,同时也为文本媒体和语音媒体的进一步关联重组和应用提供坚实的技术基础。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本对齐论文参考文献

[1].王苗.基于交叉对齐方法的中文文本风格转换[D].华中师范大学.2019

[2].韦向峰,袁毅,张全,池毓焕.富媒体环境下语音和文本内容的对齐研究[J].情报工程.2019

[3].封亚飞.如何用Winalign软件对现有双语文本对齐组合[J].散文百家(新语文活页).2018

[4].卢晨阳,康雁,杨成荣,蒲斌.基于语义结构的迁移学习文本特征对齐算法[J].计算机工程.2019

[5].魏晓聪,林鸿飞.面向迁移学习的文本特征对齐算法[J].计算机工程.2017

[6].平淡.对齐更简单玩转Word文本对齐[J].电脑爱好者.2017

[7].陈兴俊.基于词对齐模型的网络文本评价关系抽取[D].福州大学.2016

[8].张巍,王永远,贾晓茹,李传越.无标注的含噪中文长篇幅语音文本的文语对齐研究[J].中国海洋大学学报(自然科学版).2015

[9].朱明东.两端对齐的Android文本显示控件设计与实现[J].电脑编程技巧与维护.2015

[10].彭静,景成龙,吴亚东,童健康,王鹏.基于逆序文本对齐的缩写词识别算法研究[J].武汉理工大学学报(信息与管理工程版).2014

论文知识图

汉英双语文本对齐音频与文本对齐示意图TRADOS W1nAl1}n的文本对齐葬法...本文研究的主要内容Fig.1.5Themainre...文本对齐的过程抄袭语料构建过程

标签:;  ;  ;  ;  ;  ;  ;  

文本对齐论文_王苗
下载Doc文档

猜你喜欢