基于最大匹配的书面汉语自动分词研究

基于最大匹配的书面汉语自动分词研究

杨超[1]2004年在《基于最大匹配的书面汉语自动分词研究》文中研究指明书面汉语自动分词是中文信息处理中的重要步骤,它是文本校对、机器翻详、文本分类、文本检索、计算机人机接口等诸多中文信息应用领域的基础。目前汉语自动分词方法主要包括基于字符串匹配的方法、基于统计的方法和基于理解的方法。本文在深入分析现有自动分词算法的基础上,着重研究了基于字符串匹配的汉语自动分词算法,引入最大匹配法预处理分词,同时运用统计方法进行歧义切分和未登录词识别。 根据汉语中二字词较多的特点,给出一种改进的自动分词词典机制,该机制在词典数据结构中增加二字词检测位图表。在此基础上,对最大匹配分词算法进行改进,实现了一种基于二字词检测位图表的最大匹配分词算法,本算法利用二字词检测位图表快速判断二字词,减少词典匹配次数,以提高自动分词速度。针对伪歧义型高频最大交集型歧义字段在大型语料库中表现出较强的稳定性和一定的覆盖能力,歧义处理着重于研究该类歧义字段的自动获取,将它们的正确切分形式记录到歧义库中,其歧义消解通过直接查表实现,这在本质上是一种基于记忆的策略。未登录词识别技术研究着眼于Web资源中未登录词的获取,并提出一种基于Web查询曰志的未登录词识别算法,本算法分析Web查询日志的搜索关键字频度表识别未登录词。 基于上述研究结果,设计并实现了一个面向实际应用的书面汉语自动分词系统。实验结果表明:在相同条件下,基于二字词检测位图表的最大匹配分词算法较原算法分词速度更快。利用卡耐基梅隆大学分词评估系统进行评测,评测结果表明,基于二字词检测位图表的最大匹配分词算法的查准率提高了3.57%,F-1测度提高了0.01,较原算法具有更好的性能。系统还具有较好的稳定性。

文庭孝[2]2005年在《汉语自动分词研究进展》文中提出汉语自动分词是计算机中文信息处理中的难题,文章通过对现有自动分词方法研究进展的分析,指出了今后汉语自动分词研究的叁个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。

沈勤中[3]2008年在《基于条件随机场的汉语分词研究》文中进行了进一步梳理随着Internet技术的迅速发展,自然语言处理已经成为信息处理领域一个引人注目的研究热点。由于汉语的特殊性,大多数汉语自然语言处理任务都需建立在分词的基础之上,因而分词的准确程度将直接影响到一系列的后续处理。由于汉语自身的复杂性,分词问题一直是汉语自然语言处理的瓶颈问题。条件随机场是用于标记和切分序列数据的条件概率模型,也是在给定输入节点条件下计算输出节点的条件概率的无向图模型。它不需要以隐马尔可夫模型为代表的“生成”模型那样的严格独立假设,并克服了最大熵马尔可夫模型和其他“非生成”模型所存在的标记偏置问题。该模型可以非常容易地将输入序列中的任意特征加入到模型中,而且也可以将一些其他的信息加入进来,如构词规则等。本文系统地描述了条件随机场的定义、模型结构、势函数表示、参数估计及其训练方法等,并将条件随机场运用于汉语分词,采用汉字标注的分词方法。本文应用条件随机场进行了大量的实验,实验语料采用SIGHAN比赛的国际标准语料,并进行了封闭式测试。实验分析了条件随机场模型参数选择和汉字标注集选择对实验结果所产生的影响,并且利用条件随机场模型能够添加任意特征的优点,添加了一些新的特征到模型中,并从字的构词能力角度出发,探索了字位置概率特征。在PKU语料库上的实验表明:字位置概率特征的引入,使结果F1值提高了3.5%,达到94.5%。最后利用各分词系统的分词结果,运用“结果集成”方法,使分词系统的F1值进一步提高到95.6%。

黄魏[4]2007年在《植物营养诊断自动应答网络专家系统研究》文中研究说明在作物生长领域,营养元素作为生长的关键因子之一,当必需元素缺乏或过量时,作物会表现出特殊的症状。这种在外观上看到的症状有助于人们对作物营养状况的了解,也是诊断作物营养状态的重要指标。目前,在我国农村基层,还相对缺乏有经验的植物营养诊断专家;农民对作物因营养元素异常导致的症状表现认识不够,因此不能科学地诊断和及时校正营养元素的丰缺。研究将网络技术、数据库、自动分词等现代计算机技术与传统农业技术结合,开发面向专业领域的植物营养诊断自动应答系统诊断专家系统。研究分析和讨论了知识获取与知识表示的方法,在分析了植物营养知识特点的内在规律的基础上,采用了专家知识和文献知识两种主要获取方法。在研究过程中,参考了大量的相关资料,收集了覆盖常见作物的元素丰缺条件下的典型与非典型症状描述,直接进入数据库的有286条。以此为基础,提出了作物营养元素症状描述的客观标准集:1)按元素分类建立了12种元素的客观标准集;2)在对客观标准集分析归纳的基础上,建立了植株的表观症状描述、部位的表观症状描述、叶片的表观症状描述和诊断检索表;3)以SQL server2000为数据库平台,介绍了数据库的物理设计和逻辑设计。在已建各类知识的基础上,提出了面向植物营养诊断的分词模型PDCWSM(Plant Diagnose Chinese Word Segmentation Model),从分词精度和可靠性判断,确定了以双向扫描法为主、逐词遍历法为辅的分词方法,对于典型症状描述,分词精度可达95%;对于非典型症状描述,分词精度可达80-85%,基本上满足了系统需要。推理过程结合植物营养专业知识和其内在规律性,提出了系统的回溯策略和不可回溯策略,提出采用正向推理结合反向推理的混合推理方式。根据植物元素功能及对症状的表现规律,研究建立了18条产生式推理规则,构建了CERTAIN与UNCERTAIN表,实现了在理想条件下叁级推理和非理想条件的CF置信区间判断加提问的产生式推理过程。根据诊断结果建立了复混肥优化配方的对偶模型规划,利用其双向分析功能对配方进行了深入分析。在实现经济配方基础上,利用缩减成本分析了原料未采用的原因是其有效成分与价格不匹配。对已进入配方的原料进行了灵敏度分析,探讨了价格波动对配方的干扰程度,并指出磷元素为目前配方的价格最敏感因子。复混肥中叁种主要元素的影子价格为钾>磷>氮,说明钾元素对总经济成本影响最大。

贾丽洁[5]2007年在《基于最大熵模型的分词技术研究》文中进行了进一步梳理近几年来,随着中国信息产业的发展,汉语自动分词已经成为中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键所在。从目前能得到的结果看,汉语自动分词的算法数量不下几十种,但归结起来,不外乎两种方式:一种是智能切分,另一种是机械切分。智能切分是以基于符号规则的人工智能为基础的,也可以称为基于规则的分词方法,这种方法复杂程度高,实现难度大,难以将各种语言信息组织成机器可以直接读取的形式,因此目前智能切分系统还处在试验阶段;机械式切分复杂程度低,易于实现,但对歧义字段和未登陆词的切分常常出现错误,而且切分正确率和速度与词表的规模有密切的关系。汉语的词法约束很不规范,而且千变万化,给汉语分词带来了很大的麻烦。正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,所以它的研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信息过滤等诸多领域,所以受到人们的广泛关注。最大熵方法是建立统计语言模型的一种有效的方法,具有较强的知识表达能力。最大熵模型可以控制细微特征,具有可重用性,简单易于理解等优点,作为一种统计方法被有效的应用。它的缺点是训练速度非常慢,耗资源。在这篇论文当中,首先介绍了汉语自动分词通常所采用的分词技术,最大熵模型的基本原理、参数估计和特征选择算法,通过分析比较特征选择算法,提出了改进的方法,提高特征选择的速度。论文的核心工作是设计并实现了一个基于最大熵模型的汉语分词系统。系统包括预处理,模型训练,命名实体识别,词性标注等功能模块。最后通过实验验证了系统的性能,与其它分词系统相比,取得了较好的分词效率和分词精度。本文针对分词技术现有的发展和最大熵的模型特点,完成如下工作:(1)研究最大熵模型的原理,及其在特征选择和参数估计中所用的相应算法。(2)特征选取:实际上最大熵模型本身不涉及特征的选择问题,因为它只是确定一个合适的概率模型。但特征空间一般都比较大,如何选择冗余少的,有代表性的特征对模型的训练和使用很重要。针对上述问题,本文提出改进的特征选择算法。(3)系统构建:本文基于最大熵模型建立了一个中文分词系统,使用语料库进行最大熵模型的训练,并对文本进行词性标注,最终得到文本的分词结果。在系统构建的过程当中,采用先进行命名实体识别,然后再进行文本分词的方法,最后的实验表明,采用这种方式,分词效果良好。

肖明[6]2001年在《WWW科技信息资源自动标引的理论与实践研究》文中提出随着因特网的迅速发展和广泛应用,它逐渐成为目前最大的信息资源宝库和最主要的信息交流渠道,由于因特网信息资源的显着特点是量大而无序,故随之出现了“数据丰富,知识贫乏”现象。现有的搜索引擎大多是基于关键字的全文检索系统,较少考虑信息的语义问题,因而不能够满足用户的不同需求,广大用户也很难利用它们来获取因特网中许多有价值的知识。为此,本论文针对WWW科技信息资源自动标引展开理论和实践两方面的研究,其主要研究目的如下:为处理因特网信息资源提供技术支持,为普通用户检索因特网信息资源提供便利,为建设中国数字图书馆提供新的研究思路。 论文提出了基于《中国分类主题词表》的WWW科技信息资源自动标引系统(STAI)设计方案,该系统具有WWW网页的格式自动检测与转换、自动分词与自由词标引、自动分类标引和主题标引等功能。STAI系统是一个自动化程度较高的易用型软件,该试验系统可以同时实现中英文网页的自动标引,兼顾了如何结合自然语言与情报检索语言二者在信息检索方面各自的优越性。在STAI系统设计和实践过程中,本论文做出了一定的创新性尝试。例如,采用了结构化程序设计方法等先进的程序设计思想,重视ActiveX控件的设计和应用,其目的都是为了提高程序代码的可重用性和可移植性;论文中首次提出了“类目短语”这一新概念,设计了将自然语言与情报检索语言紧密结合的若干对应表,比如用于实现自动分类标引和自动主题标引的“类目短语-主题词对应表”、“主题词-分类号对应表”等。以上研究成果,为今后进一步研制具有自主知识产权的WWW科技信息资源自动标引软件产品奠定了良好的基础。 此外,笔者还对文献自动标引的理论和方法进行了系统化的梳理,文中引用的大量参考文献对于从事相关领域研究的人员来说具有较高的参考价值。

贺胜[7]2006年在《面向现代汉语文本处理的全文检索、自动分词通用系统》文中研究表明全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本研究对中文全文检索的有关技术进行了较为深入的研究,重点放在全文检索技术的应用上。对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应信息技术发展的需求等方面进行了新的探索。 全文检索是一种I/O密集型的应用,以往的全文检索系统的开发多在关系数据库的基础上进行。本研究针对全文数据库的特点,指出此方式的弊端与不足,并提出了基于文件系统进行构建的解决方案。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包——Lucene,它功能强大,小巧精悍,便于嵌入各种应用。近年在世界各地被广泛使用,诸如IBM等公司都使用其核心代码。作为一个开源软件,为我们掌握搜索引擎的核心技术提供了绝佳机会,根据现代汉语文本的特点对进行二次开发,是一件很有意义的事情。 汉语自动分词及词性标注是中文信息处理中的重要环节。针对现代汉语自动分词及词性标注的难点,本研究在自动分词方面进行了如下探索:1.对几种常用电子词典的结构进行了分析和比较,实现了核心词典+专业词典的双词典策略,提高了系统的灵活性和适应性。2.采用根据分词有向无环图确定歧义字段的策略,一次性找出所有交集型和组合型歧义字段。3.采用基于角色标注的方法,识别未登录词中的中国人名、地名和外国人译名。4.采用规则的方法,对数字词及重迭词进行了分析和处理。5.利用基于隐马模型的汉语自动分词及标注一体化系统,实现了切分和标注的排歧。

蔡灿民[8]2008年在《基于词典的智能分词系统的研究与实现》文中认为中文自动分词是中文信息处理的关键技术,同时也是中文信息处理的第一道工序,它是自然语言理解、自动翻译、电子词典、文本分类等中文信息处理的基础性工作。随着中文信息技术的不断发展,中文自动分词已经成为中文信息自动处理的“瓶颈”。因此,中文自动分词技术目前是我国计算机科学研究的重要课题之一。目前分词方法主要有叁类:一类是基于字符串匹配的机械分词法,也称词典法;另一种是基于统计语言模型的分词方法;还有一种是建立在知识库及语义规则基础上的分词方法,也被统称作人工智能法。这些分词方法都有其各自的优缺点:机械分词法是最常用的一种方法,虽然现在的机械分词法中运用了各种技术,但还是不能有效地解决未登录词识别和歧义处理问题;基于统计语言模型的分词方法不能有效地提高分全率以适应一般中文信息处理的应用;人工智能法中无法解决规则库和语义在应用方面的问题,目前基本处于研究阶段。本文针对各种自动分词方法中出现的这些问题,利用基于统计语言模型的分词方法能识别第一类未登录词及处理部分歧义的优点来弥补基于字符串匹配的机械分词法未登录词识别及部分歧义处理的缺陷,提出了具有自学习机制的智能词典的概念,初步地构架了智能词典的基本模型,对基于智能词典的汉语自动分词系统的可行性在理论上进行了论证,并详细地论述了基于智能词典的分词系统的基本原理和实现过程。最后,对本课题进行了总结,分析了本系统的不足,并对课题将来的发展作了展望。

颜军[9]2009年在《基于条件随机场的中文分词研究与应用》文中认为自然语言处理不仅是一门社会需求十分巨大的应用技术,而且也是一门具有非常重要科学意义的自然科学。由于汉语自身的特殊性,大多数汉语自然语言处理任务都需建立在汉语分词的基础之上,因而分词的准确程度将直接影响到一系列的后续研究和研究。由于汉语自身的复杂性,分词问题一直是汉语自然语言处理的首要问题。条件随机场理论是近年来提出的,用于标记和切分序列数据的条件概率模型,也是在给定输入节点条件下计算输出节点的条件概率的无向图模型。它不需要以隐马尔可夫模型为代表的生成模型那样的严格独立性假设,并克服了最大熵模型和其他非生成模型所存在的标记偏置问题。该模型可以非常容易地将输入序列中的任意特征加入到模型中,而且也可以将一些其他的信息加入进来,如构词规则等。本文首先介绍了自然语言处理的研究状况,以及分词在自然语言处理中的重要性,继续介绍了当前常见的分词方法和各种分词方法的优点和缺点,分析了汉语自动分词研究面临的问题;本文系统地描述了条件随机场模型的定义、模型结构、参数估计及其语料库选取等,并将条件随机场运用于汉语分词,采用汉字标注的分词方法。本文应用条件随机场进行了大量的实验,实验语料采用长江日报社多年统计的标准语料,并进行了封闭式测试。实验分析了条件随机场模型参数选择和汉字标注集选择对实验结果所产生的影响,并且利用条件随机场模型能够添加任意特征的优点,添加了一些新的特征到模型中,并从字的构词能力角度出发,探索了字位置概率特征。在该语料库上的实验表明:字位置概率特征的引入,使结果准确率、召回率和F1值都到了明显的提高。中文自动分词的有着广阔的应用范围,本文主要中文文本自动方面介绍了分词的应用。中文文本自动校对是自然语言处理领域中有着广阔应用前景的一个研究方向。本文依据条件随机场分词的结果以及常见错误的特点,结合叁元字模型的特点,提出了一种有效的文本校对方法,实验表明,该方法具有较高的准确率和召回率。

王广正[10]2006年在《基于知网语义相关度计算的汉语自动分词方法的研究》文中进行了进一步梳理汉语自动分词方法一直是中文信息处理乃至人工智能领域的重要研究内容。其中歧义消解作为该领域最重要也是最困难的两个研究重点之一,已经在国内外取得了重大进展,并且也提出了许多有效的分词方法。但是对于歧义字段的处理精度方面还存在不小差距,并且也遇到了不少困难。 作者对汉语自动分词技术、方法和分词系统的实现技术进行了较深入的研究,提出了基于知网的语义相关度计算的歧义字段处理分词模型,并对各链长的歧义字段进行了处理,根据以上研究,设计了WGZ分词系统,并对所设计的系统进行了测试,在所提出的计算语义相关度方法、分词和标注方法都与其它方法做了全面的比较。实验证实,本系统若以句子为单位,本文提出的分词模型的分词正确率为:97.1%;若以词为单位,则为:99.4%,标注正确率为:91.4%。 作者在研究中发现,歧义消解并不只是词的问题,而是与其上下文,包括相邻词、句子段落甚至篇章都有直接或间接的关系。作者在系统的设计与实现时,也充分考虑到了这些因素,并在知网的基础上提出了词语的语义相关度计算模型,并对各链长的歧义字段进行了处理。在进行词性标注时,作者分析了前人的基于规则的词性标注的工作,并提出了基于规则优先级的词性标注方法,最后实现了分词和标注系统。 本文在设计分词系统的时候,充分研究了知网的知识结构以及其知识系统描述语言模型(KDML),并分析了知网在刻画词语概念知识的优越性。本文在利用正向最大匹配方法和逆向最大匹配方法来对输入文本进行预切分,并通过双向扫描的方法检测歧义字段。在歧义字段的处理这一重要环节,本文通过对计算词语间的语义相关度来消除歧义。在各链长的歧义字段的处理问题上,本文都提出了解决方法,或者可以归结到链长为1的歧义字段的处理。词性标注这个环节,本文通过边标注边进行规则的完善与调整,直至该规则库对生语料库的标注的正确率达到期望为止。 在进行系统测试时,作者以本文提出的计算语义相关度方法与其他方法做了比较,并对本文的分词方法和标注方法都与其它方法做了全面的比较。最后对本文的工作进行了展望。

参考文献:

[1]. 基于最大匹配的书面汉语自动分词研究[D]. 杨超. 湖南大学. 2004

[2]. 汉语自动分词研究进展[J]. 文庭孝. 图书与情报. 2005

[3]. 基于条件随机场的汉语分词研究[D]. 沈勤中. 苏州大学. 2008

[4]. 植物营养诊断自动应答网络专家系统研究[D]. 黄魏. 华中农业大学. 2007

[5]. 基于最大熵模型的分词技术研究[D]. 贾丽洁. 山东师范大学. 2007

[6]. WWW科技信息资源自动标引的理论与实践研究[D]. 肖明. 中国科学院文献情报中心. 2001

[7]. 面向现代汉语文本处理的全文检索、自动分词通用系统[D]. 贺胜. 南京师范大学. 2006

[8]. 基于词典的智能分词系统的研究与实现[D]. 蔡灿民. 昆明理工大学. 2008

[9]. 基于条件随机场的中文分词研究与应用[D]. 颜军. 武汉理工大学. 2009

[10]. 基于知网语义相关度计算的汉语自动分词方法的研究[D]. 王广正. 云南师范大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于最大匹配的书面汉语自动分词研究
下载Doc文档

猜你喜欢