自动汉语分词论文_李迅

导读:本文包含了自动汉语分词论文开题报告文献综述、选题提纲参考文献及外文文献翻译，主要关键词:分词,语料库,汉语,词性,向量,语言学,文本。

自动汉语分词论文文献综述

李迅^[1]（2010）在《自动分词与分词规范——关于《信息处理现代汉语分词规范》的重新思考》一文中研究指出动分词技术是计算语言学中的一个瓶颈问题,在刚刚做过的留学生汉语语料库词性标注工作中,我们也发现了许多关于自动分词的问题。围绕这些问题,参照《信息处理现代汉语分词规范》,我们提出了对词表、分词规范、人工校对、消歧、未登录词、最大概率法等方面的看法和建议。(本文来源于《山东文学》期刊2010年01期）

杨孝光^[2]（2004）在《中文文本自动分类系统研究—汉语分词及分类器的设计》一文中研究指出随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程,具有很重要的现实意义,对电子政务、联机出版、网络信息检索与服务、公共电子图书馆和大规模真实语料库的建设等领域更具有广阔的应用前景。本文从面向应用、面向大规模、面向真实文本等实际需求的角度出发,从以下几个方面展开了对中文文本自动分类系统的研究:首先是汉语自动分词技术的研究,包括词语粗切分、未登录词识别、词性标注排歧等。在词语粗切分中,我们综合最短路径方法与全切分方法,提出了一种基于N-最短路径一元统计的粗分模型对中文词语进行粗分;在未登录词识别中,我们分别对数词短语、迭字词、名字的识别提出了不同的识别方法。其中,在对名字的识别过程中,我们采用了Viterbi算法,确定句中概率最大的上下文信息状态序列,并结合文本的局部统计量,对人名、地名、译名进行匹配识别;而对于词性的标注排歧,我们是采用了CLAWS算法的思想,结合每个词的各个词性标记具有不同概率的特点,基于隐马尔科夫模型进行的。其次是关于分类器的设计方面,我们着重解决了特征词的抽取、文本的表示、采用支持向量机方法对分类器的设计实现。对于特征词的抽取,我们是根据香农信息学的理论,从每类文本集的高频词词库中去掉停用词词库中的词,得到每类对应的类型词词库,在此基础上设计特征词加权函数进行特征词的抽取和加权;而文本的表示问题,我们采用的是基于向量空间模型的数字化表示方法,利用文本的特征单元形成向量空间,文本最后被形式化为N维空间的一个向量D;在分类器的设计实现中,我们根据各类别文本数据间的特点,提出了一种在线性可分支持向量机的基础上,根据训练学习中拒识样本数的信息,给其最优分类面中加入了一个松弛项η的改进方法,实现了一个基于支持向量机方法的文本分类器,并取得了较为满意的分类效果。(本文来源于《电子科技大学》期刊2004-02-01）

钱揖丽,张虎^[3]（2002）在《汉语分词及词性标注自动校验方法研究》一文中研究指出大规模的标注语料库是语料库语言学发展的重要基础。随着许多科学研究的进一步开展,我们对语料的加工质量提出了更高的要求。本文采用基于上下文搭配的规则和统计相结合的自动校验方法,对机器切分标注语料进行处理,并把自动校验过程中获取的信息,应用于语料库的构建,即采用滚动式的方法,建立大规模的、具有更高加工质量的标注语料库。(本文来源于《第一届学生计算语言学研讨会论文集》期刊2002-08-01）

自动汉语分词论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程,具有很重要的现实意义,对电子政务、联机出版、网络信息检索与服务、公共电子图书馆和大规模真实语料库的建设等领域更具有广阔的应用前景。本文从面向应用、面向大规模、面向真实文本等实际需求的角度出发,从以下几个方面展开了对中文文本自动分类系统的研究:首先是汉语自动分词技术的研究,包括词语粗切分、未登录词识别、词性标注排歧等。在词语粗切分中,我们综合最短路径方法与全切分方法,提出了一种基于N-最短路径一元统计的粗分模型对中文词语进行粗分;在未登录词识别中,我们分别对数词短语、迭字词、名字的识别提出了不同的识别方法。其中,在对名字的识别过程中,我们采用了Viterbi算法,确定句中概率最大的上下文信息状态序列,并结合文本的局部统计量,对人名、地名、译名进行匹配识别;而对于词性的标注排歧,我们是采用了CLAWS算法的思想,结合每个词的各个词性标记具有不同概率的特点,基于隐马尔科夫模型进行的。其次是关于分类器的设计方面,我们着重解决了特征词的抽取、文本的表示、采用支持向量机方法对分类器的设计实现。对于特征词的抽取,我们是根据香农信息学的理论,从每类文本集的高频词词库中去掉停用词词库中的词,得到每类对应的类型词词库,在此基础上设计特征词加权函数进行特征词的抽取和加权;而文本的表示问题,我们采用的是基于向量空间模型的数字化表示方法,利用文本的特征单元形成向量空间,文本最后被形式化为N维空间的一个向量D;在分类器的设计实现中,我们根据各类别文本数据间的特点,提出了一种在线性可分支持向量机的基础上,根据训练学习中拒识样本数的信息,给其最优分类面中加入了一个松弛项η的改进方法,实现了一个基于支持向量机方法的文本分类器,并取得了较为满意的分类效果。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。