基于互联网的中文问答系统研究

基于互联网的中文问答系统研究

龙壹飞[1]2013年在《面向地域信息的问答系统研究与实现》文中提出互联网已经成为当今人们获取信息的重要渠道,这也使得搜索引擎技术成为互联网中极其重要的技术,但传统的搜索引擎不能一次性返回给用户准确的信息。问答系统作为信息检索的一种新形式,能够弥补传统搜索引擎的诸多不足,因而逐渐受到人们的重视。本文对基于特定领域的问答系统进行了相关的研究和设计,主要包括结构化知识库的构建、问句的分析及理解以及答案抽取技术的研究,最后实现了面向地域信息的问答系统的原型系统。在结构化知识库的构建方面,对互联网上大量的与地域相关的信息进行了下载整理,运用信息抽取技术构建了面向地域信息的结构化知识库,该知识库可以支持简单的与地域相关信息的检索。设计了可以通过用户行为自动添加的问答库,利用该问答库可以进一步支持问答系统快速、准确的检索。在问句分析与理解方面,使用对问句进行属性标注、模式判断等方法进行问句分析。并且深入研究了基于《知网》的语义相似度计算方法,针对《知网》未登录词不能参加计算的问题做了相关的处理,在对基本地域信息结构化知识库的语义检索中提高了准确率和召回率。通过实验比较,确定采用基于《知网》的句子相似度计算算法进行问答库检索。在答案抽取方面,对知识库的答案检索采用了提取问句属性块,利用属性块检索答案的方法。由于本地数据库始终存在着局限性,而互联网作为巨大的信息集成体,是可以利用的数据源,因此本文设计了基于互联网的答案抽取模块,并且提出了基于向量空间模型的网络答案抽取算法,该模块充分考虑了搜索引擎与网页文档的特点,实验证明其具有较高的准确率。针对所设计的问答系统的检索流程,实现了问答系统的原型系统,该系统主要由问句分析、语义相似度计算、知识库检索、问题库管理以及互联网检索等模块组成。并且利用Google地图对相关检索结果的地理位置做了标记。本文针对地域相关信息,完整的实现了从数据采集、信息结构化到语义检索的过程。达到了预期的目的。

张亮[2]2005年在《面向开放域的中文问答系统问句处理相关技术研究》文中研究指明问答系统是信息检索分支,属于精确检索,是国外信息技术的研究热点,但在国内还处于起步阶段。信息检索是信息社会的重要特征,各种检索引擎对人们帮助很大,但是如何使计算机更好地理解人的检索需求,如何获得精确检索结果,这些目前还处于探索阶段,问答系统正是这个方面的重要研究内容。本文系统地介绍了问答系统的研究内容及现状,对中文问答系统与问句处理相关的关键技术进行了较为深入的分析与探讨,实质性工作和创新点如下: 1) 研究中文问答系统的理论框架和系统结构,从总体上对问答系统形成一个较为清晰的认识,对其中的研究重点和难点进行具体的分析。 2) 建立一个小规模的问句句法标注语料库(目前国内在该方面还是空白,没有现成的资源可资利用),在此基础上,研究相应算法,派生出句法截断数据库和句法片段数据库,其中基于截断的片段和片段组合抽取算法具有很高的独创性和实用价值。为高效地建立句法标注语料库,设计研发了一个实用的中文句法编辑与分析辅助系统。 3) 在标注语料库的基础上,根据中文问句在语法语义上的特性,结合现有的语料库理论和方法,应用句法片段技术和语言学中关于句法截断理论,研究出一套基于DOP(Data-Oriented Parsing)的问句句法分析算法,实验表明,与其它句法分析技术相比,准确率有较大提高。 4) 根据中文问句的结构特征,结合文本分类技术中较为成熟的Baves计算模型等,对问句的归类进行处理,建立一个准确率较高的中文问句分类算法模型。 5) 在中文句法标注语料库的基础上,对中文问句句型进行统计分析,研究设计出一个问句句型自动识别和获取算法。 6) 对中文问答系统中的问句形式化处理、形式化扩展、信息搜索、检索结果的分析与筛选等进行具体的分析,并研究相关的实现算法。 7) 对问与答之间的关系作了初步的探讨,提出了陈述句派生疑问句的假设,并研究了各种不同的派生情况,讨论了基于ontology的复杂问题分解,初步分析了简单中文句式之间转换的技术方法和关键因素。

赵辄谦[3]2003年在《基于互联网的中文问答系统研究》文中提出随着互联网的普及,互联网上的信息越来越多,为人们提供了丰富的信息资源。而另一方面,人们却很难在杂乱无章的网络中快速、准确地获得自己想要的信息。虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确地获取信息的需要。自动问答技术正是为了满足人们的这种愿望而发展起来的。搜索引擎,要求输入的是一些关键字的组合,而自动问答系统允许用户输入一个问句;搜索引擎返回给用户的是一堆相关的网页,而自动问答系统返回给用户的是一个简短而准确的答案。这样用户就可以通过自动问答系统方便、快速、准确地获得自己想要的信息。 本文在英文问答系统的基础上实现了一个基于互联网的中文问答系统,详细阐述了中文问答系统的各部分的实现。对问题理解部分,本文采用了基于规则的方法来进行问题分类。相关语句抽取部分的相似度计算使用了N元模型和向量空间模型。答案的抽取使用了基于隐马尔可夫模型的命名实体识别算法。 最后本文介绍了系统的实验结果及其评价。实验结果表明,尽管本文提出的只是一个初步的系统,但是也说明了英文问答系统处理的方法也同样适用于中文问答系统。

郭浩[4]2008年在《基于语义的网上图书自动问答系统研究》文中研究表明随着Intenret的快速发展,特别是WWW的飞速发展,网上信息资源越来越丰富,网络已经成为了一个全球最大的分布式的信息库,为信息共享、资源共享提供了一个良好的平台,是人们获得信息的必要途径和重要手段。但是由于网上信息浩繁,具有分布分散、重复性大、动态变化、结构复杂、缺乏统一管理等特点,使得用户根本无法完全了解庞大的、瞬息万变的信息资源。随着大量的信息涌入网络,用户信息的查找与获取也就变得越来越困难,出现了“信息迷失”、“信息过载”等问题。搜索引擎是目前人们进行网络信息检索的主要工具,它在给人们带来很大便利的同时,也日益暴露出许多弊端:关键字匹配的方式检索准确率不高,返回的相关文档过多且重复性高。在这种情况下,传统的基于关键字匹配的搜索引擎已经不能满足用户需求,人们期盼着新的,具有智能处理能力的、结果表示形式更为简洁的新一代搜索引擎的出现。在这种需求的推动之下,本文致力于将自动问答处理技术和Web信息检索技术相结合,以提高现有搜索引擎对信息的智能处理能力,提供更加人性化的人机交互方式,用简洁、准确的答案,自动地回答用户用自然语言提出的问题,帮助人们快速而有效地找到所需的信息。论文在分析了传统问答系统基本架构,以及现有处理方法中存在不足的基础上,展开了面向Web信息的自动问答关键技术研究,提出了以框架语义为语义基础、以本体为知识描述的自动问答技术,并给出了其应用在图书信息领域中的原型系统-网上图书问答系统的系统架构及关键技术的实现方案。论文的主要工作可以概括为以下几点:(1)研究针对Web环境海量、异构的图书信息的批量采集、过滤及标准化描述技术,开发网上图书信息自动采集系统,将分散在多个网站、多个页面的海量的、异构的图书信息自动采集、过滤及标准化描述,提供统一的操作界面、人性化的菜单和功能键,实现不同文件格式的数据共享,达到图书信息获取、存储、搜索、浏览、阅读、输出等实用要求。(2)研究图书信息领域问句浅层语义分析技术,包括语义块的定义及词表建立,语义块的判定规则(搭配)的建立,问句向量的定义、分析及生成等;(3)在传统信息抽取系统研究的基础上,研究基于CFN的信息抽取技术,并将其应用在图书简介中,挖掘图书简介中的语义信息。传统的信息抽取技术处理的均为格式化或半格式化文本,如html、xml或关系数据库等。处理自然语言文本的信息抽取技术研究尚在起步阶段。而我们拥有汉语框架语义知识库这部深厚的语义词典资源,使得我们基于语义的信息抽取技术的实现成为可能。(4)探索领域本体构建技术,结合面向Web的图书元数据描述标准及图书简介概念模型,以七步法为本体构建方法,建立图书信息领域本体。(5)提出了网上图书自动问答系统系统架构。以问答式服务方式,为用户提供全面、可靠、高效率、智能化的信息服务。对于用户输入的自然语言问题,使用已经标注的图书信息语料库,给出符合用户要求的图书相关信息。避免了传统的死板、教条的关键字检索方式,而代以人机对话问答式服务模式,为用户提供灵活的,专业的,个性化的服务。

金砚硕[5]2008年在《中文问答系统中答案提取的研究》文中研究说明随着互联网的普及,互联网上的信息越来越多,为人们提供了丰富的信息资源。而另一方面,虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确的获取信息的需要。自动问答系统技术正是为了满足人们的这种愿望而发展起来的。问答系统允许用户输入一个问句,而返回给用户的是一个简短而准确的答案。这样用户就可以通过问答系统方便、快速、准确地获得自己想要的信息。自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。目前,国内外有很多的科研机构参与了英文自动问答技术的研究,但基本没有成型的中文自动问答系统。本文正是对中文自动问答技术研究的一个探索。本文搭建的中文自动问答系统包括叁个主要组成部分:问题理解、信息检索和答案提取。详细介绍问答系统的问题理解、信息检索和答案提取,以及分别对每个部分的详细介绍。并应用隐马尔可夫模型构造了问答系统中的分词程序。研究了问答系统中第叁部分答案信息提取的几种方法如基于隐马尔可夫模型,基于最大熵,基于最大熵隐马尔可夫模型等及其各种方法的比较,通过实验说明了,这几种方法在答案提取中的适用性的比较,及对于精确度和召回率的比较。并在最后提出了聚类的HMM抽取方法的聚类算法,应用这种方法与原问答系统中的答案提取的隐马尔可夫模型实验表明做比较。通过实验证明了,这种方法在人名等一些方面比用隐马尔可夫模型的准确率和召回率更高。

魏楚元[6]2016年在《开放域问答系统问题理解关键技术研究》文中研究指明随着互联网的快速发展,基于关键词的传统搜索引擎由于准确率低、存在冗余信息以及需要用户对搜索结果进行甄别等缺陷,已不能很好地满足互联网信息检索需求。而问答系统允许用户使用自然语言问句进行信息查询,能够对用户输入的问句进行理解,分析用户检索意图,给出高质量的答案。问答系统不仅符合人们的检索习惯,而且提高了信息查询的效率。因此,开放域问答系统,包括近年来兴起的社区问答系统受到广泛关注,已成为自然语言处理和信息检索领域的重要研究课题。问题理解是问答系统的核心技术。从语义层面正确理解用户所提出的问题是问答系统反馈准确答案的前提条件。本文以开放域问答系统问题理解为总体目标,着重围绕问题语义表征、问题语义信息获取、问题语义相似度计算和社区问答系统相似问题检索等关键技术进行研究。主要研究内容如下:(1)提出了一种融合事件信息的中文问答系统问题语义表征模型。问题语义信息的表示是问答系统语义理解的核心任务之一。以往的问答系统的主要研究对象是事实类、列举类等简单问句,面向开放域问答复杂类问句的语义理解研究还不深入,甚至忽略了复杂类问题中蕴含的事件语义信息。因此,本文对开放域问答系统中的复杂类问题语义成分进行了分析,确定了由疑问焦点、问题主题和问题事件构成复杂类问题的关键语义信息,设计了问题事件语义结构来表示问题事件的语义信息。在此基础上,提出了基于组块分析的问题语义表征模型。该模型设计了问题语义组块结构,包括疑问焦点语义块、问题主题语义块和问题事件语义块叁个要素。问题语义表征模型将自然语言问句映射为一个问题理解的语义信息结构,降低了问题理解语义分析的复杂性。在自定义的问句数据集上进行了问题语义组块的自动标注实验,标注平均准确率达到74.97%,验证了问题语义表征模型的有效性。(2)提出了一种基于主动学习的问题语义组块识别方法。由于开放域问答中人工标注语义信息的问句语料规模有限,基于监督学习序列标注方法的问题语义组块识别准确率不够高。因为主动学习的优势是在已标注语料较少的情况下可以提升标注效果,所以提出了基于主动学习的问题语义组块识别方法。设计了一种基于语义信息密度方法的不确定样本查询策略,实现了序列向量之间的语义相似度计算。该方法比信息密度方法更精准;同时扩大了不确定样本选择的广泛性。该方法显着提升了组块识别的效果,同有监督学习方法相比,组块识别准确率提高了5.2%;并有效地减少了14.6%的标注样本的工作量。(3)提出了一种基于问题语义表征模型的问题语义相似度计算方法。传统的问句相似度计算方法基于句法分析或语义分析等树结构进行匹配,计算开销较大;同时句法分析或语义分析的结果准确率不高,影响问题相似度的度量。因此,在问题语义表征模型获取了疑问焦点块、问题主题块和问题事件块这叁种语义信息的基础上,提出了基于问题语义组块结构的问题语义相似度计算方法,将问题间的相似度计算转化为问题对应语义组块之间的相似度计算。并基于主成分分析法测算出疑问焦点块、问题主题块、问题事件块叁要素构成的问题语义相似度的权重系数。实验结果表明,问题事件语义在整个问题语义相似度中平均占比达到12.9%,进一步验证了融合事件信息的问题语义表征模型丰富了问题语义信息的表示;其相似度计算的准确率比基于TF-IDF方法提高了6.23%,比基于语义的方法提高3.71%,具有较明显的优势。(4)提出了一种基于耦合矩阵分解的问题相似度计算方法。针对词袋方法存在特征稀疏问题且不考虑语义信息等不足,提出了耦合问题相似度模型。该模型以社区问答系统中相似问题检索为研究任务,选择问题焦点、问题事件、问题类型、问题主题聚类信息和问题类别标签信息作为问题主要特征,分析了五个问题特征及其属性之间存在的关系,将其定义为问题特征之间的耦合关系。在此基础上,提出了一种基于耦合矩阵分解的相似度计算方法。该方法能够融入类别标签信息和问题主题聚类信息,在本文的问句数据集上,与TF、TF-IDF、其它语义相似度计算方法进行了比较,在准确率等6个评价指标上具有较好的改进,证明该方法可以有效应用于社区问答系统相似问题检索。

刘增健[7]2013年在《基于网络搜索的问答系统》文中研究说明随着Internet的不断发展,网络已经成为人们获取信息的重要来源。如何快速方便的从网络中获取信息,已经成为人们努力研究的焦点。虽然搜索引擎和自动问答系统的出现很好的解决了这一问题,但是它们各自仍然存在着一些不足。搜索引擎以关键词的方式检索信息,很难清晰表达用户的意图,而且返回的结果是相关网页的集合,仍然需要用户自己手动查找答案。传统的自动问答系统虽然能够弥补搜索引擎的这些不足,接受用户输入问题,并返回准确答案,但是它需要独立维护一个非常庞大的知识库,因而信息覆盖范围小和更新速度慢成为了自动问答系统最主要的缺点。为了弥补这个不足,本文提出了一种基于网络搜索的问答系统,将互联网作为系统的知识库,利用搜索引擎检索网络中的信息,最后根据用户输入的问题,从中提取出正确答案,并返回给用户。本文根据传统问答系统的叁个模块结构,详细设计了系统的整体框架,并针对各个模块进行任务划分。在问题分析模块主要进行了问题分类和关键词提取的工作。信息检索模块主要利用搜索引擎检索网络中的相关文档,并将其爬取下来。答案提取模块根据问题类型和信息来源分别制定了不同的答案提取和评分策略。本文利用命名实体识别技术对事实类问题进行答案抽取,利用答案相似度计算方法对非事实类问题进行答案抽取,并以概率计算的方式为每一个候选答案评分。即分别计算网页的先验概率和答案在网页中的条件概率,最终将评分最高的候选答案返回给用户。本文对问题分析和答案提取模块进行了一些改进。首先针对几种特殊类型的问题对原有的问题分类模型进行了改进。然后利用句法依存关系从问题中提取限定词,为每个关键词设定不同的权重。最后利用关键词的权重分别对答案评分方法和答案相似度计算方法进行了改进。本文在构建和实现基于搜索引擎的问答系统基础上,利用人工构建的问题测试集对系统的性能进行了测试,还对问题分类和答案提取的改进方案进行了评价分析。最后的实验数据表明了本文提出的改进方案的有效性。而系统的实际运行效果也证明了该系统在实际应用中的可行性。

胡国平[8]2007年在《基于超大规模问答对库和语音界面的非受限领域自动问答系统研究》文中进行了进一步梳理互联网实现了知识和信息在世界范围的平等共享和快速传播,而以Google、百度为代表的第二代搜索引擎实现了互联网上数十亿网页的基于关键词的快速检索,满足了最基本的信息检索需求。近年来,人们展开了关于下一代搜索引擎的积极探索,其中自动问答系统因能简洁直接地回答用户以自然语言方式提出的问题而得到了广泛的关注和深入的研究。在这种背景下,本论文以研制非受限领域的问答系统为目标,基于对近几年来互联网上以空前速度积累中的超大规模问答对资源必将给传统的问答系统研究带来深远影响的预期,深入地开展基于问答对库的自动问答系统技术研究工作。本论文在借鉴前人成果选用基于关键词的文档信息检索技术为初始基线系统的基础上,首次深入研究了在超大规模的问答对库条件下基线问答系统各环节的最佳配置,得出了一系列有价值的结论,并进一步对问答系统最核心的问答对排序函数进行了针对性的设计和有监督的优化,大幅度提高了问答系统的性能。此外,本论文还提出并开展了基于问答对库的问答系统的语音界面扩展研究,首次实现了可实施的、非受限领域的、可完全通过语音交互的自动问答系统。本论文具体的研究内容和相关成果如下:首先,本文分析了互联网上超大规模的问答对库资源积累给问答系统研究带来的机遇和挑战。互联网上积累的数以百万计的FAQ页面以及百度知道等知识共享型网站的兴起所形成的每日数万的问答对积累速度,都为问答系统研究提供了前所未有的数据资源,也对传统的问答系统技术路线提出了新的挑战。本文以真实的数据统计表明:76.5%的工作生活中的常见问题可以在380万从互联网上抽取的问答对中找到至少一个正确答案,倍增问答对库规模预期还可以继续获得8~10%的相对性能提升,足以证明互联网上问答对库的价值以及基于问答对库的自动问答系统的优势和前景。其次,面向基于问答对库的自动问答技术需要,本文开展了互联网上问答对的自动抽取技术研究和实际问答对库的构建工作。针对FAQ页面,本文提出了基于决策树和马尔科夫链模型的问答对自动抽取技术,抽取精度接近99%,完全达到了实用水平。同时基于百度知道网站,本文完成了390万高质量问答对库的建设,为后续问答系统相关实验的开展奠定了坚实的基础。第叁,本文验证了超大规模问答对库条件下基于问答对库的自动问答系统的最佳基线系统配置。本文首先完成了1000个用户问题在380万问答对库上的问答系统性能评测数据库,并在此基础上完成了借鉴于传统基于关键词的文档检索技术的基线问答系统中各个重要环节的验证试验,得到了一系列新颖而有价值的结论:1)传统文档检索的叁个主要排序函数(TFIDF,BM25以及基于语言模型的检索函数)中最简单的TFIDF是最适合于问答系统中的问答对排序;2)问答对中的叁个不同的信息域(问题Q、问题描述D和答案A)中Q域对问答系统具有绝对重要的贡献,A域次之;3)在中文分词处理方面,D和A域是进行有词典分词的性能更佳,但Q域上是将文本全部切分成单字后构建的问答系统性能最佳。实验表明,最终完成基线问答系统能在仅返回一个答案的条件下能正确回答43.88%的用户问题。第四,在上述基线系统基础上,本文深入地分析了基于用户输入的自然语言问句检索排序问答对的任务与传统的基于关键词检索排序文档任务之间的差别。在TFIDF基础上,本文设计了专门针对问答系统的统一排序函数,并引入四个参数分别控制共现词的词频和IDF、未共现词的IDF以及文档长度等因素对问答对排序的影响,实验表明,这一函数有效地提高了问答系统的性能。同时考虑到更多的属性可以用于问答对排序函数的设计,本文进一步引入了线性加权函数的排序函数形式来有效运用更多属性。本文从每个用户问题和问答对的组合中提取了包括词语语义距离、词语编辑距离、词性、以及二元词语共现情况等多维特征,并引入了基于改进爬山算法的有监督学习策略来实现了排序函数中各维属性权值的自动训练,最终使得问答系统的性能进一步得到了显着提升,在仅返回一个答案条件下,系统能正确回答的用户问题比例达到了52.37%,相对基线系统提升幅度达到19.35%。本文同时还对问答系统的置信度进行了分析,实验表明拒绝返回一部分认为不可信的答案可以提高(但不显着)答复正确率,同时改变有监督学习的训练目标定义,可以有效提高问答系统的置信度估计水平。最后,本文还首次尝试将语音界面引入基于问答对库的非受限领域自动问答系统,实现了问答系统的研究及应用的扩展。本文首先对完全基于语音交互界面的问答系统的价值和挑战进行了分析,指出了基于问答对库技术路线的优势以及语音识别和问答系统间的内在冲突。为了研制语音界面的问答系统SpeechQoogle,本文引入大词汇连续语音识别技术和连续语音合成技术分别完成了对语音输入用户问句的识别和对系统生成文本答案的语音合成。进一步,本文通过定制语音识别中的语言模型和声学模型,使得识别性能基本达到问答系统的应用需求,同时通过实验分析了语音识别结果中的置信度、多候选以及拼音层面的识别结果对问答系统的作用,小幅度提高了语音界面的问答系统的性能。最终36.7%的常见问题可以完全通过语音方式与我们研制的SpeechQoogle问答系统交互获得正确答案,证明了基于问答对技术路线的语音界面的自动问答系统的可行性和前景。

卜文娟[9]2010年在《基于概念图的中文问答系统的研究与实现》文中研究说明问答系统能够以自然语言的方式进行提问,并能以自然语言的形式进行回答,是一种新型的智能搜索引擎。与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需要的答案。问答系统的研究受到国内外很多科研机构的重视,并且已开发出相对成熟的英文问答系统,而中文问答系统的研究还有所欠缺。本文在此基础上,利用概念图的理论对中文问答系统的相关技术进行研究,并实现了一个基于概念图的中文问答系统。本系统主要包括问题理解、信息检索、答案抽取叁个模块,具体的研究内容如下:(1)在问题理解模块中,对传统的问题分类的方法进行改进,采用疑问词短语及问句标准型相结合的方式对问题进行分类,并利用问题中的特征词对问题进行领域分类;利用本体资源对概念图的生成作了研究,并采用概念图的形式对问句进行语义层次的分析;利用本体知识库,对关键词从同义关系及相关关系两方面进行扩展。(2)在信息检索模块,首先进行FAQ库的检索,如果在FAQ库中找不到答案,转向网络检索,并利用答案抽取模块进行答案抽取;采用叁种知识来源对FAQ库进行构建及更新,并在FAQ库中引入反向索引机制,对FAQ库中的问题进行领域分类;改进了概念图的语义相似度的算法,并利用此算法对用户问句及FAQ库中的问句进行相似度的计算,利用句子相似度的计算实现基于FAQ库的检索。(3)在答案抽取模块,利用命名实体识别技术与句子相似度计算相结合的方法进行答案抽取。最后针对以上提出的方法,对本系统进行测试与分析,实验结果验证本文所采用方法的可行性。

董晓春[10]2008年在《基于本体的Internet中文问答系统若干关键技术的研究与实现》文中研究指明随着Internet上信息量的飞速膨胀,使得人们在网上查找自己需要的信息变得越来越困难。虽然一些搜索引擎(如Google、百度)为人们从海量的网页中迅速查找有效信息提供了工具,但是现有的搜索引擎使用的信息检索技术大部分都是基于关键词匹配,这样使得搜索结果存在大量冗余和无用的信息,影响了返回结果的准确率。本文讨论的问答系统试图改变这个情况,它不仅能有效利用Internet这个庞大的信息资源库,而且利用本体(ontology)知识,使得返回结果更加丰富和精确。从目前国内外研究情况看来,问答系统质量很难令人满意,原因在于两方面:其一,问答系统问题分类不精确导致最终答案与问题主题偏离;其二,现有的候选答案抽取技术大多基于统计的方法,忽略了句子的语义,影响了答案的准确率。针对这些不足,本文从问题分类和候选答案抽取两个方面进行研究,首先提出了一种基于领域本体的中文问题分类方法,从而更加准确地定位了问题分类,使得答案抽取有据可循;其次,本文提出的基于本体的多策略答案抽取算法,将本体语义信息引入到答案抽取算法中,从而提高了生成答案的质量。本文的主要研究成果可以归纳为:1)提出了一种基于领域本体的中文问题分类方法,利用领域本体的层次分类信息同时结合同义词林对中文问题进行分类。适应了汉语表达方式的多样性和复杂性。2)提出了一种基于本体的多策略答案抽取算法,利用同义词林丰富候选答案的语义,改进了本体概念相似度的计算方法,并将其与模式匹配结合在一起。一定程度上提高了答案抽取的获取率和准确率。3)实现了一套原型系统,进行了对比实验,初步验证了本文算法的有效性。

参考文献:

[1]. 面向地域信息的问答系统研究与实现[D]. 龙壹飞. 西南交通大学. 2013

[2]. 面向开放域的中文问答系统问句处理相关技术研究[D]. 张亮. 南京理工大学. 2005

[3]. 基于互联网的中文问答系统研究[D]. 赵辄谦. 山西大学. 2003

[4]. 基于语义的网上图书自动问答系统研究[D]. 郭浩. 太原理工大学. 2008

[5]. 中文问答系统中答案提取的研究[D]. 金砚硕. 辽宁科技大学. 2008

[6]. 开放域问答系统问题理解关键技术研究[D]. 魏楚元. 北京理工大学. 2016

[7]. 基于网络搜索的问答系统[D]. 刘增健. 哈尔滨工业大学. 2013

[8]. 基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D]. 胡国平. 中国科学技术大学. 2007

[9]. 基于概念图的中文问答系统的研究与实现[D]. 卜文娟. 西北大学. 2010

[10]. 基于本体的Internet中文问答系统若干关键技术的研究与实现[D]. 董晓春. 华东师范大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于互联网的中文问答系统研究
下载Doc文档

猜你喜欢