WEB上基于文本挖掘的个性化检索系统的设计与实现

WEB上基于文本挖掘的个性化检索系统的设计与实现

杨瑞峰[1]2003年在《WEB上基于文本挖掘的个性化检索系统的设计与实现》文中进行了进一步梳理随着计算机的广泛使用和网络技术的发展,电子化信息越来越多,越来越多的信息积累在给我们带来方便的同时,也使我们面临着信息海量和知识贫乏的矛盾。如何才能从来自异构数据源的大量文本资源中提取出精练简洁的知识,满足某种特定的信息需要?数据挖掘技术(data mining)或基于数据库的知识发现技术(knowledge discovery in database , KDD)为解决这一问题提供了一种途径。本文描述了一个完整的综合医疗信息检索系统的实现,尝试基于文本数据的挖掘技术,为用户提供个性化检索服务。个性化检索是基于知识发现的一种服务,作为一项综合技术,它涉及到数据挖掘、知识检索、计算机语言学、信息学等多个领域。区别于一般信息检索,“个性化”检索在方法论、检索目的以及评价方法上有明显不同。检索的个性化是基于数据挖掘过程中发现的隐含的、未知的、有用的知识来实现的。通过挖掘注册用户的访问日志,发现用户查询的关键词组合模式,即关联规则,来预测用户未来访问的关键词组合,并对用户作出提示,指引用户进行所需的选择。河南省人民医院作为全省最大的综合性医疗服务部门,多年来积累了丰富的临床经验和科研成果以及病案资料。为了使信息使用者更方便地查询信息,院方建立了综合医疗信息数据库,并试图利用WWW信息发布方式,为用户提供良好的检索服务。综合医疗信息库检索系统平台设计与实现,为该院2002年科研项目之一。本文是在参与河南省人民医院综合医疗信息网建设项目的基础上撰写完成的。文章的组织结构如下。全文共分六章。第一章阐述支撑个性化检索平台实现的基本技术。具体介绍了个性化检索、数据挖掘、关联规则以及Web数据库等系统开发所用到的基本技术。第二章从项目需求出发,介绍系统的总体规划和各子系统的选型情况。其中作为论文核心讨论的问题,在这里讨论个性化检索子系统所采用的经典频集算法。第叁、第四、第五章依次介绍叁个子系统:数据库后台录入管理子系统,一般检索子系统和注册用户个性化检索子系统的实现过程。第六章指出关联规则发现以及个性化应用的未来展望。

任豪栋[2]2011年在《基于Web日志挖掘的原型系统研究与实现》文中认为在Internet信息大爆炸的年代,用户大量地借助搜索引擎获取所需信息。然而现有的信息检索系统基本对不同用户键入同一查询词返回同样的结果集,忽视了用户自身的知识领域背景和兴趣趋向,使用户陷入了信息资源迷航状态。为此,信息检索领域拓展开了一个新兴的研究方向----个性化检索研究。提供个性化检索的前提条件是要能准确地识别用户并合理的建立其知识兴趣背景。Web日志中含有大量的用户记录信息,通过对相关信息的挖掘可以识别出单一用户,通过分析用户的浏览行为信息可以抽取用户特性信息,从而构建出用户知识兴趣背景。结合用户知识兴趣背景,对不同用户键入同一查询词进行用户识别,分析其领域知识、兴趣偏好、喜好趋势等信息,从而返回相对不同用户意图需求的结果集,实现个性化检索,提高查全率、查准率以及用户的满意度。本文重点研究通过Web日志挖掘技术建立用户知识兴趣背景,实现个性化检索原型系统。主要研究内容如下:探讨了针对Web日志数据预处理阶段的数据清理技术,同时对数据预处理主要几个步骤进行了详细分析、阐述。针对基于词频的TF/IDF算法忽略了用户知识兴趣与文档相关性问题,结合对Web日志中用户浏览行为和查询日志中用户隐式反馈信息的分析,提出了页面相关性权重计算方法;针对TF计算中忽视了词条与文档结构的问题,提出了词条的重要度影响因子Eiv;最后将页面相关性权重、词条重要度影响因子与基于词频的TF/IDF算法相结合,提出了一种偏加权TF/IDF算法用于用户特征信息抽取,并在此基础上运用向量空间模型构建用户知识兴趣背景,把Rocchio反馈算法进行了相应衍化以应用于对用户知识兴趣背景的实时分析和更新,最后实现了个性化检索原型系统----易搜。最后,对当前论文的工作进行总结,展望了个性化检索的进一步发展。

刘佳音[3]2009年在《基于本体的个性化信息系统的应用研究》文中研究说明随着互联网技术的快速发展,网络信息资源呈现出一种爆炸式的增长态势,与此同时增加的还有人们的信息需求量,但是要从这个庞大的信息海洋中快速并准确地定位到自己所需要的信息,却比较困难,进而导致了所谓的“信息过载”和“信息迷向”问题。其中,最主要的原因是通用搜索引擎没有将用户的个性化需求纳入到检索过程中,提供千篇一律的检索结果。因此,如何了解用户意图,掌握用户的个性化信息,并提供个性化服务成为信息检索领域中许多学者的研究热点。本文构建了个性化信息检索系统(Personalized Information Retrieval System,简称PIRS),将传统的信息检索系统与用户模型有机地结合起来,建立面向用户兴趣的个性化信息检索系统。PIRS系统主要实现了用户兴趣的识别,用户模型的构建与学习,查询扩展,以及根据查询结果和用户兴趣的匹配程度提供个性化服务等。其中,本文研究的主要内容有:(1)论述了信息检索技术的研究现状,分析其中存在的问题,进而提出PIRS系统的研究意义。在此基础上,分析了个性化信息检索的业务流程,给出PIRS系统的框架结构和总体设计。(2)从用户个性化模型构建的各个阶段出发,分别进行了相关的研究,包括:①领域本体的构建。利用文本挖掘技术获取相关词语,以此协助领域专家完成领域本体的半自动构建。②初始化用户模型的构建。根据用户所提交的基本信息,通过本体投影的方式获取用户初始个性化模型,并给出本体投影的算法。③个性化用户模型的学习更新。分析用户的检索或浏览的行为,以此构建参考本体,再将其归并到用户模型中,从而实现用户个性化模型的学习和更新。(3)将用户模型应用到个性化信息检索环境中,主要包括以下两个方面:①查询扩展。针对用户输入的叁种查询模式,即T1 ,2,....,n模式, O1 ,2,....,n模式, T1 ,2,...., n + O1,2,....,n模式,我们分别设计了相应的扩展算法,使得查询词可以更好地反映用户的需求;②查询结果集合的过滤和优化。根据余弦定理计算文档与查询词的相关度,再将大于指定阈值的文档以降序的方式呈现给用户。(4)利用Sogou实验室提供的搜索日志,设计实验验证个性化信息检索系统的可行性和有效性。实验结果证明,基于本体的个性化信息检索系统在相对查全率和相对查准率方面,比基于关键词的信息检索有一定的改进。

王小平[4]2008年在《基于Web数据挖掘的网络教学资源库个性化信息检索研究》文中研究表明随着互联网与教育事业的日益融合,网络化教育已成为当今教育发展的新生长点和现代教育技术主流的发展方向。当前的网络教学中普遍存在教学模式单一,教学资源简单堆积,智能化程度低等问题,而接受教育的对象的学习能力、个人兴趣和习惯、个人学习基础、努力程度,都存在巨大的差异。由此带来的是网络教学平台不能适应学习者个性化需求的矛盾。本文以国家网络教育技术规范(CELTS)和Web数据挖掘技术为基础,研究网络教学中资源库的个性化服务问题,主要工作包括:1.分析了网络教育资源库的发展现状和目前个性化服务研究情况,在此基础上提出本文的研究意义与内容组织。2.研究了网络教学资源库。分析了网络教学资源库的系统构成及基本功能,阐述了目前网络教学资源库建设的现状和网络教学资源库的发展趋势。3.分析了Web数据挖掘技术。在阐述了Web内容挖掘、Web结构挖掘、Web使用挖掘后,提出了各自实现个性化推荐的方法。4.分析了个性化搜索引擎模型构建。论述了ISMTR模型的构建原则和方法,包括用户兴趣的提取与调整、用户模型的建立和教学资源的过滤,最后建立了个性化教学资源库系统的系统结构。5.研究了Web资源库个性化检索关键技术。主要从搜索引擎对搜索结果的优化、如何确定用户、挖掘用户兴趣、用户兴趣模型的表达、用户兴趣模型的更新算法和个性化信息过滤几个环节进行了探讨。6.通过Web个性化应用实验系统,论述了技术的可行性。7.展望了未来的研究工作和方向。

陈彪[5]2010年在《中文搜索引擎的个性化服务研究》文中研究指明1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展机遇和技术挑战。搜索引擎是一个网络应用软件,从Web用户角度看,它能根据用户提交的查询词、短语或者一句话,返回一个可能与用户查询相关的网页列表,供用户进一步地判断和查询。当前,搜索引擎面临以下技术难点:多源异构数据类型、搜索内容的全面性、搜索的准确性、个性化检索等。个性化搜索是未来搜索技术发展的一个重要方向,是机器服务人类,人机和谐交互的一个重要发展。本文系统的研究了中文搜索引擎的工作原理、实现技术以及个性化模型。深入地分析了中文搜索引擎的核心技术:中文分词、机器爬虫、索引的建立与倒排序文件的生成、查询优化以及查询结果的排序等。通过对中文分词系统的改进,加入混合词典机制,提高了中文分词的准确性。分析Web信息挖掘技术与信息检索技术的关系,通过对用户使用中文搜索引擎的查询习惯、访问频率,浏览网页等信息资源进行挖掘,提取用户的使用特征以及兴趣爱好,建立用户的个性化兴趣模型。根据用户个性化兴趣模型,给出了一个个性化中文搜索引擎模型。旨在结合Web信息挖掘提高中文搜索引擎的查准率,为用户提供个性化的信息检索服务。本文所做的具体工作如下:(1)深入研究中文搜索引擎的核心技术实现细节:网页信息搜集、对搜集到的原始信息预处理、建立索引以及倒排文件、提供查询服务。(2)改进中文分词系统,提出一种实用的提高分词准确率的方法。(3)分析Web信息挖掘技术与信息检索技术的关系,研究用户个性化模型的建立与更新,提出基于对用户使用搜索引擎的行为和习惯等信息进行挖掘建立和更新用户个性模型的方法。(4)结合本文所做的研究,给出了一个个性化中文搜索引擎模型。

关庆珍[6]2008年在《基于本体的个性化信息搜索的用户模型研究》文中研究表明随着Internet技术的发展,人类已经步入信息时代。目前网上资源以指数速度增长,其信息量无论是数量上还是种类上都是人们所难以想象的。同时人们的信息需求也在不断地增加,但要从这个信息海洋中准确方便迅速地找到并获得自己所需的信息,却比较困难,因而出现了所谓的“信息过载”和“信息迷向”问题。通用的搜索引擎并不能考虑到各个用户的个性化因素。因此,如何了解用户意图,掌握用户的个性化信息,提供个性化服务成了信息检索领域中许多学者的研究热点。在个性化信息服务中,用户模型是个性化服务研究的关键技术。个性化信息服务首先需要建立用户模型,才能提供针对不同用户的个性化服务。传统的用户模型主要是根据用户的信息需求,把用户需求信息大体分为感兴趣和不感兴趣的,最终得到的大都是关键词来表征用户兴趣,没有考虑词与词之间内在的联系,不能从语义上对信息进行理解,没有信息源本身的知识体系为构造用户的兴趣模型服务。我们认为,个性化信息服务的用户模型研究在准确描述用户兴趣模型的同时,也能有语义联想能力,能根据显式的信息语义挖掘出用户的潜在兴趣。本体(Ontology)作为一种能在语义和知识层次上描述系统的概念建模工具,自被提出以来就引起了国内外研究人员的关注。研究结果表明,Ontology作为领域概念化模型,能够明确地描述领域涉及的概念、概念的含义、概念之间的关系,为简单的术语赋予明确的背景知识,利于知识的共享和重用,并具有语义扩展和推理功能。将本体引入到用户模型领域,增强关键词向量中关键词之间的相关性,基于Ontology建立用户的个性化模型,已成为个性化信息系统用户建模的一个新的方向。已有的基于本体的用户模型改善了传统用户模型的语义信息不足的缺陷,但也存在一些问题:(1)领域本体的构建。如何构建领域本体,这是基于本体的用户模型的基础,传统完全依赖用户或领域专家人工构建本体的方法容易出现偏差及主观主义和经验主义的缺陷;(2)用户模型的更新。现有的模型大都采用分析用户的浏览或检索过程,抽取认为用户感兴趣的关键词对其分析,对初始用户模型进行增补,而没有考虑这些新增信息之间的语义关系。本文提出研究改进的基于领域本体的用户模型OBUM,在引入本体到用户模型中,同时考虑用文本挖掘技术建立领域本体,并通过本体学习来完成用户模型的学习和更新。本文的研究工作主要包括了这样几个方面:第一,分析研究了传统用户模型和现有本体模型的特点,提出了一种新的基于本体的用户模型OBUM,设计并分析了其框架结构,对其进行了形式化研究。第二,分别对OBUM模型的各个构成及构建阶段进行了研究。包括:①研究了如何有效地构建领域本体,提出采用文本挖掘技术,再借助于领域专家,实现领域本体DomO的半自动构建。使用文本挖掘工具和本体构建工具实现了领域本体DomO的构建。②对于OBUM模型中的个性化本体的获取进行了研究,提出通过对领域本体进行本体投影来获取用户的初始个性化本体,并给出了其算法描述。③针对OBUM用户模型的学习更新,提出使用本体学习技术来实现。通过对用户的检索或浏览过程进行分析,构建参考本体,并将参考本体归并到用户的个性化本体中,实现用户个性化本体的学习,旨在避免用户学习更新过程中新增信息语义的丢失。第叁,在上述工作基础上,将OBUM模型应用到个性化信息搜索环境中,旨在通过实验验证OBUM模型的可行及有效性。实验结果表明OBUM模型在提高用户的个性化信息,改善用户模型的语义信息方面是一种有效、可行的方法。在提高用户的个性化信息搜索的查全率和查准率方面较基于统计的信息检索模型和一般的基于本体的信息检索模型有了一定的改进。

陈小华[7]2006年在《数据挖掘技术在个性化信息检索系统中的应用研究》文中研究说明随着网络应用的普及,网上信息量以惊人的速度增长,并且更新频繁。人们面对的问题不再是缺乏有用信息,而是如何找到自己所需要的信息。虽然传统信息检索技术在一定程度上满足了人们的需要,但却存在着低查准率和低查全率的问题。多数商业搜索引擎提供的信息检索服务,由于侧重通用性而不能满足不同背景、不同目的用户的查询请求。针对这种现状,作者研究了基于数据挖掘的个性化信息检索系统。论文首先对搜索引擎系统的研究现状和发展趋势进行论述,探讨了将数据挖掘技术应用于个性化信息检索系统的可行性,在此基础上提出了一个基于数据挖掘的个性化信息检索系统的总体框架模型。接着对该系统的主要功能进行较深入的描述,对该系统的的关键技术进行较深入的研究。最后给出了一种基于Apriori的类别关联规则的挖掘算法。仿真结果表明基于Apriori的类别关联规则的挖掘算法能够挖掘出用户的个性化信息,同时表明用户个性化信息的质量好坏与支持度值的大小密切相关。

周悦[8]2007年在《基于Agent的校图书馆个性化服务系统的应用研究》文中研究说明本文是针对校图书馆个性化服务系统的开发实践拟就的。为了提高学校图书馆信息管理系统的个性化服务质量与水平,我校开展了基于智能Agent的图书馆个性化服务系统课题的研究。本文着重论述了开展这一课题研究过程中的相关技术与方法。本文在分析图书馆信息管理系统的个性化服务的研究现状的基础上,通过对智能Agent、搜索引擎以及web信息采集与挖掘等相关技术的研究,指出将智能Agent技术应用于图书馆个性化服务系统的开发是一条可行的途径,结合对个性化检索、用户兴趣特征学习和检索信息过滤等技术的研究,本文提出了一个基于Agent的图书馆个性化服务系统模型,并详细论述了模型的各个组成部分及其在系统中的作用。依据多智能Agent系统的设计思想,本文为个性化服务系统设计了搜索、过滤、用户、学习等Agent,并对各自的功能和策略进行了详细论述,通过为系统设计的专用接口,结合校图书馆信息管理系统的已有功能,实现了个性化检索、个性化用户界面定制、个性化服务信息定制、个人通告以及信息推送等个性化服务功能。为了实现个性化服务与智能检索,本文还对用于表示文档相似度、用户相似度、关键词及其隶属度、用户兴趣等信息的领域模型、文档模型、用户模型进行了详细的论述,并给出了相应度量值的计算方法。本文还详细论述了利用Java语言实现系统设计功能的相关技术与方法。研究结果表明,本文所论述的个性化服务实现方法能够有效地降低系统开发和技术实现的复杂性,能够为校图书馆信息管理系统提升个性化服务的质量与水平,该方法也容易被推广应用到其它应用系统中,以便增加个性化服务的功能。

赵栓柱[9]2005年在《基于特定领域的Wed文本信息获取系统的研究与设计》文中研究表明随着Internet应用的普及,Web已成为人们获取信息的一个主要来源,搜索引擎虽说是人们检索Web信息的有力工具,但缺乏深入了解用户需求的方法和策略,加上Web所具有的开放性、动态性和异构性,使得用户(特别是特定领域的用户)很难快速、准确地从WWW上获取所需的信息。如何发现对我们有用或有益的信息,免受无用或有害信息的侵扰,是摆在我们面前一个值得研究的课题。 本文在讨论了Web的发展、特点及现有搜索引擎所存在缺陷的基础上,从特定领域用户获取Web文本信息的实际应用角度出发,通过从内容和语义上指导Web信息的搜索,尝试设计了一个基于特定领域的Web文本信息获取系统模型,从实现技术上提出了这个系统的体系结构、各组成模块的主要特点及其功能。同时,着重研究了该系统的几项关键技术:Robot技术、Web页面内容的分析和站点结构的分析技术、中文文本的分类

蔡霞[10]2002年在《基于自然语言理解的个性化Web 数据挖掘系统的设计及实现方法研究》文中研究表明近年来,随着Internet的迅猛发展,人们越来越习惯于在网上发布信息、查找信息。网络在快捷、方便地带来海量信息的同时,也带来了一堆的问题:由于Web是动态、无结构的,并且页面复杂程度远远超过文本文档,如何从浩如烟海的数据中发现隐藏的有用知识,创造更大的效益是一个迫切需要研究的课题。一般的搜索引擎是基于关键字的查询,命中率较低,且不能针对特定用户给出特定服务。解决这些问题的一个途径,就是将传统的数据挖掘技术和Web结合,进行Web挖掘。而根据用户的特殊要求收集相应的网页并进行分类,采用推式技术,自动地把特定的信息从WWW服务器传输到我们的计算机硬盘上,对于特定的机构、企业、或门户网站收集特定信息具有重要的意义。 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。基于Web的挖掘研究起步较晚,最近几年才开始。国内还没有成型的应用系统。 本文提出了一种新的Web挖掘模型——基于自然语言理解的Web挖掘模型,可根据用户的特殊需求定制个性化的Web数据挖掘系统。根据该模型设计了面向新闻挖掘这一特定领域的Web挖掘系统NewsMiner,并对该系统的实现方法做了研究和实验。该方法可方便地扩展到其他专业应用领域。 与传统的Web挖掘系统相比,该系统在以下几个方面有所突破: 1)利用特制的智能网络机器人对几个着名搜索引擎的搜索结果进行挖掘,与普通爬虫从一个链接到另一个链接的无序搜索相比,大大减少了工作量和数据存储空间。 2)无需把所有的目标HTML Page进行代码转换和映射,只需对一些典型句及包含敏感词在内的句子进行语法语义分析,避开了代码映射的一些复杂问题,简单可行。 3)利用自然语言语法语义分析,可以减少传统的简单匹配方法所产生的漏判和误判,提高系统的可靠性。 4)采用人机交互模式,在各个模块都可以适时地进行干预和修正。

参考文献:

[1]. WEB上基于文本挖掘的个性化检索系统的设计与实现[D]. 杨瑞峰. 电子科技大学. 2003

[2]. 基于Web日志挖掘的原型系统研究与实现[D]. 任豪栋. 西华大学. 2011

[3]. 基于本体的个性化信息系统的应用研究[D]. 刘佳音. 杭州电子科技大学. 2009

[4]. 基于Web数据挖掘的网络教学资源库个性化信息检索研究[D]. 王小平. 西南大学. 2008

[5]. 中文搜索引擎的个性化服务研究[D]. 陈彪. 电子科技大学. 2010

[6]. 基于本体的个性化信息搜索的用户模型研究[D]. 关庆珍. 西南大学. 2008

[7]. 数据挖掘技术在个性化信息检索系统中的应用研究[D]. 陈小华. 西安电子科技大学. 2006

[8]. 基于Agent的校图书馆个性化服务系统的应用研究[D]. 周悦. 大连海事大学. 2007

[9]. 基于特定领域的Wed文本信息获取系统的研究与设计[D]. 赵栓柱. 太原理工大学. 2005

[10]. 基于自然语言理解的个性化Web 数据挖掘系统的设计及实现方法研究[D]. 蔡霞. 浙江工业大学. 2002

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

WEB上基于文本挖掘的个性化检索系统的设计与实现
下载Doc文档

猜你喜欢