Web使用挖掘方法的研究和实现

Web使用挖掘方法的研究和实现

王利[1]2006年在《Web使用挖掘方法及其在个性化学习系统中的应用研究》文中认为数据挖掘就是从海量数据的集合中发现有效的、新颖的、有用的、可理解的模式。Web使用挖掘是数据挖掘技术在Web使用数据上的应用,它的主要任务是研究用户的浏览行为,发现用户对网页的兴趣度和访问模式,从而可以改进网站结构,为用户提供个性化服务。本文的研究内容包括:(1)对Web使用挖掘的特点、方法及相关技术分析,指出了现有Web使用挖掘的数据采集技术的不足;(2)提出一种综合获取用户浏览信息的方法;(3)讨论基于图结构的Web访问序列模式挖掘方法;(4)提出基于内容过滤和协同过滤相结合的个性化推荐算法;(5)将Web使用挖掘技术应用于远程学习系统,通过Web使用模式挖掘对学习者访问学习网站和使用学习资源的信息进行挖掘分析,及时了解学习者的学习需求、学习进度、兴趣爱好,适时推出个性化的学习模式,构建个性化的网络学习系统。本文的主要特色:把基于内容过滤的推荐算法和协同过滤的推荐算法相结合;在传统的学习网站中加入了个性化推荐模块,从而更加适应现代的个性化教育理念。

王欣如[2]2007年在《基于关联规则的Web日志挖掘技术研究》文中研究指明数据挖掘是从大量的数据集中提取隐含的、事先未知的、并且潜在有用的知识的过程。互联网的发展与快速普及,使得人类真正体会到了数据海洋的无边无际。面对如此巨大的数据资源,人们迫切需要一种新技术和自动工具的帮助,将这巨大的数据资源转换为有用的知识与信息资源。这种技术应不仅能获得数据的表层信息,而且要能在对数据充分理解的基础上获得数据属性的内在关系和隐含信息,即能获得重要的知识。Web挖掘技术为把这种海量的数据转化成有用的信息和知识提供了强有力的手段。本文主要研究如何利用Web挖掘分析日志得到用户对网站的访问模式,据此提出一种能帮助站点所有新老用户提高访问效率的推荐技术,完善站点拓扑结构,以提高站点访问效率。为此,本文主要做了以下几个方面的研究工作:1)为了从Web日志文件内容向各种挖掘算法提供准确的数据源,对Web日志挖掘数据进行预处理工作,并对其中的问题进行了讨论。2)为了提高Web日志预处理质量,讨论了提取网站拓扑结构信息的技术。3)结合Apriori算法,对侯选序列生成进行研究,采用了一种基于图结构的侯选序列生成的算法SCG。4)设计并实现了一个Web日志挖掘原型系统,从而验证了SCG算法可行性和适用性。本文应用Web日志挖掘技术从访问日志中提取用户访问模式,将挖掘到的知识转变为站点的智能。用户访问模式的研究有利于提高站点信息服务质量,促进智能信息处理领域的发展,在理论和实践上都有重要的研究意义。

温婷婷[3]2007年在《基于Web内容和日志挖掘的个性化服务研究》文中研究说明随着Internet的普及和信息技术的快速发展,传统的Web信息获取方式由于其通用的性质,不能满足不同兴趣、不同访问目的用户的需求,从海量的网络信息中有效地获得个性化信息已成为人们迫切的需要,因此,个性化服务技术越来越受到广泛的重视。个性化服务是通过收集和分析用户信息来学习用户的兴趣和访问行为,从而实现主动推荐的目的。本文重点对个性化服务技术中的Web挖掘技术进行了研究,结合Web内容挖掘和Web使用挖掘给出了一种整合挖掘的方法,并设计了一个Web挖掘策略来验证这个挖掘方法的性能。挖掘策略采用一种基于Web内容和Web日志的整合挖掘方法对网站用户访问模式进行自动分类,本方法通过抽取网页文字内容的信息项获得网页主题信息,结合Web服务器日志文件建立用户访问模式描述文件,来分类用户访问模式和预测用户未来的访问请求。根据分类任务和预测任务的结果评价整合挖掘方法的有效性。挖掘策略的实施包含以下部分:用户访问会话识别,整合Web内容挖掘和Web使用挖掘,构建访问模式描述文件,分类和预测。采用两个度量值评价整合挖掘方法的性能:分类精确度A(C)和预测精确度A(P)。实验结果表明,对比单独进行一种Web挖掘的方法,整合挖掘的分类精确度和预测精确度有较大提高,这种方法可以更好地促进Web个性化推荐。本文结合大连市公安局“网上作战系统”的实际课题,根据基于Web内容和日志的整合挖掘方法,设计了一个提供个性化服务的刑侦信息推荐系统,介绍了离线和在线部分的模块处理,描述了针对不同用户提供个性化信息推荐的过程。系统的设计目的是通过信息的主动推荐提高相关刑侦信息获取的速度,从而起到一定的辅助快速分析、得出案件侦破信息的作用。

王飞[4]2006年在《面向电子商务的web数据挖掘的研究与设计》文中认为数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘已成为数据库技术和机器学习方面的重要的研究课题。当前,World Wide Web正向应用的深度和广度方面迅速发展。将数据挖掘的思想和方法应用到Web上,解决WWW中遇到的一些问题,从而形成了Web数据挖掘(Web mining)这样一个新的研究方向。Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息在内的各种Web数据,应用传统数据挖掘方法以发现有用的知识,帮助人们从WWW中提取知识,改进站点设计,更好地开展电子商务。电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展广告、推销、购买商品或服务等商务活动。相对于传统商务活动,电子商务具有不受地域限制、节省成本等众多优点本文对Web数据挖掘在电子商务中的应用进行了研究,主要做了以下工作:1.总结了数据挖掘研究现状及最新进展。提出了数据挖掘逻辑模型及存在的一些问题。2.描述了Web数据挖掘技术,Web数据挖掘的过程、数据源及用途。3.讨论了在电子商务中如何有效地利用几种可行的数据挖掘技术,如、关联规则分析、序列模式分析、分类分析和聚类分析等挖掘出用户的购买模式及浏览模式,并就其中的路径分析和序列模式分析提出了实现的方法。4.论述了Web访问信息挖掘的一般过程,将传统数据挖掘过程中的各种关键技术,如数据预处理,聚类算法,关联规则、序列模式发现等引入到对于Web信息的挖掘活动中,并通过一系列的实验进行验证及评价,在以上工作的基础上,设计并实现了一个Web数据挖掘原型系统(EWMiner)。web数据挖掘在电子商务里表现为在大型数据库里面搜索有价值的商业信息。数据仓库、数据挖掘技术和Internet/intranet的完美结合,使其在21世纪的电子商务中有广泛的应用前景。

李森[5]2007年在《WEB使用挖掘算法研究与实现》文中研究说明随着网络技术的高速发展,Internet上的信息呈指数增长,Web成为存储、发布及获取信息最重要的载体。Web挖掘是传统数据挖掘技术在Web环境下的应用,是从Web上的数据中发现用户的浏览模式或寻找相关的Web页面等。其中,Web使用挖掘的研究目的在于发现用户浏览网站的行为规律,改善网站结构和页面的超连接结构,提高网站服务质量以及在电子商务中的客户关系管理方面的决策支持。本文着重对Web使用挖掘算法进行了研究,所做的主要工作和新见解如下:首先,概述了数据挖掘和Web挖掘的理论知识,分析了数据挖掘的研究焦点;其次,在讨论Web访问日志预处理的基础上,设计出由用户会话求最大向前指引路径的算法;同时给出了一种新的会话构造方法——基于时间和引用的启发式方法,该方法不仅利用了用户会话的时间特性,而且考虑了用户的浏览特性,在一定程度上方便了用户频繁访问模式的挖掘;提出一种发现用户频繁访问模式的算法(FAP-Mining),该算法可以用于发现不同类型的网站用户的访问模式,并且可以根据专家设定的支持度阈值发现用户的频繁访问模式。最后,设计开发了WEB使用挖掘实验系统,在会话识别模块实现了基于时间和引用的会话构造方法,并将其与其他流行方法进行了比较;在访问模式模块实现了本文提出的FAP-Mining算法。

李凤慧[6]2004年在《面向电子商务的Web数据挖掘的研究》文中指出数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术,它融合了数据库、人工智能以及统计学等多种学科的知识,试图从数据中提取出先前未知、有效和实用的知识。特别是随着Internet的普及和应用,网上的数据资源以每月20%的速度剧增,使Web成为储存、发布以及获取信息的最重要的载体。如何发现Web上大量数据背后隐藏的信息,提高信息利用率,而不被信息所淹没呢?Web数据挖掘技术提供了一种有效的解决方法。 Web挖掘是传统数据挖掘技术在Web环境下的应用,是从Web上的数据(如Web日志、页面内容等)中发现用户的浏览模式或寻找相关的Web页面等。Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘可以从用户浏览网站的数据中抽取感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构,为用户提供个性化服务。 本文综述了数据挖掘的主要方法、常用技术以及挖掘过程;讨论了Web挖掘的定义、分类、流程、应用领域、研究方向以及当前面临的问题;探讨了电子商务、电子商务推荐系统与个性化服务、电子商务中进行Web挖掘的数据源、获取的知识模式以及Web挖掘在电子商务活动中的应用;在以上工作的基础上,设计了一个面向电子商务的基于Web使用挖掘的个性化推荐系统。该系统能够通过对Web服务器日志数据的挖掘,获取用户浏览模式,为用户提供个性化服务,具有很强的实用性。本文详细探讨了该系统各个模块的功能及实现技术,给出了系统的整个工作过程:从原始数据的收集到数据预处理到离线挖掘再到在线推荐直至发送给用户个性化推荐页面,实现个性化服务。重点研究了基于Web使用挖掘中常用的数据预处理技术、模式发现技术以及模式分析技术。

武洪萍[7]2007年在《文本挖掘在Web日志数据预处理中的应用研究》文中研究指明随着Internet的迅速发展和普及,网络已成为人们进行信息交流和信息处理的有效平台。人们对网络服务的期望值在不断提高,希望得到更全面、更丰富、更适合自己的Web服务。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确、快捷地从WWW上获取有用信息。因此,如何快速准确地获取所需信息、如何获得信息之间潜在的知识以及如何提供个性化服务,己经成为急需解决的问题,也是Web挖掘领域的研究热点。Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘是目前最广泛的研究领域。而在Web使用挖掘过程中,数据预处理起着关键的作用。本文着重研究Web使用挖掘中的数据预处理技术,对数据预处理过程中涉及到的关键问题和技术进行详细的分析和研究。本论文主要做了以下几方面的工作:1.综述了Web使用挖掘的基本框架、流程及挖掘技术,对Web日志预处理的过程、关键技术和方法进行了深入的研究;2.系统讨论了Web文本挖掘的相关理论及文本挖掘分析技术,给出了Web文本挖掘的处理流程;3.在分析传统事务识别方法不足的基础上,结合网页内容对事务识别方法进行适当的改进,将文本聚类算法引入到事务识别的过程中。根据改进后事务识别方法的需要,对文本聚类算法作相应的修改;4.提出了一个Web日志数据预处理模型,并通过实验验证了改进算发法的合理性。

黄金晶[8]2009年在《Web使用挖掘方法的研究与改进》文中研究指明随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web使用挖掘就是其中一个重要的分支。Web使用挖掘通过对Web日志的分析,获取Web上隐藏的用户感兴趣的信息,为用户提供个性化服务、信息导航,并对网站结构的改进与优化提供依据。Web使用挖掘分为数据采集、数据预处理、模式发现与模式分析四个阶段,其中数据预处理和模式发现是本文研究的重点。首先,数据预处理是Web使用挖掘的一个难点。它分为数据清洗、会话识别、路径补充、事务识别四个阶段。本文在会话识别阶段,提出了基于DFA方式的会话识别。在路径补充阶段,提出了一种基于多窗口方式的路径补充。并在此基础上,构造了可用于动态框架网站会话识别的SRDFA。在事务识别阶段,本文改进了事务识别方法中的最大向前路径法,在事务识别阶段记录可能需要添加的超链接。其次,模式发现也是一个重要的阶段。在这个阶段中,本文给出了一种改进的Apriori算法(RSApriori算法)。它通过自上而下的方式从最大频繁项集开始挖掘,直到挖掘出用户需要的频繁项集后终止。此外,本文设计了两个验证性实验,证明了整个处理框架的可行性。最后,本文将整个处理方法运用于一个真实的MVC模式下的struts框架网站,在实践中证明了此方法的有效性和实用性。本文对Web使用挖掘部分算法的改进具有一定的现实意义。首先,它对会话识别和事务分割方法的研究以及部分数据挖掘算法的改进具有一定的参考价值,在一定程度上推动了Web使用挖掘算法的研究;其次,它也促进了Web访问行为分析、网站结构分析和网站结构优化等方面的研究。

周磊[9]2010年在《web挖掘研究及其在远程教育中的应用》文中认为随着计算机技术和Web技术的发展和广泛应用,远程教育发展到了基于Internet网络的第叁代远程教育。当前,远程教育已经成网络研究和应用的热点之一。近年来,远程教育系统的应用在国内外取得了长足发展,很多大学和一些教育企业都建立了基于web的远程教育站点。现有的Web远程教育站点基本上都是静态的,学习资源很少更新。参加远程教育的学生具有不同的个性和层次,目前大部分远程教育站点内容单一、知识深度一致,没有依据学生个人的实际情况量身订作、因材施教,缺少针对学生个性的服务。Web课件的设计和教学依据原有的传统面授教学规律,没有考虑远程学生个体的差异性和远程教育特有的网络环境。然而,现在大部分远程教育站点都积累了大量的有用信息,但是,这些信息没有被充分地利用。本文在对Web挖掘的概念和过程作了详细研究的基础上,将Web挖掘技术应用到远程教育中,建立基于Web挖掘的智能化个性化远程教育模型和学习环境,并给出了实现过程。本文首先分析了现代远程教育的特点,对数据挖掘领域中的概念和算法进行了探讨,提出了基于Web挖掘的个性化远程教育模型。对Web挖掘的最新技术和发展方向作了全面的分析,详细讨论了Web挖掘的概念和处理过程;然后本文提出了应用多维数据立方体对Web日志进行多维关联规则挖掘的算法和在Web站点中自动发现那些存储位置同用户期望的位置不同的Web页面的算法,并将Web日志分析和挖掘中获得的规则和模式应用到宁波电大远程开放教育系统网站中,优化网站的效率。最后分析和展望了Web挖掘技术的发展和在远程教育中的应用前景。

王丛[10]2006年在《基于Web挖掘的电子商务推荐系统研究》文中指出随着互联网的普及和电子商务的发展,电子商务系统在为用户提供越来越多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己需要的商品。电子商务中的商品推荐系统直接与用户交互,模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。在日趋激烈的竞争环境下,商品推荐系统能有效留住客户、防止客户流失,提高电子商务企业的销售力及竞争力。 商品推荐系统在电子商务系统中具有良好的发展和应用前景,逐渐成为电子商务IT技术的一个重要研究内容,得到了越来越多研究者的关注。 目前,虽然电子商务中的商品推荐系统在理论和实践中都得到了很大发展,但是随着电子商务系统规模的进一步扩大,商品推荐系统也面临一系列挑战。针对商品推荐系统所面临的主要挑战,本文在以下叁个方面对电子商务推荐系统进行了有益的探索和研究。 第一,给出了基于Web挖掘的推荐系统框架。传统的协同过滤推荐很难为非注册用户提供高质量的推荐。针对传统的协同过滤推荐存在的不足,本课题重点研究基于Web挖掘的推荐系统框架。对Web使用数据、Web内容数据和Web结构数据进行聚类分析,推荐引擎根据挖掘结果向用户提供有效的推荐服务。相对于传统协同过滤推荐技术而言,基于Web挖掘的推荐系统框架不需要用户提供主观的评价信息,因此用户使用起来比较方便。 第二,给出了适合本系统使用的新的推荐算法。针对电子商务推荐系统面临的实时性挑战,本课题从Web挖掘的角度设计了新的推荐算法。该算法利用Web挖掘的结果,分别得出基于Web使用特征、Web内容特征和Web结构特征的推荐集,对推荐集进行最大化合并,得出最终推荐结果。 第叁,提出了支持多推荐模型的电子商务推荐系统的推荐引擎框架。目前大部分的电子商务推荐系统都是一个单一的工具,只能提供一种推荐模型。本课题探讨多推荐模型电子商务推荐系统的推荐引擎,用以支持多种推荐模型。

参考文献:

[1]. Web使用挖掘方法及其在个性化学习系统中的应用研究[D]. 王利. 苏州大学. 2006

[2]. 基于关联规则的Web日志挖掘技术研究[D]. 王欣如. 重庆大学. 2007

[3]. 基于Web内容和日志挖掘的个性化服务研究[D]. 温婷婷. 大连理工大学. 2007

[4]. 面向电子商务的web数据挖掘的研究与设计[D]. 王飞. 四川大学. 2006

[5]. WEB使用挖掘算法研究与实现[D]. 李森. 合肥工业大学. 2007

[6]. 面向电子商务的Web数据挖掘的研究[D]. 李凤慧. 山东科技大学. 2004

[7]. 文本挖掘在Web日志数据预处理中的应用研究[D]. 武洪萍. 合肥工业大学. 2007

[8]. Web使用挖掘方法的研究与改进[D]. 黄金晶. 苏州大学. 2009

[9]. web挖掘研究及其在远程教育中的应用[D]. 周磊. 电子科技大学. 2010

[10]. 基于Web挖掘的电子商务推荐系统研究[D]. 王丛. 山东科技大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

Web使用挖掘方法的研究和实现
下载Doc文档

猜你喜欢