基于粗糙集理论的商业数据挖掘

基于粗糙集理论的商业数据挖掘

吴为英[1]2003年在《基于粗糙集理论的商业数据挖掘》文中进行了进一步梳理本论文在分析商业数据特点的基础上,结合对数据挖掘技术的研究提出了基于粗糙集理论的商业数据挖掘的构想。基于此构想,本文对粗糙集理论进行了系统研究,提出了一种新的基于粗糙集理论的商业数据挖掘系统,并给出了此系统的详细设计与实现过程。本文提出的商业数据挖掘系统包括数据准备层、数据预处理层、挖掘评价层叁个层次。在这叁个层次的设计与实现过程中,提出并改进了一些算法。这些算法,加速了数据挖掘过程的完成,提高了数据挖掘质量。本文最后用一个实例对本文提出的算法和研究成果进行了验证。

闻卫军[2]2007年在《基于粗糙集的决策树技术在电子商务中的应用研究》文中认为随着互联网技术的发展,电子商务正在改变着社会经济中各个行业的传统经营模式,尤其是彻底地改变了企业与客户之间的关系。如何实现客户价值最大化,这就要进行客户价值分析,找到最有价值的客户,开展特别的促销活动,提供更个性化的服务,设法保持这类客户,使企业以最小的投入获得最大的回报。本文的主要研究内容是把基于粗糙集的数据挖掘技术应用到电子商务的客户管理中来,以基于粗糙集的决策树方法来构造模型,进行电子商务客户价值研究,从大量数据中提取有用的分类规则,为电子商务企业进行客户管理提供智能决策支持。主要研究成果有:(1)将客户的当前价值(即客户购买情况)和客户的潜在价值(即客户兴趣度等)结合起来构建客户价值度量模型。(2)以粗糙集理论和数据挖掘理论为出发点,将粗糙集理论与数据挖掘中的决策树技术有机结合,进行了基于粗糙集理论的数据挖掘模型研究,提出了一种ID3算法的改进算法——基于粗糙集属性依赖度理论的决策树算法,进一步提高了算法效率。(3)结合青岛中科英泰公司的国家级项目——面向零售业的商业智能分析平台,进行了基于粗糙集的决策树技术在电子商务客户价值研究项目中的实证分析,获取了有效的电子商务客户价值分类规则,使得本文的研究既具有理论意义,又具有实用价值。

洪雪飞[3]2008年在《基于粗糙集的数据挖掘算法的研究与应用》文中研究指明数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,是当前人工智能研究中非常活跃的领域。粗糙集理论是一种有效地处理模糊性和不确定性问题的数学工具,为数据挖掘的研究提供了新的思路和基础。本文主要围绕基于粗糙集的数据挖掘,针对传统数据挖掘处理噪声数据不力的问题,从理论和应用两个方面对挖掘方法进行了深入的研究。本文的主要工作包括:(1)在可变精度粗糙集理论下对经典粗糙集的概念进行了重新的诠释;分析了粗糙集理论在数据挖掘应用中的理论根据和基本原理,并点出了研究的方向。(2)结合信息论,提出了基于信息熵的属性约简算法。该算法以属性的核作为计算约简的出发点,以过滤分辨矩阵作为选择候选属性的依据,以条件属性和决策属性的信息熵作为启发信息,来寻找决策信息系统的最小约简。实验证明,该算法和经典的启发式算法相比,能够降低当噪声数据存在时漏失有效属性的风险,加快属性约简的速度。(3)提出基于变精度粗糙集的决策树改进算法。该算法采用β-边界域作为选择分类属性的标准,因此解决了不能对噪声数据进行分类的问题。另外,该方法还对规则置信度进行了重新定义,从而提高了决策树的可理解性。实验结果表明,该方法更加实用、易于理解且能明显地提高分类的效率。(4)在研究、分析了车站建设施工数据和施工安全风险的基础上,提出了对轨道建设施工安全风险进行预测的一系列数据挖掘方法。首先,对数据进行清洗、转换和离散化,并给出数据的集成方法;然后,运用改进的属性约简算法,对31个属性进行约简得到13个条件属性。最后,在完成预处理的基础上,采用基于变精度粗糙集的决策树改进算法对1021条施工安全数据进行了分类分析,建立起轨道建设施工安全风险评估模型,并在此基础上初步开发了一个基于粗糙集的数据挖掘系统。本文实验结果表明,本文改进的基于粗糙集的算法对噪声数据的处理可行、有效。

周霞[4]2010年在《基于粗糙集的电子商务交易知识获取研究》文中认为电子商务的迅速发展为企业带来了机遇,随着应用的深入,产生了大量的交易活动数据,如何从这海量的信息中获取潜在的能支持企业商业决策的知识,已成为当前电子商务经营管理者首要解决的问题。数据挖掘技术的出现为该问题的解决提供了强大的技术支持。其中,粗糙集较之其他数据挖掘技术,具有不需任何先验知识而以用户提供的大量数据作为唯一的信息源直接进行知识获取的独特优势,近年成为知识获取领域中的研究热点。本文基于前人研究成果及经验,深入研究粗糙集在电子商务交易知识获取中的应用。首先,对电子商务交易知识获取中的数据准备进行研究,包括数据的归纳分类及来源分析、数据预处理一般过程及Web数据预处理,并重点探讨了基于粗糙集的空缺数据预处理及数据离散化预处理方法。然后,对基于粗糙集的分类知识和关联知识获取模型构建进行研究。在分类知识获取建模中,研究以求属性核为起点的前向属性约简算法,针对目前求核属性算法在处理某些冲突信息系统时得不到核属性的缺陷,引入局部熵概念,提出改进的基于差别矩阵的求核算法。针对普遍的基于整个决策表的启发式属性约简算法计算量大的问题,提出改进的基于粗糙熵的属性约简算法。对于规则的评价,引入主观相对权重概念,结合客观的确定性因子(即规则置信度),提出同时考虑主观和客观因素的全面的规则综合权重衡量方法。在关联知识获取建模中,引入粗糙集等价类概念,按交易项是否出现对交易事务数据库进行划分,在生成频繁项集时不用扫描事务数据库而只需对交易项的等价类进行集合运算即可,减少时间开销。同时考虑到实际商业应用需求,引入商品利润约束重新定义最小支持度,以避免出现频度低但利润高的商品项被过滤掉,由此生成的关联规则更具商业价值。最后,以KDD Cup 2000提供的Gazelle.com公司的电子商务交易数据为例,研究这两个知识获取模型在实际电子商务交易知识获取中的应用。

胡明涛[5]2006年在《基于粗糙集理论的零售业数据挖掘研究》文中进行了进一步梳理随着信息技术的飞速发展,零售企业积累了大量的历史数据,商业企业意识到如何利用这些信息对企业的发展来说是至关重要的。因为想要在未来的市场占有举足轻重的地位,必须拥有消费者、竞争对手、本公司的财务情况等信息,从中获取可靠、准确、及时的信息来进行正确的决策是商家的迫切需求。本文研究的正是如何将数据挖掘技术应用在零售业领域。 本文首先论述零售业数据挖掘现状和零售业数据挖掘目的,以及零售业业务特点和当前国内零售业数据挖掘面临的困难;接着介绍粗糙集理论和它在数据挖掘中的应用。在上述研究的基础上,本文提出了一个基于粗糙集理论的零售业数据挖掘体系结构,设计了与此配套的相关数据挖掘算法;最后通过一个实例验证研究结果的有效性。 本论文提出的零售业数据挖掘系统体系结构由叁个层次构成:数据准备层、数据预处理层、挖掘评价层。它能够有效地从数据库中提取出有用的知识并经过评价系统进行反馈校正,建立业务知识库,给决策者提供高质量的决策信息和决策支持。其数据挖掘过程中的大部分任务,均由基于粗糙集理论的算法来承担和完成。 在数据准备层,主要工作是数据收集、数据确认和数据筛选。数据收集是将分布在传统业务模型基础上的数据经过面向决策的数据加工和精练,转移到数据仓库中。数据确认主要是对销售数据、商品数据、客户数据进行定义。数据筛选主要是清除噪声和无关数据。在数据预处理层,本论文通过对基于信息熵的连续属性离散化算法的研究,提出一个改进的算法,增加一个控制阕值。克服了原算法对大数据集的过度适应性。数据完备化使用基于量化容差关系的数据完备化算法实现对遗失数据的填充。本算法中的容差关系矩阵计算对象之间的相似度,并将其量化,提高了缺失对象的补齐能力。经过预处理后形成可供规则提取算法使用的完备信息系统。在挖掘评价层,通过基于近似集的属性约简算法,在完备信息系统上提取最佳约简集,进行属性规约。引入置信度和支持度的概念,设计增量学习式规则提取算法。规则提取分为叁个阶段:初始规则库生成、规则更新、规则评价。该算法能适应数据的动态增加,并根据置信度和支持度阕值来对规则进行评价。 本文最后给出一个商场客户行为特征分析的实例,使用本文设计的数据挖掘系统算法,挖掘出购买不同种类羽绒服的顾客特征,验证了本系统的实用性和有效性。

赵洁[6]2010年在《基于粒计算的Web使用挖掘研究》文中进行了进一步梳理Web中的信息量正以惊人的速度增加,从这些数据中抽取、过滤和发现有用的信息,成为人们的迫切需要。Web使用挖掘把数据挖掘技术应用于Web使用数据上,旨在得到隐藏于数据中的各种有意义的模式,这对提供个性化服务、改进Web系统性能和结构、提供商业决策支持等方面都有重要的理论和应用价值。本文旨在把智能计算技术应用到Web使用挖掘研究中,面向电子商务,设计统一理论框架下的挖掘模型和算法。通过对海量使用数据的收集、管理和分析,发掘其中隐含的规律和模式,从而向决策者提供决策支持,提高电子商务网站的性能和交易的安全性,这将给企业带来巨大的收益。以粒计算及其统一框架下的粗糙集、模糊集等作为理论基础,本文对Web使用挖掘研究中的若干关键技术和新应用领域展开深入研究。所取得的主要工作成果和创新点如下:1.提出一种新的多粒度用户行为数据收集方法。该方法通过可配置的插件嵌入服务器,隐式收集用户行为数据,能结合电子商务特有事件的数据,并简化后续预处理工作,解决Web日志的数据不可靠、类型单一、无法与其他电子商务事件数据集成等问题。实验证明该方法能以较低成本收集可靠的数据,为挖掘提供高质量的数据源。2.对现有的预处理模型进行优化。提出一种新的获取网站拓扑的混合方法:在线获取方法与Web日志补充方法的结合,能最大程度获取网站拓扑结构;提出一种“最近刚好使用”路径补充算法,以新的启发式规则在合理范围内补充缺失页面,能有效减少搜索空间,并使结果更合理可靠。3.针对Web使用挖掘中常见的高维数据,提出一种基于知识粒度的高效完备属性约简算法。深入分析现有属性约简算法低效的根源,基于知识粒度设计获取等价类的算法及计算正区域的等价算法,从而给出一种完备的属性约简算法。上述算法中使用动态SQL语句直接获取已排序的对象集,省略了类似研究中的排序步骤和正区域的渐增式算法,降低了实现的复杂度;使用五种新启发策略,可避免无用属性入选、更有效去除可省略的属性及缩减搜索空间,简化了中间结果从而保证了算法的高效性。理论分析及实验结果表明,本文算法在时间复杂度和实际求解时间方面均优于现有算法,能更好地适应海量数据集的挖掘。4.针对Web用户聚类,提出一种基于知识粒度的高属性维稀疏数据聚类算法框架。基于该框架,分别面向连续数据和离散数据,提出两种Web用户聚类算法。算法的基本思想是通过设计基于数据稀疏特征的维度阈值向量,跳跃式搜索维度上的等价颗粒,不需要把数据转化为二态变量,从而得到初始等价关系;设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强抗噪声能力;结合应用领域定义一种新的聚类质量评价模型。算法中引入多形式的用户行为描述指标,各种指标既可独立考核,也可以灵活组合,同时可兼顾决策者对指标的偏好。实验证明,算法准确度更高,能提供多粒度分析结果,得到的聚类结果能真实反映数据的特征。5.基于上述研究,面向电子商务中的信任管理,提出一种基于贝叶斯网络和用户行为日志挖掘的行为信任预测与控制模型。针对目前评估网络用户行为的方法成本高且缺乏可操作性等问题,从用户行为日志中选取多种数据作为信任属性,构造贝叶斯网络,从而设计行为信任的预测和控制算法。使用改进的半模糊聚类算法设置、调整模型参数,建立可量化的证据与信任等级之间的对应关系。模型可以预测多属性下的行为信任等级,通过控制策略,可提高服务器的可靠性和安全性,并能有效约束用户的商业行为。通过实际应用,证明了模型的合理性和有效性。

唐志航[7]2009年在《可拓数据挖掘方法及其应用研究》文中研究说明随着计算机技术的迅速发展以及数据库管理系统的广泛应用,使得人们积累的数据远远超过人们分析和理解数据的能力。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更深层次的分析,以便更好地应用数据和提供决策支持。数据挖掘技术为了解决“数据爆炸但知识贫乏”的问题便应运而生。成为目前具有挑战意义的研究热点之一。数据挖掘就是从大量的、不完全的、冗余的、有噪声的数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的信息和知识的过程。随着经济全球化的推进,环境的多变促使了信息和知识的更新周期缩短,创新和解决矛盾问题越来越成为各行各业的重要工作。因此,如何挖掘变化的知识就成为数据挖掘研究的重要任务。可拓数据挖掘是可拓学和数据挖掘结合的产物,它探讨利用可拓学方法和数据挖掘技术,去挖掘数据库中与可拓变换有关的知识,包括可拓预测知识、可拓分类知识、可拓关联规则和传导知识等可拓知识。在全面综述国内外现有可拓数据挖掘方法的基础上,从方法到应用对可拓数据挖掘关键技术进行了深入的研究,综合运用可拓学理论、粗糙集理论、模糊理论、集对分析等其它数据挖掘方法,寻找出一种行之有效的创新模型化方法,即可拓数据挖掘模型与方法,主要研究成果如下:(1)基于可拓聚类的预测方法研究传统的预测方法往往受样本数目的限制,而且对于指标的变化不能准确的、定量的描述,针对传统预测方法的复杂性,结合可拓学和聚类方法,建立可拓聚类预测模型,首先通过系统聚类的方法,对相近的属性聚类,以达到属性约简,然后对余下的各属性变化率进行可拓聚类,采用比重权数法和主观经验来确定权重系数,来进行可拓聚类预测。最后以中国联通2002-2008年的相关指标,来预测企业另外某个指标的量值。对2008年的某个指标进行可拓聚类预测,预测结果和中国联通2008年公布的年报中某个指标的数值是完全相符的,说明利用可拓聚类预测方法进行预测是可行的。其分析结果对于中国联通战略的制定有一定的参考意义。(2)基于可拓的客户繁衍价值研究与应用当前客户价值评价侧重于静态的描述,缺乏动态的研究,特别是基于口碑效应的潜在价值的定量研究,针对当前客户价值评价的缺陷和难以描述定量定性相结合的不足,结合可拓学和客户价值理论,用共轭分析方法,细分客户价值,提出了基于可拓的客户繁衍价值,通过定性和定量的方法,建立基于可拓的客户繁衍价值模型。最后针对中国联通近期推出的推荐有奖,入网有礼活动,定量计算客户的繁衍价值,其分析结果对于中国联通销售策略的制定具有一定的参考意义,对其他企业的营销策略、口碑和形象宣传也具有一定的参考意义。(3)基于粗糙集的可拓数据挖掘及其在企业品牌细分中的应用针对当前数据挖掘属性约简和权值系数确定的复杂性和主观性,结合可拓学和粗糙集方法,建立企业品牌细分模型,首先通过粗糙集联系度的方法,对属性进行约简;再利用粗糙集方法和相关经验确定各属性的权值系数,对企业品牌进行细分。最后通过对中国联通现有的叁大品牌相关指标分析,并提出品牌整合建议,能对新客户的入网提供适宜的差异化服务。其研究结果对企业的客户关系管理具有一定的工程实践意义。(4)基于可拓的关联规则研究及其应用关联规则的有效性是随时间发生动态改变的,针对当前关联规则挖掘的静态性,结合可拓学和关联规则方法,首先分析可拓变化引起的正质变域、负质变域、正量变域、负量变域和拓界,对关联规则的前后件分别进行正可拓变换、负可拓变换、正稳定变换、负稳定变换和拓界变换,然后给出可能的可拓关联规则,着力分析正可拓变换情况和负可拓变换情况,并给出相应的支持度和可信度。最后对中国联通新套餐推出前后的指标变化进行分析,着重分析其正负可拓变换,针对不同类型的客户,给出可行的套餐建议。结果说明基于可拓的关联规则是有效的。其分析结果对于中国联通销售策略的制定具有一定的工程实践意义。最后进行了概括性总结,并提出了有待进一步研究的方向。研究成果对于中国联通乃至其他企业的战略决策、客户关系管理、营销策略、形象宣传具有一定的理论意义和工程实践意义。

刘明亮[8]2008年在《基于粗糙集理论的决策树算法研究》文中研究表明决策树分类方法是解决数据挖掘分类任务的一种重要的技术,鉴于其分类速度快、效率高和容易理解等特点受到了人们的广泛关注和重视。粗糙集理论是一种处理不准确、不确定和不完备信息的智能数据决策分析工具,将不精确或不确定的知识利用已知的知识库中的知识来近似刻画处理。本文将粗糙集理论与决策树算法相结合,给出了一种基于近似精度的决策树属性选择度量标准,并且为了削弱噪音数据和孤立点对于边界的影响,应用变精度粗糙集的理论将近似精度扩展到变近似精度,并利用变精度正域对决策树进行预剪枝,防止数据的过度拟和,抑制噪音数据的影响。实验表明,该算法具有较好的分类效果。为了让数据挖掘的结果模型具有通用性,研究了数据挖掘标准的相关内容,结合PMML标准参与设计和开发了基于Eclipse插件技术的数据挖掘平台,在其中负责数据库接口插件、PMML标准接口插件、数据源导入插件和决策树算法插件的设计和实现。

田迪[9]2012年在《基于粗糙集的电子商务智能推荐系统研究》文中指出粗糙集(Rough Set)理论是波兰数学家Pawlak教授于1982年提出的一种能够定量分析和处理不精确、不一致、不完整信息与知识的数学工具,常用于处理模糊和不精确的问题。数据挖掘即数据库中的知识发现(Knowledge Discover Database,KDD),而商业智能研究中的商业数据挖掘,是一个从数据库中抽取对商业零售企业进销存等具有潜在应用价值的隐含信息的过程。使用粗糙集数据挖掘系统(RSDMS)进行数据预处理,消去冗余属性,抽取决策规则,可以在不影响决策效能的前提下精简属性集。将SQL运用于求信息熵的约简过程当中,相关约简算法可以通过缩短执行时间来提高其效率。频繁项目集发现算法是关联规则的主要内容之一,本论文在文献[44]的基础上提出了一种Apriori改进算法,在提出的矩阵基础上我们可以方便地得到各个项集的支持度计数,而不需要像Apriori算法那样频繁地扫描事务数据库,减少了扫描事务数据库的次数,也不需要像参考文献[44]当中的算法那样得出各个项集对应的子矩阵,降低了算法的复杂度。本论文在总结前人研究成果的基础上,针对粗糙集的属性约简算法及其应用、商业数据挖掘、电子商务智能推荐等方面进行了研究,主要内容归纳如下:(1)对粗糙集的基本理论知识进行了总体研究,详细介绍了粗糙集的发展历程及其国内外现状,分析了粗糙集的属性约简算法,并在精简条件属性集的基础上运用基于SQL的属性约简算法对其进行了改进。(2)对数据挖掘以及商业数据挖掘的基本理论及其应用、应用中存在的问题等做了介绍,针对数据的离散化、完备化等问题进行了分析研究,在相关文献的基础上提出了一种Apriori改进算法。(3)介绍了电子商务的发展历程及其国内外现状,分析了电子商务的流程及其在运行过程中应该注意的问题,并对电子商务智能推荐系统进行了研究。(4)对电子商务网站的相关数据进行分析处理,利用改进的粗糙集属性约简算法及Apriori改进算法进行数据挖掘,将两种改进算法结合使用作为一种方案运用到推荐系统,然后通过对相关数据进行实验分析比较系统的推荐效率。

吴越[10]2006年在《基于粗糙集数据分析的商业辅助决策系统的应用研究》文中研究说明随着商业零售业的高速发展,商业上迫切需要在原有业务系统的基础上有一套比较通用的商业辅助决策支持系统。使用粗糙集的数据分析工具,比较适合大规模的商业数据库知识发现的需要。本文通过基于粗糙集数据分析的商业辅助决策支持系统的应用研究,建立粗糙集数据分析模块,并利用一些已有的粗糙集数据分析算法,进行改进以进一步适应于商业数据的特点。最后通过在VC++中对Rosetta源码进行修改,编译实现了基于粗糙集数据分析的商业辅助决策支持系统的原型系统,并通过实验数据,进一步验证了改进后算法的优点。本文着重从以下几个方面进行了研究:1、采用粗糙集数据分析模块来建立商业辅助决策支持系统,开发原型系统。2、不完备数据分析方法的应用研究。3、离散化方法的应用研究。4、属性约简的应用研究。论文最后,实现了整个商业辅助决策支持的原型系统,总结了系统的特色,并对下一步工作进行了展望。

参考文献:

[1]. 基于粗糙集理论的商业数据挖掘[D]. 吴为英. 山东科技大学. 2003

[2]. 基于粗糙集的决策树技术在电子商务中的应用研究[D]. 闻卫军. 青岛科技大学. 2007

[3]. 基于粗糙集的数据挖掘算法的研究与应用[D]. 洪雪飞. 北京交通大学. 2008

[4]. 基于粗糙集的电子商务交易知识获取研究[D]. 周霞. 哈尔滨工程大学. 2010

[5]. 基于粗糙集理论的零售业数据挖掘研究[D]. 胡明涛. 江西财经大学. 2006

[6]. 基于粒计算的Web使用挖掘研究[D]. 赵洁. 华南理工大学. 2010

[7]. 可拓数据挖掘方法及其应用研究[D]. 唐志航. 东华大学. 2009

[8]. 基于粗糙集理论的决策树算法研究[D]. 刘明亮. 吉林大学. 2008

[9]. 基于粗糙集的电子商务智能推荐系统研究[D]. 田迪. 浙江理工大学. 2012

[10]. 基于粗糙集数据分析的商业辅助决策系统的应用研究[D]. 吴越. 苏州大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于粗糙集理论的商业数据挖掘
下载Doc文档

猜你喜欢