示例学习的决策树算法研究

示例学习的决策树算法研究

卢东标[1]2008年在《基于决策树的数据挖掘算法研究与应用》文中指出数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,已经被广泛应用于金融、保险、政府、教育、运输以及国防等领域。数据分类是数据挖掘中一个重要的内容。分类存在很多方法,常见的分类模型有决策树、神经网络、遗传算法、粗糙集、统计模型等。其中决策树算法是以实例为基础的归纳学习算法,以其易于提取显示规则、计算量相对较小、可以显示重要决策属性和较高的分类准确率等优点而得到广泛的应用。据统计,目前决策树算法是利用最广泛的数据挖掘算法之一。然而在实际的应用过程中,现存的决策树算法也存在很多不足之处,如计算效率低下、多值偏向等。因此,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的应用要求具有重要的理论和现实意义。本文针对上述数据库知识发现的不足,进行深入的研究,探索数据挖掘中决策树分类的优化算法,以便更好地提高分类的准确性,更好地应用于实际工作中。本文主要的研究工作如下:第一,从宏观上介绍了数据挖掘和分类技术的理论基础,并重点对几种常见决策树算法进行了分析和比较,例如ID3、C4.5、CART算法。第二,详细地分析了利用决策树方法对数据进行分类挖掘时常见的几个问题:属性值空缺、连续属性的处理、过度拟合数据等。这些问题都会导致决策树的分类精度下降,因此在构建决策树时必须选择合理的策略,提高决策树的分类精度。第叁,本文对决策树算法进行了优化研究,对属性值空缺、属性选择多值化、属性选择标准等问题提出了具体的解决办法。本文还提出了加权简化熵的概念,并对ID3算法进行了改进,经过比较,改进算法在总体性能上优于目前广泛应用的ID3算法。第四,利用新的决策树算法在一个棉纺厂的设备管理系统中进行数据挖掘,为厂家的决策支持提供了科学、准确的根据。

段学燕[2]2006年在《基于机器学习的油液分析系统研究》文中进行了进一步梳理随着主动维修思想的出现,其优势日趋明显,同时,油液分析技术作为其实现的前提条件,已经得到广泛的应用,人们开发出各样的油液分析综合系统,以适应维修领域知识专家经验不能满足需要这一现状。本文提出了一个基于机器学习方法的油液分析系统的模型,运用一种新的增量式的学习方法,解决油液分析系统的知识获取问题。另一方面,通过决策树方法得到的知识模型,辅助故障源的判断,能够在故障发生之前提前预防,达到主动维修的目的。首先,针对实现主动维修的油液分析系统中存在的知识获取,以及故障源挖掘的问题,结合机器学习方法,提出了一种机器学习方法在油液分析专家系统中的应用模型,并对模型中的关键部分作了简要概述。其次,阐述了系统中选取具体的机器学习方法的过程,并对其中的决策树方法辅助故障源的挖掘过程进行了详细阐述。利用决策树方法学习到的知识模型,结合机器学习的推理能力,发掘诊断属性中的重要参数,辅助故障源的确定以及维修决策。接着,本文在决策树增量式学习算法ID5R和粗糙集理论的基础上,提出了一种粗糙集结合决策树增量式的学习方法,使得学习过程在遇到新的故障示例时,不需要重新计算一次所有结点的信息熵,减小了系统对新示例学习的消耗。并将该方法运用于系统的知识获取过程,并通过一组油液分析样本数据对该算法进行了验证。最后,利用Microsoft SQL Server以及Powerbuilder,开发了一个决策树算法应用于油液分析系统的原型系统。

吴宣为[3]2004年在《示例学习的决策树算法研究》文中指出决策树分类学习算法是使用最广泛、实用性很强的归纳推理方法之一,在机器学习、数据挖掘等人工智能领域有相当重要的理论意义与实用价值。 在各种决策树学习算法当中,最有影响力的是采用信息熵的下降速度作为选择测试属性的标准的ID3算法。但是ID3算法存在学习简单逻辑表达式的能力较差、偏向属性取值数目较多等缺陷。论文企图在ID3的基础上,针对其中的一些不足加以改进。 本文首先介绍了示例学习的扩张矩阵理论与决策树学习的最优化问题、ID3算法的信息论原理与实现以及C4.5算法的剪枝原理。然后针对ID3学习逻辑表达式方面的不足,提出了一种对ID3学习到的决策树进行简化的算法——基于蕴含规则的决策树简化算法(DTSA-BOIR,简记为BOIR),BOIR以ID3算法构造的决策树为基础,先序遍历由ID3构造出来的决策树的各个节点,并对其子树进行比较,如果各子树的根属性都相同而且存在某些相应的分支对于各子树完全相同,则改变决策树中相应属性的层次关系并把相同的分支分别合并起来。 本文实现了BOIR对逻辑表达式的学习,并利用FAMn家族数据集对该简化算法进行了测试,实验所取得的数据验证了该算法的有效性。

王熙照, 孙娟, 杨宏伟, 赵明华[4]2003年在《模糊决策树算法与清晰决策树算法的比较研究》文中研究说明ID3算法是一种典型的决策树归纳算法,这种算法在假定示例的属性值和分类值是确定的前提下,使用信息熵作为启发式建立一棵清晰的决策树。针对现实世界中存在的不确定性,人们提出了另一种决策树归纳算法,即模糊决策树算法,它是清晰决策树算法的一种推广。这两种算法在实际应用中各有自己的优劣之处,针对一个具体问题的知识获取过程,选取哪一种算法目前还没有一个较明确的依据。该文从5个方面对这两种算法进行了详细的比较,指出了属性为连续值时这两种算法的异同及优缺点,其目的是在为解决具体问题时怎样选择这两种算法提供一些有用的线索。

毛聪莉[5]2008年在《基于粗糙集的决策树学习算法研究》文中进行了进一步梳理决策树学习是应用最广泛的归纳推理算法之一。决策树通过一个简洁的树型结构代表了原始数据的信息。一棵决策树中不具有预测能力的部分应该终止它的生长或对其修剪,如何精确地估计何时停止决策树的增长很困难,一般采取人为控制或专家领域知识、先验知识的控制,这大大降低了该方法的智能性,也限制了其应用的推广。而粗糙集理论能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。可以提高知识获取过程的自动化程度。近年来其有效性己在许多科学与工程领域的成功应用中得到证实。基于此,决策树学习方法引入粗糙集理论。本文主要研究内容和工作成果如下:1.系统阐述了决策树学习算法的工作原理和实现方法,比较了典型决策树算法之间的优缺点,介绍了决策树的评价标准。2.分析了基于粗糙集的决策树算法,并与经典的决策树算法做了实例比较,实例表明前者在保证分类精确度的同时也简化了决策树。提出了基于决策协调度的决策树自主式学习算法。该算法把粗糙集理论中的决策协调度作为分离属性的标准,用具有局部优化性质的条件确定度来控制树的增长。通过实例给出了树的生长过程,解决了决策树学习时需要人为指定阀值来进行剪枝的问题。3.针对现实数据是动态的基础上,初步研究了增量式知识获取问题。给出了决策树预剪枝的自主式增量学习算法。用实例验证了该算法的正确性,并对算法的复杂度进行了定量分析。该算法可以解决增量数据集构造决策树的问题,避免在处理增量数据集时,不断重构决策树的庞大费用。处理小增量数据具有良好的效果。最后针对目前的状况,讨论了本课题今后进一步的研究方向。

廖玉兰[6]2011年在《基于分布式的决策树方法研究》文中提出在信息时代的今天,数据库中蕴含着大量有价值的信息和知识。这些信息和知识广泛适用于大量领域,包括商务管理、生产控制、市场分析、工程设计和科学探索等,可以为决策者做出正确的选择提供有效的支持。然而这些潜在的信息和知识隐藏在数据的海洋中,没有工具的帮助,人们很难甚至几乎不可能发现它们。因此数据挖掘越来越重要。至今,已经有多种数据挖掘的方法,其中决策树是一种重要的分类和预测手段,它既能处理离散型数据,也能处理连续型数据,并且易于理解。预测离散属性值的树模型叫做分类树,而预测连续属性值的树模型叫做回归树。决策树方法主要包括树的构建即归导和剪枝两个方面。其中,树的归导既是重点也是难点所在,本文主要关注树的归导和并行化方面的问题。经典的决策树算法要求将整个训练集放入内存,数据集增大时,算法便不能运行,可规模性极差,这使得它不能用于现实世界的数据库。SLIQ算法强调算法的可规模性,将数据集分成一个个属性表驻留磁盘,从一定程度上减少了内存的限制,但是它要求类表全部驻留内存。SPRINT算法继承了SLIQ的很多优点,并且取消了类表,完全消除了内存的限制。并且SPRINT为并行而设计,并行性能也很优秀。但SPRINT也有其不足,属性表占用过多空间,建立哈希表耗费不少的时间。雨林框架将算法的可扩展性与算法的其他部分分离开,将训练集压缩成小得多的AVC-Group,再次提高了可扩展性。树归导过程中最重要也最难的一步是节点分割,包括寻找最佳分割准则和根据此分割准则划分数据集。本文对树模型和树归导进行深入研究,对属性的候选分割谓词的选取作出了改进,大量减少了需要评估的分割谓词,从而节省了大量的计算时间。关于衡量分割质量的指标,对于分类树本文选择GINI指数,对于回归树选择计算方差的减少量。无论是GINI指数还是方差,目的都是要使分割前后数据集的不纯度的减少量达到最大。采用MapReduce编程框架来实现并行化的树归导。使用两个队列来存放待分割的节点,一个队列存放数据集过大不能放入内存的节点,另一个存放数据集能放入内存的节点。采用自顶向下的方法,宽度优先的策略,将新建立待分割的节点加入到两个不同的队列。每次尽可能多的从两个队列中取出节点,以使并行的MapReduce作业尽可能的多。使用一个模型文件来存放树的结构,包括节点、分割条件等。与通常的做法不同的是,不在各节点上存放属于它的数据集,而通过树模型来判定一个样本记录是否属于某个节点集。用一台控制器来管理归导的全过程和模型文件、节点队列的更新。

王晓楠[7]2016年在《基于Spark的分类回归树算法并行性研究》文中提出随着计算机技术与信息化技术的发展,信息化与现代化在社会各行各业都得到了极大的普及与覆盖,而这些信息化的普及给各行各业带了一个最大的问题就是数据呈指数级增长。为了充分利用这些数据,数据挖掘技术随之迅速发展。分类技术是数据挖掘的一种重要手段,也得到了广泛的发展。决策树分类技术是分类技术的一个重要的分支,本文主要对决策树分类技术进行了深入的研究,详细介绍了决策树分类技术的一些关键概念、决策树的处理过程、决策树技术主要的研究内容等。决策树主要的研究内容包括:数据预处理技术、分割属性的选取策略、决策树的剪枝、决策树的并行化和增量式决策树。其中,属性的选取标准是决策树最关键的研究内容,不同的决策树之间最大的区别就是属性选取标准的区别。本文还详细的介绍了CART这一决策树算法,包括其属性选取的标准、两种不同类型的属性(离散型属性和连续型属性)的不同处理方式以及其剪枝算法等,然后以示例的方式详细地描述了CART算法的“建树”和“剪枝”两个重要的处理流程。本文还对Spark分布式处理框架进行了研究,详细的介绍了Spark分布式处理框架的特点以及其与Hadoop分布式处理框架的不同之处。本文还列举了Spark在国内外大公司的成功使用案例。本文还分析了CART决策树算法的不足之处,并以此提出了自己的改进,包括对CART算法的并行化改进以及减少不必要计算量的改进;同时,我们还结合Spark这一种新兴的分布式处理框架来对我们CART算法进行了另一种的并行化改进。最后,本文还介绍了我们搭建的Spark集群环境,并且也描述了我们的实验过程与实验步骤,然后我们再通过实验来验证我们对CART算法改进的有效性,实验证明我们的改进能够有效的提高CART算法的计算效率。

刘宇阳[8]2009年在《一种改进的ID3决策树算法研究》文中认为决策树是建立在信息论基础之上,对数据进行分类挖掘的一种方法。其基本思想是,通过一批已知的训练数据建立-棵决策树,然后利用建好的决策树,对数据进行预测。至今已经提出了决策树的很多算法,通过分析已知的分类信息得到一个预测模型,ID3算法就是其中比较经典的算法。但是ID3同样也存在不足,如学习简单的逻辑表达能力较差、属性的多值偏向等。那么,对ID3算法的这些不足进行改进就是本文的着眼点和主要研究内容。通过对ID3算法的分析,提出了AR-KOS算法,即知识优选策略的属性递归改进算法。试验表明,该算法对ID3算法有所改进,并且生成的决策树是二叉树。所以,自然地将两者结合起来,发挥各自的优势,就可以得到一个性能良好的改进算法。将信息增益的属性递归优化方法应用到高考招生测评的数据挖掘中,并且根据实际需要在高考招生测评工作中进行了测试。同时,对AR-KOS算法与ID3算法进行同例比较,发现新的改进算法的决策树更加简洁、更接近于理想的决策树。

杜涛[9]2018年在《面向柑橘病虫害预警的Hadoop数据挖掘技术研究》文中指出柑橘种植产业在江西省种植业中处于重要的地位,是江西省果业工程计划的一个重点。柑橘类农作物由于其自身的生长特点,容易遭到病虫害侵袭,而病虫害一旦发生且在短时间内没有得到彻底清除,就会迅速繁衍,造成大规模性的柑橘类种植灾害,进而导致柑橘的产量和品质下降。柑橘病虫害的发生与温度、湿度、土壤等因素息息相关,因此,通过分析柑橘种植过程中的这些相关数据,改进病虫害诊断预警的数据挖掘方法,最终构建出柑橘类农作物病虫害预警系统。研究成果对我国农作物病虫害诊断预警具有一定的理论意义和应用价值。在对柑橘种植数据进行分析和处理过程中,随着历史数据量的逐渐增多,单个算法模型已经不能满足现实中大数据量的分析和挖掘需求,算法的集成学习和并行化计算成为数据挖掘的主要研究方向,本文采用决策树挖掘算法,研究重点为决策树算法的集成学习及其在Hadoop中的并行化计算。首先,初步介绍基于Hadoop大数据分布式处理系统,主要包括HDFS的系统架构、运行机制和容错机制,以及MapReduce编程模型,MapReduce并行化过程,然后介绍数据挖掘过程中数据处理流程和常用的数据挖掘算法,并详细说明本文中柑橘病虫害相关数据的来源和数据预处理过程。随后,重点研究决策树挖掘算法,包括叁种典型的决策树算法即ID3算法、C4.5算法和CART算法,并通过对决策树算法的集成学习,提出随机森林和迭代决策树。然后,在此基础上,研究基于Hadoop平台的随机森林算法的并行化和迭代决策树算法的并行化,并通过实验对比分析这两种并行化算法的性能。最后,对柑橘病虫害发生的特征和规律做详细的分析,将并行化的决策树算法融入到病虫害预警系统中,提出柑橘病虫害预警系统的总体框架,并对系统进行详细设计,阐述系统的主要模块构成以及数据挖掘系统的数据处理流程,再通过环境部署、代码开发,得以实现系统的主要功能。

李雪[10]2008年在《数据仓库技术在电力营销系统中的应用研究》文中研究表明本文介绍了电力营销的研究现状,对数据仓库、OLAP和数据挖掘技术进行了系统阐述,在对电力营销业务进行深入分析的基础上,确定了电力营销主题域,设计了电力营销数据仓库结构,并在此基础上整合现有的、相互离散的电力营销数据,使用Oracle 10g建立了电力营销数据仓库。数据挖掘作为一种发现大量数据中潜在信息的数据分析方法和技术,已经成为各界关注的热点,本文介绍了聚类分析、决策树算法和一种新型的智能聚类决策树算法,并给出了算法在电力营销中的应用实例。

参考文献:

[1]. 基于决策树的数据挖掘算法研究与应用[D]. 卢东标. 武汉理工大学. 2008

[2]. 基于机器学习的油液分析系统研究[D]. 段学燕. 华中科技大学. 2006

[3]. 示例学习的决策树算法研究[D]. 吴宣为. 合肥工业大学. 2004

[4]. 模糊决策树算法与清晰决策树算法的比较研究[J]. 王熙照, 孙娟, 杨宏伟, 赵明华. 计算机工程与应用. 2003

[5]. 基于粗糙集的决策树学习算法研究[D]. 毛聪莉. 湖南大学. 2008

[6]. 基于分布式的决策树方法研究[D]. 廖玉兰. 电子科技大学. 2011

[7]. 基于Spark的分类回归树算法并行性研究[D]. 王晓楠. 重庆大学. 2016

[8]. 一种改进的ID3决策树算法研究[D]. 刘宇阳. 哈尔滨工程大学. 2009

[9]. 面向柑橘病虫害预警的Hadoop数据挖掘技术研究[D]. 杜涛. 华东交通大学. 2018

[10]. 数据仓库技术在电力营销系统中的应用研究[D]. 李雪. 华北电力大学(河北). 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  

示例学习的决策树算法研究
下载Doc文档

猜你喜欢