基于PVM的SLIQ算法的并行化研究

基于PVM的SLIQ算法的并行化研究

薛峙[1]2003年在《基于PVM的SLIQ算法的并行化研究》文中研究表明数据挖掘作为知识发现过程关键技术,已逐步得到广泛应用。分类是数据挖掘及CRM的重要组成部分。SLIQ串行算法是由IBM Almaden 研究中心提出的一种高速可伸缩的分类算法,广泛应用于大型商业的CRM、信用等级分级等领域。随着应用中数据量的迅速膨胀,采用并行技术是提高数据挖掘效率的一个重要途径。本文首先分析了串行SLIQ算法的原理和特点,针对其不足提出了一些改进方法,然后在基于PVM的环境下实现了算法的并行化,分析了算法的时间复杂度和加速比,提高了SLIQ算法的效率,具有一定的理论意义和实用价值。串行SLIQ算法通过预排序和广度优先技术,能够更加快速和准确地处理大量数据集,并能同时处理离散字段和连续字段。但是,原算法在计算决策树节点的最佳分割点的时候,存在着对属性和记录的多余计算问题。本文提出应该动态的删除叶子节点的记录以及当前节点的祖先节点的分割属性,从而可以明显地减少不必要的计算以及属性表在磁盘和内存之间的IO交换操作。由于难以解决数据挖掘中任务划分的问题,SLIQ算法并行化的主要方向是实现数据的并行。SLIQ算法采用了新颖的数据结构,需要预先建立属性表,所以应该采取基于属性的数据分割策略。算法在把属性表和类表进行预先分配时采用的是静态平衡策略,对数据的分配按照数据量平均分配,将连续属性和离散属性分别平均分配到各个结点上;在执行分裂后,由于需要计算的属性不断减少,则采用了动态负载平衡的策略,通过消息传递的方式将部分计算任务分配给负载较轻的处理机单元。通过对串行和并行算法时间复杂度的计算表明,当数据集充分大时,由于连续属性的排序计算操作分散到各个处理机单元上进行,显着降低了计算时间,从而可以得到近似于处理机个数的加速比,对于离散属性,本并行算法对串行算法的性能提高有限

朱敏[2]2011年在《基于MapReduce的并行决策树分类算法研究与实现》文中研究说明分类是数据挖掘和机器学习等领域中一个非常重要的研究课题,在众多领域中都得到了广泛的应用。当前已经提出的分类方法主要有贝叶斯分类、决策树、神经网络、支持向量机等,其中决策树方法以其构造速度快、生成模式简单、精度高等优点而广受欢迎。目前影响较大的决策树算法主要有ID3、SLIQ、SPRINT等。由于决策树分类模型精准程度直接依赖于训练数据集的大小,在处理海量数据时就会遇到时间复杂度过高的瓶颈,使其很难得到推广。因此,决策树分类算法的并行化开发就显得非常必要。本论文基于MapReduce并行编程模型对决策树分类算法的并行化进行了系统的研究。论文首先研究了各种串行决策树分类算法的主要思想,同时对现有的并行编程模型进行了全面的研究、分析和比较,发现MapReduce模型是一种适用于大规模数据并行计算的并行编程模型。在对决策树分类算法的并行性开发时,主要通过将训练数据集在各处理机上进行划分、并行地确定结点的最佳分裂属性以及并行地分割属性列表到各个子结点来实现。论文分别研究了叁种MapReduce实现架构下并行决策树分类算法的设计,并在Phoenix共享内存架构上对SPRINT算法进行了具体的并行实现。通过实验分析和比较,结果表明本文研究的方法和实现不仅比基于MPI并行编程模型的同类决策树算法的实现编程更容易,而且在计算节点较多的情况下能得到更优的性能,获得更大加速比。

李伟[3]2014年在《决策树算法应用及并行化研究》文中研究说明在信息科技飞速发展的今天,各行各业每天都会产生大量的数据,这些数据中蕴含着丰富的知识。对于善于运用数据分析的用户来讲这就是一笔财富,而对于不了解或者不会对数据进行发掘的用户就是数据垃圾。对于不同类型的数据需运用不同的挖掘算法,但传统的数据挖掘算法处理的数据量是有限的,当数据量显着增大时,就需要更合适的数据挖掘算法来处理。云计算是近几年兴起的新概念,在计算机领域,从某种意义上来讲,可以把云计算当做一种网络,一种可以处理海量数据的新模式。开发云计算架构下的数据挖掘系统是当前处理海量数据挖掘的一种趋势。通过对传统算法的改进,将算法移植到云计算平台,借助云技术的并行化处理能力,海量数据的挖掘问题也将迎刃而解。基于以上的研究背景,首先本文将对数据挖掘技术和云计算平台进行研究,然后对数据挖掘决策树算法进行处理,结合实际工作情况,对C4.5算法的应用进行研究,并使用罗比达法则对算法效能进行改进。然后根据海量数据挖掘的要求,将能产生简单决策树结构的算法-CART,进行基于随机森林模型的改进。随机森林模型对于决策树建树的数据类型、数据缺失、属性类别以及决策属性类别多值要求都不高,基于这些优点将CART算法应用到随机森林模型中能克服CART算法的弊端。最后本文将对算法并行化进行研究,通过对几个并行模型的研究,选择最合适的MapReduce编程模型将改进的CART算法实现。通过实验,将改进的CART算法在串行和并行模式下分析大量数据,实验表明算法在有效性、处理速度和加速比等方面都有较好的表现,以此验证算法改进的有效性。

冯楚俊[4]2015年在《基于数据挖掘的信用卡风险管理研究》文中研究表明近年来,由于市场的需求,商业银行信用卡业务在不断的攀升,数据挖掘技术在银行信用卡业务中也得到广泛使用,它的使用与信用卡风险管理之间存在着很大的关联,数据挖掘技术应用于信用卡业务中意义重大。在本文中,笔者主要是侧重于这一技术在信用卡风险管理系统里面的使用,并对其使用情况作出相应的前景评估预测。首先,了解相应的信用卡的定义,以及信用卡在全球的使用情况及基本信息,发展特点及现状。随后进行深入了解分析商业银行信用卡业务盈利能力及风险管理能力方面出现的问题。通过问题的原因进行系统的分析,主要是对于银行对信用卡使用者在循环使用上没有做出有效具体的分析,并对日常的经营决策没有提出有效的防范措施和风险控制。其次,通过引入数据挖掘的这项高科技技术,了解其在信用卡风险方面的应用现状。具体分析研究数据挖掘技术在实际业务中所起到的作用,简单来说,就是从大量业务信息中,提取相关的潜在有用信息和知识的过程。再次,文章对具体事例进行分析,信用卡数据仓库系统对数据挖掘的要素和具体应用进行论证。并通过具体的数据模型详细介绍了数据挖掘技术是怎样对信用卡的盈利能力和风险管控能力进行管理的。最后,对数据挖掘技术在商业银行信用卡业务的使用中做出了明确的总结,并对其今后的发展方向进行了论述及展望,通过数据挖掘技术和数据仓库的广泛应用,我国商业银行的信用卡在业务方面将会快速的成长,并会获得强大的有效竞争力。

张磊, 陈东, 王建新, 高献伟, 段晓毅[5]2017年在《机器学习算法与应用》文中研究表明本文从叁个方面介绍了机器学习。首先简单介绍5种典型的机器学习算法,以及典型算法之间结合的集成算法。其次,在典型算法基础上介绍了结合其他学科的量子机器学习和李群机器学习,给出了两种学习算法的基本步骤。最后,介绍了机器学习在数据挖掘、模式识别领域以及侧信道攻击中的应用。

参考文献:

[1]. 基于PVM的SLIQ算法的并行化研究[D]. 薛峙. 重庆大学. 2003

[2]. 基于MapReduce的并行决策树分类算法研究与实现[D]. 朱敏. 江西师范大学. 2011

[3]. 决策树算法应用及并行化研究[D]. 李伟. 电子科技大学. 2014

[4]. 基于数据挖掘的信用卡风险管理研究[D]. 冯楚俊. 江西财经大学. 2015

[5]. 机器学习算法与应用[J]. 张磊, 陈东, 王建新, 高献伟, 段晓毅. 北京电子科技学院学报. 2017

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于PVM的SLIQ算法的并行化研究
下载Doc文档

猜你喜欢