并行挖掘论文_赵宇海,印莹,李源,汪嗣尧,王国仁

导读:本文包含了并行挖掘论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:频繁,算法,数据挖掘,模式,测试,数据流,效用。

并行挖掘论文文献综述

赵宇海,印莹,李源,汪嗣尧,王国仁[1](2019)在《一种面向大规模序列数据的交互特征并行挖掘算法》一文中研究指出序列是一种重要的数据类型,在诸多应用领域广泛存在.基于序列的特征选择具有广阔的现实应用场景.交互特征是指一组整体具有显着强于单独个体与目标相关性的特征集合.从大规模序列中挖掘交互特征面临着位点的"组合爆炸"问题,计算挑战性极大.针对该问题,以生物领域高通量测序数据为背景,提出了一种新的基于并行处理和演化计算的高阶交互特征挖掘算法.位点数是制约交互作用挖掘效率的根本因素.摈弃了现有方法基于序列分块的并行策略,采用基于位点分块的并行思想,具有天然的效率优势.进一步,提出了极大等位公共子序列(maximal allelic common subsequence, MACS)的概念并设计了基于MACS的特征区域划分策略.该策略能将交互特征的查找范围缩小至许多"碎片"空间,并保证不同"碎片"间不存在交互特征,避免计算耦合引起的高额通信代价.利用基于置换搜索的并行蚁群算法,执行交互特征选择.大量真实数据集和合成数据集上的实验结果,证实提出的PACOIFS算法在有效性和效率上优于同类其他算法.(本文来源于《计算机研究与发展》期刊2019年05期)

涂序文,王晓锋,甘水滔,陈爱国[2](2019)在《Diskaller:基于覆盖率制导的操作系统内核漏洞并行挖掘模型》一文中研究指出内核是操作系统的核心,它构建了操作系统各类程序运行时需要的基础环境:如进程调度、存储管理、文件系统、设备驱动和网络通信等。操作系统内核漏洞的存在可能使得计算机系统遭受拒绝服务、信息泄露、超级用户权限提升等攻击,因此,针对内核的漏洞挖掘一直是网络安全领域的研究热点。本文在现有的研究基础上,提出一种基于覆盖率制导的内核漏洞并行模糊测试模型,该模型以代码覆盖率为导向,以计算节点和控制节点组成的星型结构作为并行模型,各计算节点通过代码覆盖率对系统内核持续测试,控制节点完成计算节点间代码覆盖率的收集与交互,突破了传统测试模型对计算资源要求限制和数据竞争的瓶颈,极大的提升了代码覆盖率及测试速度,加快了漏洞挖掘的效率。为了验证模型的实用性及有效性,利用Diskaller与Syzkaller和Triforce进行对比,一定条件下Diskaller覆盖率较Syzkaller提升12.8%,执行速率提升229%,较Triforce覆盖率提升335%,执行速率提升450%,并且发现了Linux内核中两个先前未被发现的漏洞。(本文来源于《信息安全学报》期刊2019年02期)

李俊丽[3](2018)在《基于Spark平台的离群数据并行挖掘算法》一文中研究指出大数据技术的快速发展,现有的离群挖掘算法效率可能显着下降甚至不适用。Spark内存计算可以有效地降低I/O成本,并能提高数据分析和处理的效率。使用Spark内存计算平台,提出了一种离群数据并行挖掘算法,目的是在Spark这样的大数据平台上对传统离群挖掘算法进行并行化,从而提高性能。最后以UCI数据集作为实验数据集对算法进行了验证,实验结果表明,基于Spark平台的离群数据并行挖掘算法具有良好的可伸缩性和可扩展性。(本文来源于《计算机与数字工程》期刊2018年11期)

冯忠慧,尹绍宏[4](2018)在《数据流中闭频繁项集的并行挖掘算法》一文中研究指出闭频繁项集包含了关于频繁项集的完整信息,可显着减少频繁项集挖掘所产生的模式数量,在一定程度上降低了内存开销、提高了时间效率。数据流的特性决定了它需要更高效的挖掘算法,为此使用分治策略,提出一种并行化闭频繁项集挖掘算法PCFI。该算法采用垂直数据格式存储项集的事务,通过对事务集的集合运算,可快速得到项集的支持度计数,合并具有相同事务集的频繁项,得到初始生成子,降低了搜索空间的规模。采用分治策略对初始生成子进行并行处理,得到约简前序集和约简后序集,在挖掘过程中不断地对每一生成子的搜索空间进行减枝,得到更小的约简后序集,从而减少对冗余数据的处理。实验分析表明,该算法的性能优于先前设计的算法。(本文来源于《软件工程》期刊2018年08期)

陈丽娟,谢伙生[5](2018)在《带负项值的on-shelf效用项集并行挖掘算法》一文中研究指出为了提高带负项值的on-shelf效用项集挖掘算法的挖掘效率,提出带负项值的on-shelf效用项集并行挖掘算法DTP-Houn,算法基于MapReduce框架,充分利用其on-shelf时间段因素,将原始事务数据库按照时间段进行分片。算法将挖掘过程转化为MapReduce工作,Map阶段在分片数据库中挖掘候选项集,Reduce阶段并行计算候选项集的on-shelf效用值。实验结果表明,算法取得了较高的挖掘效率。(本文来源于《计算机与现代化》期刊2018年04期)

房裴裴[6](2018)在《基于云平台的中医临床大数据频繁模式并行挖掘方法研究》一文中研究指出我国中医药资源丰富,历史悠久,中医药领域学术观点及思想的传播主要通过个人经验和实践,以及师徒之间的口口相传。由于信息处理和传播速度的缓慢,导致了中医药在当代社会发展和传承困难,已经难以满足当代社会对中医药知识的需求。中医药振兴发展的重要引擎和技术支撑是实现中医药信息化,中医药信息化建设也被纳入国家的“十叁五”规划中。在云计算、数据挖掘等信息技术的加持下,中医药信息化已经成为研究热点。中医讲究辨证施治,临床医学是中医学的基础学科,辨证论治过程中产生了症状、证候、病机、治则治法、诊断、四诊信息、中药处方等“知识密集型”数据,此类知识量丰富、非结构化的数据成为中医临床数据研究的重要资料。本研究致力于研究中医药“知识密集型”数据,挖掘“症—证—方”之间潜在的、有用的信息。在现有的数据分析挖掘方法的基础上,本文主要在云计算环境下并行挖掘框架的搭建、云计算环境下频繁模式挖掘算法等方面进行了研究。本文的主要创新性工作如下:1)中医临床数据来源多样、数据结构复杂,加上肺癌患者的症情差别较大,往往表现出多病位多病性错综复杂的证候,治疗上也多以复方为主,大大增加了分析的难度,采用传统的数据分析方法面临挑战和困难,因此需要以中医问题为导向,在云计算环境下建立了面向中医临床大数据分析的并行协同挖掘框架,重点探讨“症—证—方”之间的对应关系及核心方研究。2)经典的频繁模式挖掘算法FP-Growth算法,主要包括两个步骤:挖掘频繁项集以及产生关联规则。本文针对中医临床数据的特点,以及挖掘核心方的研究目标,以搭建的并行协同挖掘框架为基础支撑平台,提出了 Deep FP-Growth算法,引入了有效后继和核心频繁项集的概念,挖掘相关度最高的频繁模式。3)我国幅员辽阔,中医药历史悠久,形成了地域性的中医药文化,带来了数据的不完整性、不一致性、异常等;再加之不同的名老中医不同的行医习惯,导致中医药治疗肺癌的临床数据非结构化、中药异名同义或同名异义、病机命名不一等情况。清洗中医药治疗肺癌的临床数据,使之成为结构化、标准化数据,这项工作显得尤为重要。(本文来源于《南京中医药大学》期刊2018-03-21)

朱一波[7](2018)在《面向移动社交网络的用户关系强度并行挖掘算法研究》一文中研究指出近年来,在定位技术和通信技术发展的双重推动下,社交网站、应用、媒体的迅速扩散和基于位置的服务的迅速崛起催生了移动社交网络,为社交网络的挖掘提供了新的研究视角和思路。社交网络挖掘既是一个新兴而又热门的研究领域,同时也是多学科交叉的研究领域。用户关系强度挖掘是社交网络挖掘的一个重要研究内容,可以广泛的应用于用户隐私保护、社会化推荐、微博情感分析、网络信息传播研究、舆情监控和研判等领域。本文研究了移动社交网络中的用户关系问题,提出了面向移动社交网络的用户关系强度并行挖掘算法,创新点如下。1.提出了一种基于特征赋权的用户交互强度计算方法UISFW(User Interaction Strength computing algorithm based on Features Weighting),提取蕴含了交互行为和交互模式信息的交互特征计算用户交互强度,并对不同交互特征赋予了不同的权重,体现了不同交互特征对交互强度的影响程度。2.提出了一种用户频繁移动模式并行挖掘算法PAUFMP(a Parallel Algirithm for mining User Frequent Moving Patterns with time-constraints),借助序列模式挖掘方法发现用户频繁移动模式,同时考虑了时间和空间因素,适用于海量时空数据的挖掘。3.提出了一种面向移动社交网络的用户关系强度并行挖掘算法PMAURS(a Parallel Mining Algorithm of User Relationship Strength for mobile social network),结合了移动社交网络中用户交互数据和轨迹数据的特点,从规律性的交互模式和频繁移动模式中挖掘用户关系强度。4.提出了基于用户关系强度的用户分组方法EquiGroup、NormGroup和ExpoGroup,将定性分析和定量分析、离散表示和连续表示两两结合起来,同时体现用户之间的社会关系和亲密程度。通过一系列相关实验表明,本文提出的面向移动社交网络的用户关系强度并行挖掘算法的准确率和排序效果与真实结果有着很高的一致性;同时,用户分组方法能够准确体现不同场景中用户间的社会关系和亲密程度。本文对移动社交网络中用户关系强度挖掘算法的研究真实有效,具有一定价值。(本文来源于《南京师范大学》期刊2018-03-01)

朱鹏宇,鲍培明,吉根林[8](2018)在《用户频繁通信关系的并行挖掘算法研究》一文中研究指出随着移动通信技术和互联网的飞速发展,移动通信设备已经成为大多数人随身携带的工具,这些设备之间因互相通信而产生的数据构成了通信网络。文中提出了一种针对海量通信数据的频繁通信子图并行挖掘算法PMFCS。该算法在频繁项目集挖掘思想和子图连接规则的基础上,利用并行计算框架Spark将所有的图以边为单位分布到各个计算节点,在各个节点统计1阶候选频繁子图,再通过汇总候选子图得到1阶频繁子图。PMFCS算法通过迭代地连接k-1阶子图和1阶子图生成k阶候选子图,再计算k阶候选子图的频繁度,直至k阶频繁子图集合为空集。实验结果表明,该算法可以快速、有效地解决频繁通信关系的挖掘问题。(本文来源于《计算机科学》期刊2018年02期)

任燕[9](2018)在《基于MapReduce与距离的离群数据并行挖掘算法》一文中研究指出数据挖掘技术是解决数据丰富而知识贫乏的有效途径,离群数据挖掘是数据挖掘领域中的重要研究内容之一,己广泛应用于网络入侵检测,信用卡诈骗,垃圾邮件的分析和基因突变分析等领域.在高维海量数据中,由于数据量大和维度高,严重影响了离群数据挖掘的精度和效率.本文在KNN基础上,通过定义"解集"的概念,在MapReduce编程环境下,实现了一种基于距离的离群数据挖掘算法.分别采用人工数据集和UCI数据集,实验验证了该算法在不同条件下,参数对算法性能的影响.(本文来源于《计算机系统应用》期刊2018年02期)

汤小春,周佳文,田凯飞,李战怀[10](2019)在《大图中全部极大团的并行挖掘算法研究》一文中研究指出该文的目的在于优化现有的大图数据中全部极大团挖掘算法.在生物网络、社会网络及web分析中,找出图中的全部极大团是一个重要的应用.随着图数据规模的增大,传统的极大团挖掘算法因无法满足性能要求而被并行处理方式取代.但是,在现有的并行处理方法中,需要过滤大量的重复极大团和检测非极大团,降低了算法的性能.论文在分析了现有的极大团并行算法后,提出了新的大图中全部极大团挖掘算法.首先,使用顶点的偏序关系消除了冗余极大团以及非极大团的产生;第二,根据两个极大团之间至少存在一对无边的顶点的特征,提出了多颜色顶点涂色分片算法,将大图的顶点分为全色和半色两个集合;第叁,证明了涂色分片算法是NP完全问题以及有一个多项式时间的2近似算法,并给出了近似算法;第四,基于多色顶点分片实现了一个并行的全部极大团挖掘算法,该算法只对全色顶点与它的邻接顶点组成重迭子图进行极大团挖掘;最后,对算法的性能以及加速比特性进行了评价,得出该算法能够处理百万个节点的大图并且性能比现有的算法有较大提高的实验结果.(本文来源于《计算机学报》期刊2019年03期)

并行挖掘论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

内核是操作系统的核心,它构建了操作系统各类程序运行时需要的基础环境:如进程调度、存储管理、文件系统、设备驱动和网络通信等。操作系统内核漏洞的存在可能使得计算机系统遭受拒绝服务、信息泄露、超级用户权限提升等攻击,因此,针对内核的漏洞挖掘一直是网络安全领域的研究热点。本文在现有的研究基础上,提出一种基于覆盖率制导的内核漏洞并行模糊测试模型,该模型以代码覆盖率为导向,以计算节点和控制节点组成的星型结构作为并行模型,各计算节点通过代码覆盖率对系统内核持续测试,控制节点完成计算节点间代码覆盖率的收集与交互,突破了传统测试模型对计算资源要求限制和数据竞争的瓶颈,极大的提升了代码覆盖率及测试速度,加快了漏洞挖掘的效率。为了验证模型的实用性及有效性,利用Diskaller与Syzkaller和Triforce进行对比,一定条件下Diskaller覆盖率较Syzkaller提升12.8%,执行速率提升229%,较Triforce覆盖率提升335%,执行速率提升450%,并且发现了Linux内核中两个先前未被发现的漏洞。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

并行挖掘论文参考文献

[1].赵宇海,印莹,李源,汪嗣尧,王国仁.一种面向大规模序列数据的交互特征并行挖掘算法[J].计算机研究与发展.2019

[2].涂序文,王晓锋,甘水滔,陈爱国.Diskaller:基于覆盖率制导的操作系统内核漏洞并行挖掘模型[J].信息安全学报.2019

[3].李俊丽.基于Spark平台的离群数据并行挖掘算法[J].计算机与数字工程.2018

[4].冯忠慧,尹绍宏.数据流中闭频繁项集的并行挖掘算法[J].软件工程.2018

[5].陈丽娟,谢伙生.带负项值的on-shelf效用项集并行挖掘算法[J].计算机与现代化.2018

[6].房裴裴.基于云平台的中医临床大数据频繁模式并行挖掘方法研究[D].南京中医药大学.2018

[7].朱一波.面向移动社交网络的用户关系强度并行挖掘算法研究[D].南京师范大学.2018

[8].朱鹏宇,鲍培明,吉根林.用户频繁通信关系的并行挖掘算法研究[J].计算机科学.2018

[9].任燕.基于MapReduce与距离的离群数据并行挖掘算法[J].计算机系统应用.2018

[10].汤小春,周佳文,田凯飞,李战怀.大图中全部极大团的并行挖掘算法研究[J].计算机学报.2019

论文知识图

3.5 线程推测执行事务内存堆栈架构图线程推测执行事务内存系统应用执行时...数据处理过程利用Web Service构建一个并行挖掘一2关联规则并行挖掘系统流程4-4并行挖掘4.2算法描述...

标签:;  ;  ;  ;  ;  ;  ;  

并行挖掘论文_赵宇海,印莹,李源,汪嗣尧,王国仁
下载Doc文档

猜你喜欢