海量数据挖掘技术研究

海量数据挖掘技术研究

米允龙, 米春桥, 刘文奇[1]2015年在《海量数据挖掘过程相关技术研究进展》文中研究说明随着信息技术的发展,复杂、多样的海量数据给数据挖掘带来了新的挑战。为了更加深入全面地了解大数据环境下的数据挖掘技术的研究进展和应用,从海量数据挖掘过程的技术框架、算法、理论及模式方面进行了详细的阐述。概述了大数据的基本概念、处理流程及面临的问题,简述了数据挖掘的基本过程及相关算法,详细评述了海量数据挖掘过程的研究现状及面临的挑战,并从博弈论的角度、粒计算模型及大数据处理思维方面探讨了海量数据挖掘过程中的处理模式。

罗启福[2]2013年在《基于云计算的DBSCAN算法研究》文中研究表明随着计算机应用的普及和网络技术的快速发展,数据的存储量急剧增加,如何有效地利用海量的历史数据分析现状和预测趋势,已经成为各行业面临的关键挑战。解决这一问题的努力促使数据挖掘技术的产生和发展,目前,数据挖掘技术已被广泛运用,它在零售业、金融业、电信业、生物医学及天文学等领域都有很多应用。聚类分析技术作为其重要组成部分,已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类分析中的DBSCAN算法由于具有能在含有噪声的数据空间中发现任意形状的簇的能力,得到了广泛的应用,已经成为数据挖掘研究领域中非常活跃的一个研究课题。云计算是目前国内外研究的热点,它是当前多种高性能的计算模式的发展,是一种通过网络以服务的方式提供动态可伸缩的虚拟化的资源的计算模式。人们可以通过网络在云计算平台上获得可动态扩展的计算和存储能力,具有在降低终端设备要求的同时提高数据处理效率的能力,可以有效地解决处理海量数据时所面临的问题。本论文以实习时参与的项目为基础,分析和研究了云计算技术和海量数据挖掘的相关技术,并重点研究了基于密度的DBSCAN聚类算法。论文针对DBSCAN聚类算法的缺点,结合项目中充电站数据的特点,提出了一种新的算法,这个算法就是基于网格控制因子的DBSCAN聚类算法,它是以项目中所用的固定网格大小的DBSCAN算法为基础的,通过一个叫做网格控制因子的值来微调网格的大小,从而找到一个使聚类精度最好的最佳网格大小。论文用充电站数据证明了其聚类精度得到了有效的改进,同样具有有效降低时间复杂度的优点。本论文要解决的第二个重要问题就是对改进的算法做并行化处理,然后在云计算平台上实现。要对海量数据集进行聚类分析,就必须保证系统能维持在一个稳定、高效的环境。论文设计了基于Hadoop的并行化算法,在搭建了简单的Hadoop环境后,通过在MapReduce框架下对DBSCAN聚类算法进行封装,大大提高了算法的运行效率。最后利用复制的大规模充电站数据对基于云计算的改进算法进行了验证,实验结果表明,基于云计算的DBSCAN算法在不降低DBSCAN聚类质量的前提下,提高了DBSCAN算法处理大规模数据集的效率。

崔辰[3]2019年在《云计算技术下海量数据挖掘的实现机制》文中进行了进一步梳理随着移动互联网不断发展,信息量不断增加,利用数据挖掘技术从海量数据中实现对个人、企业有意义的信息挖掘具有重要的现实意义。因为传统的数据处理及分析的能力有限,云计算出现对数据挖掘技术提供了全新的思路。如何快速有效地在海量数据中充分挖掘具有价值的信息,属于现代社会各界关注的主要问题。基于云计算大数据挖掘技术能够实现资源配置及使用最优化,具有实用性及虚拟性的特点,满足数据挖掘精准、快速的需求。基于此,提出了云计算技术中的海量数据挖掘体系,有效实现海量数据的挖掘,提高数据挖掘精准度,降低挖掘成本。

黄嘉发[4]2017年在《基于数据挖掘的销售预警模型分析与研究》文中研究指明随着我国宏观经济进入“新常态”,许多企业面临更为激烈的市场竞争,销售风险的随机性、破坏性显着加大,企业需要尽量快速、准确地获取预警信息,进而采取针对性措施。为此,本文提出了基于海量市场数据的采集、处理和分析系统架构,采集了全国市场数据,包括批发和零售数据、品牌信息、客户基础数据等,完成对市场数据的存储、加工处理以及挖掘分析。在此基础上,针对企业销售预警实际需求,构建基于海量数据的企业销售预警模型,对企业潜在的销售风险进行预警分析,并提出针对性策略实施,具体研究内容如下:1)多途径市场感知信息采集,借助市场走访,终端实时采集,系统录入等方式进行企业大规模数据信息的采集,对采集后的海量数据进行清洗,加工,规范化,通过实际数据需求建立不同的数据降维模型,对数据进行加工处理,引入关系型数据库与Hadoop技术协同工作机制来处理海量基础数据,实现企业数据体系架构,数据同步共享,业务数据展现等。2)针对企业销售预警业务需求研究供求预警模型,提出存销比与投放预警模型,监控市场产品投放与库存风险,预先对存销情况进行预测与预警分析,从企业到市场层面把控销售预警,并在此基础上提出构建基于决策树算法与k-means算法的预警知识库,从预警知识规则的装载与匹配上支持预警决策。3)研究价格预警模型。从市场层面扩充企业销售预警模型,提出基于改进灰狼优化算法的Holt-Winters价格预警模型,对企业产品的市场价格异常波动与特殊状态进行预警分析,并使用价格预警模型分析结果对供求模型进行模型参数修正与警情辅助分析。4)研究客户流失预警模型。从客户层面扩充企业销售预警模型,在整体上实现了对企业销售预警基于企业、市场、客户角度串行分析,提出基于改进PSO-BP神经网络的客户流失预警模型,对企业客户流失进行预警分析,降低企业客户流失,使企业销售实现可持续性,并在上述预警模型基础上利用客户流失预警分析结果对供求模型预测效果进行修正。5)基于上述研究成果,搭建企业销售预警集成平台,从企业实际需求出发,将包含价格预警、存销比与投放预警、客户流失预警的销售预警体系在预警平台上实现并在企业中应用,对企业潜在异常状态开展实时预警。

何超[5]2014年在《基于数据挖掘的企业竞争情报智能分析研究》文中研究表明随着知识经济时代的来临和经济全球化、信息化、网络化的快速深入,市场竞争日益激烈,企业间的对抗不断升级,影响企业经营活动的内外部因素更加难以预测。因此,企业要在如此残酷的竞争环境中求生存、谋发展,除了增大资金、技术、人才的投入以外,更重要的是面对激变的环境能够及时有效地做出正确的竞争策略。竞争情报作为知识经济时代企业保持竞争优势的战略资源和分析与预测行业发展态势、制定科学战略决策的依据,是被公认的除资本、技术、人才之外的企业“第四核心竞争力”。它是关于竞争对手、竞争环境以及由此引出的相应竞争策略的决策性知识,有助于帮助和支持企业组织成员评估关键发展趋势、跟踪正在出现的不连续性变化、把握行业结构的进化以及分析现有和潜在竞争对手的能力及动向,为企业保持和发展相对竞争优势提供强有力的智力支持和情报保障。基于数据挖掘的企业竞争情报智能分析吸收了情报学、商务智能、知识管理、现代竞争理论等学科的研究成果,并以众多高新信息处理技术为支撑,如本体工程、数据仓库、可视化技术等,为企业竞争情报的智能挖掘、分析、获取、创新及企业决策提供智力支持。本文的研究工作主要包括八章:第1章,本章主要介绍了企业竞争情报的基本概念、特征和功能,分析了当前知识经济环境下企业竞争情报分析的主要内容与分析方法,探讨了企业竞争情报的分析策略与价值增值过程,并给出了基于数据挖掘的企业竞争情报智能分析的优势。第2章,本章主要将数据挖掘技术融入企业竞争情报智能分析之中,构建了基于数据挖掘的企业竞争情报智能分析的体系框架,并从支撑理论与技术、智能分析策略与方法、智能分析结果可视化叁个层面对该体系框架进行了详细的阐述。第3章,本章主要是通过构建领域本体实现企业竞争情报源数据的语义组织,研究了企业领域本体的构建方法与实现,即综合应用知识工程与叙词表方法指导领域本体开发;复用Enterprise本体与TOVE本体的领域知识和概念模型构建领域本体框架,利用本体开发工具Protege对软件企业领域本体进行形式化编码,以便为后续的基于语义的数据挖掘与智能分析提供语义知识。第4章,本章主要从聚类挖掘的角度研究了企业竞争情报聚类分析的方法与算法,即针对传统的聚类挖掘方法与算法由于缺乏语义而导致聚类结果不理想等问题,通过利用领域本体提供语义知识进行语义层面的聚类挖掘,实现企业竞争情报语义聚类挖掘与分析;并以k-means算法为基础,设计了基于领域本体的k-means语义聚类挖掘算法Onto-kmeans,通过在WEKA上进行对比实验验证了该算法比传统的k-means算法有较大的优化。第5章,本章主要从分类挖掘的角度研究了企业竞争情报分类分析的方法与算法,即针对传统的分类挖掘方法与算法存在缺乏语义和需要大量人工标注等问题,通过利用通用本体与领域本体提供语义知识进行语义层面的分类挖掘,实现企业竞争情报语义分类挖掘与分析;设计了基于领域本体的语义分类挖掘算法Onto-TC,通过在WEKA上进行对比实验验证了该算法的有效性。第6章,本章主要从关联挖掘的角度研究了企业竞争情报关联分析的方法与算法,即针对传统的关联挖掘方法与算法由于缺乏语义而导致的I/O负载重、算法开销大、获取的规则概括性不强等问题,通过利用领域本体提供语义知识进行语义层面的关联挖掘,实现企业竞争情报语义关联挖掘与分析,并以Apriori算法为基础,设计了基于领域本体的语义关联挖掘算法Onto-Apriori,通过在WEKA上的对比实验验证了该算法比传统的Apriori算法有较大的优化。第7章,本章选择软件企业为实验对象,通过采集网络信息源作为实验数据,从中挖掘和分析影响软件企业竞争力的影响因素等情报内容。首先,通过语义聚类分析获取影响软件企业竞争力的八个主要因素;然后,以这些因素作为分类标准,利用语义分类分析进行两次分类分析,获取每个主要因素的具体影响要素;最后,通过语义关联分析获取这些主要要素和具体影响要素之间的语义关联,这些要素及其关联信息有助于软件企业核心竞争力的培育和市场风险的预测。第8章,本章对全文的主要内容进行了系统总结归纳以及对未来研究进行了展望。首先,从研究意义、研究内容上对全文进行总结,然后展望基于数据挖掘的企业竞争情报智能分析今后的研究方向,包括复杂数据类型的情报挖掘与分析、可视化情报挖掘与分析、动态情报挖掘与分析、以知识为中心的大数据挖掘与分析等。本文系2012年度教育部博士研究生学术新人奖项目“基于数据挖掘的商务情报分析方法研究”(项目批准号:5052012104001)、国家自然科学基金项目“企业竞争情报分析模型与方法研究”(项目批准号:71073121)和教育部人文社科重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”(项目批准号:08JJD870225)资助的研究成果之一。

渠文龙[6]2014年在《基于Hadoop的海量网络流量日志处理技术研究与实现》文中认为伴随着网络的高速发展,大数据时代的降临,海量网络流量数据的处理需求也应运而生。为满足海量网络流量数据的处理需求,对网络流量进行有效、深入地分析,实现对网络流量有力监管,需要针对骨干网进行网络流量日志的高效采集然后再对网络流量日志进行高效地分析处理。对网络流量日志的多维度统计分析,可以深入了解网络的运行及使用状况,以调整策略提高网络质量;对网络流量日志的深入挖掘分析,可以发掘用户上网特点及偏好,可以深入了解用户需求,以高效服务提高用户满意度。因此,该课题研究了网络流量日志的处理技术,并最终实现了基于Hadoop的HAMANT海量网络流量日志分析系统(由关键英文单词首字母缩写而成)。本文首先介绍了课题背景与意义,日志处理技术现状,另概述了与课题相关的一些关键技术,包括大数据、DPI、Hadoop、Hbase、数据挖掘等。随后依据课题需要,结合应用场景对海量网络流量日志处理技术进行了需求及功能分析,给出了HAMANT日志分析系统的整体框架,并给出了其中日志采集、日志预处理、日志存储、日志统计分析、日志挖掘分析、报表展示等模块的详细设计。最后,进行了该系统各项性能测试,并结合对某重点高校骨干网的海量网络流量的处理进行了效果展示,证明了本系统对于海量网络流量日志的处理能够达到较好效果,而且还具有一定可扩展性。本课题对于网络流量日志技术进行了较为深入地探究,并最终设计出基于Hadoop的HAMANT日志分析系统。该系统对网络流量日志采集加入了DPI协议识别引擎,使网络流量日志采集丰富而高效;日志存储、处理部分采用分布式处理,支持自动备份、容错,克服了传统的日志单机处理计算速度慢、存储空间不足、服务器压力较大的问题;将数据挖掘中的聚类算法进行了分布式实现并加入系统,实现了对于海量网络流量日志的深度分析,能发掘大量网络用户背后所隐藏的上网行为偏好。最后给出了系统性能测试及实际应用实验分析。

闫茜[7]2014年在《海量医疗数据挖掘平台的研究与设计》文中指出随着医疗信息化的快速发展,传统的医院数字化信息系统及电子健康档案系统已远远不能满足海量医疗数据的存储处理、分析挖掘以及多元化医疗数据服务等方面的要求。海量医疗数据经过生成及采集后,如何将异构、海量、实时、多样的数据进行高效存储,以实现大规模复杂健康数据查询的快速和准确响应;如何通过数据挖掘手段,对海量医疗数据进行深度分析,快速有效为用户提供有价值的医疗数据服务,达到未病先防的效果,成为大数据时代医疗领域需要解决的问题。本文基于海量医疗数据的特点,以及现有海量医疗数据挖掘应用服务的不足,提出了海量医疗数据挖掘平台的设计,其中包括海量医疗数据挖掘平台模型构建,医疗数据的快速统计查询方法设计,以及医疗数据的关联性挖掘服务。具体的研究内容如下:(1)针对数据统计及基于数据统计的数据挖掘等海量医疗数据服务的快速查询响应要求,提出一种用于数据处理的基于统计树和增量计算的海量医疗数据快速统计查询方法,优化存储模型,提升查询效率,高效的支持健康状况推理等基于数据统计的医疗服务。(2)针对海量医疗数据的特点以及医疗服务要求,综合数据挖掘平台的设计原则,海量医疗数据的存储策略及海量医疗数据的处理流程等,提出了海量医疗数据挖掘平台模型。此模型具备灵活性、重用性及可扩展性的特点。(3)针对个性化的健康照护计划以及疾病并发预测的需求,提出了医疗数据的关联性挖掘算法,包括基于贝叶斯网络的健康状况推理服务实现和基于关联规则的疾病并发预测服务,应用拓展可以向个人用户提供疾病预警及防范建议,同时可用于对医疗机构作为临床决策的辅助及疾病并发的分析研究。本文在所设计构建的海量医疗数据挖掘平台上,将海量、多样的医疗数据进行高效存储,实现大规模复杂健康数据查询的快速和准确响应;通过对现有数据集的分析挖掘,研究病人的各种检查结果和身体状况与个体所得病症的相关性,以及疾病与疾病之间的关联性,利用所得的相关性为病人提供健康状况的推理服务。

柴化磊[8]2013年在《分布式环境下基于文本的海量数据挖掘》文中研究说明数据挖掘一直以来都是计算机领域的一个研究热点。近年来,随着Web2.0应用的普及和云计算的发展,互联网已经进入了大数据时代,数据的产生、传输、存储、访问和处理方式产生了明显的变化。传统的数据挖掘方法在数据源异构、数据规模急剧膨胀的大数据时代,正面临严峻的挑战。本文提出了一套完整的分布式环境下基于文本的数据挖掘方法,实现了海量文本数据从数据抽取、预处理、搭建数据仓库到数据挖掘的全过程,并将该方法应用于解决微博用户推荐问题进行验证,取得良好效果。广义的数据挖掘工作通常包含两个部分,搭建数据仓库和进行数据挖掘。数据挖掘的对象通常是来自多个异构数据源的大规模数据,从数据一致性、访问效率等因素考虑,需要有一个统一的管理系统对数据进行集成、维护,即数据仓库。数据仓库的搭建包含了数据的抽取、转换和加载,即ETL过程。传统的数据仓库设计是基于RDBMS设计思想的,需要整合所有数据源的数据类型和数据结构,设计一个统一的模式(Schema),包括表结构和外键等。这样做的优势在于可以保证数据的ACID性质。但是在大数据背景下,数据源复杂,异构性强、数据规模扩展迅速,从而对基于RDBMS数据仓库的可扩展性、灵活性以及效率提出了新的挑战。在完成数据仓库搭建的基础上,传统的数据挖掘已经形成了一整套较为成熟的算法体系,典型的算法包括分类、聚类、关联、预测等,此外还与其他学科交叉产生了包括机器学习、神经网络等技术。这些数据挖掘技术应用场景具备一些鲜明的特点:数据一次写入,频繁读,运算密集,而数据更新操作较少。针对这些特点,基于RDBMS设计方法保证的ACID性质的优势不仅得不到充分体现,反而成为了性能上的制约。针对以上问题,本文提出了一套分布式环境下,基于文本的数据仓库搭建与数据挖掘的方案。首先,在数据仓库搭建方面,本文提出一种在分布式环境下快速搭建数据仓库的方法,利用MapReduce完成整个ETL过程;同时摒弃了RDBMS而使用NoSQL数据库集群作为数据仓库的基础,从而保证了系统的可扩展性和运行效率。其次,借鉴搜索引擎的思想,提出一种MongoDB+Lucene+MapReduce的针对文本数据的数据挖掘解决方案,通过并行访问,提高对分布式环境下海量文本数据的访问效率;采用计算TFIDF值评估文本信息量,而非传统的词法、语法分析。最后,应用这一整套方法,解决了一个具有Web2.0特征的数据挖掘问题:微博的用户推荐问题,从而验证了这一方法的可行性,并取得良好效果。

张伟[9]2014年在《智慧城市建设中的关键技术应用研究》文中研究表明城市是人类文明发展的标志,城市在国家和地区中发挥着政治、经济、文化的中心作用,为人类提供了生存繁衍、社会交往、经济发展和文化享受等职能,而智慧城市将在这些方面为人类提供更加科学、智能的应用服务。城市发展到今天已经步入了智能化时代,物联网、并行计算等新一代信息技术的快速发展对智慧城市建设起到了综合集成和高效共享的作用,实现了人类与信息的实时互动智能模式。我国的智慧城市建设方兴未艾,需要抓住经济转型的大好发展机遇快速稳步推进,研究和应用智慧城市建设中的关键技术有很强的现实意义。智慧城市建设涉及的技术有很多,本文首先对智慧城市建设中的并行计算、数据挖掘等关键技术进行了简单的介绍。其次,目前多传感器采集技术快速发展、物联网应用广泛,信息数量暴增,增加了空间维度的地理信息数据量尤其庞大,如何快速处理这些数据,成为摆在我们面前的现实问题,本文介绍了“像素工厂”系统,对其硬件架构和软件组成进行了详细的分析,运用“像素工厂”系统处理了某测区ADS数据,分析了其处理流程,并对智慧城市建设中的集群计算等海量数据快速处理技术进行了应用研究,最后探讨了数据存储平台开发和智慧城市中的地理信息数据挖掘。通过对智慧城市中的关键技术应用研究,总结出集群计算等并行计算技术在地理信息数据处理中的优势:多传感器兼容性良好,集群计算能力、自动处理能力和存储能力强大,开放式的体系结构。智慧城市建设中的数据存储和挖掘技术应该在数据建设的同时大力发展,匹配地理信息数据的不断增长,使得大数据变成为人类服务的有力工具。智慧城市的发展必将带来新的机遇和挑战,需要加快相关大数据的技术创新和成果应用,为人类提供更智能服务的同时让城市更加低碳、环保、可持续发展。

吕诚[10]2013年在《手机上网用户行为分析的关键技术研究与应用》文中研究说明随着移动网络的发展、智能上网手机的普及以及海量数据处理技术的进步,针对手机上网用户的行为分析显得愈加重要。手机用户通过网络访问产生大量的用户行为数据,监控采集并分析这些数据对于运营商来说具有重要的意义,可以根据分析或挖掘的结果发现用户行为模式,提前对行为趋势做出判断,从而提高自身的服务水平,达到更高的用户满意度。本文在基于移动流量监控的业务下,设计手机上网用户行为分析系统。系统设计了用户行为数据库,对手机上网行为数据进行统计和维度分析,并通过报表和页面形式展示,统计分析主要对报表分析和流量分析进行研究。重点是根据关联规则分析得到用户行为模式,再根据评价标准,找到真正有意义和感兴趣的模式,建立用户行为模式库。手机上网用户行为分析系统采用数据挖掘技术和海量数据处理Hadoop技术。本文对聚类K-Means算法进行研究并验证,对常见的关联规则算法进行对比研究,并选取FP_Growth算法应用在用户行为分析上。针对基于Hadoop平台的并行化PFP_Growth算法提出改进策略,节省了时间和空间开销。用户行为的海量数据分析和处理利用Hadoop分布式计算平台的相关技术和工具完成的。本文对其核心技术MapReduce进行研究和应用,利用Hadoop的数据仓库工具Hive建立数据分析模型。经实验验证,这些技术能够很好的满足手机上网用户行为分析的需要。

参考文献:

[1]. 海量数据挖掘过程相关技术研究进展[J]. 米允龙, 米春桥, 刘文奇. 计算机科学与探索. 2015

[2]. 基于云计算的DBSCAN算法研究[D]. 罗启福. 武汉理工大学. 2013

[3]. 云计算技术下海量数据挖掘的实现机制[J]. 崔辰. 微型电脑应用. 2019

[4]. 基于数据挖掘的销售预警模型分析与研究[D]. 黄嘉发. 浙江理工大学. 2017

[5]. 基于数据挖掘的企业竞争情报智能分析研究[D]. 何超. 武汉大学. 2014

[6]. 基于Hadoop的海量网络流量日志处理技术研究与实现[D]. 渠文龙. 北京邮电大学. 2014

[7]. 海量医疗数据挖掘平台的研究与设计[D]. 闫茜. 武汉理工大学. 2014

[8]. 分布式环境下基于文本的海量数据挖掘[D]. 柴化磊. 上海交通大学. 2013

[9]. 智慧城市建设中的关键技术应用研究[D]. 张伟. 长安大学. 2014

[10]. 手机上网用户行为分析的关键技术研究与应用[D]. 吕诚. 北京交通大学. 2013

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

海量数据挖掘技术研究
下载Doc文档

猜你喜欢