XML与数据清洗的研究

XML与数据清洗的研究

邱英[1]2008年在《基于XML的Web数据存储与数据清洗技术研究与实现》文中研究表明随着互联网的快速发展,因特网大大地改变着人类的生活方式和商业模式,Web资源浩瀚如海而且廉价,使得越来越多的公司、机构以及组织希望从中挖掘出有价值的商用信息以应用于决策支持。然而数据挖掘、数据仓库的数据源往往来自于结构化的数据,如关系数据库等,数据需求的迫切与数据格式定义的不一致性,使得将Web信息转换成关系数据库的数据,并对转换后的数据进行处理,为决策支持提供高质量的数据显得尤其重要。本文主要对Web数据存储和数据清洗技术进行了深入的学习和探讨,并利用数据清洗技术解决存储过程中因Web信息重复产生的数据冗余问题,本文主要的工作内容如下:1.在介绍XML和分析Web信息显示特点的基础上,探讨了XML作为Web信息与关系数据库转换中介的优势,在对XML与关系数据库相互映射规则研究的基础之上,构造了一个以XML为转换中介将Web数据存储到关系数据库,并将数据清洗技术应用于数据库的重复记录清洗的模型框架,同时将该模型框架应用于Web教学资源信息的存储与清洗,来验证其有效性和实用性。2.深入学习和探讨了相似重复记录检测中的字段匹配算法,如基本字段匹配算法、Smith-Waterman(S-W)算法以及基于编辑距离的字段匹配算法。在分析字段匹配算法对于中文字段匹配的不足和重复字段特征的基础上,提出了基于字段关键字匹配优化方案,使得相似重复记录的召回率R(Recall)和查准率P(Precision)都能得到较好的满足。3.由于本文提出了基于字段关键字匹配的算法改进,所以本文对关键字的提取技术进行了研究,本文着重对基于词共现模型的自动摘要的关键字提取算法进行了深入的探讨,并对关键字的特性进行了分析,提出了基于关键字特性的改进算法,并通过实验验证了改进的可行性。4.在将XML数据转换成关系数据库记录之前,将改进的关键字提取算法与DOM结合,提取XML文档节点的关键字,将提取到的关键字作为该节点的子节点回写XML,为数据清洗时采用基于字段关键字匹配的优化算法奠定基础。

李明[2]2008年在《数据清洗技术在文本挖掘中的应用》文中认为目前,对于Web文本挖掘的研究主要还是利用相关特征值进行相关领域信息进行筛选,而无法识别部分信息中明显存在错误的信息或者明显和研究者不相关的信息。本文主要研究的是建立全新的面向XML的Web文本挖掘模型,采取数据清洗技术,就XML数据的模式级和实例级两大种类的数据质量问题来进行深层次挖掘,研究了一种新的算法用以提高文本挖掘的手段和能力,实现对Web页面文本进行有效和快速的挖掘。最后中利用Web的文本资料进行实验,证明该算法在文本挖掘中的可行性和有效性。全文共分四部分。第一部分:绪论。引入问题,介绍国内外文本挖掘和数据清洗方面的研究现状以及目前存在的问题;第二部分数据清洗与文本挖掘基本理论研究。首先,介绍了数据质量的概念和分类,并对数据清洗的基本理论做了详细的阐释。而后,简要介绍了文本挖掘的基础知识及一些相关技术规范,为后续章节打下理论基础。第叁部分面向数据清洗文本挖掘方法的研究。并在结构化数据清洗研究的基础上,研究了专门针对半结构化数据的数据清洗方法,并对基于Web的文本资料中的相似重复数据进行数据清洗实现;第四部分结论与展望。总结了本文所做的工作以及对以后的研究做一些展望。

刘波[3]2008年在《XML数据智能管理若干关键技术研究》文中进行了进一步梳理随着海量XML数据的涌现与传递,XML已成为互联网上信息表示和数据交换的一个重要标准,继而产生了对XML数据管理的需求,如何有效地表示、查询与挖掘这些XML数据已经成为当前XML数据管理领域遇到的一个重要挑战。针对目前XML数据管理研究现状中存在的问题与不足,本文研究了XML数据模型、群体智能、模式识别、神经网络、数据挖掘与智能计算等原理与方法,在原型系统XBASE上提出了一系列基于XML键的数据清洗、查询、数据挖掘等新的智能管理方法,同时探讨了XML重构的有效途径等问题。本文围绕XML数据的查询与数据挖掘等智能管理问题展开研究,研究内容和取得的成果主要体现在以下四方面:1.XML数据管理框架—XPDM的建立现有的XML数据模型存在着四个问题影响了XML数据的有效管理,即:(1)数据的异构:给多数据源集成带来许多困难,影响了信息查询的有效性;(2)数据的非一致性:由于数据约束的不完整性,常导致数据前后不一致,影响数据查询的准确性;(3)多数据源之间数据依赖关系的不确定性:影响数据之间的归并与查询;(4)语义标准的规范:由于XML正处于发展之中,许多规范还不完善,往往导致了查询语句的繁琐与混乱。针对以上问题,本文提出了一种以XML键构建的向量空间模型为基础、利用概率理论进行操作的海量XML数据管理框架—XPDM。该框架通过对XQuery 1.0和XPath 2.0数据模型XDM进行语义规范新扩充及XML数据矢量转换,较好地解决了以上四个问题。2.数据智能清洗与查询策略为了解决XML文档中的“脏数据”问题,通过引入XML键组合及XML向量模型,利用贝叶斯学习方法与马尔可夫链概率转移策略建立XML数据清洗过程的元数据模型,利用XML树相似性判定算法,提出了一种智能清洗XML数据的新方法,通过相应规则库的预定义完成XML数据的清洗;另外为了解决XML数据清洗检测繁锁及灵活性差的问题,提出了通过合理组合XML键、融入粒子群算法、结合隐马尔可夫模型信息抽取策略构建XML数据清洗优化算法;为了提高XML数据查询的智能性与有效性,通过采用启发式方法,结合XML半结构化的特点,将粒子算法与蚁群算法融入到海量XML数据概率查询上,并进行相应改进,实现了数据查询范围的并行处理能力与收敛效率的提高。3.XML数据智能挖掘策略互联网上已聚集了海量的XML数据,为了有效地对XML数据进行挖掘,本文从以下几个方面进行研究:(1)为了提高海量XML文档集的聚类质量,分别以粒子群算法与矩阵迭代自组织算法为基础,提出了基于粒子群的XML自适应混沌聚类算法和基于向量空间模型的矩阵迭代自组织XML辅助聚类算法;(2)为了提高海量XML文档集的并行处理能力,根据混沌原理,融入蚁群聚类算法,通过定义相应混沌适应度函数衡量蚂蚁与其邻域的相似程度,提出了一种基于混沌原理与蚁群聚类模型的XML分片算法;(3)针对XML数据的流动性和无限性等特点及质量检测存在的不足,提出构建XML键的矢量矩阵作为窗口,利用矢量积小波变换多级分解与重构,再结合最小二乘支持向量机构建双滑动窗口进行XML数据自适应监测算法,满足对XML数据进行网络传递的质量管理要求。4.XML智能重构策略为了更好地优化XML的语义规范,解决随着用户需求的变化以及时间的推移、XML数据结构也会发生变化这一问题,对XML重构进行了探测性研究。在XML文档片段重构的基础上,利用XML语义约束关系及XML路径层次性,再结合向量机原理与频繁模式的特点,提出了XML频繁模式树XFP-tree算法进行XML结构重构策略,有助于进一步保证XML的质量。

赵鹏[4]2009年在《基于软件总线模型的数据清洗系统的研究与实现》文中研究说明随着信息技术的飞速发展,获取数据手段也更加多样化,人们现在所拥有的数据资源日益丰富,数据量急剧增加。但是海量的数据并不一定真正具有价值,数据的价值在于它的质量,基于劣质数据的决策是不可信的。基于数据所做的进一步挖掘和决策与数据质量直接相关。但是面对数量巨大而零乱的数据人工处理是非常困难的,数据质量问题成为制约数据应用和数据挖掘的“瓶颈”之一。纠正数据错误是避免错误决策、降低决策风险,改善数据挖掘效果的重要环节,数据清洗就是用来完成这项艰巨任务的。本文在现有的数据清洗方法基础上,从满足现代软件工程理念的角度出发,尝试性地设计并实现了一种基于软件总线模型的数据清洗系统,将具体的数据清洗方法以组件的形式集成到系统中来,并能够适用于对多种异构数据源的数据清洗。系统具有很好的可复用性和可扩展性。本文完成的主要工作内容如下:①分析了本文的相关研究背景,数据清洗的相关知识以及现阶段国内外数据清洗研究现状,介绍国内外现有的数据清洗方法和数据清洗产品。②分析了XML用于系统集成和数据载体的优势,比较XML有效性验证方式以及文档解析方法;介绍了数据库访问ADO.NET技术,分析ADO.NET的结构和不同数据读取方式的特点;介绍中文信息处理中的中文分词技术,分析比较叁种主要中文分词方法的效果。③研究了在系统中涉及到的关键技术。首先,分析了软件总线模型的结构特点,研究了软件总线中组件管理方式和总线控制方法。其次,研究了对数据清洗任务分解的方法,分析了多线程并发技术,并将其用于对数据清洗任务并发执行,通过实验验证其效果;最后,研究了中文地址数据清洗方法,结合中文地址的特点,提出一种基于分级树的中文地址规范化方法,并通过实验对其效果进行比较。④设计并实现了基于软件总线模型的数据清洗系统。首先对系统整体描述,其次对于系统整个结构进行分析设计,对系统按照功能结构分为数据清洗总线,数据源包装器,数据清洗组件和组件适配器等模块,然后分别对每个模块进行设计和实现,最后对系统运行结果展示。

金煌[5]2004年在《XML与数据清洗的研究》文中提出数据清洗(Data cleaning),是用来提高数据质量的方法。和大多数公司一样,正虹公司的信息化要求越来越迫切,其中一个很重要的方面就是企业数据的质量管理。为了支持正确决策,就要求所管理的数据可靠,没有错误,准确地反映企业的实际情况。因此,公司数据质量的管理正在获得越来越多的关注。随着 Web的发展,公司的业务部分在 Web 上实现,因此 Web 数据清洗的重要性逐渐为人们所认识,本文主要从 Web 数据清洗的角度加以探讨数据质量管理的问题。本文由绪论,数据清洗理论,XML 在数据清洗上的应用,正虹 Web 系统数据清洗的设计和正虹 Web 系统数据清洗实践,总结与展望六个部分组成。本文主要做了以下的几点工作:系统性地概述了数据清洗的实施流程及理论;分析了 XML 语言在数据清洗上的应用优势;结合 XML 技术提出了一种在 Web 系统上进行数据清洗的框架;讨论距离函数在记录匹配上的应用;在前面工作基础上对正虹 Web 系统数据进行了试验性清洗。数据清洗是一个领域相关性非常强的工作,国内外的研究人员始终没有提出一个通用的自动化的数据清洗框架,所有关于该领域的研究都是针对特定领域数据的,通用的清理方案会受到越来越多的重视。而对于 Web 数据清洗,国外又提出了 XML 键的概念,完全有理由相信它们可以促进针对 XML 数据的清洗,正如关系表的键在数据集成中扮演了特殊的角色一样。

麻亮[6]2008年在《信息集成系统中查询结果合成研究》文中指出随着网络和分布式技术的发展和普及,大量的异构数据源应运而生。为了更好地利用这些资源人们迫切需要解决这些异构数据源的集成问题。目前异构信息集成已经成为了信息领域的一个研究热点。查询结果合成是异构信息集成系统中重要的组成模块,其功能是将来自分布式数据源的查询结果合成为一个统一的查询结果。由于分布式数据源的自治性和异构性,直接从数据源抽取的查询结果中存在着大量的数据质量问题和语义异构性问题,这使得查询结果合成工作变得困难和复杂。本文介绍了查询结果合成的相关概念,对查询结果合成面临的数据质量、语义异构和查询结果分布模式等问题进行了深入分析,并在此基础上设计了IIS信息集成系统中的查询结果合成框架。本文中设计的查询结果合成框架主要实现了以下功能模块:查询结果清洗模块,对查询结果中存在的数据质量问题进行处理;查询结果规格化模块,把具有局部数据源模式结构的查询结果转换成全局模式下的标准化结果片断;查询结果合成模块,采用一定的合成策略和算法把标准化的结果片断融合成为集成的查询结果。

董克[7]2014年在《数字文献资源多元深度聚合研究》文中认为图书馆是社会文化公共基础设施的重要组成部分之一,在社会文化事业发展中将起到十分重要的积极作用。无论是图书情报学的理论研究还是现实的图书馆事业,均越来越强调实现知识服务的重要性。深化图书馆知识服务能力,提升图书馆知识服务水平已经成为当前亟需解决的问题;此外,随着科学发展所累积的数字文献资源规模越来越庞大,如何高效利用这些数字文献资源也逐渐成为提升知识服务能力的重要研究命题。本文的选题“数字文献资源多元深度聚合研究”正是在这样的大背景下提出来的。本研究综合运用语义挖掘、自然语言处理、信息计量、网络结构分析等多学科交叉的方法,创新地提出数字文献资源多元深度聚合理论是衔接信息计量与信息检索的重要桥梁,并在此基础上构建了数字文献资源多元深度聚合理论体系,从多个方面论述了其多元性特征和深度特性;进一步明确了多元深度聚合的技术流程和方法,通过两类典型的数字文献资源特征项关联网络论证了该方法体系的实用性和可操作性。本研究力求从新的途径来实现数字文献资源语义揭示与深度聚合,改进图书馆服务方式,提升服务效率和水平,为数字图书馆的建设和多学科交叉的方法体系提供有益的探索成果。本文坚持“理论结合实践,用实践验证理论”的思想,从理论基础研究,理论体系研究,核心技术流程,典型聚合方式实证等多角度系统化进行数字文献资源多元深度聚合研究。论文第0章引言论述了选题背景、研究意义、国内外研究现状、技术路线与目标,第六章为研究总结和展望;其余核心部分包括如下五章:第一章是数字文献资源多元深度聚合的理论基础研究,目的在于明确问题来源和理论定位。首先对数字文献资源的概念和构成要素进行分析;进一步阐述了作为聚合前阶段的数字资源整合的主要内容以及与聚合的关联;论述了当前研究中与数字资源聚合最相关的领域-信息检索的基本思想及其与聚合的关联;分析了信息计量学中的集中与离散分布现象,说明这是能够实施聚合的基础,在此基础上将数字文献资源多元深度聚合定位为衔接信息计量学和信息检索的纽带。第二章是数字文献资源多元深度聚合的内涵和理论框架研究。多元深度聚合是用户和以资源集合为表现形式的知识世界的交互过程;数字文献多元深度聚合的理论模型包括聚合的对象类型、关联网络、测度方法和聚合目的等四个要素,这些要素所具有的多元性特征反映了数字文献资源聚合的多元性。从基于元数据的聚合、基于计量的聚合到基于语义的聚合是一个不断深化的过程,其中包含了多粒度的层次,不同对象的聚合重点也是体现聚合深度特性的一个重要内容。理论框架的建立为进一步明确技术流程提供了基础。第叁章是数字文献资源多元深度聚合的技术体系研究。首先构建了多元深度聚合的通用流程框架,进一步将之归纳为叁个核心技术问题,即聚合对象的重要性评价、资源聚合的获取、资源聚合的语义揭示。对比了局部重要性和全局重要性指标,分析了全局重要性评价的优点。针对基于节点和基于聚类的两类现有方法,创新地提出了相对重要性聚合方法。归纳了从词频,共现再到主题模型的语义发现路径,总结了主题语义挖掘的灵活性和可操作性。第四章是引文网络中核心资源多元深度聚合的实现。引文网络是特征项关联网络中有向-二值网络最典型的代表。本章系统分析了传统引文网络中的重要性评价单一、结构分析粒度过大的问题,并提出改进指标和方法,将多元深度聚合技术流程应用于XML研究论文的引文网络中,发现相对值聚合方法能够揭示网络中最具层次丰富性的核心资源聚合。结合主题语义分析,能够实现聚合中所包含语义内容的深度揭示。基于引文网络的资源深度聚合结果是本文所构建的理论和方法体系有效性的重要体现。第五章是作者知识关联网络多元深度聚合实现。作者关联网络的类型最丰富,明确作者复合关联网络的聚合流程也就解决了其他多种特征项的聚合问题。本章详细描述了作者数据的着录问题和清洗策略,构建了作者合作、互引、共被引、基于文献的耦合、基于关键词的耦合和基于出版物的耦合等六种关联网络,对网络间的关联性进行分析,为各种共现网络分析方法的结合使用提供更多的支持。利用加入作者的语义主题模型挖掘出作者的主题语义分布,发现作者合作网络、共被引网络、基于文献的耦合网络的聚合均有其独特之处,而互引、基于关键词的耦合、基于出版物的耦合则有许多使用上的限制条件。基于作者关联网络的资源深度聚合能够为满足用户知识需求提供更多角度的支持。

梁文斌[8]2005年在《数据清洗技术的研究及其应用》文中研究指明为了从业务系统积累的越来越多的事务数据中提取有用的信息,解决日趋加剧的数据丰富而信息贫乏的矛盾,数据仓库应运而生。而在数据仓库的构建过程中,数据质量是影响数据仓库成功与否进而影响到决策支持及趋势分析的重要因素。数据仓库频繁地从各式各样的源数据中装载和刷新,这些数据中不可避免地存在很多异常,这就要求数据进入数据仓库之前必须进行清洗。本文首先论述了数据质量的相关理论及其定义,进而分析了进入数据仓库之前进行数据清洗的必要性以及主要的数据清洗过程,同时阐述了当前数据清洗的各种理论框架及其应用的发展现状。然后,针对已有系统的不足,提出了一个数据清洗的框架模型及其部分实现。本文的重点是对可扩展可定制数据清洗框架的研究与设计。此框架集数据清洗/迁移为一体,使用基于XML 的过程描述语言对每个清洗过程进行定义,并利用元数据管理中心对清洗所需要的所有元数据进行统一存取。同时使用JAVA 与XML 进行开发,大大提高了其跨平台运行的能力,并可作为组件方便地集成到其他应用系统中去以实现数据清洗功能。文章最后也提出了系统存在的不足之处及今后需要研究改进的地方。

张春燕[9]2011年在《XML数据交换技术在网上商城中的应用》文中研究说明网上商城系统的开发需要多个部门业务系统中的业务数据协同处理才能完成,而这些业务数据因在不同时期、利用不同的工具在不同的开发平台和使用不同的数据库造成了异构数据。异构数据在协同处理、共享等方面存在一定的困难;尽管数据交换技术的研究取得重要进展,但是XML显着的优势可以实现不同系统之间不同结构和格式的数据的交换。因此,对基于XML数据交换技术在网上商城系统中的应用展开深入研究,具有理论与现实意义。本文概述了国内外XML数据交换技术的研究现状,讨论了XML技术的产生和发展,分析了现有网上商城系统在异构系统间数据交换方面存在的一些缺陷,在这个基础上设计了一个基于XML数据交换的网上商城系统,提出了基于XML的数据交换模型,采用SOAP协议实现数据传输,提出叁层B/S模型和J2EE技术实现数据交换;最后针对异构数据系统数据交换产生的一些“脏数据”采用基于XML的数据清洗技术,通过Web数据元素化,Web数据标准化、Web数据的映射叁步完成数据清洗,提高数据信息质量。本文设计的基于XML数据交换的网上商城主要由前台功能、后台管理、数据处理中心这叁部分组成,前台主要是网上商城供应商和零售商等面向用户的购物、提交订单等操作;后台管理主要是完成管理员对订单、商品信息、人员进行管理等操作;数据处理中心包括数据传输和数据交换两部分,主要完成实现异构系统之间的数据交换。本文基于XML数据交换技术在网上商城中应用研究给实际业务数据协同处理方面带来诸多方便,减少了人工干预,提高了工作效率。

韩剑峰[10]2011年在《可配置化数据迁移框架的研究与实现》文中认为随着企业信息化过程的推进,在大型组织或企业推广和部署其内部的信息管理流程的过程中,一般都会同时涉及多个信息系统,并且在这些信息系统之间往往存在数据整合的需求。因此在异构系统间进行有效的数据整合是一个十分重要和实际的课题。目前国内对企业异构系统间的数据迁移研究方向主要集中在基于XML的统一关系模型和基于hibernate的实体对象映射等方法。但这些方法往往都不能解决在系统数据存储结构复杂的情况下快速抽取数据和降低数据迁移中间件开发成本的问题,因此必须对它们进行相应的分析和改进。本文详细分析了数据迁移和ETL技术,总结了数据迁移每一阶段需要完成的任务和存在的瓶颈。然后结合可配置化的思想,提出基于信息系统Web服务接口实现数据抽取和数据加载的设计思想,实现了数据接口与底层数据库的分离,从而降低了数据接口开发的成本。本文还通过引入数据缓冲区和业务规则引擎实现了数据清洗和数据转换操作的可配置化,从而提高了数据迁移中间件的重用性。最后本文通过开源ETL工具Kettle实现了可配置化的数据迁移框架,并在模拟业务环境中测试验证了这一框架的可行性。

参考文献:

[1]. 基于XML的Web数据存储与数据清洗技术研究与实现[D]. 邱英. 武汉理工大学. 2008

[2]. 数据清洗技术在文本挖掘中的应用[D]. 李明. 南京理工大学. 2008

[3]. XML数据智能管理若干关键技术研究[D]. 刘波. 中南大学. 2008

[4]. 基于软件总线模型的数据清洗系统的研究与实现[D]. 赵鹏. 重庆大学. 2009

[5]. XML与数据清洗的研究[D]. 金煌. 华中科技大学. 2004

[6]. 信息集成系统中查询结果合成研究[D]. 麻亮. 西安电子科技大学. 2008

[7]. 数字文献资源多元深度聚合研究[D]. 董克. 武汉大学. 2014

[8]. 数据清洗技术的研究及其应用[D]. 梁文斌. 苏州大学. 2005

[9]. XML数据交换技术在网上商城中的应用[D]. 张春燕. 湖南大学. 2011

[10]. 可配置化数据迁移框架的研究与实现[D]. 韩剑峰. 上海交通大学. 2011

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

XML与数据清洗的研究
下载Doc文档

猜你喜欢