具有时间约束的股票序列模型及采掘算法研究

具有时间约束的股票序列模型及采掘算法研究

龚惠群[1]2003年在《具有时间约束的股票序列模型及采掘算法研究》文中研究表明随着市场经济的发展,我国的股市正日益成熟和规范,投资者在进行投资决策时也愈加趋于理性化。目前可以运用许多统计分析方法来发现一些隐藏在股票信息中的规律,以帮助投资者对股票进行分析和预测。 然而,常用的这些统计分析方法无法发现出在股市中存在的这样一些带有时间约束的规律——在某个时间段W(如一天)内,如果股票A的收盘价上涨超过5%,那么间隔INT个时间段(如两天)后的那个时间段(即第叁天)内股票B和股票C会以80%的可能性也上涨(或下跌)。因此,本文采用一种目前正在发展的新技术——数据挖掘技术来发现股市中存在的这类复杂的序列规则。这类具有时间段W和时间间隔INT两维约束的序列规则的挖掘无疑对于指导投资决策具有重要的意义。 本文主要有叁个创新点。其中第一个创新点是在本文中建立了两个具有时间约束的股票序列模式挖掘模型:带有确定的时间段W约束的一维模型和带有确定的时间段W及时间间隔INT约束的二维模型。第二个创新点则是通过对关联规则的Apriori算法和FP_Growth算法进行扩展来实现一维股票序列规则的采掘。至于第叁个创新之处就是通过设计一个全新的算法来实现二维股票序列规则的挖掘。在本文的最后一章通过一个实证研究对本文所提算法的可行性进行了验证。 本文一共分为四个部分:第一部分介绍了传统的股票分析方法及数据挖掘技术的基本概念;第二部分则建立了两个具有时间约束的股票序列模式挖掘模型;第叁部分就对具有时间约束条件的股票序列规则采掘的一维和二维算法进行了实现,并且扩展讨论了在分布式环境下进行这类序列规则的挖掘所需注意的几个问题;最后一部分则进行了一个实证研究来对本文所提出算法的正确性进行验证。

闭英权[2]2008年在《基于关联规则的股票时间序列趋势预测研究》文中指出中国股市从2006年1月份的1100多点升至2007年10月份的6000多点,升幅巨大,在世界也是罕见的。虽然蕴涵着巨大的投资机会,但却也使部分投资者亏损累累。随着经济的发展,股票市场越来越受到人们的重视,其在经济体系中也发挥着越来越重要的作用。而股市的健康发展和繁荣也成为管理者和投资者关心和研究的重点。股票投资的收益与风险往往是成正比的,即投资收益越高,可能冒的风险越大。因此,股市预测方法的研究具有极其重要的应用价值和理论意义。传统的技术分析和基本面分析也各有各自优缺点,而我国的股市正日益成熟和规范,投资者在进行投资决策时也愈加趋于理性化。本文试图应用数据挖掘的办法来在股票分析中,帮助投资者获取更多的股市关联信息以加强对某些个股的分析和判断。因为目前世界上尚无很好的预测股市方法,目前可以运用许多统计分析方法来发现一些隐藏在股票信息中的规律,本文的工作也就立足在关联原则基础上进行分析,以帮助投资者对股票进行预测。在整个数据挖掘的研究中,算法的研究占有特别重要的地位。数据挖掘面对的是大量数据集,算法的效率起到决定性的作用,因此,研究和改进现有的算法,有着十分重要的意义。鉴于此,本文对关联规则挖掘算法进行了研究。首先对股票的基础知识作了简单地概括,对数据挖掘作了一般性介绍,包括数据挖掘的概念、模式、挖掘的主要问题、数据挖掘系统的分类以及应用和发展趋势。然后,对数据挖掘中重要的关联规则挖掘算法做了深入的研究,分析了关联规则中经典的Apriori算法、AprioriTid算法和Apriori算法的在股票数据的改进算法,总结了算法中存在的问题;接着,详细介绍了本文内容的重点之一,基于成交量和二维时间模式下的双事务股票时间序列关联的研究的一种OptimizedApriori算法的改进算法。为了更好地挖掘股市信息,就必须结合股市的特点,特别是股票自身的运作规律,股票的走势包含了数以万计人的思维和智慧,必须通过详细和耐心的观察才能学之一二。经过长期学习、跟踪股市及模拟演练,挖掘出在股市中存在的这样一些带有时间约束的规律——在某个时间段w(如一天)内,如果股票A的收盘价上涨超过2%,成交量大于vol_min(某个设定的阈值),那么间隔DAY个时间段(如两天)后的那个时间段(即第叁天)内股票B和股票C会以80%的可能性也上涨(或下跌)。最后在Microsoft Visual C++6.0环境下完成了对股票数据的处理、算法的改进及挖掘工作。实验验证了改进的OptimizedApriori算法的效率在一定程度上优于Apriori算法;同时挖掘出了大量关联规则,其中一些颇具指导意义。

王玉梅[3]2008年在《关联规则算法在股票分析预测中的应用研究》文中认为关联规则是数据挖掘领域研究的重要课题,常应用于零售业、电信业、财务金融业、保险业及医疗服务业等领域。本文主要研究了关联规则算法Apriori及一些改进算法,重点针对支持度-置信度框架下关联规则挖掘算法存在的不足,引入Heckerman-确信因子来增强规则度量,通过研究生成规则间的特点,给出了新的规则定义,改进了Apriori算法,使用测试数据集对算法进行了实验验证,实验结果证明了算法的有效性。最后将改进算法应用于对股票数据的分析预测领域,获得一些预测结果,进一步分析表明分析结果也是正确的。

乐燕波[4]2008年在《时态数据挖掘中关联规则的应用研究》文中指出20世纪80年代末,数据挖掘作为一个全新的研究领域悄然出现并迅速发展。数据挖掘的研究目的是在大型数据集中发现那些隐藏的、人们感兴趣的具有特定规律的信息。作为数据挖掘对象之一的时态数据库是由随时间变化的一系列序列值或事件组成的数据库。时态数据挖掘的研究对商业、金融、医疗诊断、科学与工程等领域的数据分析具有重要意义,因而时态数据的挖掘方法也成为数据挖掘的一个研究热点。关联规则一直是近年来数据挖掘和人工智能领域研究的热点课题,目前在客户关系管理、医学、生物等领域已有应用。传统的关联规则挖掘过程通常不考虑时间约束,如购物篮分析等。由于时态数据库规模不断壮大,重要性不断加强,如何将关联规则挖掘应用到时态数据库中以获得有价值的时态关联规则是一个非常值得研究的课题。另外关联规则在证券市场中的应用尚处于起步阶段,如何有效地将关联规则应用于证券交易系统数据库分析,也需要进一步的探索。本文从研究所处的背景出发,详细阐述了数据挖掘技术及时态数据挖掘的研究现状,介绍了关联规则的相关理论及其在时态数据挖掘中的应用。在深入分析时态关联规则的基础上,本文改进了一般时态关联规则挖掘算法,提出了加权时态关联规则的概念,初步研究了它应用的可行性。用该方法挖掘时态数据库,挖掘结果能更好地反映客户购买习惯的变迁,为市场营销提供决策支持。文章还对不同关联规则挖掘模型得到的结果进行了比较和分析,验证了加权思想的有效性和合理性。本文还创新性地提出了有时态约束的数值型关联规则挖掘方法,并将其引入股市技术分析指标有效性的检验中。选取相对强弱指标RSI,收集交易数据进行实证分析,得出了若干条有用的数值型关联规则,为技术分析的实际应用和投资操作实践提供了指导。

田媛[5]2004年在《基于时态约束的关联规则挖掘的研究》文中指出关联规则的研究是数据挖掘中的重要研究内容之一,由于实际的数据是随时间变化而获得的,因而有必要对其时态属性进行分析,这样有助于揭示事物发展的本质规律,使得发现的知识更能贴近现实意义。目前国内外对于时态数据的研究主要是进行时序分析,对时态关联规则的研究多侧重于研究关联规则成立的时间,对于规则中各项之间在时间上的约束未进行具体的分析,在一些领域中不能很好地进行预测和描述。基于这些不足,本文着重分析研究以下几方面的内容:(1)阐述了时态关联规则挖掘的研究现状,针对所存在的不足及亟待解决的问题引出本文所要研究的内容。(2)对时间进行了理论上的研究,在一定程度上对有关时间的理论研究进行了完善。(3)构造了事件模型,对事件间的运算及性质进行了形式化定义和研究。(4)构造了一类基于时态约束的关联规则模型,适于描述事件与时间之间的关联、基于时域的事件与事件之间的关联。(5)研究了基于时态约束的关联规则挖掘的理论、算法,并进行了数值实验。(6)对于该类规则的周期性挖掘的意义、算法和数值实验进行了研究。本文主要获得的研究成果和创新如下:1、拓展了有关时间的理论研究,对事件间在时间维上的约束进行了研究;2、提出了一类基于时态约束的关联规则挖掘算法及周期性挖掘算法。

龚惠群, 黄超, 彭江平[6]2003年在《具有双时间维约束的股票序列模式挖掘》文中认为建立了在证券交易分析中常见的具有双时间维约束的交易规则模型,针对该模型采掘的特殊性,文章提出了两个数据预处理的算法,最后给出了此类规则的挖掘算法。实验证明该模型计算法是正确有效的。

闭英权, 秦亮曦[7]2008年在《基于关联规则的股票涨跌趋势的预测研究》文中研究指明随着证券市场的迅猛发展,股票数据信息爆炸式增长,如何从庞大的数据中找到有用的信息来指导投资者的投资行为成为一个重要的学术研究方向。从数据挖掘技术入手,在关联规则分析的处理算法基础上,引入股票成交量数据项以及二维时间模式对股票数据进行数据挖掘,并对比试验的结果。试验证明,该改进对投资者提供了更为有效的决策支持。

林永国[8]2014年在《基于证券交易印花税调整的投资组合研究》文中提出我国股票市场起于上世纪90年代初,经过20多年的发展,规则不断健全,市场不断成熟,证券交易印花税作为对证券交易者征收的特定税种也应运而生。自1991年该税种设置以来,每一次税率或者征收方式的调整都伴随着股票市场的异动,千股同时接近涨停或跌停的盛况也一再出现。为了研究证券交易印花税对股票市场影响的规律,本文以“530事件”为例研究该事件对A股市场不同行业板块的收益率和风险的影响,并建立投资组合,为投资者在投资活动中设置投资策略以实现资产的保值增值提供借鉴。传统的投资组合模型(如马科维茨的均值—方差模型、资本资产定价模型等)在进行优化时会出现不合理的配置结果。比如均值—方差模型在无限制条件时会出现某些资产的强烈卖空,而当有卖空限制时,某些资产的权重降为零。对输入参数的敏感降低了模型的实践价值,1992年出现的Black-Litterman模型弥补了均值一方差模型的部分不足,它在均衡收益的基础之上引入投资者观点以修正期望收益,使得马科维茨的组合优化中的期望收益更为合理。同时,在模型优化部分,文章使用了具有全局搜索能力的遗传算法。本文主要从两个部分展开研究,第一部分使用事件研究法研究“530事件”对我国A股市场不同行业板块的收益率和收益的波动性的冲击效应,并通过累积超额收益率分析并测定事件冲击效应的持续时间。研究发现,冲击效应的持续时间大约8天。从长期看,绝大多数行业的累积超额收益收敛于一个特定值,表明这一事件已经被投资者所消化。第二部分使用Black-Litterman模型建立投资组合,并利用GARCH模型对投资者观点进行理性预测,最后对所建立的BL模型投资组合通过遗传算法进行优化,确定最优的行业权重。研究结果认为,证券交易印花税税率的上调可能并不会降低投资者关于未来收益的预期,但是其承担的风险却会上升,同时,较更低税率的情况,投资者效用也会更小。

姜华[9]2006年在《基于SOM的时态近似周期的数据挖掘研究》文中认为随着人们对时态数据挖掘的深入,周期挖掘作为时态数据库中用于理解时态数据、预测未来趋势的一个非常有意义的特征,也越来越受到国内外学者的关注。因此,周期挖掘日益成为时态数据挖掘中一个十分重要的研究课题。然而,目前很少有人研究近似周期挖掘,即事件发生后,相隔一个时间周期(该时间周期可以在固定时间K的时间范围δ内波动)事件重复发生,我们称之为近似周期。这是一个很有意义的研究方向,因为在金融、气象、水文、医疗、超市等领域有很多时间数据看上去没有严格的周期规律,但有大多都存在近似周期的规律。例如股票价格变化,基本上没有周期规律,而我们能够发现股票的近似周期,这对研究股票价格变化是非常有意义的。因此,近似周期挖掘在金融、气象、水文、医疗、超市等领域有着广泛的应用前景。本文从下面几个方面对时态近似周期进行了研究:⑴介绍了时态周期挖掘的研究背景和不足,引出本文研究的内容。⑵在时态型、时态因子和时间粒度的基础上,给出了时态近似周期的严格数学定义,如近似周期模式、近似周期模式的支持度、置信度、近似精度和模式覆盖等,证明了相关性质,并研究了基于SOM聚类的时态近似周期的挖掘算法,实验表明了算法的有效性。⑶扩展了时态近似周期的定义和性质,提出了时态近似周期关联规则的概念和性质,研究了基于SOM聚类的挖掘算法并进行了实验。⑷在多粒度时间的概念和性质的基础上,给出了多粒度时间间隔的数学定义和性质,提出了多粒度近似周期的概念和性质,研究了基于SOM聚类的挖掘算法并进行了实验。本文获得的主要成果为:⒈给出了多粒度时间间隔的严格数学定义,并证明了相关性质。⒉提出了一种时态近似周期的数学模型,给出了基于SOM聚类的挖掘算法。⒊提出了一种时态近似周期关联规则的数学模型和基于SOM聚类的挖掘算法。⒋提出了一种多粒度近似周期的数学模型和基于SOM聚类的挖掘算法。实验结果表明了所提出的算法能够发现股票价格变化的近似周期,说明了所提出的算法对发现近似周期是非常有意义的。

陶淑[10]2017年在《指数复制策略新方法的研究》文中研究指明指数化投资管理的关键在于选择合适的方法技术构建最优的投资组合,使得跟踪组合与目标指数之间具有最小的跟踪误差。本文就在国内外学者的研究基础上提出了使用聚类选股,然后使用时间加权支持向量回归机来获取组合中股票的最优权重的指数复制方法。本文以沪深300指数作为基准指数,构建了一个包含30只成份股的跟踪组合。在选股阶段,首先利用成份股的beta系数这一系统风险特征,根据不同的系统风险趋势特征来对股票聚类分层,如此构建的股票组合可以有效的分散风险,并且可以解决行业分类的不足。然后,对该聚类作了有效性分析,通过与沪深300成份股的证监会行业分类进行对比,验证了该聚类的有效性。最后,计算每个类应该选取几只股票,按照每个类中股票的流通市值指标来选股。这样就得到了基于beta值聚类选股的30只股票组合。在对投资组合中的股票进行权重优化阶段,本文考虑到金融数据具有时序性,越靠近现在的数据对于未来的影响越强烈,越是久远的数据对未来的影响越小,所以在指数跟踪方法中非常有必要将时间因素考虑进去。基于此,本文在上述30只股票组合的基础上构建了一个基于时间加权的支持向量回归机(SVR)指数复制模型,希望可以解决构建跟踪组合时金融数据的时序性问题。利用时间加权支持向量回归机(SVR)模型计算所选股票组合的最优权重,最终获得了指数复制跟踪模型的最优跟踪组合。在实证分析中,本文将建立的时间加权SVR指数复制模型与传统的二次规划权重优化模型以及普通的SVR模型进行对比分析。结果表明,时间加权SVR指数复制模型得到的跟踪组合,在样本内外的跟踪误差都是最小的,其跟踪效果最佳;而传统的二次规划优化指数复制模型表现的跟踪效果最差,虽然在测试集上的跟踪效果与普通的SVR指数复制模型的效果相差不大,但是在测试集上的表现却明显不如SVR模型,这是因为SVR模型是基于结构风险最小化原则,可以很好地提高模型的泛化能力。

参考文献:

[1]. 具有时间约束的股票序列模型及采掘算法研究[D]. 龚惠群. 湖南大学. 2003

[2]. 基于关联规则的股票时间序列趋势预测研究[D]. 闭英权. 广西大学. 2008

[3]. 关联规则算法在股票分析预测中的应用研究[D]. 王玉梅. 华北电力大学(河北). 2008

[4]. 时态数据挖掘中关联规则的应用研究[D]. 乐燕波. 厦门大学. 2008

[5]. 基于时态约束的关联规则挖掘的研究[D]. 田媛. 湘潭大学. 2004

[6]. 具有双时间维约束的股票序列模式挖掘[J]. 龚惠群, 黄超, 彭江平. 计算机工程. 2003

[7]. 基于关联规则的股票涨跌趋势的预测研究[J]. 闭英权, 秦亮曦. 现代计算机(专业版). 2008

[8]. 基于证券交易印花税调整的投资组合研究[D]. 林永国. 复旦大学. 2014

[9]. 基于SOM的时态近似周期的数据挖掘研究[D]. 姜华. 湘潭大学. 2006

[10]. 指数复制策略新方法的研究[D]. 陶淑. 华南理工大学. 2017

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

具有时间约束的股票序列模型及采掘算法研究
下载Doc文档

猜你喜欢