一种基于VSM模型的动态文本分类器的设计

章兰^[1]2004年在《一种基于VSM模型的动态文本分类器的设计》文中研究说明本文介绍了一个可应用于汉字输入法程序的文本分类器的设计。该分类器基于向量空间模型，对用户键盘输入的动态文字流进行分类，分类目标是指导输入法程序提示重码词条。首先介绍了课题背景、课题内容和意义。概述了文本分类的相关概念和建立文本分类器的过程，并讨论了文本分类的相关技术。然后，给出了在现有静态文本分类器的基础上，尝试设计动态文本分类器的思路，详细描述了建立文本分类器过程中所采用的特征生成技术、特征提取技术和分类器构造方法，还介绍了模拟动态文本输入的方法。随后，说明了对分类器参数进行训练和对分类器进行测试的情况。最后简单介绍了设计分类器过程中有关程序的编码实现。本文介绍的基于VSM模型的动态文本分类器，采用多分类器模式，对不同的类别建立起不同的特征子空间，并利用相似度计算方法进行分类器构造。汉字输入法程序利用这种动态文本分类器，可以降低重码率，或者有效调整重码提示次序，最终达到提高用户输入速度的目的。从这个角度看，尝试设计这样的动态文本分类器是很有意义的。

章兰, 杨季文, 江浩^[2]2004年在《基于VSM模型的动态文本分类器的设计》文中研究说明设计了一种基于VSM模型的动态文本分类器,它能针对文本的不同类别建立不同的特征子空间,各特征子空间之间相互独立,同时能将文本分类中常用的2个评估指标召回率和精确率转化为正确分类率和错分率;考察了特征子空间的维数和判定界值对这2个指标的影响.该动态文本分类器能对用户输入的文本流进行动态分类.

旺建华^[3]2007年在《中文文本分类技术研究》文中指出随着信息技术的迅猛发展,大量的文字信息开始以计算机可读的形式存在,其数量每天都在急剧增加,如何在浩若烟海而又纷繁复杂的文本中掌握最有效的信息始终是信息处理需要解决的问题之一,如何实现信息的自动分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。本文详细介绍了文本分类的各个方面,主要涉及文本分类的类型、文本表示方法、中文分词技术、文本特征抽取算法、文本特征权重算法及各种文本分类算法等相关技术,本文对其中一些技术进行了深入分析并且通过了一系列实验对此进行了性能比较和验证,最后给出了实验结果和分析。

林南^[4]2014年在《基于Web舆情的话题识别与追踪技术研究》文中研究表明随着互联网规模的不断增长和互联网媒体的日趋多元化,人们更愿意在网络上对社会重大敏感事件表达自己的思想、态度和情感。互联网已经成为当前公众舆情的最主要载体。因此,对互联网舆情信息的分析和监管成为国家、政府乃至企业、组织亟待解决的问题。本文重点研究网络舆情分析中的话题识别与追踪技术,它作为网络舆情分析中其它应用的基础,研究如何从海量的舆情信息中识别描述同一话题的信息并对话题的后续信息进行追踪的一项新兴课题,它是对信息检索、文本挖掘、自然语言处理等领域知识的综合应用。本文主要研究Web门户新闻的话题识别与追踪技术,阐述了TDT的概念和研究现状,介绍了舆情信息采集与预处理技术,在此基础上,重点进行了如下研究：在话题识别技术研究中,对于话题识别模型,在介绍了多种表示模型的基础上,重点研究VSM向量空间模型,针对VSM不足和新闻报道的特点,提出一种适用于话题检测的TD-VSM模型,它使用信息熵和新闻报道的结构特征来改进TF-IDF权重计算,结合新闻报道的时间特征来改进Cos余弦相似度计算；对于话题识别算法,在介绍了多种话题识别算法的基础上,针对传统话题识别算法Single-Pass单遍聚类的不足和话题识别任务的特点,提出一种多策略改进的两层聚类算法MSTLC来提高话题识别的性能,算法在第一层聚类中采用改进的DBS-BIC-K-Means算法将报道聚合成微类,在第二层聚类中采用改进的多中心Single-Pass算法将微类进行二次聚类,从而得到最终的话题类。在话题追踪技术研究中,对于话题追踪模型,在TD-VSM的基础上,结合话题追踪任务的特点,提出一种适用于话题追踪的TT-VSM模型；对于话题追踪算法,介绍了多种话题追踪算法,其中重点研究KNN算法与SVM算法,并结合话题追踪任务的特点,提出一种改进的I-B-SVM-KNN算法来提高话题追踪的性能,算法通过样本到最优超平面的距离来决定所使用的分类算法,同时采用类别数目补偿来解决样本不平衡问题对KNN的影响,最后通过边界凸包向量BHV来实现算法的增量学习。最后,通过仿真实验和图表分析验证了本文改进的可行性和有效性。

张飞^[5]2011年在《基于KNN算法的文本分类系统的设计与实现》文中研究说明自1995年以来，Web技术进入了快速发展的阶段，表现为Internet上的Web页面数量与服务站点数量呈指数级增长。2004年后，Internet上的PIW（pubulic indexableWeb）页面数目达到了1010数量级，而且已每天新增800万新页面的速度。同时，Web服务器的数量23周即可增长一倍。Web已成为一个开放性、动态的、全球性信息服务中心，以及当前人们获取信息的重要手段。如何从大量的Web信息中提取出人们感兴趣的信息和有价值的信息是现代信息研究的重要课题。针对Web文本挖掘的特殊性，设计并实现了一个文本分类系统。使用该系统的主要目的是实验和发现Web文本分类相关算法的性能和准确率。系统主要包括训练和分类两大模块。训练模块有：（1）中文文本预处理，系统采用中科院计算所汉语词法分析工具包ICTCLAS，实现了对文本的分词和预处理功能；（2）特征选择，实现了文档频度DF、卡方特征词选择、信息增益（IG）、互信息法等四种特征选择算法；（3）权重计算，实现了TF、TF*特征评估函数值等权重算法，建立VSM模型；（4）分类器构造，实现了K近邻基于统计方法的文本分类算法，分类模块还包括对分类结果进行评价，并将评价结果反馈给训练模块，从而不断改进训练过程。为了评测已实现的KNN分类系统的分类精度，采用了因特网上由搜狐新闻内容组成的小型语料库进行训练和分类测试。该语料库包括教育，体育，环境，娱乐，科技，经济6个类别，共780个文本。同时对改进后的算法进行实验并比较分析。实验数据可用于信息检索、信息过滤、数字图书馆和网页分类等做参考。

曹奇敏^[6]2015年在《网络信息文本挖掘若干问题研究》文中指出面对规模庞大、维数极高的文本信息,如何设计合理的、便于扩展的文本挖掘算法已成为数据挖掘领域的热点方向。针对这一方向,本文对文本挖掘所涉及的若干问题进行了深入研究,主要创新点包含如下五方面:1.针对传统的向量空间模型维数过高并且不能处理同义词与近义词的问题,本文提出基于特征聚簇的向量空间模型,该模型首先将每个特征进行向量表示;然后将这些特征进行聚类,将得到的每一个聚簇整体作为一个特征;此外,针对专有名词的非连续短语进行识别,使得文本表示向量中的特征信息变得更为丰富、精准。这种方法不但能够有效降低文本向量的维度,而且能进一步体现文本特征之间的语义关系,因而能够提高文本挖掘的质量。实验结果证明,使用该方法得到的文本表示向量具有较高的特征约简率,聚类F值较传统方法也有明显的提升。2.传统的K-means算法对于初始中心点的选择是随机的,容易引起分析结果的波动。针对这一问题,本文提出一种基于相似度矩阵的K-means算法。该方法不再随机地选取初始聚簇中心,而是使用相似度矩阵有针对性地选择更加有效的初始聚簇中心,这样能为整个聚类过程产生一个良好的开端,也降低了初始中心点对最终的聚类结果所造成的不稳定性影响,从而能够取得较好的聚类质量。实验结果表明改进的算法使聚类的F值得到了明显的提高,并且聚类结果也比较稳定。3.针对文本挖掘应用面临的标注数据不充足的现象,本文提出半监督K-means算法。这种方法同时使用标注数据和未标注数据,它充分利用已标注数据的特点来辅助未标注数据的标注。该方法在选择初始点时,一部分使用标注数据的类别中心点,另一部分则使用距离已选的标注数据较远的未标注数据,这样能够保证初始点分属于不同的聚簇,从而获得较高准确率的结果。实验结果表明该算法是一种有效的方法,在一定程度上解决了标注数据不充足的问题。4.不均衡训练语料是一种普遍现象,它会造成分类质量的下降。针对这种现象,本文提出混合加权KNN算法。这种方法通过分析训练样本的分布情况,使用比例倒数加权,使得每个训练样本落到待分类样本区域中的可能性相等,从而不再受类别分布不均衡的影响,同时还结合距离加权,保证了训练样本距离待分类样本越近,其权重就会越大,获得比较理想的分类效果。实验结果表明该算法可以获得较好的分类准确率,是一种解决针对不均衡训练语料分类问题的有效方法。5.为了提高运算效率和便于处理大数据集,对本文提出的文本聚类和文本分类算法进行基于MapReduce的并行化处理,并把这些算法作为模块集成于一个完整的文本挖掘系统,实现文本挖掘全流程的自动化处理。实验结果表明对所改进算法的并行化处理,一方面没有影响文本挖掘的准确率,另一方面还大大提高了运行效率。

陈建华^[7]2012年在《中文文本分类特征选择方法研究》文中进行了进一步梳理随着科技的发展和网络的普及，人们可获得的数据量越来越多，这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的，这就导致了数据量大但信息却比较匮乏的状况。文本挖掘技术为解决这一问题提供了一个有效的途径。而文本分类技术是文本挖掘技术的一个重要分支，是有效处理和组织错综复杂的文本数据的关键技术，能够有效的帮助人们组织和分流信息。文本分类的两个重要的研究方向是:特征选择与文本分类算法。特征选择是指从高维的文本特征空间中选择出最能代表文本内容的特征，好的特征选择方法一方面能够降低文本特征空间的维数，以利于提高文本分类的效率，另一方面好的特征选择方法通过去除对文本分类无效的特征也有利于提高文本分类的分类精度。而好的文本分类方法则能够直接有效地提高文本分类的效果。目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视。针对这种情况，本文提出一种基于类别区分度和关联性分析的综合特征选择算法。首先利用类别区分度提取出具有较强类别区分能力的特征词来降低特征空间的稀疏性，再通过特征的关联性分析衡量特征与类别的相关性以及特征之间的冗余度，最终选择出具有类别代表性且相互之间不存在冗余的特征词。经实验验证，该算法能有效地改善分类器的性能。

杨毅^[8]2016年在《基于主题模型的社交网络关系发现算法的研究》文中指出近几年随着互联网的高速发展,越来越多的人们通过这种全新的网络连接起来,形成了庞大的社交网络结构。在这个巨大的网络中,蕴藏着巨大的商业价值,如果能从这个错综复杂的网络中发现人与人之间的社交关系,就可以针对这些群体制定相应商业策略,如好友推荐和广告投放。在网络信息传播方面,社交网络研究也是有意义的。通过分析网络,找出信息传播的关键节点,就可以透过关键节点限制负面信息的扩散。关于社交网络关系发现算法的研究已取得了一些成果,本文创新点是提出了基于主题模型的社交网络关系发现算法,利用文本分类技术对网络新闻自动分类,根据分类结果挖掘出新闻背后网友之间的社交关系。传统的文本分类算法都没有将文档中隐含的主题信息考虑到模型中去,仅仅依赖词项频率信息建模。本文将主题的概念加到分类模型中去,一方面保留了文本表层知识,另一方面在建模时考虑了文本中隐含的深层语义,通过把两个层面的概念结合起来实现更优的分类效果。本论文中的主要工作成果如下：1.LDA主题建模和主题优选。首先对原始新闻进行预处理,然后建模并输出主题分布矩阵和词项分布矩阵。然后采用独立性检测,表征词覆盖和信息熵检测叁种方法对挖掘出的主题进行优选,并通过实验对比了各个筛选方法。2.将LDA模型和VSM模型结合,提出了LDA_KMeans文本分类算法,改进了算法中的文本相似度计算公式。另外将LDA模型和SVM模型结合,提出了LDA_SVM文本分类算法,改进了算法中特征权重的计算方法。3.论文通过实验对单一LDA分类,LDA_KMeans分类,SVM分类和LDA_SVM分类算法进行了对比,根据召回率,查准率,F1值等指标得出结论：结合了LDA模型的分类算法比单一模型的分类算法的分类准确性要高。另外在四种分类算法中,LDA_SVM效果最好并根据该分类结果,绘制文本背后的社交网络关系图谱。

徐惊秋^[9]2018年在《词向量的动态加权及分布式学习策略》文中指出互联网的日益普及和迅速发展,催生了大规模的非结构化数据,在这些非结构化数据中,文本数据又是其中很重要的一类。如何从数据量庞大的文本数据中提取和学习有效的信息是当前热门的研究领域。其中,文本分类是文本挖掘领域一个重要的研究方向,并且有着广泛的应用场景。而文本分类本身是一个极具挑战性的问题。首先,传统的文本表示模型认为文本是由无数个单词构成,并基于特征词典采用one-hot编码的形式,用一个高维稀疏向量表示一篇文档,该方法由于向量的高稀疏度限制了文本分类的准确性。其次,传统的文本分类算法大部分都直接应用基本机器学习分类算法,模型过于简单导致其分类结果也并不理想。针对以上挑战,本文首先提出了一种文本表示模型;其次,基于该文本表示模型,利用分类器集成的方法,构建了一个高效的文本分类模型,实现了对文本更加准确地分类。本文研究了文本分类的原理和实现步骤,首先对中文文档进行了预处理,具体包括分词,去停词,然后对词进行特征选择,基于选取的特征词,提出了一种基于词向量Word2Vec动态加权的文本表示模型,充分考虑了不同语义特征在不同文章中的不同重要程度。基于该文本表示模型,本文提出了一种基于分类器集成思想的文本分类算法,提高了文本分类的准确率。本文提出的文本表示模型中,首先采用Word2Vec算法将文档特征词转换成固定维度的词向量,然后计算每个特征词在文档中的TF-IDF值,并以特征词的TF-IDF值作为权重,对所有特征词的词向量进行动态加权。该文本表示模型可以同时充分利用不同特征词在不同文档中的重要度信息和词向量的语义信息,实现了对文档的有效表示。实验结果表明,本文提出的基于词向量Word2Vec动态加权的文本表示模型较传统文本表示方法具有更好的文本特征表示效果。基于本文提出的文本表示模型,利用集成分类的思想,本文通过Bagging算法,提出了基于词向量动态加权模型的支持向量机集成方法,分别就不同基分类器数量的集成情况进行了对比实验,并与单个SVM分类效果进行了比较。实验验证了我们提出的基于词向量动态加权的分类器集成算法的有效性,并找出了基分类器个数的最优解。基于以上模型,本文在真实的微信公众号文章数据集上进行了实验验证,还设计并实现了一套基于微信公众号文章的分布式文本分类系统。该系统的功能还包括微信公众号文章抓取、类标自动标注,将文本分类技术应用到实际场景中。

林霜梅^[10]2006年在《个性化信息检索中基于语义相似网络的用户多兴趣建模研究》文中进行了进一步梳理本文提出了一种改进的向量空间模型(VSM)用户单兴趣表示法及其动态学习算法,实验表明该算法能够实时捕捉和记录用户最新的兴趣需求,并能自适应地调整和更新用户模板。在此基础上,考虑到用户兴趣的多样性及词语表达的同义性和语义相关性问题,本文进一步提出一种基于语义相似网络(SSN)的用户多兴趣建模方法,该方法使用SSN对用户兴趣特征词进行知识层面上的扩展,联想出同义词和相关词,并将用户兴趣细分为多个类别,建立起多兴趣的用户模型。个性化推荐测试中,采用这种基于SSN的用户多兴趣建模方法的系统其推荐效果要好于采用前一种改进的VSM用户单兴趣建模方法的系统。此外,本文还研究了用户建模中的特征选择,并提出一种根据词性标注信息将词频法和TFIDF方法相结合的特征选择方法,特征选择实验表明这种基于词性标注的组合特征选择方法的效果好于单独使用词频法或TFIDF方法。在理论研究的同时,本文还介绍了用户单兴趣建模和多兴趣建模技术在个性化信息检索中的一个应用实例-智能电视节目推荐系统,并通过该系统测试验证了特征选择算法和动态学习算法的有效性,以及基于SSN的用户多兴趣建模方法的良好建模性能。

参考文献：

[1]. 一种基于VSM模型的动态文本分类器的设计[D]. 章兰. 苏州大学. 2004

[2]. 基于VSM模型的动态文本分类器的设计[J]. 章兰, 杨季文, 江浩. 河海大学常州分校学报. 2004

[3]. 中文文本分类技术研究[D]. 旺建华. 吉林大学. 2007

[4]. 基于Web舆情的话题识别与追踪技术研究[D]. 林南. 福州大学. 2014

[5]. 基于KNN算法的文本分类系统的设计与实现[D]. 张飞. 华中科技大学. 2011

[6]. 网络信息文本挖掘若干问题研究[D]. 曹奇敏. 北京理工大学. 2015

[7]. 中文文本分类特征选择方法研究[D]. 陈建华. 西北师范大学. 2012

[8]. 基于主题模型的社交网络关系发现算法的研究[D]. 杨毅. 电子科技大学. 2016

[9]. 词向量的动态加权及分布式学习策略[D]. 徐惊秋. 北京交通大学. 2018

[10]. 个性化信息检索中基于语义相似网络的用户多兴趣建模研究[D]. 林霜梅. 上海交通大学. 2006

标签：计算机软件及计算机应用论文; 分类器论文; 自然语言处理论文; vsm论文; 文本分类论文; 聚类分析论文; 用户研究论文; 文本聚类论文; 特征选择论文; 无监督学习论文; 网络模型论文; 数据建模论文; 分类数据论文; 文本分析论文; 用户分析论文; 动态模型论文; 词向量论文;

一种基于VSM模型的动态文本分类器的设计

参考文献：

猜你喜欢