复杂网络随机块模型关键问题研究

复杂网络随机块模型关键问题研究

论文摘要

由于复杂网络(数学上常称为图)规模宏大、结构复杂、难以理解等原因,人们十分重视能分析网络整体统计特性的方法,如聚类分析,在网络分析中,常称为社区探测.尽管聚类分析是个古老的话题,但图聚类和度量空间中的数据点聚类有很大的不同,本质区别是前者与边的连接模式相关,后者则与度量空间中的“距离”有关.由于网络是一种关系结构,导致了网络连边之间的相依性.网络复杂的相依性不符合标准统计学中的常见假设,给聚类分析带来了新的挑战.随机块模型是一类基于随机等价性思想提出的概率生成模型,可以灵活地引入参数,反映节点不同类型的连接模式,从而生成各种不同的网络结构,给研究网络的整体统计特性如聚类分析带来了便捷.然而,随机块模型中存在一些关键问题亟待解决,主要表现在三个方面:(1)如何确定社区的数目,即模型选择问题;(2)如何拓展模型,将网络的附属信息融合进模型中以提高聚类的质量;(3)如何设计高效的算法以适应不断增长的网络规模.本文将基于节点的连接模式视角,依托随机块模型对以上三个问题展开研究.具体有:(1)诸多的随机块模型都存在模型选择的问题.事实上,模型选择问题是网络聚类分析中的一个待定问题,没有广泛认同的模型选择准则.现有多数方法都仿照经典统计学中的模型选择准则,在模型精度和模型复杂度之间寻求最佳平衡.与之不同的是,本文基于信息熵(entropy)和混合系数提出一种方法,侧重于提取混合系数中含有的信息.我们首先注意到混合模型中的混合系数(混合先验分布)含有社区规模的信息,利用熵提取混合系数中含有的信息,去除含有信息太少(即社区规模太小)的社区就可以确定社区的数目.在第3章中,结合信息熵和NMM实现了上述的想法.NMM(Newman’s mixture model)是基于随机等价性思想提出的概率生成模型,能探索各种网络结构,包括社区结构、二分结构、核心-边缘结构和混合结构等(本文称为广义社区结构),但该模型需要事先指定社区的数目.针对此,提出了一种熵正则化混合模型(称为EMM).设计了具有一定自适应性的熵系数,使得该系数同时具有惩罚功能和平衡功能.该模型能够自动地推断网络中包含的社区个数,同时能够识别网络的各种结构.使用EM(expectation-maximization)算法得到模型的各个参数估计,特别是极小化混合系数的熵,可以逐步丢弃包含节点很少(即信息很少)的社区,从而在算法收敛时能自动地得到社区的数目.在人工网络和真实网络上的实证研究表明,所提出的模型EMM具有较好的效果.尽管EMM是结合熵和NMM提出的,这里基于熵提取混合系数信息的想法也适用于其它含有混合分布的模型.基于熵和混合系数的方法扩展了模型选择的方法.(2)融合网络的附属信息(如节点的属性信息)是对随机块模型的一个重要扩展,可以提高社区探测的质量.然而,网络的属性信息类型多样,如何把属性信息融合进模型是个有挑战性的问题,融合不当反倒可能成为干扰信息.多数已有的模型只能探测社区内部连接紧密但社区之间连接稀疏的社区结构.在第4章中,通过节点和属性共享节点的潜在位置,构建了一个概率生成模型PSBPG,融合了网络的拓扑信息和节点的属性信息,不仅比单独利用拓扑信息能更准确地探测社区,而且能提供社区的语义解释.其中生成拓扑信息的模型是基于随机块模型中块结构的假设提出的,能探测多种网络结构.生成节点属性信息的概率生成模型是基于属性高维稀疏的假设提出的.生成连边和属性的模型均服从Poisson分布.统一的分布形式使得似然函数便于用EM算法学习模型参数.在含有各种结构的人工网络和实际网络上,和已有的几种方法相比,显示了提出方法的竞争力.(3)像第3章和第4章中采用的EM算法主要存在两个问题:一是算法复杂度高,特别生成拓扑信息的模型采用经典的SBM(stochastic blockmodels)中块结构的假设时;另一个是EM算法推断的模型参数依赖于给定的数据集,容易产生过拟合现象.针对上述的两个问题,在第5章中,基于块结构的假设,提出了一个联合概率生成模型.引入变分分布族来近似模型中社区隶属度后验条件分布.通过变分贝叶斯EM算法得到了模型参数的非渐近估计.根据这些估计,设计了快速计算节点潜在位置后验分布算法VI-GCD.该算法能发现属性图中的广义社区,得到和社区相关的属性,同时改进了EM算法中复杂度高和过拟合的问题,可以在大规模网络上实施.

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  •   1.1 研究背景及其意义
  •     1.1.1 研究背景
  •     1.1.2 研究意义
  •   1.2 主要研究内容、创新点和框架结构
  •     1.2.1 主要研究内容
  •     1.2.2 本文创新点
  •     1.2.3 本文组织结构
  •   1.3 小结
  • 第2章 文献综述
  •   2.1 生成网络拓扑信息的随机块模型
  •   2.2 生成网络拓扑信息和属性信息的随机块模型
  •   2.3 随机块模型的参数估计
  •   2.4 随机块模型中存在的问题分析
  •   2.5 小结
  • 第3章 带有熵正则项的混合模型与社区数目估计
  •   3.1 引言
  •   3.2 相关工作
  •   3.3 熵正则化混合模型(EMM)
  •   3.4 基于EMM的社区探测算法
  •   3.5 在人工网络和实际网络上的实验
  •     3.5.1 人工网络上的实验
  •     3.5.2 实际网络上的实验
  •   3.6 结论
  • 第4章 用于属性图聚类的概率生成模型
  •   4.1 引言
  •   4.2 相关工作
  • PG)'>  4.3 联合概率模型的提出(PSBPG)
  •   4.4 模型参数的EM算法推断和算法实现
  •   4.5 在人工网络和实际网络上的实验
  •     4.5.1 在人工网络上的实验
  •     4.5.2 推断的社区语义解释能力: 一个案例
  •     4.5.3 在实际网络上的实验
  •   4.6 结论和讨论
  • 第5章 属性网络中随机块模型的变分贝叶斯EM算法
  •   5.1 引言
  •   5.2 相关工作
  •   5.3 生成模型的提出及其生成过程
  •   5.4 模型潜变量的变分推断
  •   5.5 在人工网络和实际网络上的实验
  •   5.6 结论和讨论
  • 第6章 结论与展望
  •   6.1 论文主要结论
  •   6.2 未来研究展望
  • 参考文献
  • 攻读博士学位期间发表的学术论文
  • 致谢
  • 文章来源

    类型: 博士论文

    作者: 常振海

    导师: 殷先军

    关键词: 复杂网络,网络结构,模型,算法,变分推断

    来源: 中央财经大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 中央财经大学

    分类号: O157.5

    DOI: 10.27665/d.cnki.gzcju.2019.000108

    总页数: 131

    文件大小: 4431K

    下载量: 46

    相关论文文献

    • [1].基于供应链思维的存货削减模型研究及应用[J]. 铁路采购与物流 2020(01)
    • [2].基于多模型融合的工业工件剩余寿命预测[J]. 自动化与信息工程 2020(01)
    • [3].考虑行人相对速度的改进社会力模型的验证与评估[J]. 计算机科学 2020(02)
    • [4].基于遥感和站点观测数据的生态系统呼吸模型比较[J]. 遥感技术与应用 2020(02)
    • [5].稻田施用农药的地表水暴露评估模型研究进展[J]. 生态与农村环境学报 2020(05)
    • [6].“模型认知”是重要思维方式[J]. 化学教学 2020(05)
    • [7].管理创新过程管控模型的构建与应用[J]. 科技经济导刊 2020(17)
    • [8].理解“模型认知”素养的不同视角[J]. 课程.教材.教法 2020(04)
    • [9].金融智能化不可忽视的模型风险[J]. 武汉金融 2020(06)
    • [10].人口死亡统计的间接模型研究[J]. 人口与经济 2020(04)
    • [11].弗里嘉的模型虚构论研究[J]. 科学文化评论 2020(03)
    • [12].一类带切换的随机SIRS模型的稳定性研究[J]. 萍乡学院学报 2020(03)
    • [13].基于离散时间风险模型下的亏损破产概率的研究[J]. 甘肃科学学报 2017(02)
    • [14].高维稀疏对角GARCH模型的估计及应用[J]. 数学的实践与认识 2017(11)
    • [15].信息系统成功模型在卫生领域的应用及扩展[J]. 信息系统工程 2016(05)
    • [16].例谈化学模型的特征、作用与类型[J]. 中学教学参考 2020(11)
    • [17].构建人才甄选道德模型[J]. 经济管理文摘 2019(17)
    • [18].“一线三等角”模型在中考中的应用[J]. 初中生学习指导 2020(18)
    • [19].巧用隐圆模型 突破思维壁垒[J]. 数理化解题研究 2020(17)
    • [20].借“模型”之力促教学相长[J]. 新课程 2020(25)
    • [21].两类典型牵引模型规律的对比探究[J]. 湖南中学物理 2020(04)
    • [22].建构模型认知 促进深度学习——高三二轮复习“实验方案的设计与评价”[J]. 化学教与学 2020(05)
    • [23].重要模型“一线三等角”[J]. 中学生数理化(八年级数学)(配合人教社教材) 2020(10)
    • [24].什么是“做模型”[J]. 模型世界 2018(11)
    • [25].广州文华模型[J]. 模型世界 2019(01)
    • [26].《模型世界》火热预订[J]. 模型世界 2019(01)
    • [27].基于模型构建 引领思维发展[J]. 高中数学教与学 2018(13)
    • [28].模型世界征募志愿者啦![J]. 模型世界 2015(08)
    • [29].《模型·北京212》[J]. 山西文学 2015(08)
    • [30].模型世界[J]. 模型世界 2014(04)

    标签:;  ;  ;  ;  ;  

    复杂网络随机块模型关键问题研究
    下载Doc文档

    猜你喜欢