基于DNA序列特征的必需基因判定研究

基于DNA序列特征的必需基因判定研究

论文摘要

近年来,伴随生物信息技术的迅猛发展,可用生物数据量正呈指数增长。从各公共生物数据库中可以获得大量、准确的生物数据信息,而如何准确、高效地对这些数据进行分析与挖掘,发掘其中蕴含的内在信息也成为研究热点。作为活体细胞所需的最小基因组,“必需基因”在维持生物体进行正常生命活动和繁殖过程中充当重要角色,该类基因的缺失将导致生物体死亡或丧失繁殖能力,后果严重。医学上,必需基因在生物体存活方面发挥着重要基础作用,已成为许多抗生素和抗癌化合物中的潜在靶点,被广泛应用于病原体和癌细胞的消除,在抗生素和疫苗研制中意义重大;合成生物学上,可以有针对性地选择目标细胞的最小基因组,合成活细胞“底盘”;进化生物学上,研究必需基因可以加深对生物进化过程的理解,通过对常见同类必需基因的研究,实现对物种的同源性分析。然而,目前常用的通过生物实验筛选必需基因的方法存在诸如成本高、耗时长、工作量大、适用范围小等缺点,为提高必需基因判定效率,适应生物“大数据”时代的需求,论文从信息科学学角度出发,对基于DNA序列特征的必需基因判定算法进行研究,提出了4种判别基因必需性的有效分类器。首先,对DNA 一级序列进行特征提取,其中包括三类共计10种特征提取方法,即基于核苷酸组成的k-mers与反义互补k-mers算法,基于自相关算法的DAC、DCC、DACC、TAC、TCC、TACC算法和基于伪核苷酸组成的PseDNC与PseKNC算法。然后,使用包括支持向量机(SVM)、决策树(DT)、随机森林(RF)、Adaboost、k-近邻算法(k-NN)、逻辑回归(LR)和朴素贝叶斯(NB)在内的共计7种机器学习算法对所提取的DNA序列特征进行分类,并通过以曲线线下面积(AUC)值为主的共7种分类器性能评价指标,即真正率(TP Rate)、假正率(FP Rate)、查准率(Precision)、F-评价值(F-Measure)、马修斯相关系数(MCC)和ROC曲线线下面积(AUC)对所得结果进行分析评价。通过对取得较优结果的特征提取方法进行集成处理,与效果较好的分类器结合起来,经过参数调节,最终得到4种目标分类器,分别为RF-4-RF、LR-3-LR、KmerDAC-RF与KmerDAC-LR分类器。为了证明论文所提出的分类器的有效性,论文使用了来自PEC通用数据库的大肠杆菌必需基因作为训练数据集,在对其进行的10折交叉验证中,RF-4-RF分类器选择的特征为k-mers、RevcKmer、DAC和PseDNC特征集合,其AUC值达到了0.830;LR-3-LR分类器选择的特征为DCC、DACC和TAC特征集合,其AUC值为0.834;KmerDAC-RF与KmerDAC-LR分类器选择了Ak-mers和DAC特征集合,其AUC值分别为0.827与0.799。与五种通用的参考分类器进行的以AUC值为主的各项综合指标进行比较,结果表明,论文所提出的分类器具有更好的预测性能,其判定必需基因准确、高效且稳定性好。论文提出的4种分类器是判定必需基因的有效分类器,在该领域中具有一定的应用潜力。

论文目录

  • 中文摘要
  • 英文摘要
  • 第1章 绪论
  •   1.1 研究背景
  •   1.2 必需基因简介与研究现状
  •     1.2.1 必需基因简介
  •     1.2.2 必需基因研究现状
  •   1.3 论文研究内容与结构安排
  • 第2章 特征提取方法与分析
  •   2.1 DNA序列特征提取
  •     2.1.1 k-mers与反义互补k-mers算法
  •     2.1.2 自相关算法
  •     2.1.3 伪核苷酸组成算法
  •   2.2 DNA序列特征提取工具
  •   2.3 机器学习与评价指标简介
  •   2.4 本章小结
  • 第3章 研究结果
  •   3.1 数据集简介
  •   3.2 各分类器性能比较
  •     3.2.1 基于k-mers与反义互补k-mers算法特征提取分类结果
  •     3.2.2 基于自相关算法特征提取分类结果
  •     3.2.3 基于伪核苷酸组成算法特征提取分类结果
  •   3.3 各特征提取方法比较
  •   3.4 本章小结
  • 第4章 研究结果分析与优化
  •   4.1 序列特征集成与分析
  •   4.2 随机森林(RF)分类器特征选取与优化
  •     4.2.1 特征提取方法选择
  •     4.2.2 随机森林(RF)算法的主要参数
  •     4.2.3 优化后的随机森林(RF)分类器结果
  •   4.3 逻辑回归(LR)分类器特征选取与优化
  •     4.3.1 特征提取方法选择
  •     4.3.2 逻辑回归(LR)算法的主要参数及优化结果
  •   4.4 基于最优特征的分类器训练与优化
  •   4.5 性能评价与比较
  •   4.6 本章小结
  • 第5章 结论与展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的论文、专利和参与的项目
  • 学位论文评阅及答辩情况表
  • 文章来源

    类型: 硕士论文

    作者: 赵宇晴

    导师: 高瑞

    关键词: 必需基因,序列特征提取,机器学习,计算预测

    来源: 山东大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 山东大学

    分类号: TP181;Q811.4

    总页数: 58

    文件大小: 3531K

    下载量: 69

    相关论文文献

    标签:;  ;  ;  ;  

    基于DNA序列特征的必需基因判定研究
    下载Doc文档

    猜你喜欢