大肠杆菌启动子序列特征分析与识别方法的研究

大肠杆菌启动子序列特征分析与识别方法的研究

冉令华[1]2004年在《大肠杆菌启动子序列特征分析与识别方法的研究》文中进行了进一步梳理摘 要 本课题源于国家自然科学基金项目“复杂系统意义下的生物信息学中若干问题的研究(No.60234020)”,主要以大肠杆菌启动子为研究对象,运用智能信息处理方法,对大肠杆菌启动子序列进行分析和研究,重点研究启动子序列的识别问题。论文取得的主要研究成果如下: 1. 本文应用变输入长度和滑动空位方法建立了基于神经网络的大肠杆菌启动子识别模型,根据大肠杆菌基因分子生物学有关理论与统计事实,对启动子序列组件进行研究和分析。研究发现,除两个显着保守序列特征组件外,其它几个非显着序列组件包含的特征信息对大肠杆菌启动子的识别也有一定的影响。 2. 本文提出基于数据优化的大肠杆菌启动子识别方法,并基于该方法和 BP 神经网络建立了大肠杆菌启动子识别模型 (Data Optimization&Neural Network Model, DONN)。DONN 模型选取在-10 区比对过的大肠杆菌启动子序列和相应长度的编码区序列为正负样本,在神经网络分类器进行训练之前,通过权值矩阵模型(WMM)优化训练集样本,将处理过的数据集作为神经网络的训练样本。研究结果表明,采用数据优化法建立的神经网络分类器具有较高的敏感度和综合辨识精度。 3. 本文将支持向量机(Support Vector Machine, SVM)方法用于大肠杆菌启动子的识别中,从数据库中选取一定长度的正样本序列和负样本序列,按 3:1 的比例分成训练集和测试集,建立了基于支持向量机的分类器。实验研究结果表明,基于支持向量机的识别方法优于传统的神经网络识别模型,表明其在生物信息学中有良好的应用前景。 大肠杆菌启动子的识别问题是生物信息学研究的重要问题之一。本文的研究对探索启动子的识别具有参考价值。

杨春晖[2]2006年在《短小芽孢杆菌碱性蛋白酶基因启动子的功能研究》文中提出短小芽孢杆菌UN-31-C-42是一株产生具有脱毛功能的碱性蛋白酶的菌株。该菌株的碱性蛋白酶基因编码区已被克隆,本研究通过TAIL—PCR(Thermalasymmetric interlaced PCR)扩增得到碱性蛋白酶基因编码区上游的启动子片段Papr,经测序、序列拼接及比对分析等对Papr进行了鉴定。该启动子片段长797bp,在片段的5’端存在一个开放阅读框,可能为磷酸甘油酸变位酶基因的部分编码区,故碱性蛋白酶基因启动子的长度为378 bp。通过对启动子序列的分析,推测出了该启动子的保守序列及转录起始位点。对启动子的顺序缺失研究证实基因起始密码子上游160bp的DNA片段包含完整的启动功能片段。根据Papr序列设计引物,从短小芽孢杆菌UN-31-C-42基因组中扩增获得了包含启动子、信号肽、前肽、成熟肽及终止子的完整的碱性蛋白酶基因片段WAp。将WAp插入大肠杆菌—芽孢杆菌穿梭质粒载体pSUGV4中,构建了碱性蛋白酶基因表达质粒pSUBpWAp。将pSUBpWAp分别转入大肠杆菌JM109、枯草芽孢杆菌WB600以及短小芽孢杆菌UN-31-C-42中进行表达。包含了质粒pSUBpWAp的大肠杆菌JM109细胞内外均检测不到碱性蛋白酶活性。在枯草芽孢杆菌WB600中的表达则可在胞外检测到碱性蛋白酶活性,证明启动子Papr可在枯草芽孢杆菌中启动碱性蛋白酶基因的表达,产生的碱性蛋白酶活性最高达到466.5 U/ml,与包含Bp53启动子的碱性蛋白酶基因表达质粒pSUBpAp比较,酶活提高2倍。pSUBpWAp在短小芽孢杆菌UN-31-C-42中也能表达产生碱性蛋白酶活性,但宿主菌的蛋白酶产量并未提高。利用细菌的16s rDNA通用引物从短小芽孢杆菌UN-31-C-42基因组中扩增到16s rDNA片段,将该片段插入载体pMD18-T中,构建了重组质粒pMD16s。从载体pSUGV4中扩增到卡那霉素抗性基因片段,与碱性蛋白酶基因一同插入质粒pMD16s的16s rDNA片段中,构建整合型质粒。拟将该质粒整合至短小芽孢杆菌基因组,提高其蛋白酶产量。

王晓宇[3]2017年在《小麦非生物胁迫相关LEA蛋白WZY1-2与WRAB18的功能研究》文中认为在植物的整个生命过程中,常会遭遇干旱、高盐、高温、冷害以及病虫害等逆境胁迫,影响其正常生长。逆境可造成植物细胞不同程度的损伤,严重时将直接导致植株的死亡。逆境对植物的伤害主要表现在细胞脱水、膜系统遭到破坏、酶活性受影响以及胞内物质代谢紊乱等。植物在长期进化过程中也形成了各种防御机制来抵制这些不利因素对其自身的影响。胚胎发育晚期丰富表达蛋白(LEA蛋白),作为一类逆境相关蛋白,在植物逆境生理调控过程中发挥着重要作用。为探索该家族蛋白在植物逆境胁迫中发挥的功能,本论文以LEA蛋白第二家族成员WZY1-2蛋白和第叁家族成员WRAB18蛋白为研究对象,对二者在植物逆境胁迫下的功能进行了探讨。WZY1-2蛋白,为LEAⅡ家族蛋白(又称脱水素、脱水蛋白)成员之一,具有该家族典型的保守序列:K片段和S片段,属于SK 3型脱水素,可受多种逆境信号分子诱导表达。本研究对脱水蛋白WZY1-2及其K、S片段分别缺失的衍生蛋白在植物细胞内的定位和存在形式进行了探讨,确定了WZY1-2蛋白在细胞中的定位及存在形式,并揭示了K片段或S片段的缺失对WZY1-2蛋白的亚细胞定位以及存在形式的影响;通过在大肠杆菌和本氏烟草细胞中对WZY1-2蛋白进行过表达,研究其在干旱、高盐、高温和低温胁迫条件下对原核和真核生物抗逆性的影响。此外,本研究还通过蛋白与核酸互作的免疫共沉淀技术对脱水蛋白WZY1-2在细胞内的作用机理进行了初步探究。研究结果如下:1.本研究从郑引1#小麦中克隆获得wzy1-2基因ORF序列并在大肠杆菌中进行表达,SDS-PAGE中蛋白大小为理论分子量大小的二倍,通过双分子荧光互补(Bi FC)试验进一步证实WZY1-2蛋白以同源二聚体的形式存在于植物细胞。以wzy1-2基因ORF序列为模板,利用重迭延伸PCR技术对wzy1-2基因K、S片段分别进行缺失,获得wzy1-2基因衍生物wzy1-2?K和wzy1-2?S,对二者分别进行二聚化验证,结果显示,分别缺失了K、S片段的衍生蛋白WZY1-2?K和WZY1-2?S在烟草叶片细胞内依然以二聚体的形式存在,该现象表明K、S片段并不影响脱水蛋白WZY1-2的同源二聚化。2.分别构建WZY1-2、WZY1-2?K以及WZY1-2?S蛋白与GFP融合的表达载体,通过在烟草叶片瞬时表达进行蛋白亚细胞定位分析,结果显示,WZY1-2与WZY1-2?K蛋白定位于细胞核中。部分WZY1-2?S蛋白在细胞核中定位,但也有部分WZY1-2?S蛋白定位于细胞内膜和胞质中,由此可见,K片段对WZY1-2蛋白的核定位并无影响,而S片段能够影响WZY1-2的蛋白定位,但并不是决定因素。3.将WZY1-2蛋白过表达的大肠杆菌BL21(DE3)菌株与作为对照的转p ET28a空载菌株同时进行干旱、高盐、高温和低温胁迫,通过对比菌株生长状况,证明WZY1-2蛋白能够在逆境条件下提高大肠杆菌的生存能力;构建wzy1-2转基因载体,利用农杆菌叶盘浸染,通过组织培养获得wzy1-2转基因烟草,以野生型烟草为对照,通过对烟草生长表型、根长、发芽率、种子活力以及氧化胁迫相应生理指标进行分析,表明脱水蛋白WZY1-2可在多种非生物胁迫下增强烟草的抗逆性。4.利用Ni2+柱对原核表达获得的WZY1-2蛋白进行纯化,并制备特异性抗体进行免疫共沉淀实验,将WZY1-2蛋白与低温胁迫36 h后小麦叶片基因组DNA共同孵育,对琼脂糖珠所捕获复合物分别进行核酸和蛋白电泳检测,结果显示,脱水蛋白WZY1-2能够与核酸结合。WRAB18蛋白,属于LEAⅢ蛋白家族,具有LEAⅢ家族保守氨基酸序列(TAQAAKEKAGE)。本研究确定了WRAB18蛋白在植物细胞内的定位及其在干旱、高盐、高温和低温条件下,对乳酸脱氢酶(LDH)活性的保护作用。将WRAB18蛋白在大肠杆菌和烟草中进行过表达,探索其在干旱、高盐、高温和低温四种非生物胁迫条件下对原核和真核生物的作用。同时,本研究克隆获得了WRAB18基因全长及其上游启动子序列,并对启动子序列所包含的顺式作用元件进行分析。研究结果如下:1.构建WRAB18蛋白C端GFP融合表达载体WRAB18-p A7GFP,通过农杆菌菌液注射使GFP::WRAB18融合蛋白在烟草叶片瞬时表达。在GFP激光通道和m Cherry通道下,利用激光共聚焦显微镜对烟草叶片细胞原生质体中GFP::WRAB18融合蛋白和质体定位蛋白Marker(pt-rk CD3-999)进行共定位观察,结果显示,WRAB18蛋白定位于烟草叶片细胞质体中。2.将纯化的WRAB18蛋白与乳酸脱氢酶(LDH)溶液分别在干燥、高盐、高温和低温条件下共同孵育,酶活性分析表明,逆境条件下,含WRAB18蛋白的反应体系中LDH的酶活性明显高于不含WRAB18蛋白的对照组。3.将WRAB18蛋白分别在大肠杆菌BL21(DE3)和烟草中进行过表达,对大肠杆菌菌株以及转基因烟草分别进行干旱、高盐、高温和低温胁迫,与对照组进行比较,结果显示WRAB18蛋白的过表达可在多种逆境胁迫下提高原核和真核细胞的抗逆性。4.以小麦叶片基因组DNA为模板,克隆获得WRAB18基因的全长序列610 bp,其中包含1个100 bp的内含子区域和2个分别为60 bp、450 bp的外显子区域。克隆获得WRAB18基因上游2000 bp序列,经Plant CARE Database分析显示,该序列包含TATA-box和CAAT-box等启动子保守元件,并含有逆境胁迫相关顺式作用元件:ABREs、GARE、LTREs、MBS等。利用实时荧光定量PCR技术对干旱、高盐、高温和低温四种非生物胁迫后小麦幼苗叶片中WRAB18基因表达量进行分析,结果表明WRAB18基因可受上述4种胁迫诱导表达。

郑海学[4]2007年在《动物RNA病毒反向遗传系统的研究和建立》文中研究说明针对非逆转录RNA病毒发展起来的病毒反向遗传学可以实现对RNA病毒基因组结构与功能、复制与表达、病毒致病机制等研究。本研究用T7RNA聚合酶系统和聚合酶Ⅰ系统为基础建立了体内外拯救方法并初步进行应用。一、SVDV HK/70株生物特性测定、生物信息学分析及以T7 RNAP为基础的体外病毒拯救方法的建立和应用为了建立以T7 RNA聚合酶系统为基础的体外拯救病毒方法,选择猪水泡病病毒(SVDV)HK/70株作为细胞质复制的RNA病毒的研究模型。首先,分离和鉴定了该病毒,并测定了该病的一些生物学特性。然后,构建了SVDV全长cDNA并进行序列测定,以此为基础,分析了其相关生物信息学特征。为了鉴定SVDV HK/70株的全长cDNA分子的感染性,以线化的SVDV HK/70株的全长cDNA质粒(pSVOK_(12))为模板,应用T7 RNA聚合酶系统在体外进行转录,将获得的RNA用脂质体转染法导入IBRS-2细胞,传代培养,可以观察到典型的SVDV致细胞病变效应。使用反向血凝鉴定试验、间接免疫荧光实验、RT-PCR和序列测定进行检测,结果表明,从猪水泡病病毒全长cDNA拯救出了猪水泡病病毒(G-SVDV);利用常规负染的方法,电镜观察了G-SVDV的形态;测定了G-SVDV的TCID_(50)和LD_(50),并与亲本毒进行了比较,结果显示G-SVDV与亲本毒的毒力差别不显着。本研究结果证明,我们已经成功构建了猪SVDV HK/70的感染性cDNA克隆,为进一步探索SVDV病毒致病的分子机制及研制新型SVD疫苗奠定了良好的基础。二、以T7 RNAP为基础的体内病毒拯救方法的建立和应用为了建立高效的体内病毒拯救系统,我们利用逆转录病毒转导技术建立了稳定表达T7 RNA聚合酶的细胞系。先克隆出T7 RNAP基因,定向克隆进逆转录病毒载体pBABEpuro,得到阳性重组质粒pT7BABEpuro。共转染包装细胞,获得含有VSV-G膜的假型病毒,含有T7 RNA聚合酶基因。然后把该假型病毒感染靶细胞,把T7 RNAP基因分别整合进BHK-21、IBRS-2和SK6细胞的基因组内。通过抗性筛选,获得了稳定表达具有转录活性T7 RNA聚合酶的细胞系,通过PCR、间接免疫荧光和流式细胞仪(FCM)等技术进行鉴定,结果表明,该T7 RNAP能够被稳定地整合进靶细胞基因组内,细胞系内的T7 RNAP具有较好的转录活性,其活性传代不减弱。最后,利用该细胞系成功拯救出具有感染性的SVDV,并与亲本毒的生物学特性作了比较。该策略使RNA拯救方法简化为一步快速的拯救方法。利用该方法对CSFV C株进行了拯救,进行了拯救病毒的鉴定,并做了兔子致病性试验。叁、以真核细胞RNA聚合酶Ⅰ系统为基础的体内拯救系统的建立和应用为了克服那些难以适应甚至没有可适应细胞系的病毒拯救难题,设计构建了完全利用真核细胞聚合酶的RNA病毒体内拯救系统。先克隆出所需的真核RNA聚合酶Ⅰ启动子和终止子序列,建立RNA聚合酶Ⅰ启动转录的重组质粒。然后把SVDV全长cDNA装配进该载体,在IBRS-2细胞内和乳鼠体内成功拯救出了SVDV,第一次证明了聚合酶Ⅰ系统能够高效拯救细胞质复制的正链RNA病毒。并利用该拯救系统对FMDV进行了拯救,首次证明该聚合酶I系统能够转录出至少长8.2 kb的转录本。在此基础上,构建含有外源性生物标记5B 19的SVDV HK/70全长cDNA克隆,利用聚合酶Ⅰ反向遗传拯救系统拯救出含有该标记的病毒。为制备含有基因标记疫苗和建立鉴别诊断方法奠定一定的基础。该设计思路的实现,拓宽了高效病毒拯救的途径,为病毒反向遗传学研究提供了更为高效和广泛应用的病毒拯救技术方法。

杜耀华[5]2006年在《基因组转录调控元件的特征分析与识别算法研究》文中指出探寻基因表达调控的规律是后基因组时代生物信息学的核心问题之一。由于转录是基因表达的第一步,对转录的调控必然成为表达调控的重要形式。基因组中具有调控功能的DNA序列片段可称为转录调控元件。对转录调控元件进行识别与注释,无疑将是研究转录调控规律进而构建表达调控网络的关键步骤。随着生物研究的深入和计算机技术的发展,计算识别的方法已逐渐成为传统实验注释方法的有力辅助工具。然而,现有的转录调控元件识别方法多数只考虑序列的一维组成等有限特征,忽略了许多其他重要信息,致使识别的特异性普遍偏低,假阳性结果过多。在这一背景下,本文以转录调控元件的特征分析和计算识别为主题,提出了由特征选取、特征计算和整合识别叁个主要步骤组成的多类特征信息融合识别框架,并基于此框架实现了启动子、内源性终止子和转录因子结合位点叁种常见转录调控元件及其相关调控信号的识别算法,主要工作和创新之处包括:(1)启动子的特征分析与识别算法研究。启动子是负责调控转录起始过程的序列元件,本文在深入分析原核和真核启动子多类特征的基础上,提出了一种基于特征筛选与组合的启动子序列判别分析算法。该算法首先在启动子的序列组成、空间构象和能量分布等特征中广泛选取备选特征,为每个备选特征建立适当的描述模型,通过模型计算对其判别力进行评价;然后采用逐步筛选算法从备选特征中遴选出总体判别力最显着的特征组合作为特征集,依照特征集将启动子序列片段表示为组合特征向量的形式;再利用二次判别分析方法实现分类与识别。为了使描述更加准确,还在原核启动子局部信号特征的分析中引入了复合模体的概念,设计了用于搜索和计算二元复合模体的迭代搜索算法OCMISA。在计算真核启动子中位置不定的保守模体时,同样使用了类似的迭代搜索算法。利用此算法,本文在实际数据集上对原核的大肠杆菌σ70启动子和枯草杆菌σA启动子,真核的人类pol II启动子进行了分类识别,获得了明显优于其他几种常用识别方法的性能评价。(2)转录起始位点的定位算法研究。转录起始位点是与启动子有密切关联的调控信号。本文以前面提出的基于特征筛选与组合的启动子识别算法为基础,将其扩展为转录起始位点定位算法。该算法首先根据转录起始位点可能出现位置的先验信息合理确定搜索范围。由于原核转录起始位点的搜索范围较小,故直接将固定的启动子区域改为滑动窗口进行扫描,根据每个位置上的似然得分来确定预测位置。为提高信噪比,特别设计了基于共振原理的窗口交迭组分特征变量和用于最终定位的阈值定位算法,并引入转录起始位点和翻译起始位点间的距离分布信息作为对似然得分的修正。对于真核转录起始位点,由于搜索范围过大导致滑动窗口方法失效,则需根据已知转录起始位点的组成信息来确定备选位点集,仅对定位范围内的备选位点进行计算,利用启动子识别的方法即可实现分类定位。在实际数据集上对定位算法进行测试,其结果与几种常用方法相比,无论是对原核还是真核转录起始位点,特异性都有了较大幅度的提高。(3)内源性终止子的特征分析与识别算法研究。内源性终止子是凭借自身的序列信号即可实现转录终止功能的调控元件。本文在对大肠杆菌和枯草杆菌内源性终止子已有特征进行深入分析和合理综合的基础上,引入序列弯曲度特征,为内源性终止子构建了一个包含序列组成、局部构象和能量分布信息的更为全面的特征集,并在此特征集上分别利用二次判别分析和支持向量机方法实现了内源性终止子的识别算法。在大肠杆菌全基因组限定范围内的搜索预测中,基于新特征集的算法与其他几种典型方法相比,其识别结果的特异性有了明显提高。(4)转录因子结合位点的特征分析与识别算法研究。转录因子结合位点是转录因子与基因组序列结合的靶位点,是最基本的一类调控元件。本文在分析已有方法的基础上,提出了一种融合保守模体和序列局部构象信息的转录因子结合位点搜索识别算法,采用极大相关得分矩阵作为保守模体的描述和计算模型,同时根据二苷参数模型计算序列的局部构象参数,然后利用二次判别分析整合两类信息,最终通过滑动窗口进行识别。作为对常用位置特异得分矩阵模型的扩展,极大相关得分矩阵的核心思想是根据模体位置间的相关性对全部位置进行重新排列,使得新顺序下所有相邻位置间的相关性总和达到最大。位置重排可以将远程相关尽量转化为近邻相关,从而在较低的模型复杂度下即可实现对模体位置间相关性的更加全面地描述。而局部构象参数则作为外源特征被引入,它们是对序列组成信息的有力补充。基于大肠杆菌CRP、Fis和人类HNF4α结合位点数据的测试结果验证了此识别算法的有效性。与其他常用方法相比,识别结果的特异性有了较大的改善。

王晓慧[6]2008年在《大肠杆菌核心启动子的化学特性分析》文中提出基因转录是遗传信息传递和表达的枢纽,是基因表达调控机制发挥作用的重要环节。而启动子是决定转录起始位点和转录频率的关键元件,因此启动子分析对整个基因组功能的诠释具有重要意义。原核生物体的基因组成和结构相对于人类基因来说,比较简单,在基因组测序时为人类基因组计划提供了借鉴,更重要的是对这些原核生物体的功能基因的认识可以为认清人类基因组的功能提供更多的帮助,推动基因组研究方法和技术的发展。在DNA数值映射方面,简单的、人为的A、T、C、G赋值所反映出DNA序列的生物学意义十分有限。基于此,我们提出用核酸的物理化学属性值来映射DNA序列,与现有方法相比能够反映出DNA序列更多的生物信息,更适合应用于分析DNA序列的信号处理方法中。本文的研究对象是模式生物基因组计划的生物之一——大肠杆菌启动子,其序列数据取自NCBI数据库。在用核苷酸的化学属性值对大肠杆菌序列进行数值化后,本文采用小波分析来寻找大肠杆菌核心启动子的化学结构特征。研究表明:除印证了核心启动子-10和-35区的特征组件在转录调控中具有重要的作用外,还进一步讨论了碱基T中的氧原子很有可能作为氢受体,且氧原子与RNA聚合酶中的氢供体形成氢键而成为-35区的作用位点;推测-10区成为氢供体和受体的可能都很小,主要以范德华作用与聚合酶作用,其结构取向很可能成为RNA聚合酶定位的关键因素以及磷原子有可能就是该结构中的重要作用位点。此外,我们在-53区的地方发现了新的特征。-53区不仅富含碱基A,而且RNA聚合酶的某特定结构与DNA可能以非氢键的方式相互结合,这很有可能是RNA聚合酶全酶在DNA序列上最初始的定位。启动子的识别问题是生物信息学研究的重要问题之一,本文得到的特征化学描述符,对探索启动子的识别与预测具有参考价值。全文结构安排如下:第一章——绪论。简要介绍生物信息学相关知识,生物信息学中的数据库以及启动子研究的现状和方法。第二章——序列分析新方法研究。首先介绍了化学结构对DNA序列行为的重要影响;接着分析比较了各类数值映射方法,进而引出本文新的数值映射方法,最后介绍了本论文所用到的小波变换的相关知识以及分析讨论了小波函数的选取。第叁章——对RNA聚合酶的亚单元和功能、原核生物启动子成分以及特征元件的识别进行了讨论。第四章——大肠杆菌核心启动子的化学特性分析。

梁桂兆[7]2007年在《生物序列表征体系构建及结构与功能关系研究》文中指出生物序列(肽、蛋白质及核酸)结构表征是其结构与功能关系研究中的重要内容及关键前提,序列表征描述子是否能够合理地反映与其功能密切相关的结构信息,决定其结构与功能关系研究的成败。因为决定生物序列功能的结构信息被编码在其一级序列之中,因此,解析其一级序列特征对于生物序列的结构与功能关系研究至关重要。文中综合考察各种生物序列的一级序列特征,构建了两种生物序列结构表征体系,包括:①收集20种天然氨基酸的516种多维性质参数,经因子分析得广义氨基酸信息因子分析标度(FASGAI);②收集5种碱基的1209种多维性质参数,经主成分分析得广义碱基性质得分(SGBP)。研究结果显示,两种表征体系都具有物理化学意义明确,表征能力强,拓展性能好及操作简便等优点。将FASGAI分别用于苦味二肽、血管紧张素转化酶抑制剂及阳离子抗菌肽的定量构效关系(QSAR)研究,人免疫缺陷病毒蛋白酶(HIV PR)裂解位点预测及特异性分析,HLA-A*0201限制性T细胞表位及人类1型双载蛋白SH3结构域亲和肽的QSAR研究,都取得较好的结果。研究显示,苦味二肽的生物活性与其第1残基的体积性质,第2残基的体积性质与疏水性等性质可能存在较大的正相关关系,而与其第2残基的α-螺旋与转角倾向等性质可能存在较大的负相关关系;血管紧张素转化酶抑制剂活性的第2残基的体积性质与疏水性及第1残基的静电性等性质参数的增大可能有利于其活性的提高,而第2残基的构成特征等性质参数的增大可能易导致其活性的降低;阳离子抗菌肽的第10残基的静电性质,第7残基的体积性质,第12残基的疏水性及第3残基的静电性等性质可能对抗菌活性产生较大的正贡献,而第6残基的疏水性及构成特征,第10残基的疏水性等性质可能对抗菌活性产生较大的负贡献;对HIV PR裂解位点预测及特异性分析知,HIV PR可能识别8肽序列中特定位点的关键特征,第1、2、4、5和6残基的体积性质、二级结构信息、静电性质及疏水性等可能是决定HIV PR是否裂解的重要因素,特别地,体积性质可能是HIV PR被识别的重要特征;HLA-A*0201限制性T细胞表位的第3残基的体积性质与疏水性,第2残基的体积性质及第9残基的疏水性等性质可能对亲和性的正贡献较大,而第4残基的疏水性及第3残基的局部柔性等性质可能对亲和性的负贡献较大;分析影响具有10个残基(P-5P-4P-3P-2P-1P0P1P2P3P4)的人类1型双载蛋白SH3结构域亲和肽亲和性的关键作用力知,第P-3与第P2之间残基(含P-3与P2残基)的相应性质可能对亲和性影响较显着,特别地,第P-3残基的静电性质与疏水性可能对于其亲和性的正、负贡献分别相对最大。发展了全新的不依赖于序列同源性及结构相似性的蛋白结构与功能预测方法。将FASGAI分别用于碱性螺旋-环-螺旋(bHLH)蛋白,蛋白质的β-转角结构,G蛋白偶联受体家族及高致病性禽流感病毒血凝素蛋白分类或识别研究。结果显示,对bHLH蛋白分类影响较显着的变量大多来自其功能基序(第1到第13残基)的第5、8、9及13等位点,少数来自第4、6、10及12等位点,表明这些相应位点的变量可能是DNA亲和区域的一些重要识别特征,方差分析显示,在第5、8、9及13位点,除了第8残基的局部柔性与第9残基的体积性质外,其它性质都存在不同程度的显着差异,利用这些差异可较好地分类bHLH蛋白;β-转角结构预测结果表明,FASGAI可较好地表征β-转角残基特征,且其能提供β-转角的一些重要特征信息;经FASGAI表征,自交叉协方差(ACC)转换,支持向量机(SVM)建模用于G蛋白偶联受体家族及高致病性禽流感病毒血凝素蛋白识别所得结果显示,FASGAI是一种优良的蛋白序列结构表征方法,同时,FASGAI-ACC-SVM方法为G蛋白偶联受体家族及禽流感病毒血凝素蛋白识别提供了新的研究思路。将SGBP分别用于大肠杆菌启动子的启动强度及人类基因启动子预测,都取得较好的结果。研究表明,大肠杆菌启动子(-49 bp到+19 bp)的-45,-38,-28,-27,-22,-21,-5,+4,+8,+14及+15等位点碱基的性质可能对启动强度具有较显着的影响,这为启动子的启动强度预测及序列设计提供了可能。以SGBP表征,ACC转换,SVM建模预测人类基因启动子(-250 bp到+50 bp),所得结果不同程度地相当于或优于其它所对比的预测方法。SGBP-ACC-SVM过程建模可以进一步尝试用于其它启动子识别,mRNA转录特性与RNA二级结构预测等。针对性地比较研究了各种QSAR建模与模式识别方法,特别是偏最小二乘(PLS)、线性判别分析(LDA)及SVM等在生物序列结构与功能关系研究中的应用,其中包含了对变量筛选、参数选择及模型验证等内容的研究和讨论。结果表明,PLS可较好地解决变量数较多且存在多重共线性的情况。LDA用于模式识别所得结果稳健,模型易解释。SVM能较好地解决小样本、非线性、高维数和局部最小等问题,使其在生物序列结构与功能关系研究中具有广阔的应用前景,但其在参数设置等问题上有待进一步研究,文中探索性地将响应面分析法用于SVM的参数设置,结果证明该方法对于其参数设置是较有效的。文中选择性地采用逐步多元回归、遗传算法及逐步方法筛选变量,研究发现,叁种方法都可较好地去除原始变量中的噪声信息。文中通过内部和外部双重验证评价模型质量,采用的内部验证方法有自检验、留一法及留组法验证等,在内部验证的基础上,利用预测集样本对模型进行外部预测能力评价,以确保所得模型的有效性。

敖伟[8]2005年在《生物序列中功能元件识别与发现》文中指出生物序列中的功能元件是能够控制基因的表达和调控过程的DNA片断,对它们的研究对于人们理解生物序列的含义具有巨大的意义。本文先对特定功能元件的识别进行了研究,然后将该问题推广到生物序列中的模式发现问题上,并对生物序列中的模式发现问题进行了一些有益的探索。生物序列中功能元件的识别与发现主要有两种方法。一种是有指导的识别方法,即利用已知的信息判读一段未知的序列中是否含有某种功能元件;另一种是无指导的学习方法,即利用一些相似性指标,通过搜索算法发现序列中可能蕴含的信号。大肠杆菌启动子能起始基因的转录,它主要由两段比较保守的序列片断-10框、-35框和它们之间一段长度可变的碱基序列组成。由于保守序列中的碱基是可变的,而且间隔碱基的长度也是可变,这给大肠杆菌启动子的计算机识别带来了难度。本文提出了一种基于多特征的大肠杆菌启动子判别算法,即通过词频分析获得序列的组成特征,利用位置权重矩阵(PWM)和隐马尔科夫模型(HMM)获得序列的结构特征,然后输入到一个分类器中进行分类。文中分别利用大肠杆菌编码区和非编码区的序列数据对算法进行了测试,结果表明,该方法的平均错误率显着低于其它方法。生物序列中的模式发现是生物信息学中一个极具挑战性的问题。本文通过研究能恢复出模式的序列片断之间的相似性关系,提出了能恢复出模式的序列片断与该模式之间应当满足的信号相容性条件(Signal compatible condition)。在此基础上,针对单一模式发现问题,文提出并实现了一种穷举搜索的模式发现算法——信号相容性算法(Signal compatible algorithm, SCA)。通过改进构造搜索图的方法,进而将该算法扩展应用到二元组合模式的发现中。通过仿真数据和生物数据的测试,该算法能确保发现序列中蕴含的所有模式,同时由于将信号相容性条件作为剪枝准则,该算法具有计算时间短,占用内存少的优点。

冉令华, 阮晓钢[9]2005年在《大肠杆菌启动子特征元件对启动子识别的影响》文中研究表明为了进一步研究大肠杆菌启动子的识别算法,根据大肠杆菌基因分子生物学有关理论与统计事实,对大肠杆菌启动子特征元件进行了研究.从启动子样本中选取不同的保守序列,采用2种神经网络结构.分别分析了启动子特征元件对识别的影响.研究发现.包含-10和-35区2个显着保守序列元件及其他几个非显着序列元件时,正样本和负样本的识别率最高,达到77.67%和88.45%.实验结果为进一步研究启动子的特征提取和识别算法提供了参考.

黄飞[10]2009年在《枯草芽胞杆菌β-1,4-内切葡聚糖酶基因启动子克隆、序列分析及突变》文中认为枯草芽胞杆菌BME12是一株高产β-1,4-内切葡聚糖酶的菌株。本研究利用β-1,4-内切葡聚糖酶分解纤维素β-1,4-键的特性,通过构建基因组文库筛选到一段能够启动β-1,4-内切葡聚糖酶基因表达的序列。经测序和分析表明,位于两功能基因之间的启动子片段长449bp,位于β-1,4-内切葡聚糖酶基因的上游。通过对启动子序列的分析以及生物学软件预测发现,该449bp片段中存在叁个依次排列的启动子片段(p1、p2和p3)。缺失突变分析表明至少叁个启动子中的两个启动子共同启动报告基因表达,且β-1,4-内切葡聚糖酶基因前面116bp的片段就能启动基因表达。PCR扩增不同的启动子片段并连接到没有启动子的报告基因(β-1,4-内切葡聚糖酶基因)的载体pEG上,转化大肠杆菌。酶活测定结果显示启动子p3启动基因的能力最强,p2次之,p1最弱。利用易错PCR技术对449bp启动子序列进行随机突变后通过重迭延伸PCR将突变的启动子序列和β-1,4-内切葡聚糖酶基因连接起来,经BamHI和KpnI酶切后与同样酶切好的pUC18载体连接,转化大肠杆菌。通过刚果红染色法高通量筛选,最后从大约8000个转化子中筛选到2个正突变重组子。SDS-PAGE聚丙烯凝胶电泳分析,突变菌株M6中β-1,4-内切葡聚糖酶的表达量较原始菌株有明显提高。实时荧光定量PCR分析发现,突变菌株M6(p6)和M9(p9)中β-1,4-内切葡聚糖酶的表达量分别是原始菌株的2.3、1.4倍。本实验利用突变的启动子片段p6构建组成型表达载体,并成功的表达了大肠杆菌丝氨酸羟甲基转移酶。

参考文献:

[1]. 大肠杆菌启动子序列特征分析与识别方法的研究[D]. 冉令华. 北京工业大学. 2004

[2]. 短小芽孢杆菌碱性蛋白酶基因启动子的功能研究[D]. 杨春晖. 四川大学. 2006

[3]. 小麦非生物胁迫相关LEA蛋白WZY1-2与WRAB18的功能研究[D]. 王晓宇. 西北农林科技大学. 2017

[4]. 动物RNA病毒反向遗传系统的研究和建立[D]. 郑海学. 中国农业科学院. 2007

[5]. 基因组转录调控元件的特征分析与识别算法研究[D]. 杜耀华. 国防科学技术大学. 2006

[6]. 大肠杆菌核心启动子的化学特性分析[D]. 王晓慧. 兰州大学. 2008

[7]. 生物序列表征体系构建及结构与功能关系研究[D]. 梁桂兆. 重庆大学. 2007

[8]. 生物序列中功能元件识别与发现[D]. 敖伟. 国防科学技术大学. 2005

[9]. 大肠杆菌启动子特征元件对启动子识别的影响[J]. 冉令华, 阮晓钢. 北京工业大学学报. 2005

[10]. 枯草芽胞杆菌β-1,4-内切葡聚糖酶基因启动子克隆、序列分析及突变[D]. 黄飞. 华中农业大学. 2009

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

大肠杆菌启动子序列特征分析与识别方法的研究
下载Doc文档

猜你喜欢