近亲繁殖群体的信息论模型研究

近亲繁殖群体的信息论模型研究

张宏礼[1]2004年在《近亲繁殖群体的信息论模型研究》文中认为群体遗传学是研究生物群体的遗传结构及其变化规律的遗传学分支学科。生物进化从基因水平上看就是群体遗传结构的变化,群体遗传学的发展和生物进化理论密切相关。群体的遗传变异受多种因子的影响,进化中许多重要问题是无法通过对自然群体或实验群体的观察或实验来解决的,要研究群体遗传变异的程度,进行的速度,限制的条件,进行数学处理是必不可少的。 数学模型是对有关系统的特性的高度概括,以往群体遗传学中的数学模型基本上是统计学模型。群体遗传学所研究的世代传递过程本身也是一个信息传递的过程,因此信息论模型也应该是研究该门学科的一种数学模型。1998 年以来,袁志发、郭满才等提出用 Shannon信息熵作为度量群体遗传多样性的数量指标,为群体遗传学的发展提供了新思路。本研究正是在他们工作的基础上,应用信息论模型进一步研究群体遗传学中近亲繁殖群体的有关问题。 当信息论方法用于具体学科时,尽管信息的基本统计学性质本质是一样的,但在具体学科中会有其特殊的具体内容。在本研究中中,始终坚持下面的两个原则:  1.当涉及到与频率分布有关的 Shannon 信息熵、互信息等概念及推理时,总是把正反交分开,并且假定正反交频率相等。  2.一切应用到群体遗传学中的信息概念、公式以及约束条件等均不依赖取值,与取值无关。 通过对近亲繁殖群体的信息论模型研究,得出以下主要结论: 1.基因型信息熵是关于基因型频率改变量或近交系数的单调递减的上凸函数。从随机交配下的平衡群体开始,在近亲繁殖制度下,其基因型信息熵 S(G)逐代减少,且满足S(G1) = S(G0 ) 2 ≤ S(G) ≤ S(G0);经过足够多的世代后,基因型信息熵S(G)逐代减少的趋势越来越慢,最终趋于固定值,群体达到近亲繁殖下的平衡;随着世代交替中基因型信息熵S(G)的逐代减少,群体的遗传多样性程度也逐渐减小;基因型信息熵S(G)趋于固定值的过程,也是群体趋向于近亲繁殖平衡的过程。II 近亲繁殖群体的信息论模型研究 2.配子间互信息是关于基因型频率改变量或近交系数的单调递增的上凹函数。从随机交配下的平衡群体开始,在近亲繁殖制度下,配子间互信息 I(X,Y)逐代增加,且满足0≤ I(X,Y) ≤ S(X ) = S(Y) = S(A) = S(G1) = S(G0) 2;经过足够多的世代后,配子间互信息 I(X,Y)逐代增加的趋势越来越慢,最终趋于固定值,群体达到近亲繁殖下的平衡。 3.从随机交配下的平衡群体开始,在近亲繁殖制度下,配偶间的基因型联合信息熵逐代减少。配偶间互信息I(GX (t),GY (t))并不一定是关于世代数t的单调函数,但满足0 ≤ I(GX (t), GY(t)) ≤ S(G0)。 4.母子间基因型联合信息熵 S(G(t)G(t +1)) 是关于世代数 t的减函数。从随机交配下的平衡群体开始施以自交比例为w的近亲繁殖,则在世代交替中,母子间的基因型联合信息熵逐代减少;母子间的基因型联合信息熵满足m ≤ S(G(t)G(t +1)) ≤ M ,其中m = lim S(G(t)G(t +1)) = S(G(∞)G(∞)), M = S(G( G( ),m 的意义是:近亲繁殖的平 0) 1) t→∞衡状态下母子间的基因型联合信息熵;随世代交替,母子间基因型联合信息熵的变化率逐渐趋向于零,直到群体平衡。 5.定义并讨论了强相对基因型信息熵、弱相对基因型信息熵、强近交关联信息系数、弱近交关联信息系数等指标,用以进一步刻画群体的遗传、变异。

张宏礼, 刘海泉[2]2002年在《近亲繁殖下复等位基因群体的熵性质》文中认为研究了在近亲繁殖下复等位基因群体的基因库信息熵和基因型信息熵,并讨论了在世代交替中基因型信息熵的性质。结果表明,应用信息论模型研究群体遗传学与统计学方法具有一致性,而且还具有信息学含义。

张宏礼, 郭满才, 解小莉, 刘建军, 周静芋[3]2003年在《近亲繁殖下一对等位基因群体的熵性质》文中指出研究了在近亲繁殖下一对等位基因群体的基因库信息熵和基因型信息熵 ,并讨论了在世代交替中基因型信息熵的性质、配子间的互信息性质及其与近交系数的关系 ,并定义了配子间的近交关联信息系数。结果表明 ,应用信息论模型研究群体遗传学与统计学方法具有一致性 ,而且还具有信息学含义。

刘建军[4]2009年在《群体连锁遗传的信息学模型研究》文中认为本文以Shannon信息论为工具,对群体遗传学中的连锁遗传进行了以下叁方面的研究:1有连锁的两对等位基因群体的Shannon信息熵研究,得出以下结果:(1)有连锁的两对等位基因平衡群体的基因型信息熵最大,配子信息熵最大,即最大信息熵分布就是平衡群体分布;(2)有连锁的两对等位基因非平衡群体,经过一代随机交配,各位点基因型信息熵达到最大,随着交配代数的增加,群体信息熵,配子信息熵逐渐增大,直到平衡达到最大;(3)有连锁的两对等位基因非平衡群体,信息熵增大的速度随着连锁强度的减弱,即重组率c的增加而加快;(4)有连锁的两对等位基因平衡群体中,各位点基因型间相互独立,两性配子间相互独立;(5)有连锁的两对等位基因平衡群体中,基因型信息熵等于配子信息熵的2倍,配子信息熵等于各位点基因库信息熵之和。2性连锁平衡群体信息模型研究,得出以下结果:(1)当雌性群体与雄性群体信息熵之和达到最大且等于基因信源信息熵3倍,也就是[S[G(♀)]+ S[G(♂)]]max=3 S[A(P)]时,,性连锁群体达到平衡.即p1 1 = p13=pq, P1 4 = q2, p 15 =p, p 16 =q(2)经过一代随机交配,性连锁群体的雄性基因信源为上代雌性基因信源,因而有S[A1(♂)]=S[A0(♀)].这个性质说明,平衡过程是下代雄性基因信源及其信息量变为上代雌性基因信源及其信息量的交替振荡过程,即S[Ai(♂)]=S[Ai-1(♀)], i=1,2,…,(3)平衡过程是用上代雌、雄基因信源信息量表达下代雌性群体信息量的过程,即S[Gi(♀)]=S[Ai-1(♂)]+S[Ai-1(♀)]. i=1,2,…,当S[A(♂)]=S[A(♀)]=S[A0(P)]时,再经过一代随机交配群体就达到平衡.(4)群体中基因平均信源信息量不变,即S[A1(P)]=S[A0(P)].这说明,在随机交配下,群体基因平均信息量逐代不变,即S[Ai(P)]=S[A0(P)]. i=1,2,…(5)经过一代随机交配雌性基因信源A, a的频率为上代雌、雄基因信源同种基因频率的平均值,即1p (A♀(6)性连锁不平衡群体,逐代随机交配下去,终将平衡,使S[G(♂)]+S[G(♀)]达到最大值3S[A0(P)]。由性连锁群体的平衡及其信息熵的分析知,平衡时信息熵最大,这在伴性遗传基因定位上很有意义。另外,性连锁不平衡群体,在随机交配下,其平衡过程就是信息熵增大的过程,即种内进化是熵增大过程,也是生物保持其遗传多样性的过程。3群体连锁在QTL分析中的信息模型研究,得出以下结论:(1)回交群体信息熵S (c)随着连锁强度的减弱而逐渐增大,由完全连锁时的ln 2增加到无连锁时的2 ln2.并且关于重组率c是增加的凸函数。(2)在回交群体对重组率c的信息论估计中,不论是利用亲祖型频率与重组型频率的观察值估计c.还是利用亲祖型频率与重组型频率的观察值的合并值估计c。重组率c的估计值c?就是使回交群体观察值信息熵S (p)与期望值信息熵S (c)之差的平方f ( c)= [S(p)?S(c)]2取得最小值时的取值,这时最小值为零。即[ f (c?)]min =0(3)设θ=(1 ?c)2,F2代群体表现型期望值信息熵为S (θ),当14≤θ≤1时, S (θ)是单调递减的凸函数,且(4)在用F2代群体对重组率c的信息论估计中,使函数f (θ)= [S(p)?S(θ)]2取得最小值时θ的取值所对应的c为重组率。重组率c的估计值为: c? =1?θ?.函数f (θ)最小值为零,即[ f (θ?)]min =0

杜俊莉[5]2005年在《孟德尔群体中亲属关系与相似性度量的信息论模型研究》文中研究表明本文在运用信息论研究群体遗传学的现有基础上,以Shannon 信息熵为工具,对孟德尔群体中的亲属关系和群体间的相似性度量进行了深入的分析,并得到了以下一些结论:1. 孟德尔群体中的亲属关系研究及得到的结论:(1)一对等位基因平衡群体中亲属关系的研究及结果:分开正反交,列出一亲与子代的联合概率分布表,计算各自的Shannon 信息熵,二者的联合信息熵及互信息,最后定义了母子间的信息关联系数,然后用同样的分析方法,定义了全同胞对子间的信息关联系数为传统统计学的分析结果为,母子间的相关系数与全同胞对子间的相关系数都是常数1 2,而亲属的信息关联系数与基因频率有关,都是关于基因频率的函数,这样的结果更科学、更客观,因为群体遗传学研究的是基因库的变化规律,生物世代间传递的是基因。(2)复等位基因平衡群体中亲属关系的研究及结果首先,用推广的ITO 矩阵列出复等位基因平衡群体中亲属间的联合概率分布表,克服了一一列表的繁琐。该方法的基础是利用条件概率矩阵。最基本的叁个矩阵是I k ,Tk ,O k,它们均为k ( k + 1) 2方阵,在这叁个矩阵的基础上,母子间的联合概率分布列由Tk 矩阵的每行分别乘以得到。而全同胞对子间的联合概率分布表则由用I k ,Tk ,O k线形表示的矩阵的各行分别乘以p1 2 , 2p1p2,……,2p1pk ,p22,2p2p3,……,2pk-1pk,pk2得到。

马国际[6]2008年在《点突变的熵性质》文中认为自然界的生物丰富多彩,多种多样,不但不同种属的生物个体之间存在着差异,即使是同一种属的生物不同个体之间也存在着这样那样的不同,即生物具有多样性。生物多样性是一种普遍现象,是生物群体存在和发展的基础;“熵”是其最好的度量。生物多样性有些是由于环境因素造成的,有些是由于生物体自身的遗传物质不同造成的。遗传因素是决定生物多样性最主要、最根本的因素。而突变是造成生物遗传物质不同的最主要原因。为了揭示突变对生物多样性的影响,进而最终揭示生物多样性的发展方向,本文以Shannon信息熵作为生物多样性的度量,在分子水平上对点突变的熵性质进行了两个方面的研究:理论分析和模拟研究。理论分析:首先,根据有关“无限”的数学理论,对长度无限的脱氧核糖核苷酸序列进行了分析,证明了在任何突变率下,序列总是达到平衡而序列熵也总是达到最大值ln4;其次,对于有限长脱氧核糖核苷酸序列,在突变的单参数模型下,建立了点突变的微分方程模型,得出了四种碱基在序列中的数目随世代变化的函数关系式,证明了随着世代的增加,脱氧核糖核苷酸序列的序列熵趋向于最大值;最后,对于有限长脱氧核糖核苷酸序列,在突变的双参数模型下,建立了点突变的微分方程组模型,得出了四种碱基在序列中的数目随世代变化的函数关系式,证明了随着世代的增加,脱氧核糖核苷酸序列的序列熵也趋向于最大值。模拟研究:在理论分析的基础上,利用Matlab软件进行随机点突变的计算机模拟。首先,利用计算机的随机函数产生叁条长度相同的脱氧核糖核苷酸序列,然后让它们分别在突变率为0.0025、0.0034、0.0046/基因组/世代的基因组平均突变率下随机地发生突变,不区分各类碱基之间相互的突变率,分别模拟100000、200000、500000个世代,计算每一条序列在每一个世代的序列熵;其次,利用计算机随机地产生叁条长度分别为5×103bp,5×105bp,5×106bp的随机脱氧核糖核苷酸序列,然后让它们在突变率为0.0034/基因组/世代的基因组平均突变率下随机地发生突变,不区分各类碱基之间相互的突变率,分别模拟100000、200000、500000个世代,计算每一条序列每一个世代的序列熵。两类模拟结果均与理论分析相吻合,直观验证了所得理论结果。通过理论分析和模拟研究,得出了生物遗传物质脱氧核糖核苷酸序列的序列熵随世代的发展而变化,并逐渐地趋于序列熵的最大值的重要结论。进而也阐释了生物是朝多样性增大的方向发展进化的这一客观事实。

张银霞[7]2009年在《相邻位点碱基突变的熵性质》文中研究说明自然界的生物绚丽多姿,千姿百态,不但不同种属的生物个体之间存在着差异,即使是同一种属的生物不同个体之间也存在着这样那样的不同,即生物具有多样性。生物多样性是一种普遍现象,是生物群体存在和发展的基础;“熵”是其最好的度量。生物多样性有些是由于环境因素造成的,有些是由于生物体自身的遗传物质不同造成的。遗传因素是决定生物多样性最主要、最根本的因素。而突变是造成生物遗传物质不同的最主要原因。为了揭示突变对生物多样性的影响,进而最终揭示生物多样性的发展方向,本文以Shannon信息熵作为生物多样性的度量,在分子水平上对相邻位点碱基突变的熵性质进行了两个方面的研究:理论分析和模拟研究。理论分析:首先,对长度无限的DNA序列进行了分析,证明了在任何突变率下,序列总是达到平衡而序列的两相邻位点碱基组成的信息熵也总是达到最大值4ln2;其次,对于有限长DNA序列,分别在双参数模型和单参数模型下建立两相邻位点碱基突变的微分方程模型,得出了16种碱基组成的概率随世代变化的函数关系式,证明两相邻位点碱基突变具有保熵性,生物是朝着熵增方向即多样性增加的方向进化的;该结论也适用于3个相邻位点以及更多相邻位点碱基突变的情况。模拟研究:在理论分析的基础上,利用Matlab软件进行两相邻位点碱基突变的随机计算机模拟。首先,利用计算机随机产生一条长度为5×104bp的DNA序列,然后让它分别在突变率为0.0025、0.0034、0.0046/基因组/世代的基因组平均突变率下随机地发生突变,不区分转换和颠换率的前提下,模拟500000个世代,计算序列在每一个世代的序列熵;其次,利用计算机随机地产生叁条长度分别为5×103bp,5×104bp,2×105bp的随机DNA序列,然后让它们在突变率为0.0034/基因组/世代的基因组平均突变率下随机地发生突变,不区分转换和颠换率的前提下,模拟500000个世代,计算每一条序列每一个世代的序列熵。模拟结果与理论分析相吻合,直观验证了所得理论结果。通过理论分析和模拟研究,得出了DNA序列相邻位点碱基突变的熵随世代的发展而变化,并逐渐地趋于序列熵的最大值的重要结论。进而也阐释了生物是朝多样性增大的方向发展进化的这一客观事实。

郭满才[8]2002年在《群体遗传变异的信息学模型研究》文中指出系统研究群体遗传学的形成、数学模型、遗传多样性的指标体系、信息论在遗传学中的应用及DNA数据的分析方法,对于动物分广群体遗传变异分析具有重要意义。但目前建立在统计学基础上的群体遗传学尚未阐述清楚进化过程群体的熵变规律,而且遗传多态性分析的指标体系不够完善,因而必须用信息论方法科学描述和丰富遗传多样性的指标体系。此外,分子生物技术的介入及核苷酸序列进化的研究都为群体遗传学的深入研究提供了新的途径,但关于DNA序列数据的分析方法需要作进一步的研究。本研究主要体现在以下几个方面: (一)关于群体遗传学的信息论模型研究,主要分为叁部分内容:一是群体平衡的Shannon信息熵的性质和群体平衡建立的熵变性质;二是群体遗传多样性测度的研究;叁是非平衡群体的基因变异测量Shannon信息量的方法研究。得到了如下结论: 1、平衡群体的Shannon信息熵最大,群体平衡的过程是熵的增大过程。 (1)复等位基因群体 对具有同一基因库的复等位基因位点,用最大熵证明了该位点所对应的所有群体中,平衡群体的基因型熵最大,其数值大于等于0,小于等于21nk(这里k为该位点等位基因数目),且等于该位点基因库熵的两倍。 (2)两对等位基因群体 对两对等位基因群体,建立了各位点熵,群体熵。用最大熵原理证明了群体平衡时,基因型信息熵及配子信息熵最大,配子信息熵为各位点信息熵之和,基因型信息熵为配子信息熵的两倍。同时建立了基因相对信息量多样度的测量方法,通过模拟得出基因相对信息量多样度与基因多样度间存在线性关系,决定系数为0.9929。 (3)近亲繁殖群体 证明了近交系数为F的群体在随机交配下达到平衡的群体信息熵是F的增函数,即F固定时,其值最大;群体信息熵大于等于基因库信息熵,小于等于基因库信息熵的两倍。提出了配子间的近交关联系数的概念,并证明了它是近交系数F的单调递增函数,从信息论的角度刻画了配子间的关联程度。2 群体遗传变异的信息学模型研究 (4)性连锁群体 用最大嫡原理证明了雌性群体与雄性群体的信息嫡的和小于3倍的群体基因信息嫡,当群体平衡时相等,且达到最大。并且研究了性连锁群体从不平衡到平衡过程中的嫡振荡递增过程。 2、多样性测度的研究 在Lewontin关于多样性测度一般性原理指导下/]复等位基因群体的多样性测度进行了研究。证明了不同多样性测度均为等位基回频率的上凸函数;当基因频率之一等于1 时,它们都等于0;当所有基回频率相等时,它们达到最大值;它们随基P]个数的增加而增加。多样性测度为:杂合度 H(Dk基回多样度 D)、基回库信息嫡二(。4)、相对基因库嫡厂’(A)、平衡群体信息脑S(。J。)、平衡群体相对信息嫡StA’)。平衡群体相对纯合度嫡义U 2厂平衡群体相对杂合度嫡扎(A勺、多态信息含量PjC、两种基回均匀度U(A)和W(A),从取值范围看S’(A)、S’(AZ)、U(A)和W(A)均为[0;l], 。、、,。,。、;大1、。,。。。。。、1(人nZj人+1)。。。。。H(或D)取值范围为[0,上二二],取值范围最窄的为Pj厂:[0,二二二上上士二二1。取值范围愈 k““k3“一宽分辩能力愈强。在这些指标中,除H(或D)和PjC,外,其余均为本研究首次提出。本研究提出的 Sj*刁能反映纯合体的遗传变异,而纯合度不能,回为*之一为 1时,己无遗传变异,而J=l。 3、非平衡群体的基因变异测量的Shal。non信息量方法 人 当群体不平衡时一般采用基回多样度DJ-Z人度量多样性c本研究提出用 I叫‘大际群休的十对信息嫡厂’(口)叉 *(口)凡 * (口)作为儿平衡群体的多干,件坝度*模拟全 果表明 y(G)、乙(G)、乙(G)均与 D呈正 十关,个关系数分别为0,973324。0、992351、089门7。对于纯合体比例大的〕平衡群体 相对信息嫡多十性测度* D更实际一些。 (二二)关于微卫星数据资料的统汁分析研究,内容分为两部分:一足微卫星标记与性状问的关系分析方法;二是利用微卫星标记估计们体近交系数的I。厂究。各部分的结论如下: l、利用对所研究性状与微卫星杯记的相关分析,可以对微卫星结果是否可以作为标记进行判断。对只区分两种状态的性状划分成小 数据,对数量性状的划分可以以实测值,也可以按研究目的划分成0刁 数据或拧分组c由于标己只分为有无两种,所以,对数量性状划分成0刁 数据处理时,结促的意义更明确。利用相关系数与夹角相结合,可以给出性状与标记关系的几何解释,给定夹角的阈值,可以筛选有效的标记。 2、利用微卫星标记的共显性特征,建立估计随机交配群体的近交系数的方法。

解小莉[9]2004年在《突变与Shannon信息熵》文中研究表明本文以Shannon信息量为工具,对群体遗传学中的突变问题进行了以下四方面分析:1.两对中性基因平衡群体的Shannon信息熵性质,得到如下结果:(1)两对中性等位基因平衡群体的基因型信息熵最大,配子信息熵最大,即最大信息熵分布就是平衡群体分布。(2)两对中性等位基因平衡群体中,各位点基因型间相互独立,两性配子间相互独立,即它们的互信息为0。(3)两对中性等位基因平衡群体中,杂合度和相对信息熵都可以作为群体多样度的测度,相对信息熵反映了群体中所有基因型的信息,而杂合度反映了杂合体的信息,因而作为基因多样度的测度,优于。计算机模拟结果表明,两者呈正相关,且相关系数为0.9747.(4)两对中性等位基因的非平衡群体,经过一代随机交配,各位点的基因型信息熵达到最大;随着随机交配代数的增加,配子信息熵逐代增大,直到平衡时达到最大。(5)两对中性等位基因平衡群体中,基因型信息熵等于2倍的配子信息熵,配子信息熵等于各位点的基因库信息熵之和。2.中性突变基因在世代传递中的Shannon信息熵性质,得到如下结果:(1)在频发突变中,设基因和的频率为0.5的时间为,则时间小于时,基因库信息熵单调上升;时间大于时,基因库信息熵单调下降;时间等于时,基因库信息熵达到最大。(2)在频发突变中,最终基因在群体固定。基因发生替换时,群体所付出的代价为。(3)在往复突变Aa(u>v)中,基因频率随世代变化是一个稳定平衡过程,平衡频率为平衡时的基因库信息熵为,进化结果为稳定多态性。(4)在往复突变Aa(u>v)中,当基因的初始频率小于0.5时,基因库信息熵随世代先单调上升到,然后单调下降到;当基因的初始频率大于或等于0.5而小于平衡频率时,基因库信息熵随世代单调下降到;当基因的初始频率大于平衡频率时,基因库信息熵随世代单调上升到;当基因的初始频率等于平衡频率,基因库信息熵不随世代变化。(5)在往复突变Aa(u>v)中,群体由初始到平衡的变化过程中,群体所付出的代价为,其中为平衡时的群体信息熵。3.中性突变基因在有限群体中的Shannon信息熵性质,得到如下结果:(1)在群体大小为的随机交配的中性突变基因群体中,初始群体的基因库为随机漂变的最终结果是群体分布为。(2)在群体大小为的随机交配的中性突变基因群体中,群体的信息熵随世代减小。(3)在群体大小为的随机交配的中性突变基因群体中,群体由于随机遗传漂变而达到固定,群体所付出的代价为。4.自然选择与稳定多态现象的Shannon信息熵性质,得到如下结果:(1)初始群体的基因库为基因型的选择系数分别为,则当时,基因的平衡频率为其中,群体为稳定平衡;当时,基因的平衡频率仍为群体为不稳定平衡。(2)在的情况下,若,平衡时的基因库信息熵为,当基因的初始频率小于0.5时,基因库信息熵随世代先单调上升到,然后单调下降到;当基因的初始频率大于或等于0.5而小于平衡频率时,基因库信息熵随世代单调下降到;当基因的初始频率大于平衡频率时,基因库信息熵随世代单调上升到;当基因的初始频率等于平衡频率,基因库信息熵不随世代变化。(3)在的情况下,若,当基因的初始频率小于0.5时,基因库信息熵随世代单调下降到0,基因替换;当基因的初始频率大于0.5而小于平衡频率时,基因库信息熵随世代单调上升到,然后下降到0,基因替换;当基因的初始频率大于平衡频率时,基因库信息熵随世代单调下降到0,基因替换;当基因的初始频率等于平衡频率,基因库信息熵不随世代变化。(4)在针对基因的完全及部分选择中,群体的最终结果为基因替换,群体发生基因替换所付出的代价为。(5)在超显性选择、突变与选择共同作用下,群体由初始状态到平衡,所付出的代价为,其中为平衡时的群体信息熵。

李纯莲[10]2004年在《药物设计中分子对接优化设计的算法和软件研究》文中进行了进一步梳理分子对接是药物发现和设计中一种非常重要的方法,也是国内外前沿研究课题,具有交叉学科的研究特点。它利用计算机模式识别和优化技术,在叁维结构数据库中搜索能与特定药物作用靶点在几何和化学上相匹配的分子,实现计算机辅助药物筛选(虚拟筛选)。虚拟筛选节省了大部分化合物合成或购买以及实际生物测试的时间和花费,大大加快了新药研发的过程并降低了成本。分子对接的优劣和效率是虚拟筛选成功与否的关键,本文的主要工作正是围绕这一方向开展。 首先综述了药物设计中分子对接方法的研究现状。在深入研究分子对接理论的基础上,发展了一种基于信息熵的分子对接设计多种群演化模型,该模型除包括传统对接模型的优化目标外,还含有由信息熵组成的目标函数。信息熵用于衡量优化过程中最优解出现在哪一个种群中的不确定性,随着优化过程向最优解的逼近,这种不确定性逐步消除,伴随着最优解的达到熵减为最小值零。文中证明了这一新模型和传统模型的等价性,由于信息熵的介入使遗传演化中蕴含着的进化目的性更为增强。算法将传统遗传操作中的一些选择参数作为变量参与设计,增加了算法的自适应性。除此之外,还以空间收缩尺度作为停机判据,有效地控制了算法的收敛。经典例题的数值测试表明本算法快速有效,药物分子对接实例也验证了所建立的对接模型对药物分子设计的有效性。 对上述模型进行了并行化处理,基于信息熵的分子对接设计多种群演化算法是从模型入手研究的并行算法,与当前基于小分子数据库区域分割类算法不同,本文实现了药物分子对接构象搜索算法的并行化。为开发粗粒度并行算法,以多个规模较小的种群取代传统意义下的规模较大的单一种群,以种群间的杂交尽量避免小种群自身的“近亲繁殖”,既不增大原问题的群体(按单种群遗传)规模,又不降低进化的多样性。多种群容易建立与并行处理器间的映射关系,有利于做到算法的负载平衡。开发的并行程序采用SPMD模式在MPI编程平台上实现,已用于分子对接设计,取得了较高的并行加速比和运行效率。 改变了原DOCK软件的基于片段的对接方式,省去了DOCK软件的一些预处理操作。在优化时用改进的对接算法直接在配体分子的柔性空间内搜索最优构象,较之DOCK中基于单纯形法的多级搜索寻优,既加快了优化速度,又增强了全局寻优能力。将上述分子对接串、并行算法的相应模块集成,发展出一个用于药物分子对接设计的软件。为测试该软件的效能,分别进行了环氧合酶-2(COX-2)抑制剂晶体复合物中配体与其受体和过氧化物酶体增殖物激活受体-γ激动剂候选分子与其受体的对接设计,均取得了较好的结果。实验证明,集成后的软件提高了对接的速度和精度,已经得到相关药物研究机构的应用。大连理工大学博士学位论文 另外,为了测试本文分子对接软件在药物分子虚拟筛选上的效果,搜索了由DOCK4.0.1所附带的49个小分子和目前已经上市的COX一2抑制剂药物小分子塞来昔布组成的含有50个分子的小分子库,搜索结果表明塞来昔布与COX一2结合的能量得分是所有化合物中得分最好的,而且好于模板与COX一2结合时的能量得分。本文还探索了分子对接在辅助制备新型免疫吸附材料方面的应用,用分子对接预测出的3个有希望的分子中已经有一个经实验室测试具有生物活性,显示出分子对接方法在该领域的应用前景。 本文的工作得到国家重点基础研究发展规划(973)项目(GJ 1 999032805)和国家自然科学基金项目(10272030)的资助。

参考文献:

[1]. 近亲繁殖群体的信息论模型研究[D]. 张宏礼. 西北农林科技大学. 2004

[2]. 近亲繁殖下复等位基因群体的熵性质[J]. 张宏礼, 刘海泉. 黑龙江八一农垦大学学报. 2002

[3]. 近亲繁殖下一对等位基因群体的熵性质[J]. 张宏礼, 郭满才, 解小莉, 刘建军, 周静芋. 西北农林科技大学学报(自然科学版). 2003

[4]. 群体连锁遗传的信息学模型研究[D]. 刘建军. 西北农林科技大学. 2009

[5]. 孟德尔群体中亲属关系与相似性度量的信息论模型研究[D]. 杜俊莉. 西北农林科技大学. 2005

[6]. 点突变的熵性质[D]. 马国际. 西北农林科技大学. 2008

[7]. 相邻位点碱基突变的熵性质[D]. 张银霞. 西北农林科技大学. 2009

[8]. 群体遗传变异的信息学模型研究[D]. 郭满才. 西北农林科技大学. 2002

[9]. 突变与Shannon信息熵[D]. 解小莉. 西北农林科技大学. 2004

[10]. 药物设计中分子对接优化设计的算法和软件研究[D]. 李纯莲. 大连理工大学. 2004

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

近亲繁殖群体的信息论模型研究
下载Doc文档

猜你喜欢