Topali(多序列比对统计和(hé)进(jìn)化分析软(ruǎn)件(jiàn))是一款教学辅助软件,多序列比(bǐ)对的统计与进化分(fèn)析。 时(shí)下(xià)互联网(wǎng)常用的教(jiāo)育教(jiāo)学(xué)软件(jiàn)之一,该软(ruǎn)件纯绿色免费无毒,请放心(xīn)使用。
双序列比对是序列分析的基(jī)础·然而,对于构成基因家族的成组的(de)序列来说(shuō),我(wǒ)们要建立(lì)多(duō)个(gè)序列之间的关系,这(zhè)样才能揭示整个基因(yīn)家族(zú)的特(tè)征·多序列(liè)比对在阐明一组相关序列的重要生(shēng)物学模式方面起着相当重(chóng)要的(de)作用。
序(xù)列是最基本(běn)的数学模型, 它可以用来(lái)描述核酸分子和蛋(dàn)白(bái)质分子(zǐ)的一级结构。对序列(liè)的(de)操作有助于对生(shēng)物大分子的研究, 尤其是对序列(liè)进行比对( alignment)。多序列比对问题是计算分子生(shēng)物学中最基(jī)本的问题之一。通过多序(xù)列比对, 研(yán)究者可以(yǐ)挖掘出更多的保守(shǒu)区间与(yǔ)结构信息。因此它是(shì)许多问题的基(jī)础, 比如片断(duàn)组装、基因(yīn)发现(xiàn)、构建进化(huà)树、PCR 引物设计、多态位点(diǎn)( SNP)的寻找、预测同源序列的二级结构、蛋白质相互作用(yòng)预测等。
由(yóu)于人工比对(duì)的复杂性和生物序(xù)列中的(de)功能不确(què)定性, 无(wú)法(fǎ)用(yòng)生物意义统一地衡量比对的(de)效果。因此人们(men)主观(guān)地根据比对后各个序列之间(jiān)差异的大小来衡量。用来计算差异性(xìng)的数学模型(目标(biāo)函数)主要有三种: 比对和函数( sum - of- pairs functions)、一致性函(hán)数( consensus functions)和树(shù)函数( tree functions) , 其中使用最(zuì)普遍的(de)是比(bǐ)对(duì)和(hé)函(hán)数, 其分(fèn)值一般简称为SP值。目(mù)前的多序(xù)列比对(duì)算法都旨在寻找具有最优SP值的比对, W ang 等已经(jīng)证明该问题是一个NP难题; 他们同时证明了其(qí)他几种(zhǒng)主要的目(mù)标函数最优化问题(tí)均是NP 难题(tí)。
对于这种重要的难题, 目前的处理(lǐ)方法主要是: 近似算法、启发式方法和引入其他信息。近似算(suàn)法的思想是(shì): 既然无法在多项式时间内找到最(zuì)优解, 那么设法在多项式时间内找到一个次优解, 并且证(zhèng)明该次优解与最优解间的距离在一定范围内。启发(fā)式(shì)方(fāng)法的主要思想(xiǎng)是: 既然无法(fǎ)在多项式时间内(nèi)遍历整(zhěng)个(gè)空间, 那么在(zài)有限(xiàn)的时间内遍历尽量(liàng)广泛(fàn)、最优解存在可(kě)能性大的空间。虽然无法证明启(qǐ)发式方法解的收敛区(qū)域, 但实验(yàn)证明启发式方法往往(wǎng)可以得到较好的效果。另外, 针对不同NP难题的实际背景, 可以结合如(rú)相关(guān)的领域知识, 从而简化问题。对于生物大分子序列(liè)的比对(duì)问题, 如果知(zhī)道其(qí)比对后的长度和部分保守区间, HMM 模型通常可(kě)以被(bèi)应(yīng)用(yòng)。由(yóu)于上世纪90年代人类基因组(zǔ)计划的实施, 在国际上对多序(xù)列(liè)比对问题的研究(jiū)比(bǐ)较早(zǎo), 而且方法较为成熟。目前主要的软件有c lusta l系列和T- coffee系列。下面详(xiáng)细介绍(shào)各种(zhǒng)多序(xù)列比对方法(fǎ)。
多序列比对和系(xì)统发育分(fèn)析是生物信(xìn)息学(xué)的(de)重(chóng)要研究领域。通过多序列(liè)比对-和系统(tǒng)发育可以预(yù)测新序列的结构和功能,分析序列之间(jiān)的同源关(guān)系。提(tí)高序列的多序列比对准(zhǔn)确率和(hé)重构合理的全基因组系(xì)统发育树是该领域(yù)的主(zhǔ)要研究课(kè)题(tí)。本文(wén)对此进行了(le)深入研究和探(tàn)讨,主要研究(jiū)成果如(rú)下(xià): 本文借(jiè)了ClustalW和(hé)T-Coffee算法,综合了(le)渐进比对和序(xù)列间一致性策略(luè)的优点,提出了(le)一种新的渐进多序列比对算HMMPC。HMMPC先通过pai-HMM计算出每两(liǎng)条序列(liè)间每个残基匹配的后验(yàn)概率,并结合(hé)其它序列的信息,得(dé)出每两(liǎng)条序列中每个残基的最终匹配后验概率,最后由这些后(hòu)验(yàn)概(gài)率值(zhí)进行渐进比对。将本算法(fǎ)同C1ustalW和T-Coffee等一(yī)些(xiē)主(zhǔ)流算法在BAliBASE库数据集上进(jìn)行了比(bǐ)较研究。实(shí)验(yàn)结果表明(míng),本算法能有(yǒu)效地提(tí)高多序列比对的(de)准确性。 两条(tiáo)序列相似度的计算是渐进比对和(hé)系统发育树分析的基(jī)础,本文引入一种新的(de)计(jì)算序列间(jiān)进化距离的免(miǎn)比对方法—SimKMM。该方(fāng)法利用了相对熵的原理,建立(lì)每条序列的Markov模(mó)型,最后,利(lì)用HMM的距(jù)离测度公(gōng)式计算每(měi)两(liǎng)条序列间的进化距离,该函数计算简单、快速,且(qiě)不需要人为(wéi)设置参数,因此,能够更客观、有效地计算序列间的进(jìn)化距(jù)离。用本(běn)算(suàn)法对6条DNA序(xù)列进(jìn)行(háng)了相似度测量,且(qiě)将该算法用于DNA数(shù)据(jù)库(kù)搜索中,都验证了(le)本算法有较好的实(shí)用(yòng)性。
