glimmer基因(yīn)预测(cè)软件是时下互联网(wǎng)常用的教育教(jiāo)学软(ruǎn)件(jiàn)之(zhī)一,该软(ruǎn)件绿(lǜ)色、安全、无(wú)毒,让你可以放(fàng)心(xīn)使用。
下面我们拿(ná)结(jié)核分枝杆菌H37RV的(de)基因组来做下练习,Glimmer做(zuò)基因预测一般需要2个(gè)步奏。
首(shǒu)先是建立预测的模型,第二步是(shì)利用模型来对基(jī)因(yīn)组进行基因预测。模型也叫训练集,也就是先让软件了解基因的一些(xiē)特征,这样(yàng)软件(jiàn)就(jiù)能根据已知的信息,来(lái)推测未知(zhī)的信息。
建立(lì)模型采用build-icm程序来完(wán)成。build-icm的输入有(yǒu)三(sān)种。
1、某基因组的已(yǐ)知信息;
2、通过long-orfs产生的长的无重叠的orfs;
3、高度相似(sì)的物种的(de)基因(yīn)。
这里面我们选用自身(shēn)作为训练集(jí)来(lái)作为模型。
那么就使(shǐ)用long-orfs产生训练集,那么作(zuò)为long-orf的训练集,我们首先要将(jiāng)输入(rù)文件格式化到(dào)一条。
听到这(zhè)里大家可能有些乱了。下面我们具(jù)体来演示(shì)一遍大家就明白了。
首先我(wǒ)们将(jiāng)多条fasta文件合并成一条,用于long-orfs程(chéng)序。
这里面采用sed 命令。
sed -e '/>/d' K12.fna |tr -d '\n' |awk 'BEGIN {print ">wholefile"}{print $0}' >wholefile
这(zhè)样就可(kě)以用作long-orfs的(de)输入了。
运(yùn)行long-orfs产生无(wú)重叠的orfs
long-orfs -n -t 1.15 $wholefile $tagname.longorfs 1>/dev/null 2>/dev/null
然(rán)后运行extract来提(tí)取(qǔ)训练集(jí)
extract -t $wholefile $tagname.longorfs > $tagname.train 2>/dev/null
这样训练集就处理好了(le)。
产(chǎn)生训练集有(yǒu)收(shōu)那种方(fāng)法,这里面我们(men)用的(de)是第(dì)二种方法,通过long-orfs产(chǎn)生。
如果有(yǒu)某基因组的已知基因,或者高度相似(sì)的物种基因不(bú)用以上三个步骤
接下来我们(men)运(yùn)行bulid-icm通过(guò)训练(liàn)集,来生(shēng)产预测的模型,用于基因预测
build-icm -r $tagname.icm < $tagname.train 1>/dev/null 2>/dev/null
最后(hòu)我们就可以直接运行glimmer3来完成基(jī)因预测。
glimmer3 -o50 -g110 -t30 [options]。
生(shēng)成*.detail *.predict
那么*.predict就是我们最终得到(dào)的预测(cè)基因文(wén)件,它其实只是一个列表(biǎo),我们打开看(kàn)一下。也(yě)是(shì)以“>"进行分(fèn)割,
基因的各列信息分别为:
Column 1 预(yù)测基因编号,此编号和*.detail文件(jiàn)里编号一致。
Column 2 基因的开(kāi)始位置。
Column 3 基(jī)因的结束位(wèi)置。为终止密码子的最后一个碱(jiǎn)基位置,也就是说包(bāo)含终止密(mì)码子。
Column 4 阅读框。
Column 5 基(jī)因的“raw”分(fèn)值。
基因(遗传因子、遗传(chuán)基因(yīn))指携带有遗传信息的DNA序(xù)列,是控制性状的基本遗传单位,亦即一段具有功能性的DNA序列(liè)。基因通过指导蛋白(bái)质的(de)合(hé)成来表达自己所携带的遗传(chuán)信息,从(cóng)而控制生物(wù)个体的(de)性状表(biǎo)现。人类(lèi)约有两万至两(liǎng)万五千个基(jī)因(yīn)。染色体在体细(xì)胞中是成对存(cún)在的,每条染色体上都带有一定数量的基因。一个(gè)基因在细胞有丝(sī)分裂时有两(liǎng)个(gè)对列的位点,称(chēng)为等(děng)位基因,分别(bié)来自父与母辈。按照其控(kòng)制的(de)性状,又可(kě)分(fèn)为显性基(jī)因(yīn)和隐性基因。一(yī)般来说,生物体中的每个细胞(bāo)都含有相同的基因,但并(bìng)不是每个细胞中的每(měi)个基因所(suǒ)携带的遗传信息(xī)都会(huì)被表(biǎo)达出来。不同部(bù)位和功能的细胞,能将(jiāng)遗传(chuán)信息(xī)表达出来的基因也不同。
