1、多序列比对,双序列比对是序列分析的基础。然而,对于构成基因家族的成组的序列来说,我们要建立多个序列之间的关系,这样才能揭示整个基因家族的特征。多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。,多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列比对的方法建立在某个数学或生物学模型之上。因此,正如我们不能对双序列比对的结果得出“正确或错误”的简单结论一样,多序列比对的结果也没有绝对正确和绝对错误之分,而只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学
2、特征。,目前,构建多序列比对模型的方法大体可以分为两大类。第一类是基于氨基酸残基的相似性,如物化性质、残基之间的可突变性等。另一类方法则主要利用蛋白质分子的二级结构和三级结构信息,也就是说根据序列的高级结构特征确定比对结果。这两种方法所得结果可能有很大差别。一般说来,很难断定哪种方法所得结果一定正确,应该说,它们从不同角度反映蛋白质序列中所包含的生物学信息。,基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避免的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。蛋白质序列是经过DNA序列转录翻译得到的。从信息论的角度看,它应该与DNA分子所携带的信息更为“接
3、近”。而蛋白质结构除了序列本身带来的信息外,还包括经过翻译后加工修饰所增加的结构信息,包括残基的修饰,分子间的相互作用等,最终形成稳定的天然蛋白质结构。因此,这也是对完全基于序列数据比对方法批评的主要原因。,如果能够利用结构数据,对于序列比对无疑有很大帮助。不幸的是,与大量的序列数据相比,实验测得的蛋白质三维结构数据实在少得可怜。在大多数情况下,并没有结构数据可以利用,我们只能依靠序列的相似性和一些生物化学特性建立一个比较满意的多序列比对模型。,多序列比对的定义,为了便于描述,对多序列比对过程给出下面的定义。把多序列比对看作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位置。将序列依
4、照下列规则填入表中: (a)一个序列所有残基的相对位置保持不变; (b)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐(表1)。,表1 多序列比对的定义,表示五个短序列(I-V)的比对结果。通过插入空位,使5个序列中大多数相同或相似残基放入同一列,并保持每个序列残基顺序不变,我们称比对前序列中残基的位置为绝对位置。如序列的第3位的残基是甘氨酸G,则绝对位置3就是甘氨酸,而不能变成任何其它氨基酸。相应地,我们称比对后序列中残基的位置为相对位置。显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。绝对位置是序列本身固有的属性,或者
5、说是比对前的位置,而相对位置则是经过比对后的位置,也就比对过程赋予它的属性。,算法复杂性,多序列比对的计算量相当可观,因此有必要分析以下技术的复杂性。双序列比对所需要的计算时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积,用O(m1m2)表示。其中m1、m2是指两条序列的长度。三序列比对则可以理解为将双序列比对的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。这样算法复杂性就变成了O(m1m2m3),其中m3表示第三条序列的长度。,随着序列数量的增加,算法复杂性也不断增加。我们用O(m1m2m3mn)表示对n个序列进行比对时的算法复杂性,其中mn是最后一条序列的长度
6、。若序列长度相差不大,则可简化成O(mn),其中n表示序列的数目,m表示序列的长度。显然,随着序列数量的增加,序列比对的算法复杂性按指数规律增长。,降低算法复杂性,是研究多序列比对的一个重要方面。为此,产生了不少很有实用意义的多序列比对算法。这些方法的特点是利用启发式(heuristics)算法降低算法复杂性,以获得一个较为满意但并不一定是最优的比对结果,用来找出子序列、构建进化树、查找保守序列或序列模板,以及进行聚类(clustering)分析等。有的算法将动态规划和启发性算法结合起来。例如,对所有的序列进行两两比对,将所有的序列与某个特定的序列进行比对,根据某种给定的亲源树进行分组比对,等
7、等。必须指出,上述方法求得的结果通常不是最优解,至少需要经过n-1次双序列比对,其中n为参与比对的序列个数。,比对方法,1.手工比对方法,手工比对方法在文献中经常看到。因为难免加入一些主观因素,手工比对通常被认为有很大的随意性。其实,即使用计算机程序进行自动比对,所得结果中的片面性也不能予以忽视。在运行经过测试并具有比较高的可信度的计算机程序基础上,结合实验结果或文献资料,对多序列比对结果进行手工修饰,应该说是非常必要的,多序列比对的软件已经有许多,其中一些带有编辑程序。最好的办法是将自动比对程序和编辑器整合在一起。为了便于进行交互式手工比对,通常使用不同颜色表示具有不同特性的残基,以帮助判别
8、序列之间的相似性。颜色的选择十分重要,如果使用不当,看起来不很直观,就会使比对结果中一些有用的信息丢失。相反,如果选择得当,就能从序列比对结果中迅速找到某些重要的结构模式和功能位点。,例如,如果用某种颜色表示一组高度保守的残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。颜色的选择可以根据主观愿望和喜好,但最好和常规方法一致。用来构筑三维模型的按时氨基酸残基组件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表2)。,表2 氨基酸分组方法和代表性颜色,* 表中采用的分组方法和用来区分不同组别的颜色与模型构件和三维图形软件中所用方法一致,多序列比对程序的另一个重要用
9、途是定量估计序列间的关系,并由此推断它们在进化中的亲缘关系。可以通过计算完全匹配的残基数目或计算完全匹配残基和相似残基的数目得到这种定量关系。这一方法除了可以大略了解序列间的亲缘关系外,也可用来评估比对质量。如果序列的相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错误之处,2.同步法,同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。其基本思想是将一个二维的动态规划矩阵扩展到三维或多维。矩阵的维数反映了参与比对的序列数。这类方法对于计算机的系统资源要求较高,通常是进行少量的较短的序列的比对,这类方法中最常用的就是Clustal,它是由Feng和Doo
10、little于1987年提出的(Feng和Doolittle,1987)。由于对于实际的数据利用多维的动态规划矩阵来进行序列的比对不太现实,因此大多数实用的多序列比对程序采用启发式算法,以降低运算复杂度。Clustal的基本思想是基于相似序列通常具有进化相关性这一假设。比对过程中,先对所有的序列进行两两比对并计算它们的相似性分数值,然后根据相似性分数值将它们分成若干组,并在每组之间进行比对,计算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。比对过程中,相似性程度较高的序列先进行比对,而距离较远的序列添加在后面。作为程序的一部分,Clusal可以输出用于构建进化树的数据。,3
11、.步进法,Clustal程序有许多版本,ClustalW(Thompson等,1994),根据对亲缘关系较近的序列间空位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对结果中的残基突变信息,可用于改变某个特殊位置空位罚分值的大小,推测该位点的序列变异性。Clustal是免费软件,很容易从互联网上下载,和其它软件一起,广泛用于序列分析。Clustal所支持的数据格式包括EMBL/SWISSPROT、NBRF/PIR、Pearson/FastA、GCG/MSF,以及Clustal本身定义的格式。它的输出格式可以是Clustal格式,也可以是可用于GDE、 Phylip、G
12、CG等软件的格式,多序列比对的数据库,多序列比对的意义在于它能够把不同种属的相关序列的比对结果按照特定的格式输出,并且在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据库搜索灵敏度也具有很大帮助。因此,方便实用的多序列比对数据库也就应运而生。目前,互联网上可用的多序列比对数据库已经不少。其中一些利用计算机程序将一次数据库按家族分类;另外一些则是通过手工或自动方法根据基因家族构建二次数据库。,例如,Pfam是将一次库通过自动比对来构建的数据库,它将大量具有结构相似性的序列归为一类,比如各种不同种类动物的转铁蛋白的基因序列具有一定的相似性,Pfam将这些序列归为一类命名为TR
13、ANSFERRIN,我们可以在Pfam查找TRANSFERRIN来得到原始序列比对信息,开头是一些注释信息,然后给出了比对序列的名字,再下是比对结果,以“/”开始,并以“/”结束。对于一个未知的蛋白质序列在该序列库中查询,该序列库会给出匹配的类及得分供你参考。,可以看看PRINTS数据库关于TRANSFERRIN的比对信息, PRINTS数据库在自动比对的基础上进行了手工编辑,查寻PRINTS数据库中关于TRANSFERRIN这一类的比对信息,结果可以用模体(motif)形式显示也可以用点击链接调用JAVA APPLET进行图形显示,下图是关于TRANSFERRIN序列比对的局部图形,可见PR
14、INTS数据库中TRANSFERRIN一类由更多的序列比对形成。,一般来说,对于具有较高相似性的一组序列之间的比对,自动比对方法是很有效的。一旦序列的亲缘关系变得较远,所得结果就不那么可信。若要得到比较可靠而又具有明确生物学意义的比对结果,比较有效的方法是对比对结果进行手工编辑和调整。这对于构建二次数据库是非常重要的信息。在选择现有的序列模式或序列模体公开数据库构建自己的数据库系统时,对这些现有数据库的可靠性必须采取谨慎的态度,蛋白质的结构与功能预测,蛋白质结构与功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质
15、二级结构预测中,如Chou和Fasman提出的经验参数法便是最突出的例子。该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(P,P和Pt)并用于预测。 下面简要介绍蛋白质结构与功能预测的生物信息学途径,蛋白质功能预测,一、根据序列预测功能的一般过程,如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较
16、该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析:,比较未知蛋白序列与已知蛋白质序列的相似性;查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。,图1 根据序列预测蛋白质功能的技术路线,二、通过比对数据库相似序列确定功能,具有相似序列的蛋白质具有相似的功能。因此,最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。,已有不少种类的数据库搜索工具,它们或者搜索速度慢,但灵敏;或者快速,但不灵敏。快速搜索工具(如BLASTP)很容易发现匹配良好的序列,所以没有必要再运行更花时的工具(如FAS
17、TA、BLITZ);只有在诸如BLASTP不能发现显著的匹配序列时,这些工具才被使用。所以,一般的策略是首先进行BLAST检索,如果不能提供相关结果,运行FASTA;如果FASTA也不能得到有关蛋白质功能的线索,最后可选用完全根据Smith-Waterman算法设计的搜索程序,例如BLITZ(www.ebi.ac.uk/searches/blitz.html)。,BLITZ不做近似估计(BLAST和FASTA根据Smith-Waterman算法做近似估计),所以很花时,但非常灵敏。通常诸如BLITZ的程序能够发现超过几百个残基但序列相同比率低于2025%的匹配,这些匹配可能达到显著,但会被那些
18、应用近似估计的程序错过,还应注意计分矩阵(scoring matrix)的重要性。选用不同的计分矩阵有不少重要原因:首先,选用的矩阵必须与匹配水平相一致,例如,PAM250应用于远距离匹配(25%相同比率),PAM40应用于不很相近的蛋白质序列,而BLOSUM62是一个通用矩阵;第二,使用不同矩阵,可以发现始终出现的匹配序列,这是一条减少误差的办法。除了选用不同的计分矩阵,同样可以考虑选用不同的数据库。通常可以使用的数据库是无冗余蛋白序列数据库SWISS-PROT和PDB。其它一些数据库也可以试试,如可用BLASTP搜索复合蛋白质序列库OWL (www.biochem.ucl.ac.uk/bs
19、m/dbbrowser/OWL/owl_blast.html),三、序列特性:疏水性、跨膜螺旋等,许多功能可直接从蛋白质序列预测出来。例如,疏水性信息可被用于跨膜螺旋的预测。还有不少小的模序(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。网上有大量数据资源帮助我们利用这些特性预测蛋白质功能。,疏水性信息可用 ExPASy(http:/expasy.hcuge.ch/egibin/protscal.pl)的ProtScale程序创建并演示。这是一个很有用的工具,它能计算超过50种蛋白质的特性。程序的输入即可通过输入框将序列粘贴进去,也可输入SWISS-PRO
20、T的记录号。仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为9。如果想考虑跨膜螺旋特性,该参数设置应为20,因为一个跨膜螺旋通常有20个氨基酸长度,有多种方法可以预测序列的跨膜螺旋。最简单的方法是通过查找包含有20个疏水残基的区段,一些更复杂、更准确的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向。这些方法都依赖于一系列已知跨膜螺旋特性的研究结果。TMbase是一个自然发生的跨膜螺旋数据库(http:/ulrec3.unil.ch/tmbase/TMBASE_doc.html)。相关的一些程序:TMPRED (http:/ulrec3.un
21、il.ch/software/TMPRED-form.html)、PHDhtm (www.embl_heidelberg.de/services/sander/predictprotein/predictprotein.html)、TMAP (http:/www.embl-heidelberg.de/tmap/tmap/tmap_sin.html)和MEMSAT (ftp.biochem.ucl.ac.uk)。,这些程序将使用了不同的统计模型,总体上,预测准确率在8095%左右。跨膜螺旋是可以根据序列数据比较准确预测的蛋白质特性之一,预测前导序列或特殊区室靶蛋白信号的程序:SignalP (h
22、ttp:/www.cbs.dtu.dk/services/SignalP)和PSORT (http:/psort.nibbac.jp/form.html)。另一个可从序列中确定的功能模序是卷曲(coil)螺旋。在这一结构中,二个螺旋由于疏水作用而缠绕在一起形成非常稳定的结构。相关的2个程序:COILS (http:/ulrec3.unil.ch/software/COILS_form.html)和Paircoil (http:/ostrich.lcs.mit.edu/cgi-bin/score),四、通过比对模序数据库等确定功能,蛋白质结构预测,一般情况下,蛋白质的结构分为4个层次: 初级结构
23、蛋白质序列; 二级结构螺旋和折叠片(-sheets)模式; 三级结构残基在空间的布局; 四级结构蛋白质之间的互作。,一、蛋白质结构及其数据库,近年来,另一个介于二级和三级结构之间的蛋白质结构层次所谓蛋白质折叠(fold)已被证明非常有用。“fold”描述的是二级结构元素的混合组合方式。 根据序列或多序列列线预测蛋白质二级结构的技术已相对比较成熟,但三级结构的预测则相当困难。往往对于三级结构预测,只能通过与已知结构蛋白序列同源性比对来完成。已有不少相关数据库被建立起来用于蛋白质结构预测。这一方法已是目前进行三级结构预测的最准确方法。但是这一方法并不总是奏效,因为大约有80%的已知蛋白质序列找不到
24、与之相似的已知结构的蛋白质序列。近年来,一些新方法被提出,这些方法可以不通过相似性比对来预测序列结构。,二、二级结构预测,已有大量有关根据序列预测蛋白质二级结构的文献资料,这些资料可大致分为二类: 一是有关根据单一序列预测二级结构; 二是有关根据多序列列线预测二级结构。,直到最近为止,二级结构预测才不被认为具有很高的随机性。大多数预测算法均是依据单一序列。即使是最著名的一些算法(如Chou-Fasman算法和GOR算法)也只有约60%的预测准确率,而对于一些特定的结构,如那些富含折叠片的结构,这些算法难以预测成功。预测失败的原因主要是单一序列所提供的信息只是残基的顺序而没有其空间分布的信息。两
25、个方面的研究进展改变了这一状况:一是认识到多序列列线可被用于改进预测能力。多序列列线可被视为诱变遗传学试验中的自然突变状况,其对序列上单一位点变异的分析的确提供了该位点在蛋白质三级结构中的信息;二是神经网络已开始被用于根据序列预测结构。目前已有这样一个共识,即在有大量、高质量的多序列列线结果的情况下,蛋白质二级结构的预测将非常准确通常准确率比以单一序列预测提高10%。,一些文献表明,一些程序(诸如PHD)预测的准确率达到了目前最高水平。 PHD(http:/www.embl-heidelberg.de/predictprotein/predictprotein.html) 提供了从二级结构预测
26、到折叠(fold)识别等一系列功能。,三、三级结构预测,比对数据库中已知结构的序列是预测未知序列三级结构的主要方法。多种途径可进行以上这种比对。最容易是使用BLASTP程序比对NRL3D或SCOP数据库中的序列。如果发现超过100个碱基长度且有远高于40%序列相同率的匹配序列,则未知序列蛋白与该匹配序列蛋白将有非常相似的结构。在这种情况下,同源性建模(homology modeling)在预测该未知蛋白精细结构方面会发挥非常大的作用。在序列相同率为25%40%时,两条蛋白质将具有相同的折叠,但这时同源性建模将变得更加困难和不准确。,如果在比对NRL3D数据库时没有发现匹配序列,接下去可试试HS
27、SP数据库。这样做的一条最方便捷径是用BLAST或FASTA法搜索蛋白质序列库(如SWISS-PROT、TREMBL或PIR),然后利用诸如SRS等工具去检索任何超过25%序列相同率的匹配序列,如果这些匹配序列在HSSP数据库中存在,则在该序列的注释(annotation)“DR”栏中将有说明(参见第三章)。如果未知蛋白质序列与某一HSSP数据库序列有明显大于25%的序列相同率,则有把握地假定未知序列至少有与HSSP序列相同的蛋白质折叠模式。目前,NRL3D和HSSP数据库的记录数量可以保证20%的蛋白质序列将找到已知结构的同源序列。,总的来说,同源性建模需要专业分子建模方法和分子图象资源的辅
28、助才能进行。不妨到SwissModel网站(http:/expasy.hcuge.ch/swissmod/SWISS-MODEL.html)看看。SwissModel是一个蛋白质自动建模服务器,使用者可以直接发送一条序列或使用者自己完成的列线结果给该服务器用于同源性建模。,近年蛋白质结构研究的最主要进展之一,是有关“串线”(threading)算法和折叠识别。这些技术可以在不存在已知结构同源蛋白质序列的情况下,预测所有可能的蛋白质结构。“这个未知蛋白序列会是什么结构呢?”我们也可以这样问:“我已经观察了已知结构蛋白质的各种折叠方式,未知序列是否会象这些已知结构中的某一个一样折叠呢?”第一个问题
29、涉及几十亿种可能结构的搜索,而第二个问题涉及的是少于1000种结构的搜索。特定的蛋白质折叠被一而再,再而三地观察到大部分新的经晶体衍射的蛋白将会与我们已知的折叠相关,这些过程使预测的成功机率不断提高。,在串联算法中,未知序列以合适的方式被“串”到一个数据库某一折叠模板,然后计算该序列的能(energy);在该序列与数据库中所有的折叠模板均“串”好后,可以进行计分比对,决定那些匹配达到了显著。,折叠的识别技术目前还不是特别可靠的技术,只有在序列相同比率在30%50%时,才有可能获得准确的估计。相关程序的结果也相当粗糙,大多数情况下难以作为同源性建模研究的依据。但是它是大多数蛋白质结构预测信息唯一
30、可利用的工具。,一些相关应用程序:TOPITS(http:/www.embl-heidelberg.de/predictprotein/predictprotein.html)、frsvr(http:/www.mbi.ucla.edu/people/frsvr/frsvr.html)、123D(http:/www_lmmb.ncifcrf.gov/nicka/123D.html)、THREADER和THREADER2(http:/globin.bio.warwick.ac.uk/jones/threader.html)和ProFIT(http:lore.came.sbg.ac.at/Extern/software/Profit/profit.html),