1、第七章 蛋白质结构预测,主讲人:孙 啸制作人: 刘志华东南大学 吴健雄实验室,第一节 引言,蛋白质结构预测问题序列结构功能,.-Gly-Ala-Glu-Phe-.,FUNCTION,结构预测问题,.-Gly-Ala-Glu-Phe-.,FUNCTION,解决方法,.-Gly-Ala-Glu-Phe-.,FUNCTION,寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的一种映射,蛋白质结构预测主要有两大类方法: (1)理论分析方法 通过理论计算(如分子力学、分子动力学计算)进行结构预测。 (2)统计的方法 对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质
2、根据映射模型直接从氨基酸序列预测结构。 包括: 经验性方法 结构规律提取方法 同源模型化方法,第二节 蛋白质二级结构预测,蛋白质 序列: 二级结构:,二级结构预测,蛋白质 序列: 二级结构:QLMGERIRARRKKLK STHHHHHHHHHHHHT,1、二级结构预测概述 蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。 二级结构预测问题是模式分类问题 二级结构预测的目标: 判断每一段中心的残基是否处于螺旋、折叠、转角(或其它状态)之一的二级结构态,即三态。,基本策略(1) 相似序列相似结构,QLMGERIRARRKKLK,QLMGAERIRARRKKLK
3、,结构?,基本策略(2) 分类分析,螺旋,提取样本,聚类分析,学习分类规则,预测.-Gly-Ala-Glu-Phe-.,二级结构预测的方法大体分为三代: 第一代是基于单个氨基酸残基统计分析 从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。 第二代预测方法是基于氨基酸片段的统计分析 统计的对象是氨基酸片段 片段的长度通常为11-21 片段体现了中心残基所处的环境 在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据,这些算法可以归为几类:(1)基于统计信息(2)基于物理化学性质(3)基于序列模式(4)基于多层神经网络(5)基于多元统计(6
4、)基于机器学习的专家规则(7)最邻近算法,第一代和第二代预测方法对三态预测的准确率都小于70%,而对折叠预测的准确率仅为2848% 其主要原因是只利用局部信息 第三代方法(考虑多条序列) 运用长程信息和蛋白质序列的进化信息 准确度有了比较大的提高,2、蛋白质二级结构预测方法,经验参数法蛋白质二级结构的组成规律性比较强三种基本二级结构平均占氨基酸残基的85%各种二级结构非均匀地分布在蛋白质中,有些蛋白质中含有大量的螺旋 如血红蛋白和肌红蛋白而一些蛋白质中则不含或者仅含很少的螺旋 如铁氧蛋白有些蛋白质的二级结构以折叠为主 如免疫球蛋白 例:肽链Ala(A)-Glu(E)-Leu(L)-Met(M)
5、 倾向于形成螺旋肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成螺旋,每种氨基酸出现在各种二级结构中倾向或者频率是不同的 例如:Glu主要出现在螺旋中Asp和Gly主要分布在转角中Pro也常出现在转角中,但是绝不会出现在螺旋中可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测,经验参数法由Chou 和Fasman在70年代提出来是一种基于单个氨基酸残基统计的经验预测方法。 通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。,一个氨基酸残基的构象倾向性因子定义为Pi = Ai / Ti (i= ,c
6、, t) 式中下标i表示构象态如螺旋、折叠、转角、无规卷曲等; Ti是所有被统计残基处于构象态i的比例; Ai是第A种残基处于构象态i 的比例; Pi大于1.0表示该残基倾向于形成二级结构构象i,小于1.0则表示倾向于形成其它构象。,发现关于二级结构的经验规则基本思想是在序列中寻找规则二级结构的成核位点和终止位点。 扫描输入的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列,然后对于成核区域进行扩展,不断扩大成核区域,直到倾向性因子小于1.0为止。 规则: (i)螺旋规则 (ii)折叠规则 (iii)转角规则 (iv) 重叠规则,延伸 成核区 延伸,(i)螺旋规则 沿蛋白质序列
7、寻找螺旋核 相邻的6个残基中如果有至少4个残基倾向于形成螺旋,则认为是螺旋核。 从螺旋核向两端延伸 直至四肽片段的螺旋倾向性因子的平均值P1.03,则预测为螺旋。,延伸 螺旋核 延伸,(ii)折叠规则 相邻6个残基中若有4个倾向于形成折叠,则认为是折叠核。 折叠核向两端延伸直至4个残基的平均折叠倾向性因子P1.05,则预测为折叠。,(iii)转角规则 转角的模型为四肽四肽片段Pt的平均值大于100,并且Pt 的均值同时大于P 的均值以及P 的均值,则可以预测这样连续的4个残基形成转角。 则可以预测这样连续的4个氨基酸形成转角。,(iv) 重叠规则 对于螺旋和折叠的重叠区域,按Pa和P的相对大小
8、进行预测 若Pa大于P,则预测为螺旋; 反之,预测为折叠。,(2) GOR方法 是一种基于信息论和贝叶斯统计学的方法 GOR将蛋白质序列当作一连串的信息值来处理 GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响,序列窗口 中心残基,窗口中各个残基对中心残基二级结构的支持程度,两个事件S和R的条件概率P(S|R)即在R发生的条件下,S发生的概率 定义信息为:若S和R无关,则 I(S; R)=0 若R的发生有利于S的发生,则I(S; R)0 若R的发生不利于S的发生,则I(S; R)0,I(S; R)在二级结构预测中的含义R代表中心氨基酸及其所处环境 S
9、代表二级结构类型 I(S; R)代表中心氨基酸处于S的信息值,例如:假定数据库中有1830个残基, 780个处于螺旋态,1050个处于非螺旋态库中共有390个丙氨酸(A),有240个A处于螺旋态,其余150个 A 处于非螺旋态。 可得:,(3) Lim方法立体化学方法 氨基酸的理化性质对二级结构影响较大 在进行结构预测时考虑氨基酸残基的物理化学性质 如疏水性、极性、侧链基团的大小等,根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。 “疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部。,螺旋的形成规律: 在一段序列中发现第i、i+3、i+4
10、位(如1、4、5)是疏水残基时,这一片段就被预测为螺旋;当发现第i、i+1、i+4位(如7,8,11)为疏水残基时,这一片段也被预测为螺旋。,对于折叠的形成规律:对于折叠,也存在着一些特征的亲疏水残基间隔模式,埋藏的折叠通常由连续的疏水残基组成,一侧暴露的折叠则通常具有亲水-疏水的两残基重复模式。原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测螺旋和折叠。,点模式方法:将20种氨基酸残基分为亲水、疏水以及两性残基三类用八残基片段表征亲疏水间隔模式以一个二进制位代表一个残基,疏水为1,亲水为0,共八位。这样,八残基片段的亲疏水模式可用0255的数值来表示,螺旋的特征模式对应的值为:9
11、,12,13,17,201,205,217,219,237。折叠的特征模式:由连续的1或交替的01构成。,疏水性定量计算,(4) 同源分析法 将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。 该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。,假设已知二级结构的氨基酸片段T=STNGIYWT的二级结构为CHHHHHTH代表螺旋,T代表转角,C代表无规卷曲,待预测二级结构的氨基酸片段 U=ATSGVFL,序列比对:T = S T N G I Y
12、 WU = A T S G V F L直接将T的构象态赋予U,更为合理的方法:是将待预测二级结构的蛋白质U与多个同源序列进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。,(5) 人工神经网络方法,(6) 综合方法 综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。 多个程序同时预测,综合评判一致结果 序列比对与二级结构预测 双重预测 首先预测蛋白质的结构类型 然后再预测二级结构,3、利用进化信息预测蛋白质的二级结构,蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。 蛋白质二级结构预测软件系统PHD 第一步工作是形成同源序列的多重对比排列 第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。,4、RNA二级结构的预测,RNA的结构可以分为三个层次一级结构二级结构空间结构,二级结构的预测方法 点矩阵法作图 动态规划法 最大匹配法 最小自由能法等。,第三节 二维结构中的预测,残基之间的距离 只要给出所有残基之间的距离,就可以利用距离几何或分子动力学方法构建蛋白质的三维结构。 预测残基之间距离,THE END,