1、第七章 分析化学中的数据处理,近年来,分析化学中愈来愈广泛地采用统计学方法处理各种分析数据,在统计学中,常遇到总体、样本、样本大小等概念,它们各述如下: 基本术语 总体(母体):所考察对象的全体 样本(子样):总体中随机抽出的一组测量值 样本容量n:样本中试样的数量,即测定次数,第七章 分析化学中的数据处理,例如:对某批矿石中的铁矿石中的铁含量进行分析,经取样、细碎、缩分后,得到一定数量(500g)的试样供分析用。这就是分析试样,是供分析用的总体。如果我们从中称取8份试样进行分析得到8个分析结果,则这一组分析结果,就是该矿石分析试样总体的一个随机样本、样本容量为8。,设样本容量为n,则其平均值
2、为:,若无系统误差,就是真值xT,当测定次数无限增多时,所得平均值即为总体平均值:,此时,测定的精密度用平均偏差来表示, 单次测量的平均偏差:,平均偏差用表示,读“台尔它(delta)”。但在一般情况下,测定次数n值较少。例如小于20,那么这时平均偏差可用 表示。,平均偏差表示精密度比较简单,但有不足之处。因为在一组测定数据中,小偏差的测定次数总是占多数,而大偏差测定次数总是占少数,按平均偏差结果,那么大偏差得不到充分的反映。,例如: 测定铁矿石中铁含量8次,数据如下:56.12、 56.30、 56.32、 56.38、 56.34、 56.40、 56.42、 56.50。平均值为56.3
3、5按平均偏差结果,会使所得偏差结果偏小,这样大偏差得不到充分的反映。如果把数学的统计方法来处理精密度,这样大偏差就能得到充分的反映,即用“标准偏差”表示。在分析化学中广泛采用“标准偏差”来衡量数据的分散程度。,7-1 标准偏差,总体标准偏差: (读“西格玛”) n趋于无限次时,各测量值对总体平均值的偏离,用总体标准偏差表示 。,大小偏差都能得到充分的反映,很好说明数据的分散程度。,样本标准偏差s: n为有限次时,,f=n-1,自由度,相对标准偏差RSD或变异系数CV :,例1,某样测定结果分析见下表,例2,两组数据比较,标准偏差与平均偏差 当n20时,标准偏差与平均偏差的关系:,平均值的标准偏
4、差 从总体中抽出一组容量为n的样本x1,x2,xn,对于有限次,例3,平均值的偏差,7-2 随机误差的正态分布,我们在第一章中学过,误差根据误差的性质和产生的原因,可分为系统误差和随机误差。 系统误差 (可测误差):是由某种固定的原因所造成的。 特征:恒定性重复测定重复出现 单向性误差的大小、方向、正负一定可测性可以测定与校正 产生的原因:由一些经常性的比较固定原因造成的。,偶然误差 (随机误差) 产生的原因:由一些不确定的偶然因素所引起。 特征:不恒定,可大可小,时正时负,难以预料和 控制。随机误差似乎没有什么规律,但在同一条件下进行多次(大量)测定,则随机误差的分布符合统计规律。即按“正态
5、分布”规律分布。,一、正态分布,正态分布即所谓的高斯分布,它的曲线呈对称钟形,两头小,中间大,分布曲线有最高点。,正态分布的数学表达式:,式中: y-概率密度 x-测量值 -总体平均值-标准偏差 (x- )-随机误差,若以x- (随机误差)为横坐标,y(概率密度)为纵坐标,那么随机误差的正态分布曲线为:,由式和图可见随机误差有以下特点:,1、x= 时, y最大,从中说明,测量数据在总体平均值附近,出现的概率最大。最大概率密度为:,2、曲线是以x= 为对称轴,呈集中趋势对称,正负误差概率相等; 3、小误差概率大,大误差概率小; 4、 大,分布平坦, 附近概率小。,反映了测定值的分散程度。 愈大,
6、曲线愈平坦,测定值愈分散; 愈小,曲线愈尖锐,测定值愈集中。和 是正态分布的两个基本的参数。 测量值集中趋势, 表示测量值分布程度,这种正态分布曲线一般用N(,2)表示。,二、标准正态分布,如果把正态分布曲线的横坐标改用u为单位表示,,那么正态分布曲线的数学表达式为:,对上式处理则有:,正态分布曲线与横坐标到之间所夹的面积,代表所有数据出现概率的总和,其值应为1。即概率为:,三、随机误差的区间概率,随机误差在某一区间出现概率(即:测量值在某一区间内出现概率),可以取不同u值进行积分,,正态分布概率积分表就是这样制出来的,表72是从0u进行积分。,随机误差的区间概率,概率 P为: 取不同u值积分
7、,得分布概率积分表,例4,已知=1.75%,=0.10%,测量时无系统误差,求:(1)结果落在(1.750.15)%范围内的概率?(2)结果大于2.00%的概率? 解:,单边检验,7-3 少量数据的统计处理,正态分布是无限次测量数据的分布规律,而在实际工作中,只能对随机抽得的样本进行有限次的测量。对于有限测定次数,总体标准偏差是不知道,只好用样本标准偏差s来代替,这样必然引起正态分布曲线的偏差.,测定值的随机误差的分布不符合正态分布,而是符合t 分布,应用t 分布来处理有限测量数据。,一、t 分布曲线:用t 代替正态分布u,样本标准偏差s代替总体标准偏差有,t分布曲线(见图2-2)与正态分布曲
8、线相似,以t=0为对称轴,t分布曲线的形状与自由度f=n-1有关, f 愈大,曲线愈接近正态分布。与正态分布曲线相似, t分布曲线下面一定范围内的面积,就是该范围内测定值出现的概率。用置信度P表示。,置信度P:测定值x出现在ts范围内的概率。 显著性水准:测定值x在ts范围之外的概率,=1-P t 值与 f 有关,也与不同范围内概率值(置信度P)有关,不同的置信度和自由度所对应的 t值,可用 t a,f 表示。 例如,t0.05,4 表示置信度为95%,自由度f=4时的 t值,从表7-3中可查得 t0.05,4=2.78。,t 分布曲线,与正态分布曲线形状相似,但t分布随自由度f而改变,f趋于
9、时,t分布趋于正态分布; 不同f值及概率所对应的t值已计算出,可查ta,f表获得; 置信度P:落在(ts)范围内的概率 显著性水平a:落在范围外的概率,a=1-P 如:t0.05,10=2.23,表示P=95%, f=10时t=2.23 当f20时, t值与u值已非常接近了,单次测量结果(X)来估计总体平均值的范围,则:= x u,以样本平均值估计:,少量测量数据,t分布处理:,平均值的置信区间,例5 测定结果47.64%、47.69%、47.52%、47.55%,计算置信度为90%、95%、99%时总体平均值的置信区间? 解:,从本例可看出,置信度越高,置信区间就越大,即所估计的区间包括真值
10、的可能性就越大,在分析化学中,一般置信度在95或90。,显著性检验 t 检验法,在实际工作中,往往会遇到对标准或纯物质进行测定时,所得到的平均值与标准值不完全一致; 或者采用两种不同的方法或不同分析人员对同一试样进行分析时,两组分析结果的平均值有一定差异; 这种差异是由偶然误差引起的,还是系统误差引起的? 这类问题在统计学中属于“假设检验”。如果分析结果之间存在“显著性差异”,就认为它们之间有明显的系统误差;否则就认为没有系统误差,纯属偶然误差引起的,认为是正常的。,存在“显著性差异”指有明显的系统误差检验方法有t 检验法和F 检验法t 检验法 (1)平均值与标准值的比较 为了检查分析数据是否
11、存在较大的系统误差,可对试样进行若干次分析,再利用t检验法比较分析结果的平均值与标准试样的标准值之间是否存在显著性差异。,进行t值检验时,首先按下列计算出t值:,如果 t计t表, 则存在显著性差异, 否则不存在显著性差异(P=95%),例6 用新方法分析结果:10.74%、10.77%、10.77%、10.77%、10.81%、10.82%、10.73%、10.86%、10.81%,已知=10.77%,试问采用新方法,是否引起系统误差? 解:,(2)两组平均值的比较,n1 s1 n2 s2,P一定时,查t值表(f=n1+n2-2)若t计t表,则两组平均值存在显著性差异,否则不存在,t 检验法,
12、比较两组数据的方差s2,显著性检验F 检验法,计算F值与表中F值(单边值)比较,F计F表,则它们精密度存在显著性差异。F值大,存在显著性差异,F值趋近于1,则两组数据精密度相差不大。 表中F值用于单侧检验,即检验某组数据的精密度是否大于或等于另一组数据的精密度时,置信度为95%(a=0.05)。而用于判断两组数据的精密度是否有显著性差异,即一组数据的精密度可能、=、另一组数据的精密度时,a=20.05=0.10,即P=90%,例7 两种方法测定某样品结果如下,问两方法之间是否存在显著性差异(P=90%)? n1=3 (1.26% 1.25% 1.22%) n2=4 (1.35% 1.31% 1
13、.33% 1.34%),例8 旧仪器测定6次,s1=0.055;新仪器测定4次,s2=0.022。问新仪器的精密度是否显著优于旧仪器的精密度? 解:,例9 两种分析方法的精密度之间是否有显著性差异? n1=11,s1=0.21% n2=9, s2=0.60% 解:,双边检验,P=90%,四、异常值(可疑值)的取舍,在一组测定值中,常出现个别与其它数据相差很大的异常值(可疑值)。如果确定知道此数据由实验差错引起,可以舍去,否则,应根据一定的统计学方法决定其取舍。统计学处理取舍的方法有多种,下面仅介绍三种常用的方法。,异常值的取舍4d法,偏差超过3的测量值概率小于0.3%,舍去该值。,该法简单,但
14、存在较大的误差,与其他检验法矛盾时以其他方法为准 判断时,先求出除异常值外的其余数据的平均值 和平均偏差 ,然后将异常值与平均值进行比较,如绝对差值大于 ,舍去可疑值,否则保留,测定步骤: 1、将异常值除外,求其余测定值平均值 和平均偏差 。2、如果 ,异常值就应弃去,否则应予以保留。,例10 测量得结果:1.25、1.27、1.31、1.40,试问1.40这个数据是否应保留?,异常值与平均值的绝对值差:,解:不计异常值1.40,得:,格鲁布斯(Grubbs)法 1、数据从小到大排列:x1,x2,xn-1,xn 其中x1或xn可能是异常值 2、据该组数据的平均值及标准偏差,计算统计量T,,异常
15、值的取舍 Grubbs法,3、与Ta,n值表中相应数值比较,若TTa,n,则异常值舍去,否则保留,例11 例10中的数据用Grubbs法判断,1.40这个数据是否保留(P=95%) 解:,与例10结论不同,该法可靠性较高,异常值的取舍Q检验法,Q检验法 1、数据从小到大排列:x1,x2,xn-1,xn 2、求出最大值与最小值之差(极差) xn x1 3、算出异常值数据与邻近数据之差(邻差):xn xn-1或x2 x1 4、计算统计量Q计:(邻差除以极差),5、从Q计值表中查得Q表,比较Q计与Q表,若Q计Q表,则舍去异常值,否则保留,例12 :测量得结果:1.25、1.27、1.31、1.40,
16、试问用Q检验法判断, 1.40这个数据是否保留(P=90%),7-4 误差的传递,分析结果通常是经过一系列测量步骤之后获得的,其中每一步骤的测量误差都会反映到分析结果中去。它们是怎样影响分析结果的准确度呢?这就是误差传递所要讨论的问题。一、系统误差的传递 1、加减法 若R是A,B,C三个测量值相加的结果,例如:,结果的绝对误差是各步骤绝对误差的代数和,系数,结果的绝对误差是各步骤绝对误差的代数和,2、乘除法,结果的相对误差是各步骤相对误差的代数和,系数,结果的相对误差为测量值的相对误差的指数倍,3、指数关系,4、对数关系,结果的相对误差为测量值的相对误差的0.434m倍,二、随机误差的传递,1
17、、加减法,结果的标准偏差的平方是各测量值标准偏差的平方总和,2、乘除法若分析结果R是A,B,C三个测量值相乘除的结果,例如,结果的相对标准偏差的平方是各测量值相对标准偏差的平方总和,3、指数关系,4、对数关系,例13 设天平称量时的标准偏差s=0.10mg,求称量试样时的标准偏差sm? 解:称量质量m是称量两次的差值,即m = m1 - m2 或 m = m2 m1,例14 移取NaOH溶液25.00mL,用0.1000molL-1 HCl标准溶液滴定消耗30.00mL。已知移取时s1=0.02mL,每次读取滴定管读数时s2=0.01mL,计算标定NaOH溶液时的标准偏差sc? 解:,两次,三
18、、极值误差,在分析化学中,通常常用一种简便的方法来估计分析结果的最大可能误差,即考虑在最不利的情况下,各步骤带来的误差互相累加在一起。这种误差称为极值误差。当然,这种情况出现的概率是很小的。但是,用这种方法来粗略估计可能出现的最大误差,在实际上仍是有用的。,最大可能误差,1、加减法 若分析结果R是A,B,C三个测量数值相加减的结果,例如,最大可能误差,2、乘除法 若分析结果R是A,B,C三个测量数值相乘除的结果,例如,例15 滴定管的初读数为(0.050.01)mL,末读数为(22.10 0.01)mL,问滴定剂的体积可能在多大范围内波动? 解:,例16 用容量法测定矿石中铁的含量,若天平称量
19、及滴定剂体积测量误差均为0.1%,问分析结果的极值相对误差为多少? 解:,7-5 回归分析法,具有线性关系(y=kx)的一组数据:y: y1, ynX: X1, Xn怎样才能得出各数据点误差最小的直线呢?较好的办法是对数据进行回归分析。7.5.1 一元线性回归方程 (linear regression)对于具有n个实验点(xi,yi)(i=1,2 ,n)的校正曲线:,式中ei为残差,通过最小二乘法可解出线性回归系数a(截距)与b(斜率),使残差平方和达到最小。,式中 分别为x和y的平均值,a为直线的截矩,b为直线的斜率,它们的值确定之后,一元线性回归方程及回归直线就定了。,7.5.2 相关系数
20、(correlation coefficient)用相关系数表示多点组成的回归方程的线性关系:a.当所有的认值(点)都在回归线上时,r= 1。b.当y与x之间完全不存在线性关系时,r=0。c.当r值在0至1之间时,表示例与x之间存在相关关系。r值愈接近1,线性关系就愈好。,7-6 提高分析结果准确度的方法,1. 选择合适的分析方法 (1) 根据试样的中待测组分的含量选择分析方法。高含量组分用滴定分析或重量分析法;低含量用仪器分析法。 (2) 充分考虑试样中共存组分对测定的干扰, 采用适当的掩蔽或分离方法。 (3) 对于痕量组分,分析方法的灵敏度不能满足分析的要求,可先定量富集后再进行测定.,2
21、. 减小测量误差称量:分析天平的称量误差为0.0002g,为了使测量时的相对误差在0.1%以下,试样质量必须在0.2 g以上。滴定管读数常有0.0l mL的误差,在一次滴定中,读数两次,可能造成0.02 mL的误差。为使测量时的相对误差小于0.1%,消耗滴定剂的体积必须在20 mL以上,最好使体积在25 mL左右,一般在20至30mL之间。 微量组分的光度测定中,可将称量的准确度提高约一个数量级。,3. 减小随机误差在消除系统误差的前提下,平行测定次数愈多,平均值愈接近真实值。因此,增加测定次数,可以提高平均值精密度。在化学分析中,对于同一试样,通常要求平行测定(parallel determ
22、ination)24次。,4. 消除系统误差由于系统误差是由某种固定的原因造成的, 因而找出这一原因,就可以消除系统误差 的来源。有下列几种方法。 (1) 对照试验-contrast test (2) 空白试验- blank test (3) 校准仪器 -calibration instrument (4) 分析结果的校正-correction result,(1) 对照试验 与标准试样的标准结果进行对照;标准试样、管理样、合成样、加入回收法。 与其它成熟的分析方法进行对照;国家标准分析方法或公认的经典分析方法。 由不同分析人员,不同实验室来进行对照试验。内检、外检。,(2) 空白试验 空白实验:在不加待测组分的情况下,按照试样分析同样的操作手续和条件进行实验,所测定的结果为空白值,从试样测定结果中扣除空白值,来校正分析结果。 消除由试剂、蒸馏水、实验器皿和环境带入的杂质引起的系统误差,但空白值不可太大。,(3) 校准仪器仪器不准确引起的系统误差,通过校准仪器来减小其影响。例如砝码、移液管和滴定管等,在精确的分析中,必须进行校准,并在计算结果时采用校正值。(4) 分析结果的校正校正分析过程的方法误差,例用重量法测定试样中高含量的SiO2,因硅酸盐沉淀不完全而使测定结果偏低,可用光度法测定滤液中少量的硅,而后将分析结果相加。,谢谢同学们,No pains, no gains.,