1、第三章 信息分布,3.1 信息产生与分布中的马太效应,3.1.1马太效应的表现和作用形式核心趋势 高产作者群体的形成 期刊信息密度增大 高频词汇的确立集中取向 一篇论文多次被引 一个网站被众多用户点击,3.1.2 马太效应的负面影响,信息分布的富集现象 突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。 核心信息源 忽略分布在其他信息源中有价值的信息。 马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播。,3.1.3*马太效应的数学模拟,1普利亚(Polya)分布普利亚(Polya)分布亦称单缸模型,它基于下述实验:设某
2、一缸中装有若干红色球和黑色球,按一定的规则从缸中取球,取到红球表示成功,取到黑球表示失败。假定缸中现有a个红球、b个黑球,取出某个球后(例如红球),则将取出球与c个红球一起放回缸中,取到黑球亦同样处理。如果实验重复n次并且假定X表示取出红球的总次数,则X的分布可表示为:P(x)=P(X=x) =,(1)若c=0 P(x)=P(x)为带有参数n,a/(a+b)的二项分布 (2)若c=1P(x)=P(x)为带有参数n,a+b,a的超几何分布 (3)若a=b=cP(x)=P(x)为带有参数n,x的均匀分布,(4)若n ,a(a+b)-1 0以及c(a+b)-1 0,P(x)为负二项分布,n a(a+
3、b)-1 和nc(a+b)-1 分别趋向于非零值 和 P(X=x)=令 p,P(X=x)=,2.塔格(Tague)分布,塔格(Tague)分布又称多缸模型,是对单缸模型的补充和修正。实验程序如下: 设有一系列的缸,每个缸中装有a个红球和b个黑球; 如果一个红球被取出,则在该缸中另外加进c个红球; 如果黑球被取出,则不另外加进黑球; 依次从第一个缸开始取球,一直持续到取出k个球为止 接着再从第二个缸取球,重复的程序; 程序无限地延续。,在单缸模型中,x次成功的概率是在第k只黑球取出之前取出x个红球的概率。P(X=x)=式中,ai0, k-1令 = , = ,有P(x)=简化得,P(x)=,(1
4、)如果k=1;满足弗林分布,其平均数为 P(x)=(2)如果 1,弗林分布对应于瑞利分布或累积优势分布: P(X=x)=式中,B(, )为贝塔函数。 (3)在累积优势分布中,如果 =1 P(x)=,拉维昌德拉劳在1987年提出累积优势分布的替代形式: 设u和v为两个随机变量(u=1,2,3,0v1) P(u/v)=(1-v)u-1;P(v)=(+1)(1-v)P(v)= P(u/v)v P(v)= (+1)(u,+2)u=1,2,3,3.威布尔(Weibull)分布,日本的中川和大崎在1975年讨论了威布尔(Weibull)分布。由于在对失败的研究中,失败的次数常用失败的周期数来测量,所以一般
5、用连续分布作失败分析。而随机变量具有离散性,故又称为离散的威布尔分布。中川和大崎提出了如下描述失败的概率函数:P(x)=qx -q(x+1) x=0,1,2,3,0,00 平均数为,3.2 信息生产者分布规律,3.2.1洛特卡定律 1926年,统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物华盛顿科学院学报上发表了一篇题名为“科学生产率的频率分布”的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。,洛特卡选择美国化学文摘和德国奥尔巴赫物理学史一览表为数据源研究科技工作的论著数量分布。他统计分析了化学文摘19071916年10年累积索引中的部分作者
6、,即姓氏以字母A和B开头的6 891位作者。分别列出发表过1篇、2篇,一直到346篇论文的人数。物理学史一览表包括了1900年前物理学领域内出现的1 325位物理学家及其论著,取其全部数据进行统计。,洛特卡定律的图形描述,洛特卡以论文数(x)和作者数(yx)的对数为横坐标和纵坐标(即logx和log yx)作图,两组数据都是直线(如图所示)。图中虚线表示化学文摘数据,实线代表物理学史一览表的数据。用最小二乘法计算拟合直线的斜率,近似为-2。,Log yx,Log x,10,5,3,2,1,5,1,25,30,100,20,洛特卡定律的数学描述,根据洛特卡分析,在论文数x和作者数yx之间存在下列
7、关系: xnyxc式中,yx 是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动。 通过变换可以得到下面的公式:,令f(yx)= ,实际表示写x篇论文的作者出现的频率,C= ,表示作者取样总数的比例,这样可以写成:f(yx)两边积分得:1 ,于是,C0.6079,3.2.2普赖斯定律,在某一特定领域中,全部论文的半数系由该领域中全部作者的平方根的那些人撰写的。该定律可表示为: (3-6) 式中,n(x)为撰写x篇论文的作者数;I=nmax为该学科规定时期内最高产的作者数;N为该学科领域全部作者总数。m可由下式确定: (3-7),如果规定发表了n篇
8、论文的作者人数为a(n) ,则发表nNn篇论文的作者人数为: A(n-n) =a(n)+a(n+1)+a(n)=a(n)名作者一共发表的论文为P(n)=na(n) 同理,发表了nNn篇论文的作者总共发表的论文数为: P(N) =P(n-n)=na(n)+(n+1)a(n+1)+na(n) ,若 1/2P(1nmax) = P(mnmax) = P(1m) ,则有:= (3-10)其中,a(n)= ,a(n)是频数。P(1n)= 调和级数和公式变为 P(1n)=c(lnn+0.577+n),化简得,M=0.749(nmax)1/2 式子表明,高产作者中一位最低产的作者发表的论文数量,等于最高产作
9、者所发表论文数的平方根的0.749倍。 另一方面,K= = =这个式子表明了高产作者人数同全体作者人数的比例关系。,3.3信息离散分布规律,3.3.1布拉德福定律英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(Bradfords Law of Scattering),简称为布拉德福定律或布氏定律:“如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的核心部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后
10、继各区中所含的期刊数成1aa2的关系(a1)。”这就是布拉德福定律的区域表述形式。,应用地球物理学论文的布氏分布,布拉德福定律图形描述,如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。 布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线。B.C.布鲁克斯用下述模式来表示布拉德福定律:R(n)=n (1nC)(3-15)R(n)=klog (n/s) (CnN) (3-16),曲线上BD部分只是近似地满足(3-16)式。式中: R(n)相关论文累积数。 n杂志等级排列的序号(
11、级)。 第一级杂志中的相关文章数R(1)。也就是载文章最高的杂志中的相关文章数。 C“核心区”中的杂志数量。 N等级排列的杂志总数。 k,s待定参数,k等于分布曲线中直线部分的斜率,可用实验方法求得。当N足够大时,kN。 参数,与收藏的杂志(核心中杂志)数量有关,大小等于分布图中曲线部分的曲率,总小于1。式(3-15)和(3-16)就是布拉德福定律的图形表述形式。 ,布拉德福分散曲线,R(n),C,B,D,N,Loge n,R(N),C,O,A,R(N),n1,R(n1),N,布拉德福定律数学描述,令m1,m2,m3为一、二、三各区中的论文数量,p1,p2,p3为对应区的杂志数量,r1,r2,
12、r3为各区每种杂志的平均论文数量,则有:r1p1=r2p2=r3p3=m1p2/p1=r1/r2=a1p3/p2=r2/r3=a2, 令a1=a2=a,于是p1:p2:p31:a:a2,布氏定律的维克利解释,将杂志分区的数目推广到n3的普遍情形。设将载有某一学科相关论文的杂志分为m个区,使每一区的论文数量相等,各区中期刊的数量n1,n2,n3,nm有如下关系:T1:T2:T3:Tm=1:b;b2:bm-1 (b为维氏分布系数) Tm=n1+n2+n3+nm=N,N为杂志总数,布拉德福定律补充说明,布拉德福定律有两个基本要点: 一是频次等级排序,形成主体来源(期刊)的有序目录; 二是确定相关论文
13、在主体来源中的分布规律。具体方法则包括区域分析和图形描述,虽然两者数值并不相等,但它所揭示的都是论文在期刊中的分散规律。布拉德福定律主要揭示的是宏观层次的信息(文献)离散分布,而对于微观层次的信息(内容单元)分布的研究则基本上是空白。,3.3.2齐夫定律,1.齐夫定律的表述如果将一篇较长文章(约5 000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:fr=c(3-19) 式中c为常数。上式称为齐夫定律。,如果建立f与r的直角坐标系,
14、用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线。如果等级r与频次f都取对数,则双曲线变成一条直线。与之等价的数学表达式为: lgr+lgf=lgc,词频分布,齐夫词频分布曲线及其对数曲线,f,250,200,150,100,50,300,r,1,3,2,5,6,4,Lg f,Lg r,齐夫定律的修正,图中的虚线表示理想化形式,一般地,斜率为b的任一直线可表示为: Klg r+lg f=lg c这一直线由图中的实线表示。如果将其改写成(3-19)式的形式就得:frb=c(3-20) 取b=1,(3-20)式与(3-19)式相同,因此可以将(3-20)式看做是对齐夫定律的修正。,2
15、.齐夫分布的其他形式,(1)朱斯双参数等级分布美国学者朱斯指出,在(3-20)式中,不仅c应当是参数,而且b并不总是等于1,也是一个参数,齐夫定律可更为一般地表示为: f(r)=cr-b(3-21) 式中,b0,c0,对于r=1,2,n,f(r)=1 式(3-21)就是朱斯的双参数等级分布定律。f(r)表示r位词出现的频率(或概率)。,(2)曼德尔布罗三参数分布,曼德尔布罗将词(包括字母间的空格)看做有一定顺序的字母序列,并将语言和利用模拟或数学公式表达形式的编码加以比较。设r为词的顺序,f(r)为第r个词的频率,(r)为第r个词的词长。这时平均词长为: L=f(r)m(r)当给定的熵值H最小
16、或当L最小时,应有:H=- f(r) lgf(r)=常数,以及f(r)=1。根据这些条件,曼德尔布罗从理论上提出了三参数分布公式:f(r)=c(r+a) -b(3-22)式中,0a0,c0。a,b,c为参数,具有如下意义: 参数c与出现概率最高的词的概率大小相关或者说与f(1)有关。当a=0,b=1时,c=f(1)。参数b与高频词数量的多少有关,对于r50的高频词,b是r的非减函数,随着r的增大,参数b并不减少。参数a与词的数量n有关,由于a的选择自由较大,此公式更为灵活,更能够在各种条件下与测定的统计数据拟合。,3.4信息对时间的分布规律,3.4.1指数增长律 1.普赖斯曲线 如果我们以文献
17、量为纵轴,以历史年代为横轴,把各不同年代的文献量在坐标图上逐点描绘出来,然后以一光滑曲线连接各点,则可十分近似地表征文献随时间增长的规律。这就是著名的普赖斯曲线。,普赖斯曲线,F(t),100,10,1900,1950,t,1665,10000,1000,1800,1750,1850,通过对曲线分析,普赖斯最先注意到文献增长与时间成指数函数关系。如果用F(t)表示时刻t的文献量,则指数定律可表为下式:F(t)=aebt (3-23)式中:a是统计的初始时刻(t=0)的文献量; e=2.718;b表示持续增长率。人们还常常用文献量翻一倍的时间来衡量文献的增长速度,即t=ln 2/b (3-24)
18、式中:t为文献量翻倍时间,b为持续增长率。 ,实际的统计发现,不同时期、不同级别、不同质量、不同学科领域的文献信息增长态势是不一样的。勒希尔考察了不同质量级别的文献增长状况,发现它们的增长速度差别很大。勒希尔认为,文献的数量与其质量有关。他定义(01)为文献的质量级别,则不同级别上的文献量为F(t)。他给的具体值如下:=1:至少是一般文献(实际代表所有文献)=3/4:至少是有意义的文献=1/2:至少是重要的文献=1/4:至少是非常重要的文献=0:第一流的文献对于第一流的文献(即=0),文献数量为lnF(t)。,2.生长曲线,普赖斯指出,考虑物质的、经济的、智力的及时间的影响和限制,文献信息的增
19、长更趋近于生物的生长曲线(Logistic Curve),即最初生长或繁殖很快,随着时间推移,其生长速度越来越慢,以致几乎不增加了。其方程为:F(t)=k/(1+ae-kbt)(3-25)式中:F(t)代表时刻t的文献量,k为文献增长的最大值。,生长曲线,F(t),t,K/2,Ln a/kb,增长率的描述,一般来说,在不同的阶段科学文献增长的态势是不同的。学科处于诞生和发展阶段,文献量指数增长,文献的寿命较短。学科进入相对成熟阶段,文献增长就不能总保持原有的指数速率,增长率变小,曲线变得平缓,文献寿命相对变长。某一知识领域的研究取得重大进展后进入相对成熟的阶段。内容上更新的文献又将进入一个新的
20、急剧增长时期(如指数增长)。然后又进入一个稳定时期。文献的增长往往会出现几个急剧增长时期和几个相对稳定时期,呈现出错综复杂的格局。一般说来,对不同的领域,描述其文献增长的生长曲线中各个常数(a,b和k)也是不相同的。,3.4.2逐渐过时律,1.文献老化的表现文献信息的老化一般指这样四种情形:文献中所含信息仍然有用,但现在已被包含在更新的其他论著中;文献中信息仍旧有用,但现在正处于一个人们对其兴趣下降的学科;文献中的信息仍旧有用,但为后来的著作所超越;信息不再有用。 2.文献半衰期所谓文献的半衰期,是指某学科领域现时尚在利用的全部文献中的一半是在多长一段时间内发表的。 3.普赖斯指数 普赖斯指数
21、,即某一学科领域内,对发表年限不超过5年的文献的引用次数与总的引用次数之比值。一般来说,普赖斯指数越大,半衰期就越小,文献老化的速度越快。,文献信息老化曲线,用纵坐标表示现在正被利用(引证)的文献的被引量,横坐标表示时间,我们可以绘制出文献的老化曲线。相应的方程可表示为:C(t)=ke-at(3-26)式中:C(t)表示发表了t年的文献的被引次数,k是常数,随学科不同而异,a为老化率。,被引证次数C(t),0.5,出版年龄t,t1,t2,t3,文献信息老化的影响因素,(1)文献增长。文献的增长和老化是一个事物的两个方面,它们从不同的侧面来描述科学的发展,阐明科学知识的修正率。 (2)学科差异。世界上93%98%的科学杂志引用寿命为20年左右,但并不是所有这些学科的文献老化速率都大体一致,相反,彼此之间差异甚大。 (3)学科发展阶段的差异。即使是同一学科,不同的时期或阶段,文献的半衰期不尽完全相同。 (4)信息环境和需求。不同信息用户对文献的需求是不同的 ,因而信息利用者的需求及所处的信息环境 的研究十分必要。,