我国数字图书馆文的计量学

更新时间:2024-02-04 作者:用户投稿原创标记本站原创 点赞:33209 浏览:155991

[摘 要]我国数字图书馆研究取得了一定的理论和实践成果,但理论和实践研究相差较大,相关论文数量变化整体上反映我国数字图书馆的理论研究发展较为快速、稳定.从作者、期刊、关 键 词三个角度分析数字图书馆研究论文的增长、分布和变化情况,结果表明:我国数字图书馆研究论文作者、期刊和关 键 词分布都呈现明显的集中一离散趋势;作者单位约90%属于高校图书馆;数字图书馆研究主题沿着技术一怎么写作~人的路线发展.

[关 键 词]数字图书馆 作者分布 期刊分布 关 键 词分布 集中离散

[分类号]G251.4 G353.1

1 相关研究概述

数字图书馆(Digital Library),也称电子图书馆或虚拟图书馆,是一个内涵很丰富的概念,其“解”并不唯一,数字资料馆、数字资料库和数字图书馆等都是Digital Library的可能解释.数字图书馆的研究始于20世纪80年代末90年代初.1993年,美国国家科学基金会、美国国防部高级研究计划署和美国国家航空航天署联合发起数字图书馆启动计划(Digital LibraryInitiative,DLI),此后数字图书馆的研究和实践迅速增长,成为图书情报和计算机等领域的研究热点.

我国数字图书馆起步较其他国家略晚,经过多年的理论和实践研究,取得了丰富的研究成果,其中也有一些定量分析研究现状的论文.如王惠翔和高凡以《中国图书馆学报》和《图书情报工作》等24种期刊为数据源,从论文产出量、期刊源、主题和作者等方面定量分析我国1996至2001年8月发表的数字图书馆研究论文.邓湘琳以维普资讯公司的《中文期刊数据库》为数据源,统计分析1989―2001年我国数字图书馆研究论文的来源、年代和空间分布、主题、作者等,探讨了该领域的研究状况和发展趋势.周静怡和孙坦以1993―2004年间SCI和SSCI收录的数字图书馆研究论文为对象,从论文的发表时间、期刊、被引频次和作者四个方面统计分析,确定了领域内的核心期刊、经典文献和核心作者.赵秀君2005年对1994―2003年问刊载在我国15种图书情报学核心期刊上的数字图书馆研究论文进行定量分析,分析角度包括年度发文、期刊源、人均发文量、地域分布及论文主题等.晏尔伽和朱庆华2007年分别以SCI-E数据库(1996―2005)和LISA(1978―1993)为数据源,从数量、著者、机构、核心期刊、引文等角度对数字图书馆研究文献进行了统计分析,论述了数字图书馆的发展情况.与此同时,杨玛萍以CNKI为数据来源,统计分析1994-2003年间的中文数字图书馆研究论文,从时空、作者及主题角度,探讨了研究现状、进展和发展趋势.

这些研究主要对频次进行统计描述,对数字图书馆深层的发展规律和最新的研究发展情况尚无很多研究,本文以上述研究为基础,主要关注数字图书馆研究论文的作者和期刊分布规律,验证洛特卡定律和布掩德福定律在此领域的适用性,利用SPSS和Matlab软什绘制分布图及拟合曲线,求出了数字图书馆论文作者和期刊分布规律的数学表达.此外通过对所有论文的关 键 词统计分析,得出该领域的研究主题和变化方向.

2 数据收集

由于2009年产生的论文并未全部录入各数据库中,选取1994-2008年问的数字图书馆研究论文为样本以CNKI(ChinaNationalKnowledgeInfrastructure,中国知识基础设施工程)中国期刊全文数据库为检索工具,在高级检索栏目里,设置检索字段条件为“题名”和“关 键 词”字段都含“数字图书馆”,检索时间段设为1979到2008年,共检索到1994-2008年间数字图书馆研究论文9617篇[检索时间:2009-12-02],各年的论文数量增长情况如图1所展:

从1994年至2008年,数字书馆研究论文数量逐年上升.尤其是2000年之后,上升趋势更为明显.2002年之后,每年的论文数量均在1000篇以上.从当年产生的论文数看,2002―2008年论义数量保持一定的增长状态,且数量大.从论文累积量看,论文的增长趋势更为明显.虽然增长率逐年降低,但是每年的增长率仍比较高,即使到了2008年,相比2007年也增长了16.3%.经过多年的研究,数字图书馆研究渐渐进入平稳期,已经积累了相当数量的研究成果,在此基础上增速会减慢.

3 作者分析

9617篇论文中,有310篇论文未注明作者信息,其余9307篇论文共有作者12790人次,平均每篇1.4人次.所有论文的作者个数分布如图2所示:

从图2知,独著论文最多,占论文总数的73.2%、其次两位作者和三位作者合著的论文,分别占总数的19.3%和5.6%.独著和两位作者合著的论文篇数占总数的92.5%.独著、两位作者和三位作者合著论文数量为总数的98.1%,即绝大多数论文由以为作者独著、两位或三位作者合著.

3.1 作者频次的洛特卡分布

根据广义洛特卡定律,作者产出和作者数量之间存在一定的数量关系,可表示为:

插图~~~

即撰写x篇论文的作者数是撰写1篇论文作行数的1/xnC越大,撰写1篇论文的作者越多,表明作者产出的离散度越高.

3.2 权重作者的洛特卡分布

以往对洛特卡定律的验证和应用中,对合著者的处理方法主要有两种:一种是只统计第一作者也是;另一种是考虑所有作者.两种方法的c值不同.为了真实反映当代学科的交叉渗透和合著现象,采用考虑所有作者的方法是比较科学的.但不计权重的情况下,作者频次总和比实际论文总量大,因此需引入作者权重.计每篇论文的作者总权重为1,各作者的权重按作者序次呈线性递减.

比较计算作者权重和不计作者权重的作者发文情况,可发现计算权重的情况下,作者产出的集中离散分布趋势更弱.反映在洛特卡分布规律上,则主要是n的不同.作者频次的洛特卡分布中,频次X和作者数量y均为整数,拟合曲线时,可以直接拟合原数据点.计作者权重后,单个作者撰写的论文篇数为整数或小数.y并不连续随产出的增加而减少,当产出量为0.33、0.5和0.67等数据点时,作者的数量较大,因此需对数据进行处理.此处采用的方法是:将单个作者撰写论文篇数按照从大到小的顺序排列,计算平均论文数,如表1所示:

对表2中的A和M/A分别取对数,则zga对应lgx,lgM/A对应lgy.绘制散点图,利用Matlab软件进行拟合,由拟合图及其检验数据可知,lgy与lgx成良好的线性关系,符合洛特卡定律.拟合直线的斜率为-2.588,可得n为2.588,小于上节的n等于2.854,可见计入作者权重后,作者分布的集中离散分布趋势减弱.这与实际相符,因为不计权重的情况下,作者发文量的差距加大,作者的分散程度增大了.


4 期刊分布

有6篇论文未注明期刊名称,其他9611篇论文分布在1394种期刊上,平均每种期刊刊载了6.9篇.刊载最多的两种期刊是《现代情报》和《科技情报开发与经济》,分别刊载了538篇和501篇.仅此两种期刊即刊载了总数的10.8%,可见它们对数字图书馆的关注度较高.其中,《现代情报》的第一篇数字图书馆论文载于1998年,至2008年平均每年刊载48.9篇相关主题的论文,而《科技情报开发与经济》自2000年起刊载数字图书馆论文,平均每年刊载55.7篇.刊载最多的27种期刊共刊载了论文总数的50.8%,前45种期刊刊载了约论文总数的80%,有675种期刊仅刊载过一篇.可见数字图书馆论文的期刊分布集中一离散趋势尤为明显.刊载最多的10种期刊是:《现代情报》、《科技情报开发与经济》、《现代图书情报技术》、《情报杂志》、《图书情报工作》、《图书馆学研究》、《情报科学》、《情报资料工作》、《图书馆论坛》和《图书馆学刊》,每种期刊至少刊载了200篇.对论文在期刊中的分布作散点图,再拟合曲线,得图3:

图3表明,数字图书馆研究论文的期刊分布符合布拉德福分布.分散曲线AB由两部分组成:对应核心区的曲线AC和对应于区的直线CB,其中c点坐标为(1.71,6075),即核心区有51种期刊.曲线AC拟合指数增长的拟合优度达0.987.以R(n)表示论文累积数,n表示期刊数,则当1≤n≤51时,R(n)和n数量关系可表示为:

R(n)等于983.70.476

曲线CB拟合直线的拟合优度达0.994,可得当51≤n≤1394时,R(n)和n数量关系为:

R(n)等于24301gn+1944

可见在期刊核心区,数字图书馆研究论文数随期刊数量呈现指数增长;在区,论文数量随期刊对数呈线性增长.

有1333篇论文未含关 键 词,其余8284篇共有28368个关 键 词,平均每篇3-4个关 键 词.所有论文的关 键 词分布见表2.标示3个关 键 词的论文最多,共有4324篇,占论义总数的52.2%.其次,有2313篇论文含4个关 键 词,占论文总数的27.9%.两者之和为80.1%,含2-5个关 键 词的论文比例为97.3%,说明绝大多数论文含2―5个关 键 词.这与期刊的要求和论文的论述主题范围有关.

高频关 键 词反映领域的研究热点和发展方向.1994-2008年,频次最高的30个关 键 词见表2.尽管检索条件设置为“标题”和“关 键 词”中均含“数字图书馆”,但有些仅标题中含“数字图书馆”的论文也包含在检索结果中,因此“数字图上馆”的频次小于18284.除了“数字图书馆”、“数字化”、“图书馆”和“数字化图书馆”这4个关 键 词的频次较高外,“高校图书馆(大学图书馆)”、“版权(著作权)”、“信息资源”、“建设”、“信息怎么写作”、“数字资源”、“知识产权”、“传统图书馆”、“数字化建设”这9个关 键 词的出现频次都超过了200次.可见,数字图书馆研究领域中,涉及这些主题的研究更为人们所关注.

上述提取的28368个关 键 词中,两两共现次数在20次以上的关 键 词对有97对,利用Pajek绘制共现网路,见图4.

不分年份统计关 键 词频次,可分析得出主题分布.结合表3和图4可看出,除了很多对整体问题的研究外,对专门问题的研究也比较多.研究主题更多地集中在以下几个方面:版权问题;数字图书馆的建设;信息资源建设;知识产权问题;信息怎么写作;数字图书馆与传统书馆的比较研究;资源共享;个性化怎么写作;元数据.部分原因如下:①高校图书馆的研究多,与研究主体、对象有关.90%以上论文作者的所在单位为高校,而其中大多数又是在高校图书馆,他(她)们从实际工作出发关注、研究数字图书馆.②数字资源、信息资源、数据库、信息、资源建设等有关研究多,与数字图书馆的基础支撑有关,信息资源包括以各种媒介为载体和各种表现形式的信息.而数字资源更偏重于数字化(电子化)格式的信息资源,其实质上是数字资源中心.数字资源是数字图书馆的基础资源和怎么写作内容,因此关于它的研究也较多.③数字化建设、数字图书馆建设等研究多,与数字图书馆的建设是一个庞大工程,涉及一系列问题有关.不同于传统图书馆,网络环境下,数字图书馆面临的知识产权,尤其版权等方面的问题更为突出.⑤与传统图书馆相比,数字图书馆可能在资源共享、数字参考咨询、个性化怎么写作等方面,能够提供更多更好的怎么写作,但如何提高用户需要的优质怎么写作是个值得关注的问题.

按年份统计各年关 键 词频次,并对比分析符年的发展变化,可得研究主题变化和发展方向.仅从关 键 词频次随时间的变化看,2001年频次最高的20个关 键 词频次与1996―2000年相比,均有较大幅度提高.2001至2008年关 键 词频次逐年增加.如排在第20的频次从1997年的1次一直上升到2006年的21次,2006-2008年,则相对稳定.一方面,由于近年随着期刊和论文的格式日益规范,论文几乎都标明了关 键 词;另一方面,论文数量的增多直接导致了关建设的增多.单个关 键 词频次的变化反映主题的变化.如1997―2000年,尽管“Inter”的频次逐年增加,但是在其它一些关 键 词频次增长更快、增长幅度更大的情况下,“Intemet”受关注程度相对变弱,以至2001年后,“In-ter”未出现在前20个高频关 键 词中.“图书馆员”、“传统图书馆”的变化情况与此类似,“信息检索”、“数据库”“元数据”等受关注的程度也不如数字图书馆产生时期高.“高校图书馆”、“数字资源”等关 键 词的频次增长速度和幅度超过其他关 键 词,表明其重要性或受关注度越来越高,“资源建设”、“数字图书馆建设”、“个性化怎么写作”等也呈现出较明显的增长趋势,而“信息资源”频次从2002至2008年呈现下降趋势,可能由于更多的关注集中于“数字资源”和“个性化怎么写作”等更专深、实际的问题.知识产权、版权问题一直受到关注,相对于其它主题更稳定.由此可见,数字图书馆研究的主题逐渐从技术转向怎么写作,而且越来越关注人的因素.6结论

近年来,数字图书馆是图书情报领域较热门的研究主题.1994至2008年,产生了9617篇数字图书馆中文研究论文.2000和2001年,论文数量呈跳跃式的增长,2002年后,论文数量保持持续增长.无论是从作者、期刊还是关 键 词角度,数字图书馆研究论文都呈现明显的集中离散分布趋势.

独著论文篇数最多,为总数的73.2%.其次是两位作者和三位作者合著的论文,分别占总数的19.3%和5.6%.数字图书馆论文的合著度和合著率都不高.一方面由于作者单位约90%属于高校图书馆.目前高校图书馆并未普遍实现数字图书馆,作者多为传统图书馆工作人员,他(她)们着眼于管理和怎么写作等理论方面,这些研究不一定需要多人协作参与;另一方面,可能数字图书馆的研究者更多属于如图书情报之类的社会科学,并不像一些理工学科的研究需要多人合作.

去掉重复的作者姓名,则共有8559位作者撰写了9307篇数字图书馆论文.按权重计算作者产出更能准确客观地判断作者和产出的关系.计每篇论文的作者权重为1,各作者的权重依序次按线性递减.按照作者产出从高到低排列,则不到2%的作者撰写了全部论文的10%.10%的作者撰写了30%的论文.不到60%的作者撰写了80%的论文.而近有30%的作者共只撰写10%的论文.数字图书馆研究论文的作者和产出呈现明显的集中离散趋势,符合洛特卡定律.

刊载数字图书馆论文最多的27种期刊刊载了50.8%的论文,前45种期刊刊载了约80%的论文,有675种期刊仅刊载过1篇.数字图书馆论文的期刊分布集中趋势尤为明显,且符合布拉德福定律.刊载最多的为《现代情报》和《科技情报开发与经济》等十种期刊,每种期刊至少刊载了200篇,这些期刊对数字图书馆研究的关注度较高.

除了“数字图书馆”、“数字化”、“图书馆”和“数字化图书馆”这四个关 键 词出现的频次较高外,“高校图书馆”、“版权”、“信息资源”、“建设”、“信息怎么写作”、“数字资源”、“知识产权”、“传统图书馆”、“数字化建设”这9个关 键 词的出现频次都超过了200次.过去15年中,数字图书馆的研究主题发生了一些变化.数字图书馆的研究越来越深入,由开始的关注技术渐渐转变到关注怎么写作,再转到更关注用户的需求、个性化怎么写作等涉及人的因素方面,总的来说,沿着技术一怎么写作一人的路线发展.