大数据时代下的图书馆数据挖掘和情报

更新时间:2024-01-31 作者:用户投稿原创标记本站原创 点赞:13921 浏览:58390

[摘 要\]全球信息迅速膨胀带来的数字资源的快速发展,使得有效利用大量结构化、半结构化和非结构化的复杂数据逐渐成为图书馆工作的主旋律.在这一背景下依托图书馆资源、海量的数字资源及各文献的引证关系等,国内出现了新一代知识发现系统.以中文发现系统为例,它通过挖掘各类数据与用户行为之间的立体关系,实现以下效果:发现知识、洞察全局、价值再生.这一系统具有以下功能:引文分析、学术源流、趋势分析、知识关联与生长方向分析、可视化和智能辅助.

[关 键 词 \]大数据;数字化环境;数据挖掘;引证关系

[中图分类号\]G250 \[文献标识码\]A \[文章编号\]2095-3712(2014)25-0088-04

一、引言

(一)大数据

截止到2011年,全球信息总量已经突破1.8千万兆亿,并不断以惊人的速度膨胀变大,这意味着“大数据”时代已经降临.哈佛大学知名学者提出:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程.”针对这样的一个变化,大数据时代最大的转变就是,放弃对因果关系的渴求,取而代之的是关注相关关系.也就是说只要知道“是什么”,而不需要知道“为什么”.这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战.

(二)大数据下图书馆怎么写作模式的转变

全球信息迅速膨胀带来的数字资源的快速发展,使得有效利用大量结构化、半结构化和非结构化的复杂数据逐渐成为图书馆工作的主旋律.随着数据爆炸时代的来临,以及网络数字化环境的日益成熟,读者迫切需要一个可以简捷、快速获得所有知识的理想平台.同时,图书馆作为一个面向大众的知识怎么写作机构,不仅需要了解客户需要什么怎么写作,更需要通过图书馆―用户的怎么写作关系去挖掘正在发生什么、预测和分析将来会发生什么,以便图书馆为读者提供更好的怎么写作模式并积极应对未知的危机及挑战.

二、大数据时代下的数据挖掘和情报分析机理

(一)知识挖掘

引入先进的技术手段,如知识挖掘算法、索引规则等,对各类文献资源数据进行处理和分析,使得文献的揭示由表面信息深入到各类文献之间存在的复杂关系中,继而帮助用户发现潜藏在数据背后的信息.通过知识挖掘处理,展现给读者的文献资源不再是一个点对点的结果表示,而是揭示各信息资源关联关系的立体知识体系.深入分析用户需要的甚至用户潜在的知识需求,为其提供更加精准化的知识发现怎么写作.

(二)情报分析

基于已有的结构化和非结构化数据的知识组织和表示,综合应用数据挖掘、学习和推理技术,得出文献资源的增减变动方向和变化趋势,实现自动化、智能化的深入分析,帮助用户获取具有动态性、知识性和前沿性的情报知识.情报分析的主要作用是通过设置人机交互接口与用户进行交互.用户可以通过一定的软件环境指导学术原始数据的采集、抽取和分析处理过程及查看分析结果,并应用可视化技术动态直观地展现海量信息资源中潜在的规律和发展趋势.

(三)中文发现系统

中文发现系统以各类结构化、半结构化和非结构化数据为底层基础,通过先进的数据仓储、数据挖掘及搜索引擎等技术手段,全面揭示馆藏内及馆藏以外的各种学术文献的应用、管理,并深入挖掘大量数据资源背后的信息,为用户和图书馆提供知识发现怎么写作.

图1 中文发现系统读者需要的知识往往大于图书馆或系统所能想到的范围,考虑到用户的这一实际需求,中文发现系统通过挖掘各类数据与用户行为之间的立体关系,实现以下效果:

发现知识:通过系统平台、技术手段,深入分析图书馆员的工作与用户的搜索行为,对信息资源进行充分的挖掘、关联和升值,更加全面和深入地揭示资源和怎么写作的整体性,使得信息的查找和定位更加细化和快捷,帮助读者发现所有所需资源.

洞察全局:使用户感受到的文献信息资源是一个整体,不再是一个庞大而零散割裂的“信息孤岛”.最终形成一个完整的情报分析体系,帮助读者和文献单位建立文献信息的全局概念,全面掌握研究学习的趋势与内容.

价值再生:深入挖掘各文献资源之间的立体关系,实现图书、期刊、学位论文、会议论文等资源之间互引的立体引证关系与趋势发展关系,分析挖掘大数据背后的潜藏信息,从而帮助读者发现潜在的知识需求与研究信息.

三、中文发现系统功能案例分析

(一)引文分析

系统利用各种数学及统计学的方法进行比较、归纳、抽象、概括等,对图书、期刊、论文、著者等分析对象的引用和被引用现象进行分析.使用的方法有图论、模糊集合、数理统计等数学方法和逻辑思维方法,目的在于揭示文献所蕴含的情报特征和相关关系.

引文分析可以帮助读者超越时间空间,跨学科组织文献,同传统的分类法和主题法截然不同,使文献有序化,有利于对文献由表及里地深入展开分析,更易于量化.引文分析能够帮助一些研究学者通过文献引用频率的分析研究测定某一学科的重要性或某一作者的影响力.通过文献间的相互引证关系,分析某学科(或专业)文献的参考文献的来源和学科特性,不仅可以了解该学科与其他学科有哪些些联系,而且还能探明其信息的来源及分布特征,从而为制定本学科的信息管理方案和发展规划提供依据.另外可以通过被引用率与引用率来研究文献老化规律.可根据某著者被别人引用的程度衡量该文献学术价值和影响.

系统通过引文分析不只实现期刊与期刊的引证,同时实现不同文献类型、不同文献信息要素之间的相互引证关系,最终实现一个立体的引用分析,方便读者和图书馆全面掌握文献信息的被引和施引关系.

功能描述:提供期刊与期刊、图书与图书、图书与期刊、期刊与图书的前向与后向引证关系;提供被引和施引文献列表与链接,方便反向分析研究;中文期刊引用分析数据由4000万完善到7000万;引文关系数据总共超10亿条;提供图书、期刊、学位论文、会议论文等不同文献之间相互引用的立体引用分析,即引文链状分析;提供作者、出版社、刊名、作者单位、主题词、分类等信息的引文网状分析. 图2 中文发现系统的引文分析功能(二)学术源流

学术源流可以把文献资源的研究单位从单一的文献深化到文献中存在的知识关联中,通过学术源流可以按照知识概念形成知识相关链,这些关联就是知识关联的基础.系统通过单向或双向线性知识关联构成的链状结构延展开来,直到我们获得解决问题的正确信息.通过学术源流可以按照作者形成学者相关链.针对文献的基本要求,详细分析出文献学科领域与文献作者信息间的关系;通过作者机构可以按照机构形式形成研究机构相关链.建立作者机构关联后检索作者所在机构可以分析相关文献,了解作者所在机构的研究情况,使读者能够更清楚地了解作者的研究方向以及作者所在机构的研究方向.

功能描述:知识相关链,提供通过分析知识源、知识活动和知识主体等得到的立体知识链,并提供这些知识链之间的关联信息;作者相关链,提供作者与作者之间的多维关联信息;作者机构相关链,提供作者机构与作者机构之间的多维关联信息.

其他策略:提供知识、作者、作者机构等要素之间的立体关联信息,方便追溯与挖掘学科与文献信息的研究领域和研究方向;提供学术关联关系与文献信息的反向链接,便于再次学习查找.

(三)趋势分析

趋势分析是通过对搜索主题的年代和篇数的相关数字资料进行分析,对比多个连续的相同指标,得出它们增减变动方向变化趋势的一种分析方法.读者通过搜索查找主题,得到该主题的趋势曲线分析,并对其查找出的内容结果根据年代进行分析,可让读者快速了解搜索主题的学术趋势.可以查看不同年代该学术主题的数据研究,无论是在上升或下滑趋势曲线中,当曲线在某一阶段处于上升或者处于波峰阶段时,即是在该时间段内学术研究兴盛的时段;当曲线在某一阶段处于下滑或者处于波谷阶段时,即是在该时间段内学术研究低迷的时段,同时也具有学术趋势发展的预判分析,为预测该学术未来发展的趋势提供帮助.

功能描述:学术发展现状,通过归纳、总结各类文献数据的产出量与各项指标,总结出搜索主题在规定时间段内的学术发展趋势;深入挖掘、分析文献信息发展趋势的波峰与波谷,结合搜索主题的各项指标与关联指标,分析预测其未来发展趋势.

图3 中文发现系统的趋势分析功能(四)知识关联与生长方向分析

知识不仅是一个立体的存在,同时也有着广泛的空间属性,知识与知识之间有着千丝万缕的联系,这些联系就是知识关联的基础.通过知识的关联,我们可以从A知识延伸至B知识、C知识等进而延展开来,直到我们获得解决问题的正确信息.知识关联是我们从事知识活动和知识管理的基础,知识管理的目的是科学组织和有效利用知识,而知识关联是科学组织和有效利用知识的基本出发点和理论依据.因此,可以说,知识管理的本质是知识关系的管理,通过对知识关系的管理来达到科学组织和有效利用知识的目的.

知识关联是知识发现和知识创造的起点,揭示知识载体之间存在的各种关联.可以从触发一个知识点,从而带动另一个知识点由平稳过渡到加速发展的过程,同时支持多个主题或同类主题的学术产出等方面的对比与生长趋势.可以通过对比同一领域发展相关性分析将来的发展趋势,还可以通过知识关联对生长方向进行分析,发现这些行为之间的关联性、连续性,或以某一相似度检测为纽带建立起具备参考价值的趋势曲线.

功能描述:提供同类主题、学科、领域等文献资源的知识发展方向分析,方便研究某一学科领域或者主题方向的知识发展;挖掘分析多个主题、学科、领域等文献资源的知识生长方向,便于发现不同学科领域或者主题之间的知识关联性;提供不同机构的学术文献生长方向分析,便于合理有效地利用和掌握机构的知识体系.

图4 中文发现系统的知识关联与生长方向分析功能

(五)可视化

通过计算机可视化技术,对统一结构化的文献信息字段进行深度比对分析,继而根据检索关 键 词 的类型、时间、作者、学术价值等基本要素形成数量统计学方面的分析报告,并以可视化的图表形式展现.同时,也可对相关研究主题进行对比分析研究,并生成相关对比分析图表,这可以帮助读者了解相关学科热门程度,合理选择研究、开题方向,为科研人员宏观研究数据提供了参考信息等,还可以帮助图书馆以直观的方式直接查看图书馆信息资源的相关统计与发展趋势信息.


功能描述:查看――读者可根据检索关 键 词 的类型、时间、作者、学科、学术价值等要素,对得到的检索结果进行统计分析聚合后,查看图表统计结果;输出――读者可以对检索结果进行下载、打印等操作.

其他策略:提供图书、期刊等学术发展趋势曲线图表;提供研究主题、学科的关联对比分析曲线图表;提供揭示图书馆各文献信息现状与发展趋势曲线图表.

(六)智能辅助

传统的信息检索系统中,用户通过输入检索词提交给系统,得到检索结果并从中查找所需要的信息.中文发现系统在此基础上加入智能辅助系统,主要方式是主动推送信息给用户,在输入检索词时系统自动判断用户所输入的检索词是要找到什么,并将用户所需要的信息推送给用户.比如检索一个作者时,系统会主动推送作者的简历与相关文章.

功能描述:提供检索关 键 词 的相关词条解释;提供图书、期刊等导航推送;分析用户搜索行为,提供常用学科的推送;提供搜索作者的简历、发表文章、学术研究产出等推送;通过用户的搜索习惯,发现读者的潜在搜索需求,并进行主动推送.

四、结论

中文发现系统建立在日益增长的海量数字资源基础之上,其宗旨在于打破以往的书刊目录发现和文献全文发现方式,为读者提供具备完善的知识挖掘与情报分析功能的知识发现系统.以数据挖掘的相关技术为支撑,对这些文献资源进行数据关联与情报分析处理,深入发现隐藏在大量数据背后的信息,从而建立功能强大的新一代学术资源发现平台,帮助读者简捷、快速获得所有需要的知识.对读者来说,中文发现系统是学习的工具;对图书馆来说,它是一个研究学习平台,也是一个功能强大的文献管理平台.