文检索数据库作者,亲爱的综述文投稿作者

更新时间:2024-03-20 作者:用户投稿原创标记本站原创 点赞:9284 浏览:34809

异构数据库的跨库检索技术综述

黄镝

上海交通大学图书馆上海200030

[摘 要]异构数据库的跨库检索是电子资源整合的核心技术,本文介绍了异构数据库的特征,异构数据库的连接和数据交换技术,探讨了跨库检索系统应具备的功能和应注意的问题,并对国外一些有影响的跨库检索系统进行了介绍.

[关 键 词]异构数据库跨库检索数据库连接WebfeatMetaLib

[分类号]G250.73

ReviewofCrossSearchingTechniqueforHeterogeneousDatabase

HuangDi

ShanghaiJiaotongUniversityLibrary,Shanghai200030

[Abstract]Crosssearchingtechniqueforheterogeneousdatabaseiscoretechnologyofintegratingelectronicresource.Thepaperhasintroducedthecharacterofheterogeneousdatabase,thetechnologyofheterogeneousdatabasesconnectionandinformationexchanging.Italsodiscussedthefunctionofcrossretrievalsystemforheterogeneousdatabases.Thepaperhasalsoincludedasurveyofforeignproductsincrossdatabasesearching.

[Keywords]HeterogeneousdatabasesCrossdatabasesearchingDatabaseconnectionWebfeatMetaLib

1.引言

近几年,图书馆通过引进和自建数据库,已使电子资源的建设具有相当规模,电子文献在文献怎么写作中所占的比重也不断增加.在继续加强电子资源建设的同时,图书馆开始更加关注电子资源的管理工作,整合已有的资源,将不同类型,不同结构,不同环境,不同用法的各种异构数据库纳入统一的检索平台,以便于用户更方便,更高效地获取信息.

2.数据库的异构特征

图书馆要整合的数据库主要包括:书目数据库(OPAC),题录/文摘数据库,全文数据库,电子期刊和电子图书,相关的WEB网站等.这些数据库分布在不同的怎么写作器,由不同的信息怎么写作公司和出版社提供,或由图书馆自建,成为各具不同特性的异构数据库,其异构特征表现为以下几个方面:

2.1数据模型的异构分层次,网状,关系和面向对象4种.

2.2数据结构不同如ORACLE与Sybase数据库物理模型异构,数据结构不同,而有些数据还是半结构或非结构的.

2.3系统控制方式不同有集中式与分布式.

2.4计算机平台的异构从巨,大,中,小型机到工作站,PC.

2.5通信协议的不同有Z39.50,HTTP及非标准等.

2.6通信结构模式的不同有主从结构,客户机/怎么写作器模式,浏览器/怎么写作器模式.

2.7操作系统的异构有UNIX,NT,OS/2,Apache,SunSolaris,Linux等.

2.8网络的异构有LAN,WAN,以太总线结构与令牌环结构等.

3.异构数据库连接与存取的相关技术

面对当前信息资源和网络环境的复杂性,要实现异构数据库的跨库检索,传统的DBMS(数据库管理系统)已经很难解决.近几年许多新的相关技术相继推出,综合应用这些技术可进行异构数据库之间的连接和数据转换,接受用户对些数据库的并行交叉访问和查询,对查询结果进行融合处理并反馈给用户端.纵览近年来的进展,主要包括以下相关技术:

3.1公共网关接口技术CGI


利用CGI可实现Web与数据库的连接,CGI(CommonGatewayInterface)是最早的Web程序设计方式,它提供一个外部应用程序与Web怎么写作器交互的标准接口,遵循CGI标准编写的Web怎么写作器端的可执行程序称为CGI程序.CGI最大的用处之一是其与浏览Web站点的用户之间的交互能力,使信息网关,反馈机制,访问数据库,查询等一系列灵活复杂的操作得以实现.利用CGI实现与数据库的连接,最大的优点在于其通用性.目前几乎所有的HTTP怎么写作器都支持CGI.

3.2开放式数据库互连技术ODBC

ODBC(OpenDatabaseConnector)是由Microsoft推出的基于C语言的开放数据库互连技术,主要针对客户端/怎么写作器结构的数据库.它包含访问不同数据库所要求的ODBC驱动程序及驱动程序所支持的函数,应用程序通过调用不同的驱动程序所支持的函数来操纵不同的数据库.若想使应用程序操作不同类型的数据库,就要动态地链接到不同的驱动程序上.

3.3JA数据库互连技术JDBC

JDBC(JaDatabaseConnector)是JaSoft公司设计的Ja语言的数据库API(应用编程接口),主要针对浏览器/怎么写作器结构的WEB数据库.JDBC的出现是Ja编程中最重大的突破之一,它使得Ja程序与数据库怎么写作器的连接更加方便.与其他的数据库存取技术相比,JDBC继承了Ja语言的所有特点,不仅具有独立于平台运行,面向对象,坚固性好的优点,而且具有多线程,内置检校器来防止病毒入侵等功能,更加适合网络应用.JDBC的这些特点也特别适合于实现对Web异构数据库的访问.JDBC是连接Inter上异构数据库的最好方法.使用JDBC能够方便地向任何关系数据库发送SQL语句.浏览器从怎么写作器上下载含有JDBC接口的JaApplet,由浏览器直接与数据库怎么写作器连接,自行进行数据交换.JDBC完成三项工作:(1)建立与数据库的连接,(2)发送SQL语句,(3)处理查询结果.应用Ja语言和JDBC编写具有统一的用户查询界面的应用程序,可实现在浏览器端对多个位于不同数据库怎么写作器上的异构数据库的选择查询.

ASP技术和JSP技术

ASP(ActiveServePage)是Microsoft公司于1997年推出的一个功能强大的WEB应用程序开发技术,ASP在Web怎么写作器上解释脚本,可产生并执行动态交互式,高效率的站点怎么写作器应用程序.ASP可以胜任基于微软Web怎么写作器的各种动态数据发布.ASP脚本是在Web怎么写作器端解释执行的,当遇到访问数据库的脚本命令时,ASP通过ActiveX组件ADO(ActiveXDataobjects)与数据库对话,通过ODBC与后台数据库相连,由数据库访问组件执行访库操作.并将执行结果动态生成一个HTML页面,返回web怎么写作器端,以响应浏览器的请求.在用户端浏览器所见到的是纯HTML表现的画面,例如用表格来表现的后台数据库表中的字段内容.由于ASP结合了脚本语言,可以通过编程访问ActiveX组件,并且具有现场自动生成HTML的能力,所以它成为建立动态Web站点的有效工具.在结构关系上,ASP是通过ODBC与数据库打交道.因此,可向上层兼容各类数据.

另一种相似的动态网页技术JSP由Sun公司于1999年发布,JSP支持的是完全的Ja,可以充分发挥Ja面向对象编程的强大功能,可以使用J2EE标准怎么写作,使用大量的JaAPI,如JDBCAPI.

3.5XML中间件技术

目前网上有很多信息格式是半结构化或非结构化的,其来源极端异构.利用XML作为中间件对这些信息进行元数据搜索,提供一个统一界面的检索系统是一个较好的应用方案.XML(ExtensibleMarkupLanguage,可扩展标记语言)是由W3C(WorldWideWebConsortium)组织于1998年2月制定的一种通用语言规范,它是专门为Web应用程序而设计的SGML的简化子集.XML最大的优点在于它的数据描述和传送能力,具备很强的开放性.为了使基于XML的数据交换成为可能,必须实现数据库的XML数据存取,并且将XML数据同应用程序集成,进而使之同现有的规则和技术相结合.开发基于XML动态应用(如动态信息发布,动态数据交换等)的前提是所支持的数据库必须能支持XML.XML提供描述不同类型数据的标准格式,例如:数据库记录,图形,声音等,并且可一致而正确地解码,管理和显示信息.

4.电子资源跨库检索应具备的功能

跨库检索技术不等同于搜索引擎,它应为用户呈现图书馆的整体信息资源,帮助用户定位相关的资源,并直接融合这些资源,在各类学术信息资源中通过知识元的搜索实现知识发现.具体应具有以下功能:

浏览与检索

系统应提供主题树等索引系统,帮助用户以浏览的方式选取合适的检索词进行查询.检索应包括简单和高级检索,简单检索应包括自然语言,短语检索及布尔算符,位置算符,截词符和通配符等检索.高级检索应提供多字段检索和多种限制选项.同时,系统还应提供检索策略的保存及定题跟踪怎么写作,以方便用户再次检索.

用户写作功能

系统应提供特定的学科入口,把同一学科相关的数据库整合在一起.同时应提供可供跨库检索的数据库列表,并允许用户自由选择和组合,一次检索到相关数据库的各种信息.

统计功能

数据库使用数据是电子资源利用率的重要指标,因此跨库检索系统应提供完善的统计功能,包括用户利用跨库检索系统访问各数据库的各种使用数据,如访问各数据库的登录数,检索次数,下载题录文摘数,下载全文数等.并提供各时间段,各用户IP或帐户的使用统计.

数据间的连接

系统应兼容CrossRef,OpenURL,X等数据库无缝链接技术或标准,使不同数据库之间的各种记录能互相链接,包括书目数据库,文摘数据库,全文数据库中各种数据之间的互连.

数据的显示与保存

系统应对来源于不同数据库的结果进行融合,检索结果输出应具备排序功能,如按日期,篇名,作者,相关性排序.检索记录应可以打印,下载,发送.最好能兼容各种CitationManager软件,如ReferenceManager,Endnote,Refworks等.

5.电子资源跨库检索应注重的问题

网络安全

跨库检索系统要与Inter及各种不同软硬件环境的数据库进行连接,和病毒入侵的危险就会始终存在.跨库检索系统支持各种脚本和CGI程序,以实现一些页面的交互功能,例如数据采集和确认.这些程序为Inter上的任何人提供了一个连向web怎么写作器操作系统的直接链接.攻击者们可以利用CGI程序来修改web页面,窃取帐号,为未来的攻击设置后门.

"预防是理想的,但检测是必须的",跨库检索系统应及时更新安全补丁,检测和发现安全隐患.在系统上应定期做日志,而且日志应被定期保存和备份,以发现攻击者都做了什么.

知识产权和用户认证

通过跨库检索系统可以访问的资源包括有版权的资源,签订许可协议的资源,网上免费的资源,及自建或自有版权的各种资源.因此系统应有严格的用户认证功能,以保证系统只有合法用户才能使用,一般以IP或用户帐号和来控制.

全局共享与独特性

跨库检索系统为用户提供了从统一界面访问图书馆所有各类资源的便利,从而使用户不必再一一了解不同检索平台的各种功能和检索规则.但同时各数据库具有不同的字段和索引,原检索系统完备的检索功能和规则是对数据查全与查准的保证,跨库检索系统应尽量实现原检索系统的功能.

6.国外跨库检索系统介绍

目前,已有很多商业机构和图书馆在从事跨库检索技术的研发,如Webfeat公司的WebFeatPri,ExLibris公司的MetaLib,Endeor公司的ENCompass,InnovativeInterfaces公司的MillenniumAccessPlus(MAP),清华同方也提出了数字化图书馆知识网络怎么写作共建共享项目.以上的几种跨库检索技术在功能和技术上有很多共同点,但也各有其特色和核心技术.下面主要介绍几种较成熟的软件:

WebfeatPri

Webfeat公司是一家较专业的跨库检索系统开发公司,其产品已被EPIXTECH和ISI所使用.EPIXTECH公司已把WebfeatPri技术整合到它的图书馆自动化系统Horison中,Horison新版本的iPAC就利用WebfeatPri实现OPAC与电子数据库的统一平台查询.ISI也利用WebfeatPri来实现WebofKnowledge的跨库检索.Webfeat由三个模块组成:研究模块,用户认证管理,使用跟踪模块.

研究模块用户可从统一的界面检索所选择的各种信息资源,检索结果可以排序和组织.检索界面可由用户写作,用户可以添加自己的标记和修改颜色,放置数据库介绍和帮助文件.可保存检索策略,定期发送定题情报怎么写作,发送检索结果.

用户认证管理模块系统管理员可很方便地设置和修改用户的访问权限,并针对不同用户调整不同的访问权限,或设置访问特权.

使用跟踪模块获取用户访问各种信息资源的使用信息,包括登录或退出检索系统的次数和时间,用户的各种输入和检索信息,结果可以在Webfeat上显示,或以Excel等格式输出,以备对数据详细分析.该模块如与用户认证管理系统结合使用,可以产生数据库使用的各种细节报告.

Metalib

Metalib是ExLibris为图书馆提供的一个管理各种信息资源的标准化用户界面和可写作的知识入口,为用户提供一个统一的平台来检索图书馆日益增加的各种信息资源.一个标准的MetaLib由以下四类应用功能组成:

UniversalGateway对各种不同结构,不同数据句法,和不同通信协议的数据库进行同时,广泛的检索.对不同来源的检索结果融合,重新编排,合并成统一的浏览清单.允许用户进行二次检索.

ResourceStore提供一个图书馆拥有的电子资源目录,对可供检索数据库的各种特性(如主题,语种等)进行描述与组织.允许用户建立自己的档案,对自己感兴趣的资源进行整合.支持许可协议和版权控制,准许直接进入各数据资源检索.

PersonalizationandUserAdministration个性化设置和用户管理MetaLib提供一个用户数据库对图书馆的用户信息进行管理,制定用户认证和访问控制权限的政策,允许用户建立个性化的检索环境,并提供检索策略和检索结果的保存,定期发送定题情报怎么写作.

ExtendedServices(poweredbyX)延伸怎么写作(X的链接功能)MetaLib可以与X结合在一起,通过X可实现不同WEB学术信息资源的动态链接,这些资源包括:全文电子资源,题录和文摘数据库,引文数据库,图书馆在线书目系统,电子印刷本系统及其他WEB资源.

7.结束语

当前图书馆界对实现异构数据库跨库检索的兴趣日益增涨,国外有很多图书馆成立专门的项目小组对目前的相关技术和产品进行考察,有的图书馆已经实现了异构数据库的跨库检索.相对于国外,目前国内的信息和网络环境更复杂,国外的产品要解决国内数据库兼容有一定的难度,而且国外相关产品很昂贵,因此国内对这方面技术的研发也越来越迫切.通过借鉴国外的技术,加强图书馆与IT业界的合作,我们也能开发出自有知识产权的成熟的异构数据库跨库检索系统.

echnology.2002,44:251-257

冯琪等.异构数据库的连接.电脑与信息技术,2001(5):4-9

王春枝等.利用XML实现异构数据库间互访.微型机与应用,2002(8):13-14

paratext./wf_intro.

aleph.co.il/metalib/index.

作者简介黄镝男1968年馆员发表论文3篇

:dhuang@mail.lib.sjtu.edu.

本文发表于图书情报工作2003年第6期

相关论文范文