2.1 信息集成与管理理论

信息技术的发展为社会带来了前所未有的变革,它是继工业革命后的又一次技术飞跃[21]。随着计算机互联网和通信技术的快速发展,以信息技术的大规模发展、渗透、扩张和利用为基本内容的社会信息化活动已经成为推动一个国家和社会发展的最活跃的因素之一[22]。信息技术的飞速发展已经影响了社会各行业的环境,并将持续发生更加深刻的变化,只有适应这种变化,才有生存和发展的空间。在过去的30年中,不同行业不同领域都进行了不同程度的信息化建设,在这些早期的系统中,信息往往只支持业务过程系统的独立性、离散性,难以体现各环节之间的关系,形成信息孤岛或信息断层,造成企业生产经营、决策过程的堵塞和不联系性[23]。信息的管理者和使用者都面临海量的、分布的、异构的信息。人们获取相关信息的能力在信息化进步的今天反而更显艰难和无奈,因此人们开始关注如何将不同环境中的异构的信息资源集成化,不仅要提供信息资源的集成环境,而且要能够提供更加友好的用户使用环境。

2.1.1 信息集成理论

在众多复杂的系统中,将浩瀚的信息进行集成需要通过一定理论来指导具体的实践[24][25],国内外指导信息集成的基础理论包括系统论、信息集成原则、信息集成模式、知识组织理论等。

(1)系统论。系统论把对象以系统的形式加以观察,以系统的角度指导信息化建设实践过程,从关联性、整体性和优化性进行考察。使得由各具体资源整合而成的信息的集成体系以系统论为指导。系统论作为理论基础具有重要的现实意义[26]

(2)知识组织理论。知识组织理论旨在揭示知识的本质和知识间关系;知识组织通过元数据格式对信息进行描述,整合异构数据,以实现不同资源和系统间的资源共享,并发掘具有内在关联的信息链、知识链和知识内涵;优化知识库结构,以加强知识利用和创新能力;在知识发现技术的基础上,知识组织可以实现更多功能,如提取、转换、过滤、整合等对异构数据的操作;在智能知识抽取和处理过程中,信息资源按特定的方式表示并以知识内容特性进行聚集等。不论从何种角度(技术、形式、组织对象、组织方式)来看,所有一切都表明数字资源整合应该建立在知识组织理论的基础之上[27]

(3)信息资源整合过程的指导原则包括:保证资源集成的发展性和不间断性的连续性原则;保持资源对象学科的完整性和整体性原则;强调集成的目的是满足特定用户的需求的针对性原则[26];运用技术手段和方法优化组织结构和功能的优化性原则;强调集成的结构性和多维性的层次性原则;针对集成对象、内容、方式的科学性的科学性原则[28]

(4)信息的集成模式包括:关联模式按信息内容间的相邻性将有关信息集成在一起;组织模式使用结构特性将信息组织在框架内结构;综合模式将相关内容从信息中提取出来并重新组织为新的信息;分析模式对原始信息进行分析并利用一系列定量或定性分析模型得出结论性或咨询性信息[29];基于数据仓库与数据挖掘的信息集成模式在数据仓库的基础上,利用知识发现技术、数据库转换技术和基于多平台异构数据整合方法与标准,为高层管理提供决策支持[21]。此外,针对图书馆资源的集成提出的多元集成模式,如CNKI的完全集成式;中国数字图书馆的元数据集中、对象数据分散的集成式;以网络虚拟方法连接各信息资源进行数字化信息资源建设、管理、服务为主要任务的集成式;以各单位信息资源建设为主的集成模式[30]

还有些研究探讨了相关因素的集成问题。如:从宏观环境的角度出发,提出的基础设施、应用软件和信息标准的三位一体信息集成环境[31]。这个环境应该是交互的、开放的、柔性的、动态有界的,并具有良好的组合、公共、互操作、兼容、可扩展等特性。不同部门逐步地分别地对异构或异质的信息资源进行描述、组织、开发和管理;从微观环境角度出发,集成环境或集成标准化问题是由信息加工、分析工具和用户服务界面三者有机结合组成的[29]。信息集成是资源开发、信息资源组织、信息管理的重要目标,并且实现这一目标的关键是标准化;信息集成的重要环境因素还包括了人的主观因素、集成系统的结构等。信息应该被看作是一种战略资源,我们应该以重视需求、系统地、创新的可持续发展观念进行系统集成,在进行系统集成的同时还要进行相对应的改进管理机制,改善服务结构,并进行人员和相关业务的调整[32~34]

2.1.2 信息集成技术方法

近年信息集成技术方法研究比较侧重于系统集成的分布式服务构架、智能化及自动化方法[35~37]。最新的研究热点内容包括面向Web服务的SOA(Service Oriented Architecture)信息集成框架模式、基于Ontology本体论的信息集成方法和基于Agent理论的信息集成方法和中间件技术等。

(1)面向服务的信息集成框架模式(Service Oriented Architecture, SOA)。SOA是一种利用组合Web Service进行分布式应用集成的架构,SOA服务架构的基础是各种业界的标准规范,如OASIS(Organization for the Advancement of Structured Information Standards)、W3C(World Wide Web Consortium)和OGC(Open Geospatial Consortium)的Web服务相关规范。其中OASIS的BPEL工作流给出了关于组合服务的规范指导,OGC是一种互操作规范,包括CSW、WFS、WCS、WMS、WPS等,对数据及其元数据的服务协议制定了规范,W3C的SOAP(Simple Object Access Protocol)协议与WSDL(Web Services Description Language)协议是Web Service的基础协议。此外,在上述基础标准规范的基础上,国际标准化组织提出了系列补充协议以适应SOA智能化发展的要求,补充协议包括Web Authority Service、Web Service Policy、Web Service Addressing与Web Security Service。

(2)本体论(Ontology)。信息表达上的语义异构是由于描述信息没有采用统一的语法描述格式造成的,系统中语义异构的主要表现如下:不同的信息源中同一术语表达不同的含义;多种术语在不同的信息源中表示同一概念;一些概念间的隐含联系由于各信息源的分布自治性而不能体现出来。信息集成要解决系统间信息在系统间交换和理解的问题,实现包括信息的统一表示与信息转换以及基于信息理解的智能化检索等。目前本体被认为是解决语义集成的有效的手段之一[38][39]。基于本体的信息集成研究始于人工智能及知识工程领域,主要解决知识重用和共享问题[40~42]。目前的应用研究有:Stanford大学的SKC(Scalable Knowledge Composition),解决了信息系统(包括Web)中的语义异构问题,并实现异构系统的互操作;Ariadne项目着眼于开发能够抽取、查询和集成Web信息源的智能Agent; Observer项目使用不同的本体来表达不同的信息源,并建立本体间的映射集合。Picsel系统定义了一个基于知识中间层来连接用户和相同领域内的若干信息源,处理用户的查询并将查询结果返回给用户[43]

(3)Multi-Agent System(MAS)以Agent理论为基础,注重系统集成行为研究。其原理是:Agent成员并不能限制其他Agent的目标和行为,Agent相互之间的矛盾和冲突通过竞争和磋商等手段来解决,因此Agent个体不能够解决的大规模复杂问题可以通过Agent团体的交互式协调来求解[44]。通过Agent个体以及群体的活动规则的建立来提高系统的智能化水平和适应环境的能力。Jennings[45]等人开发了一个基于Agent的集成框架ADEPT,将各个子系统视为一个个智能代理,系统集成是通过这些智能代理之间的交互来实现的。

(4)中间件技术。中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机/服务器的操作系统之上,管理计算机资源和网络通信,它是连接两个独立应用程序或独立系统的软件[46]。相连接的系统,即使它们具有不同的接口,但通过中间件相互之间仍能交换信息。执行中间件的一个关键途径是信息传递。通过中间件,应用程序可以工作于多平台或操作系统环境。

最早具有中间件技术思想及功能的软件是IBM的CICS,但由于CICS不是分布式环境的产物,因此人们一般把Tuxedo(1984年由贝尔实验室开发完成)作为第一个严格意义上的中间件产品。IBM的中间件MQSeries也是20世纪90年代的产品,它的许多中间件产品也是在近几年才作为成熟的产品来使用的。中国的中间件软件产品起步较早,与国外技术差距不大。如:北京东方通科技发展有限责任公司1993年推出第一个产品TongLINK/Q,与IBM、Oracle在我国市场形成三足鼎立的局面,根据赛迪顾问、计世资讯、易观国际等咨询机构的市场分析报告,东方通中间件的市场占有率在国内企业中名列首位。在国内的科研院校中,中科院软件所早在1995年就开始利用“对象技术中心”的技术基础研究中间件。与此同时,国内还有国防科技大学、北京航空航天大学等研究机构也对中间件技术进行了同步研究。