在数字化时代,伴随互联网技术的普及,全球范围内的数字信息资源共建共享成为可能,个人、组织和政府都能够成为数字信息资源的创建者与转播者。个人用户可以按照兴趣喜好搜寻或发布资料,企业能够通过互联网发布企业经营状况的数字化信息以快捷、方便地进行企业宣传,而政府信息资源的公开与获取则保证了公民对于公共信息的知情权。数字信息资源环境下的全球参与使得多样化的数字信息资源海量增加,加之其发布与出版的随意性与自发性造成信息用户在如何合理有效的采集、开发、利用这些资源方面陷入“奈斯比特困境”——淹没于数据的海洋,却忍受着知识的饥渴。较之传统的文献信息资源,数字信息资源的组织与管理在手段、工具与模式上都存在着巨大差异。信息用户对于数字信息资源的偏好在于其获取与传播的便捷,而往往忽视了数字信息资源生命周期的脆弱性。有学者统计,记录与存储数字信息资源的信息基础设施约每3至4年就需更新一次,期间难以避免数字信息资源的更新与删减,而传统文献信息资源的保存周期可长达20年以上,数字信息资源从创建到消亡的生命周期跨度明显较短。[9]传统文献信息资源基于长生命周期跨度的管理模式在数字信息资源环境中需要通过数字化工具与高速信息网络的引入,不断满足信息用户更新、更快、更准的信息需求,传统的生命周期管理路径必须根据数字信息资源更新快、实时利用以及生命跨度小的特点加以优化。因此,从管理学的视角,可以将数字信息资源的生命周期划分为创建(产生、发布)、采集、组织、利用、保存、处置等阶段。
(1)数字信息资源的创建
数字信息资源的创建往往源于信息产品的制造,计算机以及网络的普及使得用户可以将各种资料以数字化的形式加以产生或发布。数字信息资源创建的主体可以是人,如资源的原创者或发现人;也可是机器设备,如电子扫描仪或是计算机程序如网络爬虫。数字信息资源的创建根据资源类型的不同主要来自以下几种途径:一是对原有文献信息资源的数字化转换。传统文献信息资源主要是以纸质媒介为载体,由于受到信息载体形态存储容量上的约束,需要耗用大量的物理存储空间和维护支出,且在分布传播范围、交流互动与手段工具上都存在着局限。因此通过使用数字方法与工具将现有的文献信息资源转化为CD-ROM、VCD和软盘等以计算机和多媒体技术存储并加以处理的数字信息资源,能够提高资源的利用率;同时通过LAN、WAN或者因特网等通信网络,可将文献信息资源转化为网络虚拟资源,实现文献信息资源的自动管理和高度共享。由于数字信息资源能够最大化的满足信息用户对于信息资源海量存储与易于获取方面的需求,因此将现有的传统类型的信息资源进行数字化转换是数字信息资源创建的主要形式之一。二是根据信息用户的需求,购买或利用的网络信息资源。网络信息资源是数字信息资源的主要组成部分,包括网络数据库、WEB OPAC公共信息查询系统、电子公告(BBS)、新闻组、电子期刊等多种类型。大型、常用的网络数据库如Elsevier全文电子期刊数据库、EI工程索引数据库、CNKI中国知识资源总库往往通过使用许可协议授权的方式来提供特定时间段某一范围内的数字信息资源的使用授权,用户必须通过购买来获取资源的使用权。对于网络信息资源的利用也是创建数字信息资源的途径之一,如将网络信息资源下载到本地数据库或网络中,提供给信息用户并加以保存和使用,或者将含有用户需要信息的网页的超链接(hyperlink)和统一资源定位器(Uniform Resource Locator,URL)链接到本地网页上,通过建立资源导航或学科指引库提高资源利用效率以减少数字资源创建的支出,并可丰富数字信息资源的来源。当然,由于网络信息资源改变了信息传播的方式,模糊了出版与非出版间的界限,创建数字信息资源过程中使用来自网络的资源时,必须注意网络信息资源的利用与开发是否存在知识产权方面的障碍以避免侵权行为的发生。三是信息用户的自由发布。伴随以信息技术为核心驱动力的现代科学技术飞速发展,数字存储、管理以及传播设备的性价比不断上升,数字信息基础设施的功能与价格的关系依然演绎着“摩尔定律”,即在单位时间内,功能的提升与价格的增长成反比例关系,使高性能计算机、数码交换机、网络服务器、数字化文字处理设备逐步得到普及。同时在Web 2.0环境下,随着搜索引擎、博客、wiki、微博、社交网络以及大众标注等系统与平台的构建,信息用户不仅是数字信息资源的使用者,也是数字信息资源的创建者,通过用户在信息发布过程中与网络服务器的交互,实现不同用户之间的数字信息资源的共建共享,而tag技术(用户设置标签)则可以帮助用户实现信息的自组织与大众分类。四是其他方式创建。由于数字信息资源种类繁多、内容复杂,并且数字信息资源对于计算机、远程通信网络、数字化传播载体等信息技术基础设施具有强依赖性,因此数字信息资源不仅包括资源本身,还包括数据库软件与工具、IP地址、域名等基础资源,数字信息资源创建具有多元化特征。例如应用数据挖掘技术通过对信息用户访问网络服务器的记录进行挖掘分析,从而抽取用户行为模式的数据也应被视为特定类型数字信息资源的创建方式。
(2)数字信息资源的采集
数字信息资源的采集,是指根据用户内容与类型需求,借助科学有效的采集技术与工具,从海量存储并处于不同形态的资源中提取、搜集并积聚出对用户具有使用价值和参考意义的数字信息资源的过程与活动。数字信息资源的采集是在资源创建的基础上,根据数字信息资源的来源、类型与特点,确定采集工作的原则、途径与技术手段,以规范采集流程与质量控制,是数字信息资源生命周期管理的重要环节。数字信息资源采集的原则是对采集流程的指导性思想,是对采集方法的标准化规范,也是为数字信息资源下一步的分类与组织提供依据。根据数字信息资源采集的具体要求,数字信息资源采集过程应遵循以下原则:
第一,系统化原则。即数字信息资源的采集要注重根据用户的需求,进行全面、准确、完整地进行采集,要注重数字信息资源在空间与时间维度的分布,保证采集活动的综合性与连续性。采集工作需发掘出不同类型、不同内容数字信息资源隐含的逻辑关联与相互作用,从而系统地认识采集对象,实现采集工作的全方位覆盖,从而满足信息用户对于数字信息资源的多样化需求。
第二,精细化原则。即采集工作必须立足于现有资源量与软硬件条件,在提供有效服务的前提下,对于数字信息资源的采集必须有的放矢。在采集过程中需要根据信息需求的具体情况,仔细分析数字信息资源的来源与价值,针对性的精细化采集。
第三,质量化原则。由于数字信息资源的创建具有高度的自由性,而数字信息资源的传播渠道纷繁芜杂,资源在传递过程中易受干扰、污染,因此对数字信息资源的采集需要“去粗取精、去伪存真”。通过加强质量管理,在兼顾数量的同时注重数字信息资源采集的精确与可靠,以保证数字信息资源采集的效益和效率。
第四,时效化原则。即数字信息资源的采集要以最快的速度在最适宜的时间节点上为用户提供所需的信息资源。采集工作要及时有效,把握住数字信息资源在时间序列上的价值峰值,力争获取最具时效价值的信息资源,并根据事物发展的最新动态进行实时更新,保证数字信息资源采集工作的与时俱进。
第五,协同化原则。数字信息资源的采集覆盖面广,采集对象形态多样,因此采集工作往往涉及多个部门,需要大量人力、物力与财力的投入。数字信息资源采集的协同化就是要合理配置采集工作的投入,根据信息资源的内在联系与耦合效用,组织好采集工作的进程与衔接,同时避免数字信息资源的重复采集与流程延误,保证采集工作的有效性与集约化管理。
由于网络环境下的信息资源的发布与传播方式发生了很大的变化,数字信息资源创建的高自由度与非受控性模糊了数字信息资源创建者与使用者的知识产权关系;同时由于数字信息资源跨媒介、跨部门和不受地域限制的特点,使得数字信息资源的采集不可避免存在着“灰色地带”,即人们往往可以在未经授权的情况下去采集那些业已存在、非常规发布但允许用户使用的数字信息资源。因此,数字信息资源采集的途径可以分为正式途径和非正式途径:正式途径包括源数据库的采购、资源共享联盟的交流、委托采集等,而非正式途径包括现场搜集、私下索取、网络采集等。根据用户信息需求的不同,数字信息资源采集途径的选择也不同,对于某些特定类型的资源,也可以多渠道并行采集。其中,源数据库的采购、资源共享联盟的交流、现场搜集、网络采集是相对常用的采集途径。源数据库的采购,是指采集部门通过正式商业渠道向商业信息机构购买相应的数字信息资源,是数字信息资源采集的主要途径。如美国汤姆森路透(Thomson Reuters)集团旗下拥有Derwent World Patents Index,Science Citation Index,Current Contents,ISTP,ISI Web of Science,ISI Web of Know ledge,Manuscript Central,Delphion,Aureka,Patent Web,IP Master,MDC,Horizon Global,Thomson Pharma,Techstree,Prous Integrity,BondPlus等许多著名的信息服务品牌,所提供的数字信息资源与服务包括学术期刊、学术会议录、发明专利、技术标准、医药情报、在线学术编辑和出版系统等。资源共享联盟的交流是指图书馆、高等院校、信息研究机构以及企业信息中心等信息服务机构为了节约数字信息资源采集支出,以合作协议的方式共建共享资源,实现数字信息资源的交流与互补,业已发展成为数字信息资源采集的重要途径。如图书馆馆际联盟通过数字信息资源整合平台的建设,提升资源获取效率,节约采集成本。非正式交流时信息资源交流的重要途径,由于非正式交流环境宽松、自由,信息资源可以更快的速度与效率在用户间进行传递。作为数字信息资源采集重要的非正式途径,现场搜集指通过使用数码摄录设备将现场考察、参会以及私下沟通等非正式交流过程中所获取的经验、思维、知识以及研究进展与成果进行记录、编辑,并转化为可资利用的数字信息资源。由于现场搜集采集的是第一手资料,因此获取的信息质量可靠性强,具有更高的利用价值。网络环境中数字信息资源的采集在实质上就是传统信息资源采集的一种延伸与发展,在网络环境中也存在虚拟聊天室、网络会议、电子邮件往来等非正式交流的传播方式,而搜索引擎、社交网络以及即时通讯工具的应用为网络环境中采集数字信息资源构建了平台,网络采集也日益成为数字信息资源采集的主要非正式途径。
数字信息资源采集的技术手段主要包括以下几种:
第一,数字信息资源导航库技术。导航库是指将在分布在不同信息源上的数字信息资源节点按照便于用户采集的方式,依照主题词、信息类别、内容摘要等原则,用专业名词加以组织的数据库。导航库技术包括对数字信息资源UPL的定位与检索技术,对外源数据库在本地服务器上进行镜像拷贝与自建技术,以及为用户数字信息资源采集提供查询与服务的支持技术。(www.xing528.com)
第二,搜索引擎技术。搜索引擎技术是指根据一定策略,根据用户资源采集查询请求,运用特定搜索软件在互联网或索引数据库中搜寻、抽取、组织和处理相关信息,并以可视化界面将检索结果展示给用户的技术。搜索引擎技术包括网络爬虫技术、索引技术、检索器技术以及可视化人机界面技术。利用搜索引擎技术,用户只需根据数字信息采集要求,在可视化界面对话框中输入主题词或关键词就可以进行资源的目录层级检索或全文检索,以确定所需信息在网络或索引数据库中的分布位置,并通过超链接采集数字信息资源。
第三,数据挖掘技术。数据挖掘是指利用多种分析方法与工具从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘技术主要由人工神经网络、统计分析工具软件、最邻近技术、可视化技术、决策树方法等常用技术构成。数字挖掘技术可以帮助用户在繁多而复杂的数据库系统内发现并采集隐藏的数字信息资源,并可对采集的资源进行评估分析,监测其是否满足用户需求。
(3)数字信息资源的组织
较之传统的信息资源,数字资源具有类型多样、数量庞大、传播媒介多元化等特点,同时采集获取的数字信息资源往往分布于跨媒体、跨语言和跨国界的多类型异构数据库中。因此如果不能对数字信息资源进行科学有效的组织,将直接影响数字信息资源的开发与管理,用户的信息需求也将无法满足。作为数字信息资源生命周期的重要阶段,数字信息资源组织就是依据一定的标准、原则与技术,对采集到的海量的、格式不一的、质量参差不齐的数字资源进行筛选、分类、描述,使之从无序集合转为有序集合的过程。数字信息资源组织的模式主要有:[10]主题树模式。即将数字信息资源按照特定的概念范畴,分门别类的逐层组织。该模式根据数字信息资源的外部特征与内容特征,将资源分为若干大类,大类下细分为众多子类,子类下的基层分支则由特定信息源构成,从而形成树状的数字信息资源序列。主题树模式的特点是简单明了,用户可以通过基于树浏览的界面对数字信息资源进行逐层检索,最终找到所需信息源,因此对于信息用户而言查准率较高,是目前常见的数字信息资源组织模式。②元数据模式。元数据是用来描述数据的数据,即“关于数据的数据”,是最小的数据单位。元数据可分为描述性元数据、结构性元数据与管理性元数据。描述性元数据指为发现资源的元数据;结构性元数据指显示资源要素构成与相互关系的元数据;管理性元数据是指与资源管理与状态相关的元数据。由于数字信息资源的异构分布环境,资源散布在不同的数据库、网络服务器与软件上,通过元数据的描述功能,能够将数字信息资源的形式组织转化为内容组织,用户能够快捷、准确地进入资源获取终端。在元数据类型上主要包括:a.机读目录格式(Machine Readable Catalogue,MARC),主要由载体形式、数据单元定义和数据单元组三个基本组成部分构成,是目前使用时间最长、应用最为广泛的元数据形式;b.都柏林核心元素集(Dublin Core Element Set),如表5-1所示,其由15个基本元素组成,分成内容描述、属性描述以及知识产权三个基本部分,其基本要素可以HTML metatag形式添加到网页的标头,具有简练、扩展性和兼容性强的特点。①
表5-1 都柏林核心元素集
资源描述框架(RDF)和可扩展标记语言(XML),RDF是一个能对结构化元数据进行编码、交换及再利用的体系框架,而XML是从标准通用置标语言(Standard Generalized Markup Language,SGML)发展来的,是一系列定义资源元数据的规则集合。由于元数据在资源检索与数据挖掘方面的良好应用前景,正逐步成为主流的数字信息资源组织模式。超媒体模式,实质是多媒体超文本,即多媒体技术与超文本相结合的数字信息资源组织模式。作为一种数字信息资源综合管理模式,超媒体模式中数字信息资源存取基本单元——节点,不仅可以是传统数据形式如文本、数字等,也可以是数字信息资源如音视频、计算机程序、图形等,各节点通过超链接形成超媒体网络,使用户可以根据特定的概念与规程在高度关联的数字信息资源中获取信息。由于超媒体具有良好的扩容性、动态性与逻辑关联性,并将数字信息资源、用户思维习惯与人际交互有机结合起来,使得用户可以通过超链接在网状结构中根据设定路径在各种数字资源中“自由航行”,检索效率得到极大提高。由于超媒体在资源组织与资源呈现上符合用户认知模式,能够提高资源的传递速度与用户理解深度,超媒体模式业已成为网络环境下数字信息资源组织的重要方式。
(4)数字信息资源的保存
数字信息资源的保存是指图书馆、研究所、资源提供商以及商业机构为了保持所持有数字信息资源的形态与内容,运用技术手段与措施避免数字信息资源由于自然或人为原因而出现利用效用与价值损耗,最大限度的延长资源的生命周期,以满足可预见的将来来自用户的资源需求。与传统信息资源保存于纸质或胶片载体中相比,数字信息资源的保存是以磁光电的形式存储在磁盘、光盘与通信网络等软硬件载体中,因此数字信息资源的保存更加困难。有统计显示,根据资源存储介质、技术与管理的不同,数字信息资源的保存年限仅为2至10年。[11]目前,数字信息资源保存主要包括以下几个方面的内容:①数学信息资源的固化。数字信息资源创建主要是依靠对现有传统信息资源的数字化转换和以数字化形式发布并传播的非传统信息资源,两者的存在状态都是依赖一定技术、工具和管理机制的数据信息流。因此实现数字信息资源的保存,就是使用光盘、磁盘阵列、资源服务器等物理存储媒介对数据信息流进行固化,进而通过对物理存储媒介的维护,确保存储其中的数字信息资源被完好保存。②数字信息资源保存网络建立。由于数字信息资源在网络环境中呈分布式存储状态,不同信息机构所拥有的资源在数量、质量与类型上各不相同,对于数字信息资源的保存必然涉及多个领域、社会层面以及信息服务组织,各自为政式的资源保存形式必将导致资源重复建设、保存负担重的问题。因此,有必要建立跨组织、跨行业乃至突破地域界限的数字信息保存网络,即一个由多个异地分布的长期保存系统紧耦合而成的虚拟组织,促进数字信息资源的协作保存,以实现资源共享、分担保存风险并摊薄保存费用。③数字信息资源的标准化保存。即通过对数字信息资源格式、描述语言、编码、著录的标准化统一,建立通用的资源保存标准体系,从而解决异地、异构资源保存系统间的互操作问题,并通过制定资源保存的数据标准、业务标准以及认证标准,实现数字信息资源规划化保存。④数字信息资源保存的管理体制建设。数字信息资源保存是一项浩大复杂的工程,对资源的有效保存需要科学高效的管理体制作为保障。数字信息资源保存的管理体制主要包括资源认证体制、知识产权管理体制、信息安全体制、保存环境监控体制、用户身份识别体制等,以确保数字信息资源来源合法、可靠,并得到妥善、安全的保存。⑤数字信息资源的功能保存。即保存数字信息资源的可得性与可用性,避免保存工作造成资源来源的变更,并使资源的功能出现损耗。数字信息资源用途类型各异,其功能性远超传统信息资源,如数字信息资源的多媒体传播、超文本存在、内容交互式扩容等功能都是传统信息资源所不具备的。因此,数学信息资源的保存要在资源存储形态发生变化的同时,确保其功能性能够被完整保存下来。
(5)数字信息资源的处置
通过对数字信息资源的深层开发与利用,随着内容逐渐过时无法满足新的信息需求,数字信息资源对于用户的使用价值骤减趋零,开始进入生命周期最后环节——处置。数字信息资源的处置主要包括更新、迁移和删除。更新是指对数字信息资源内容的汰旧换新,比如将资源中过时、缺乏使用价值的数据予以淘汰,及时补充新的信息,也包括对于旧版本资源数据库、软件的升级换代。迁移则是将数字信息资源从现有的软硬件配置向另一个软硬件配置转移,通过将老化的数字信息资源迁移出主服务器、资源导航数据库或关键存储设备,并送入备份系统,从而在释放数字信息资源保存空间提高资源利用效率的同时实现了数字资源的备份。删除包括物理删除与逻辑删除,是对没有使用价值的数字信息资源如网页链接、数据编码、资源程序等从存储设备中彻底清除。区别在于逻辑删除只是对资源做出删除标记,资源数据不会在用户终端得以显示,删除过程可逆;而物理删除则是对资源数据在存储设备上存储空间上清除与归零,数字信息资源一旦删除,无法恢复。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。