敦煌学数字图书馆元数据设计原则

来源:教案设计 发布时间:2022-11-25 09:15:14 点击:

内容摘要:分析了敦煌学信息资料数字化特点及其资源建设的特点,提出了元数据的内容及设计原则。

关键词:敦煌文献;数字图书馆;元数据

中图分类号:G250.76 文献标识码:A 文章编号:1000-4106(2007)03-0086-05

一 元数据及元数据方案剖析

计算机技术及现代信息处理技术的发展,使得潮水般的文献信息资料纷纷登上网络媒体,已构成对图书情报界的挑战。目前,互联网上使用的引擎技术在编制方面又过于简便、不能满足专指性很高的检索。因此,对网上资源的开发、管理和有效利用是广大文献信息工作者面前的重要课题。文献信息资料工作急需完成一个重要角色的转换,即从传统的文献收藏者变成社会信息的管理者和发布者,图书馆将成为信息集散地和发布中心。与传统图书馆不同的是它将从原来面向由印刷技术为依托的纸质文献载体为处理对象,转变为以网络技术为依托的数字化文献信息资源。

我们知道,传统文献信息资料是依靠图书馆分类、编目工作,组织文献资源的整序管理并提供用户服务的,而在网络环境下数字资源已逐渐成为信息资源的主流,仅仅依靠传统的技术和方法,将很难适应形势的发展。

互联网上所有的应用都是建立在协议、标准的基础上,这也是当代信息资源开发的基础。为了能够适应现代计算机技术和网络环境中信息资源的组织、管理、存储及传输和检索,20世纪末,不同版本的元数据标准应运而生。

元数据是关于数据的数据一般定义为,关于数据的数据(data about data),也称为描述数据的数据(date that describe data),是有效地组织与处理任何数字化文献信息资源的工具。在数字图书馆中,它提供完整的数据描述形式,为分散的、由多种数字化资源有机构成的信息体系提供规范、普遍的描述方法和整合工具与纽带,是广泛分布的数字图书馆资源站点具有充分的互操作性和可扩展性的基础,是提供数字图书馆中资源描述、资源发现、资源处理、资源评价与排序以及资源的人机交互和理解的基本要素。

国际图书馆协会联盟(IFIA)对元数据的定义是:描述资料的资料,可用来协助对网络电子资源的辨识指示其位置的任何资料。

从元数据的定义出发,我们可以认为传统图书馆的编目工作以及其后由计算机自动生成的MARC数据是元数据和元数据产品,但如果从更严格、更科学的意义上讲,后者仅仅是继承了前者的思想体系,其功能则不可同日而语。

DC(Dublin Core)元数据也称为都柏林元数据,是目前世界上最具影响力的元数据格式,由美国OCLC公司发起,1995年在美国俄亥俄州的都柏林镇召开了第一届元数据研讨会,提出了都柏林核心元素集(Dublin Metadata Core ElementSet)。其目的是通过对信息数字化及网络资源的描述、管理和定位、评估,为非专业用户提供一种易于掌握和使用的网络资源著录格式。

二 敦煌学信息资料数字化特点及其建设思路

在敦煌学信息资源中,一个将被元数据描述的对象往往是一个较为复杂的复合对象,是一个抽象对象的集合体。它包括原始对象、对象的复制品、数字复制品。在进行数字化资源建设时,应做好前期调研工作,制作计划。在制定业务工作标准时应有趋前意识,即主动靠拢国际标准,并兼顾敦煌学信息资源的特点及用户的需求特点。对文献类型的信息资源应遵照国际互联网有关框架协议及国际上通用的工作规范和标准。对文物类型的信息资源则应当根据其自身特点、注重对描述性元数据的拓展。

敦煌学研究信息资源具有与其他学科资源的巨大差异,表现在以下几个方面:1.类型复杂、文字多样。主要包括:印刷型图书、地方志、手稿、画稿、出土文书、报刊论文等。在文字记录方面则有西文、俄文、日文、中文等,其中中文又包括了古代汉语及中国少数民族语言文字,如:吐蕃文、回鹘文、西夏文,以及梵文、波逻迷文、栗特文、突厥文等。2.资源分散。敦煌学资源广泛分散在世界各地的图书馆、资料室、博物馆、网站及相关的管理部门等。3.载体形式多样。无论是传统印刷型,还是数字化资源以及音像制品等各类资源均有多种存在形式。在对敦煌学文献信息资源描述时应注意与一般图书文献著录方式有所区别。它不仅是对文献资料所含内容及其纸质载体及其文物衍生品本身的描述,而且在很大程度上要求对描述该文献所反映的原始事物对象的具体说明。因此,一个完整的敦煌学元数据,实际上是对原始文物(壁画或者雕塑)及其衍生品(摄影或临临摹作品)、数字化衍生品和研究全文文献的全面揭示和描述。例如文物原件的出土(发现)时间及所在地点、具体方位,临摹作品及数字化产品都需要全面的三位一体的描述。

对于壁画元数据的使用者来说,首先需要检索的是石窟中原始壁画的相关信息资料。这就要求对原壁画中的信息进行尽可能全面细致而又客观的描述,而对于以此为基础再加工创作的其他形式的衍生作品也应当充分揭示与其原始壁画的内在联系。如原始壁画所在洞窟号、窟内位置、时代、原作品大小等。这样将能够便用户对照原文物方便浏览。

(1)以一幅原始壁画为基本素材,经过各专业门类的艺术家再创作,可产生不同版本、不同类型的衍生品。它们是由于在不同的时期、使用不同的技术手段和艺术手法,以及不同的载体形式出现的文献信息资料。

(2)由同一幅原始壁画及其临品和摄影作品又可产生不同的数字图像,它们的大小、分辨率等方面可能有所差别。由于临摹者自身的艺术素养、对原作的理解及绘画技法、颜料、纸张、装裱形式等情况不同而形成的各种临摹作品。

(3)敦煌壁画是依附在洞窟地仗上的易损文物,随着时光流逝,自然因素和人为因素的共同作用,原始壁画将出现不同程度的老化,色彩逐渐变得模糊不清。以此为原始素材而创作的各种艺术品也将会因客体对象的表现特征不同而对创作者提供不尽相同的信息特征,使作品存在极大差异。如以某洞窟的同一幅壁画为例,上个世纪初期拍摄的照片与现代人拍摄的照片就存在很大差异。

(4)敦煌壁画、临品、摄影作品及数字图像在记载内容上是重复的,主要区别是载体不同。临品和摄影作品复制了原始壁画的内容,数字图像又是洞窟原始壁画和临品及摄影作品的数字化虚拟再现,因此在元数据结构上,关于三者的记录无法独立存在,在著录体系上必将形成三位一体,共同组成完整的元数据记录。

敦煌学数字化馆藏的基本特征是信息资源的数字化,一件文物(作品)往往不仅有其最原始的表现形式,通过数字化等过程又产生了一个或多个衍生品。这个过程包括:(1)对某洞窟一幅壁画的拍照,分传统的摄影及现代化的数码摄像而形成的摄影作品和数字化产品;对以上作品翻拍及对胶片(底片)等的数字化文件的拷贝,由此形成

的一系列数字化衍生品。(2)对某洞窟一幅壁画(雕塑)作品的临摹复制,形成的临摹作品和复制品以及根据这资源进再创作而形成的系列衍生品。这就需要一种基本的信息组织和系统组织方法,为信息系统各层次内容提供规范定义、描述、交换、和解析机制,为分散的由系统环境提供互操作和整合的纽带,为计算机智能地识别、处理、集成各种信息内容、信息过程和信息系统提供有力工具。

由于这些文献资料很多都是以相关文物实体为研究对象的,与这些文物内容及其价值有密切关联,应明确反映这部分重要事实。例如:某一洞窟内某幅壁画在某一时间被某位艺术家临摹形成一件绘画作品,之后又被相关单位数字化处理,成为数字化产品,在著录时,应尽可能详尽描述相关联的所有信息,包括洞窟空间方位、开凿年代、编号、壁画名称、壁画所在空间位置、临摹作者、所用纸张及颜料类型、临摹手法、收藏单位、版权、数字化时间、作品大小、所用机器类型、存储在何服务器上、服务器型号等。此后,该壁画作品不仅有其最原始的出版形式,某一研究领域的专业人员通过临摹、拍照及数字化等过程又产生一个或多个衍生品,管理元数据也就应运而生。管理元数据的范围很广,一般包括:创建者元数据,用以表明谁拥有资源,谁承担资源存储的费用,谁有权改动甚至删除资源等;存取权元数据,用来决定谁可以使用资源以及以何种方式使用资源等。若进行专题研究,则又形成该研究领域的专题文献。该文献中又包含若干幅摄像作品,也包括以上那位艺术家的那幅临摹作品。它们与作者专题研究文献中的信息内容已构成一个有机的整体,已成为原始文献不可分割的一部分。因此,对于敦煌学文献信息资源进行描述时,必须充分揭示涉及原始文物实体及其系列衍生品以及在文献中交叉重复的再现作品。

在文献信息资料实现数字化以后,还应当对数字影像作品及全文进行详尽著录。凡属敦煌学研究范围内的文物实体及其相关联的信息资料都应在元数据框架内全面反映和充分揭示。

(1)洞窟内原始壁画与其有关的研究论文、专著及临摹作品、摄影作品及其数字图像是原始文物的衍生品,是同一研究对象在不同知识层面的交叉再现,只是由于研究手段、技术方法不同,而形成不同的载体形态。文字型资料是根据壁画特征,紧密结合相关资料综合研究的成果,而临摹作品及其摄影作品则是针对壁画的原貌实体的客观描述,而数字图像,无论是针对原始文物或者衍生品则统称为数字化再现。

(2)对于同一幅壁画,由于研究的目的、方法不同,也将产生不同形式的文献信息资料。如在摄影过程中使用的相机型号、用光、取景角度不同,也会产生不同的艺术效果。同一幅壁画被不同的艺术家临摹时,由于对原始作品的理解不同,采用的技法、纸张、装裱形式不尽相同,也会产生风格各异的艺术作品。随着时光流逝,周边自然环境的变迁,受各种病害的侵袭,壁画本体也会发生较大的变化,虽然是同一幅原始壁画,但呈现在不同时期的人们面前的却存在着极大的差异。

(3)同一幅壁画及其复制品(临摹作品、摄影作品及底片)利用不同方式(数码相机、扫描仪等)形成的数字产品,由于所使用的技术手段及硬件设备不同、机器型号及性能不同,因此,产生的数字化图像也存在着差异。它们在大小、分辨率、清晰度等方面可能有所差别。如:现存于莫高窟第257窟(北魏)西壁的“九色鹿本生故事”曾以摄影和临摹及影视等各种艺术手段再现,据初步统计仅公开出版发行的就达十余种。其中有代表性的作品当属著名画家张大千先生及常书鸿先生的临摹作品以及由敦煌文物研究所编,文物出版社1982年12月出版的《中国石窟 敦煌莫高窟》中的摄影作品。

对于壁画研究者和欣赏者来说,首先要检索的对象是洞窟内的原始壁画。如需要深入研究,则根据需要检索相关文献资料及其系列衍生品。因此,壁画元数据应首先提供壁画的描述性元素,其次为相关文字型资料、壁画复制品及数字图像记录。

由于敦煌文物在不同载体、不同时空、地域分布上对信息资源的著录内容比较广泛,因此,对同一描述对象的不同表现形式的相关信息及复制品、再现的数字化产品,要求在元数据体系框架内应当建立多重有效的关联,使之彼此独立而又相互连接。用户只要检索到其中一条记录,即可由此方便地检索到全部相关记录。

不同形式的文献信息资料。如在摄影过程中使用的相机型号、用光、取景角度不同,也会产生不同的艺术效果。同一幅壁画被不同的艺术家临摹时,由于对原始作品的理解不同,采用的技法、纸张、装裱形式不尽相同,也会产生风格各异的艺术作品。随着时光流逝,周边自然环境的变迁,受各种病害的侵袭,壁画本体也会发生较大的变化,虽然是同一幅原始壁画,但呈现在不同时期的人们面前的却存在着极大的差异。

三 关于敦煌学元数据方案的内容及设计原则

元数据方案是指数字图书馆中所使用的描述某类资源的具体对象时所有规则的集合,是提供数字图书馆数字模型的基础。它一般包括了完整描述一个具体对象时所需要的数据项集合、各数据项语义定义、著录规则和计算机应用时的语法规定。数字图书馆的运作,无论是存取过程还是检索过程,都是以元数据方案为基础实现的。元数据方案决定了数字图书馆的功能特征、运行模式和系统运行的总体性能。为分布式信息资源的发现和检索奠定了基础。敦煌学元数据方案的设计应当以三个方面的调查分析人手,1.著录者,包括专业和非专业编目人员,以及管理者。2.使用者,指图书馆用户。3.著录对象,即被描述的资源。在标准的制定过程中,要充分考虑前两者的需求和后者的特征,并在其间做一最佳平衡和组配。

(一)敦煌学元数据方案的内容

由于元数据本身就起到人机交互的桥梁作用,因此,元数据方案的设计必须充分考虑人机两个方面的因素。包括:为用户揭示文献内部特征,而这些特征是为特定对象使用,元数据方持必须能够满足这些揭示需求;为系统开发人员提供管理型元数据等。完整的元数据方案,应该定义以下内容:

(1)资源描述型元数据方案,完整地揭示数字资源的内容属性,包括特定知识域的核心元数据元素集、扩展集、限定方案,包括整语义定义、关系、数据类型以及重复、可选的规定等。

(2)管理型元数据方案,包括对数字资源外部属性的描述,例如格式、类型、分辨率等等,常作为内容描述的补充。

(3)元数据置标方案,亦即怎样“使用”元数据以SGML/XML/DTD/Schema/RDF等。给出命名空间。

(4)资源站点的元数据方案,对于资源站点的描述,包括各类站点相关属性的标注,例如知识领域、站点能力、提问格式等。常用于开放式数字图书馆资源站点的注册,经过注册后其他查询服务可以通过规范的服务接口直接访问其中的数字资

源。

(5)元数据体系映射方案及知识本体联系,提供不同元数据体系间的动态映射、自动映射等,接受索引服务、查询服务等其他服务的调用,并支持资源站点在知识本体层次上的联系,以使系统能够动态地转发用户的查询请求。

(6)元数据著录方案,定义关于元数据的数据,如何进行元数据的标注等。

(7)技术实现方案,包括定义对象包结构,内部存储方式,索引方式,元数据抽取方案,结构化转换方案等等。

(8)敦煌学元数据方案的标准化原则

元数据标准,一般包括语义层次上著录规则和语法层次上的规定。语法层次上的规定有:描述所使用的元语言,文档类型定义,使用什么语法,具有内容的元数据的格式(也可以包括内容数据,即Content)及其描述方法。

标准化是开发和利用信息资源的基本保障,数字图书馆的本质就是信息资源的开发利用与共享。敦煌学文献信息资料数字化是一项浩繁的系统工程,从技术到内容、从工具到环境,都存在很多亟待解决的难题,只有采取统一的格式、标准和规范,才能保证信息表达、筛选、存储、检索、传输的顺利进行;才能实现网络的互联互通,资源的共建共享,管理的井然有序;才能将各单位开发出来的信息资源按统一的格式组织起来,既能与国际网络接轨,又能为各单位共享;只有使用统一的检索标准建立起分布式的存储和检索系统,使分散在国内外的敦煌学信息资源能为广大用户方便利用。

敦煌学元数据方案的标准化具有广泛的内涵。它包括元素著录内容的标准化、同类型数字化信息资源的著录所采用元数据的一致性、元数据方案所采用编码语的统一性等几个方面。

(三)敦煌学元数据方案的实用性原则

实用性主要指设计的元数据在著录实践时应较为简单,易于掌握,在设计元数据框架时,对元数据的选择应考虑其在一定范围内的通用性,使其在实际应用中尽可能覆盖多种相似或相近的对象实体,达到既能有效地控制元数据的数量,又能使编目人员及用户简便易用,提高工作质量及检索效率。同时,对广大用户的使用需求,包括检索习惯,对元数据的理解,接受程度等因素都应当认真考虑。因为制定元数据标准的目的是向用户更充分的揭示信息资源(特别是网上资源),用户的需要应当是最终衡量标准。因此,在结构与格式的设计、元数据的增删、语法及语义规则的制定等方面要尽可能从用户实际需要出发,增加系统与用户之间交互式对话功能(如开放式的入口词表、反馈元素的设计等)。尤其要考虑到著录人员外,更多的是相关专业人士,如文物考古专家、文献研究专家、文物保护专家等。

(四)敦煌学元数据方案的针对性原则

由于元数据应用的各类资源的各自特性不尽相同,著录深度(如书目、内容和插图等)和广度(指相关的一批文献的总体著录)不尽相同,因此,无法只使用一种数据标准。因此,应针对敦煌学特色数据库中的每一种类型资源选择相应的元数据标准。唯有如此,才能在敦煌学资源的描述时更为准确、全面,且有利于资源的确认、检索以及分类管理与利用。另一方面必须考虑到确定的某种标准应尽可能覆盖多种相似或有相近特性的对象,以减少(专业或非专业)编目人员在选用适当元数据标准时的人为误差,即必须考虑元数据标准在一定范围的通用性。

(五)敦煌学元数据方案的互操作性原则,应具有支持对异构系统间的互操作能力。

元数据的互操作性体现在对异构系统问互操作能力的支持,即不仅能方便地为自己建立的各相关应用系统所操作,还应尽可能地为其他组织或机构所建立的应用系统所操作。互操作性好的元数据标准在与其他元数据标准进行映射、转换和互联时,能够保证资源描述的准确性和完整性,即在所携信息损失最小的前提下,可方便地转换为其他系统常用的元数据。在设计敦煌学元数据标准时要非常慎重地考虑元数据标准定义的元素的语义和元数据结构两个重要的方面,尽量选用国内外权威性机构制定和发布的元数据标准。

(六)敦煌学元数据方案的可扩展性原则。

可扩展性的基础是模块化,要求整个元数据体系和每个元数据模块都可以扩展,通过复用、嵌接、扩展,和修改增加不同的模块来形成和发展新的元数据,从而更加适应复杂的元数据互操作环境。一般是采用一个核心元数据模块来描述那些基本和共通的内容,通过规范的扩展机制,允许应用领域或具体系统根据内容变化或功能需要,复用已有的或者定义新的元数据模块或元素,核心元数据和被复用的或新定义的元数据(称扩展元数据)共同组成应用元数据。由于敦煌学文献信息资料所涉及的数字资源非常广泛,而各类应用背景更为复杂,元数据标准只能提供最广泛意义上的描述,可能会对一些具体应用要求更为细致精确的描述及某些特殊应用背景的内容未被纳入。应允许使用者在不破坏标准内容(如元素的语义定义)的前提下,扩充一些元素、子元素或属性值,以保证元数据及其描述资源在更大范围内的良性发展。

(责任编辑 包菁萍)

推荐访问:数字图书馆 原则 数据 设计 敦煌学
上一篇:机车运行信息检测系统的设计与实现
下一篇:一种基于ARM的嵌入式网关系统设计与实现

Copyright @ 2009 - 2024 优泰范文网 All Rights Reserved

优泰范文网 版权所有 备案号:粤ICP备09201876号-1