2.4.4 元数据组织
元数据组织是当前数字化信息组织研究发展的热点。其中,各个应用领域根据自己的目的可定义相关的元数据模式,例如MARC,DC,GILS,PICS,在定义中可引用或复用其他元数据模式或其中的某些元素。在此基础上,需要用开放方式对元数据模式进行标记,利用元数据模式对信息资源进行标注,利用开放机制对元数据进行检索,其整体体系如图2-4所示。
图2-4 元数据管理体系框架图(www.xing528.com)
为自动识读不同的元数据,需要统一的描述框架和标记语言,W3C(WWW Consortium)定义了资源描述框架(Resource Descripiton Framework,RDF)作为元数据描述的开放式标准。RDF认为,任何元数据都是关于某个资源的某个属性的赋值,例如ABC网页(资源)的作者(属性)是XYZ(赋值),可表示为一个由资源、属性、声明语句构成的数据模式。一个声明语句包含主体、谓词和对象,其中主体代表被描述的资源,谓词代表被描述的属性类别,对象代表该资源的该属性的取值。不同元数据可能有不同属性集合,但它们都只是上述数据模式的具体体现而已。RDF定义了用XML语言来描述这种基本模式的方式,建立了元数据定义和交换的标准。
RDF还可对更复杂的情况进行描述,包括:属性值也是资源(例如作者有主页)、属性有限定属性(例如来自什么主题词表)、对声明语句又有相关声明(例如声明是谁做的),以及多值性声明语句等。RDF甚至还可用XML Namespace技术来复用已有的多个元数据集。由于XML由XML语言标记,因此用XML标记的元数据可在任何能识别XML的系统平台上被解析。
在元数据标注(著录)中,我们可利用有关标注(著录)系统以人工方式对文献进行分析并建立相应的元数据记录,也可通过元数据挖掘代理来实现元数据标注。元数据挖掘代理直接从以XML方式标记的文献中查找和确认相关的元数据元素,并按规定格式组成元数据记录。例如,可利用XML的DTD和Schema进行元数据元素映射。DTD或Schema定义文献内容结构和内容元素,可建立特定元数据格式与特定DTD/Schema之间的映射关系,从而自动查找确认有关数据内容并将其转换为对应的元数据元素。还可利用语义网络和本体对有关内容元素的语义性质和关系进一步分析确认,提高挖掘准确性和表现丰富性。挖掘中,将利用标准查询语言查找验证DTD/Schema内容元素,利用标准转换语言进行格式转换。挖掘过程还可能通过元数据转换功能来直接引用其他格式的元数据。标注所形成的元数据可被封装在资源对象中,也可独立存储于元数据库(例如MARC库)。
元数据库检索的趋势将是开放检索系统,利用标准检索协议来检索分布的具有不同内部结构的元数据库。这些协议包括OAIPMH(Open Archives Initiative Protocol for Metadata Harvesting),DASL(DAV Search&Locating),LDAP(lightweight Directory Access Protocol),WHOIS++、MDS4以及ZING等。元数据库通过支持标准协议的开放界面来支持不同检索系统。检索指令和结果传递格式将是XML/RDF形式。在元数据挖掘和检索过程中,都可能需要进行元数据转换,将用其他格式(源格式)表达的元数据转换为目标系统所需要的元数据格式(目标格式)。在转换中将利用XSLT语言,定义一系列转换模板,通过这些模板从源格式的元数据中匹配和选择指定的元数据元素及其属性,将它们转换成目标格式的元数据元素;转换模板还可能在转换过程中,根据源文献数据或转换操作,增加一些新的元素或新的标记;还可定义有关规则来规定在什么条件下使用什么转换模板或如何限制转换操作。由针对某类源格式的转换模板集和规则集构成的文件称为XSLT转换格式单。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。