传统的信息提取 (IR) 集中在识别与需要信息有关的文档上,通常以用户查询请求的形式表达。结果的粒度是固定的,通常返回符合用户请求的整个文档。Xml (Adler等, 2006; Ann Navarro和周生柄,2002; 刘政敏和牛艳芳,2003) 信息提取与传统信息提取差别在于以元素而不是文档为提取单位,结果的粒度根据请求响应变化而变化。传统信息提取查询语言常表达纯内容 (CO) 请求,而XML信息提取查询语言还支持内容和结构(CAS) 请求。XML信息提取方法包括通过扩展full-text信息提取系统来达到XML提取目的,或者是代表包含XML标准,如XPath (Berglund等,2005),XSL (Adler等2001), XQuery (Boag等,2006),用来处理XML表示和提取 (Govert和Kazai,2003) 的特定XML数据库方法。Full-text信息提取方法直接进行XML提取,不需要任何有关XML文档结构信息。其使用的查询主要是纯词语查询,主要包含一个单词包。查询时常使用一种有效的倒索引结构 (Witten等,1999),其缺点是大多数full-text信息提取都不支持索引和提取文档中更具体的元素。本地XML数据库方法提供对存储和查询XML文档的有力支持。XML文档信息包含各种索引结构,用户既可通过文档内容进行查询,也可使用结构查询。由于XML文档元素间的层次关系,使得相同文本信息被一个或几个元素包含。因此,XML信息提取的最大挑战是决定元素粒度的合理等级 (即确定哪些元素是最合适的提取单元)。许多系统应用了最低共同祖先 (LCA) 的概念来帮助确定元素提取粒度。此外,Pehcevski (Pehcevski等,2005) 等提出了一种混合XML提取: 把信息提取方法和一个本地XML数据库方法组合起来。Pehcevski (Pehcevski等,2004) 还提出了使用一种本地XML数据库对内容和结构信息提取进行改进。还有使用记分的方法来进行信息提取,根据信息提取模型或数据库技术进行分类,通过对元素进行记分来识别合适的元素粒度,在XML提取中控制重叠。本书的研究重点是XML文档间的信息提取和转换,实现的是不同版本XML文档间的精确、快速转换。当前,对XML文档间的信息提取和转换相关研究很多,应用非常广泛。如Jussi Myllymaki (Jussi Myllymaki,2002) 使用标准的XML转换技术实现Web应用中XHTML和XML文档间的转换。宋艳娟,李金铭等 (宋艳娟等, 2008) 利用XSLT (Khun Yee Fung,2002; Clark James,1999) 作为信息抽取规则,以XML作为信息表现模型,通过PDF源文档转换为一种XML中间文档,然后利用文本特征,位置特征及显示特征来对中间XML文档实现基于XSLT规则的信息提取。李伟、郑宁 (李伟和郑宁,2004) 通过利用动态XML文件定义页面组成,使用XSLT文件定义页面布局,通过XSLT转换把页面布局定义文件和页面组成定义文件结合起来得到最终的页面,此外还可以利用XSLT技术解决数据异构问题 (胡平和李知菲,2005),即实现使用XSLT技术完成XML文件到HTML文件的转换。除了上述几种方法是利用XSLT进行文档间转换外,实现XML文档转换的方法还可以通过SAX (Simple API for XML) (Meggin-son,2010) 及DOM (Documen Object Model) 进行转换,用户还可以自己编写程序进行转换,如王丛刚,瞿裕忠 (王丛刚和翟裕忠,2002) 利用Java设计了一个XSLT处理器来实现XML文档间信息抽取和转换。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。