首页 理论教育 文摘的结构与编写方法——信息检索与利用教程

文摘的结构与编写方法——信息检索与利用教程

时间:2023-07-25 理论教育 版权反馈
【摘要】:换言之,文摘与原文的区别应当只在于“信息密度”和篇幅大小。图5.1文摘的语义场文摘编写还需要掌握一些基本的方法:浓缩法,即把一次文献中所包含的信息按其重要性进行不同程度的浓缩;移植法,把一次文献正文中信息密度最高的部分适当压缩后移入文摘内;熔铸法,打乱原文献中的结构与层次,提取其主要观点,按文摘要素编写而成。目前,自动文摘主要的方法包括自动摘录、基于理解的方法、信息抽取和基于结构的方法等。

文摘的结构与编写方法——信息检索与利用教程

1.文摘的结构

文摘结构既可以指文摘刊物的结构(文摘群体的宏观结构),也可以指文摘款目的结构(文摘单体的微观结构)。前者一般由编辑说明、前言、凡例、文摘实体系列和各类辅助索引等部分组成。文摘款目结构的要素是:

(1)文摘号:对文摘进行分类编排后,给每篇文摘一个标记符号,它是一个文摘代码,可以作为编制各种辅助索引和读者检索的依据之一。编码方法一般采用自然顺序数,有的与学科、专题或类目代码结合(混合号码)。

(2)文摘题录:对所摘文献的外部特征,如题名、责任者、期刊名称、出处年月、卷期、页码、语种、出处等进行描述,用以提供有关该文献的全部书目信息。需要说明的是,对篇名不能反映文献内容的,文摘员可另拟篇名或加注副标题等。

(3)文摘正文:指文摘中定性或定量地传递一次文献主题内容的短文,是文摘的主体、核心部分。国际上科技文摘正文的内部组织正走向模型化,主要包括文摘要素规范和文摘结构形式。

(4)补充著录项目:它是在原生文献著录项目之外由文摘员补充的著录项目,或者是文摘加工的记录和管理代码,可以为使用者提供更多的原生文献信息。一般包括参考文献和图表的数目、文摘员的姓名(署名或代号)等。

下面是《科学文摘》中的一个文摘款目:

2541[1] Demands and options of computer networking in India[2]

V. K. M isra[3](Electronics Comm. ,New Delhi, India)[4]

J. Inst. Electron & Telecommun. Eng.(India)[5]

vol.24, no.3-4, P182~191[6]

(March-April, 1978)[7]

[received: Aug. 1978][8]

A definition is given of computer networks, …[9]

(no refs.)[10]

说明:[1]文摘号 [2]题名 [3]著者 [4] 作者所在单位出处 [5]刊名(国别)[6] 卷期页码 [7] 出版日期 [8] 收文日期 [9] 文摘正文 [10] 参考文献条数

2.文摘的编写

文摘是一种创造性的信息产品,文摘编制涉及文摘编写理论、规则和方法以及编写步骤等许多方面。要编制出好的文摘产品,必须做到以下几个方面。

(1)熟悉文摘工作的有关标准、规则和原则。

早在1961年,ISO就颁布了国标标准《文摘与提要》(ISO/R214)。之后,ISO和我国国家标准局都制定了有关文摘编写的标准和规则,对文摘编写都做了明确规定。这些都是编写文摘时需要熟悉的标准和规则。同时,文摘编写应当贯彻文献信息的完备性原则、准确性原则、客观转述原则、简明扼要原则等。

(2)掌握文摘编写的基本要求以及主要的编制方法。 通常,文摘编写有两个基本要求:一是语义相符性,即使原文所具有的信息内容在文摘中尽可能多地保留下来;二是结构相符性,即在文摘编写过程中要尽可能地使原文所具有的结构要素保持不变。换言之,文摘与原文的区别应当只在于“信息密度”和篇幅大小。在图5.1中,文摘的语义场A 1或A 2必须在被摘文献语义场D之内;文摘的语义场距D的中心愈远,其信息密度愈低(A 1>A 2)。因为D的边缘部分具有较多的次要甚至冗余的信息。

图5.1 文摘的语义场

文摘编写还需要掌握一些基本的方法:浓缩法,即把一次文献中所包含的信息按其重要性进行不同程度的浓缩;移植法,把一次文献正文中信息密度最高的部分适当压缩后移入文摘内;熔铸法,打乱原文献中的结构与层次,提取其主要观点,按文摘要素编写而成。此外,文摘编写还有列举法、部分截取法和节录法等。(www.xing528.com)

(3)认真浏览一次文献,进行内容分析

通常浏览一次文献,初步了解其主题内容,判断中心题材的现实意义,所含资料的新颖性、有益性和相关性,从而决定是否适宜编写文摘以及编写何种文摘等。一般来说,不同文献机构和文摘工作人员,都会有侧重地选择需要编写的文摘。但总体上看都要以用户需求作为基本原则,并着重考虑学术水平较高、内容比较新颖、有实用价值的研究报告专利文献、期刊论文等。

确立了被摘文献后,就可以采用组面分析等各种分析方法,将文献内容中的有用知识分解成若干要素,理清主次;在此基础上选择和确定内容要素,从而系统地、逻辑地把握主要内容,压缩次要内容,摒弃与主题无关的内容。从文献传递信息的角度分析,一是核心信息,即文献要向读者着重传递的信息,包括新思想、新假说、新发现、新工艺、新材料、新设备等;二是相关信息,即与文献传递的新信息直接相关的信息,包括论证新思想和新观点的论据、说明新工艺和新材料的实际参数等;三是相邻信息,它是指与原文传递的新信息间接相关的信息。

(4)精心构思并书写成文

包括文摘标题必须准确、精练、恰如其分,一般与原文相一致。要注意写外文文摘时的措词和用语;在科技文摘中用词要规范,标点符号人名地名、数字表达、人称等都要符合要求。此外,还要注意文摘的字数,最好控制在200字~500字之间。在对文摘内容进行复核审读和文字的推敲润色基础上,就可以最后定稿。

3.自动文摘的基本方法

自动文摘(Automatic Abstracting)是指用计算机析取文献内容摘要的过程。早在1958年,卢恩就发表《文摘的自动编写》(The Automatic Creation of Literature)一文,首次提出了基于词频统计的文摘自动抽取技术和理论。之后,巴克森德尔(P. B. Baxendale)、埃德蒙森(H. P. Edmundson)、斯科罗季夫、波洛克(J. J. Pollock)等许多学者都先后进行了大量的研究。1993年12月在德国Wadern召开了历史上第1次以自动文摘为主题的国际研讨会,极大地促进了自动文摘理论与技术的发展。

经过众多专家学者近半个世纪的努力,自动文摘技术已经日趋成熟。目前,自动文摘主要的方法包括自动摘录、基于理解的方法、信息抽取和基于结构的方法等。

(1)自动摘录

自动摘录是将文档看做是若干个句子的有序组合,而句子又可以看做是若干个词的有序组合。自动摘录的基础是文本形式上的规律,而任何一篇文章都不同程度地符合这些规律。

自动摘录方法通常有4个基本步骤:第一步,录入原文,使之转化为机读形式;第二步,根据词在文献中的频率及位置等给词赋权;第三步是根据句子的组成成分、结构特点及其位置等因素,决定句子的权值;最后,再根据句子的权值大小及语境推断和句法聚集等辅助手段,决定应抽取哪些句子并排列、打印组成文摘。

在自动摘录中,词和句子权值的计算以及文摘句选择的依据是文本的各种形式特征。这些特征主要有:词频、线索词、指示性短语、句法结构、句子的位置、标题,或者它们的有机组合。

在某种意义上讲,自动摘录可以看成是信息粒度的问题。不同的句子,对文本主题有不同的贡献。要想粗粒度地表示文本的主题,少量的关键句子就可以做到近似的覆盖。换言之,自动摘录的关键是做“减法”,也就是说,要从文章句子中不断剔除一些句子,并保证剔除以后的剩余部分仍然基本上覆盖文章的主题。做到这一点的基础就是对各个句子覆盖主题的能力进行评价,这就是句子的加权模型。这正是目前大多数成熟的自动文摘技术得以成立的基本原理。

(2)基于理解的自动摘要

基于理解的自动摘要方法是以人工智能,特别是自然语言理解技术为基础发展起来的。这种方法不仅利用语言学知识获取文本结构,更重要的是利用领域知识进行判断、推理、得到文档的语义表示,最后从语义表示中生成摘要。

基于理解的自动摘要方法,一般分为4个步骤:首先是语法分析,即利用预先构造好的语言学词典对文档中的句子进行语法分析,获得语法结构树;其次是语义分析,即利用预先构造好的知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的语义表示;第三是语用分析和信息提取,即根据知识库中预先存放的领域知识进行推理,并将提取出来的关键内容存入一张临时信息表中;最后是摘要生成,把临时信息表中的内容转换为一段完整连贯的文字输出,作为文档的摘要。

(3)信息抽取

基于理解的自动摘要方法需要对文档进行全面的分析以生成语义表示,当文本数量较少时,能达到较好的效果;但对于大规模的真实文本来说就很难实现,而且代价也会很大。而信息抽取只对有用的文本片段进行有限深度的分析,与基于理解的自动摘要相比,其效率和灵活性都较高。

信息抽取是以摘要框架为中枢的。所谓的摘要框架实质上是一张预先定义好的申请单,通过申请单中的空槽界定应从原文中获取的各项内容。例如,针对管理信息系统类的文章,可以提出如下的框架:管理信息系统{系统名称;系统目标;实现方法;系统功能;数据组织;数据流;系统开发策略;关键技术;主要难点及解决办法;系统运行情况……}

信息抽取可以分为两个阶段:在选择阶段,利用特征词从文本中抽取相关的短语或句子填充摘要框架。例如,在文本中发现“……系统的设计目标为对门户网站上的新闻自动分类”,则可以将特征词“设计目标”后面的短语“对门户网站上的新闻自动分类”作为系统目标填入摘要框架。在生成阶段,主要是利用摘要模板将摘要框架中的内容进行转换,以得到文档的摘要并输出。摘要模板是一个带有待填信息的现成的文档,其待填信息部分与摘要框架中的空槽相对应。例如,模板中的一个句子为“该系统的设计目标是(系统目标)”,因为在摘要框架中填写的系统目标为“对门户网站上的新闻自动分类”,因此在最后生成的摘要中将包含以下句子:“该系统的设计目标是对门户网站上的新闻自动分类”。

(4)基于结构的自动摘要

在一篇文档中,篇章的不同部分承担着不同的功能,且存在着简单或者复杂的关系,这些关系形成了文档的篇章结构。只要能够分析出文档的篇章结构,就可以据此找到文档的核心部分,从而生成文档的摘要。

目前,基于结构的自动摘要方法主要包括关联网络、修辞结构和语用功能3种类型。①关联网络是将一个语言单元的各个子单元视为节点,并在两个有语义联系的子单元之间引一条边,所得到的网络就是关联网络。其中,与一个节点相连的边数定义为该节点的度,节点的度越大,该节点在网络中的重要性也就越大。将若干个重要的子单元抽取出来,即可以构成摘要。②修辞结构是根据预先指定的连接词推导出修辞结构树,然后对修辞结构树进行修剪,最后将保留下来的内容根据它们之间的修辞关系组织成一篇连贯的摘要。修辞关系包括举例、原因、总结等许多类型。③语用功能主要应用于科技文献的自动摘要。科技文献的写作规范比较严格,文献的不同部分承担着不同的语用功能,根据语用功能就可以将文献的主体部分识别出来构成文摘。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈