首页 理论教育 中国索引第六辑:索引技术与软件实践分析

中国索引第六辑:索引技术与软件实践分析

时间:2023-08-15 理论教育 版权反馈
【摘要】:针对研究难度最大的索引技术研究和索引软件开发,18年来有将近100篇论文成果发表出来,也印证了索引技术研究成果的异军突起。表1索引技术和索引软件研究类论文高频词对比分析表通过观察高频词对比表可知,《中国索引》刊发的论文对索引技术研究已拓展到更广阔的空间,即索引与数据库研究、索引软件研制、索引主题词表研究、索引自动标引技术开发等。

中国索引第六辑:索引技术与软件实践分析

随着计算机技术、网络检索技术、大数据技术的发展,各国索引界都在探索索引编纂新技术、新方法,具体的研究成果体现往往是开发出索引软件,或者编制索引编纂应用小程序并推向市场。新世纪以来,中国在索引技术研究和索引软件研发方面已走在世界前列,这主要体现在以下几方面:

1.索引新技术研究成果明显增多

新世纪以来,《中国索引》刊发索引技术和索引软件研究论文55篇,约占总数的13.38%,位居论文总量的第三位;非索引类期刊发表索引技术和索引软件研究论文42篇,约占总数的13.00%,位居论文总量的第四位。针对研究难度最大的索引技术研究和索引软件开发,18年来有将近100篇论文成果发表出来,也印证了索引技术研究成果的异军突起。以下是利用内容分析工具Rost Content M ining,通过分词和词频分析提取高频词,然后得出索引技术和索引软件研究类论文的高频词对比表。

表1 索引技术和索引软件研究类论文高频词对比分析表

通过观察高频词对比表可知,《中国索引》刊发的论文对索引技术研究已拓展到更广阔的空间,即索引与数据库研究、索引软件研制、索引主题词表研究、索引自动标引技术开发等。而非索引类期刊主要聚焦索引与数据库的关系研究,尤其是古籍、报纸、学术著作等索引数据库的开发建设,以及引文索引新技术研究等。

对于最抢眼的索引与数据库研究,张琪玉先生曾提出:“目前使用最多的索引产品是数据库索引”。[75]我国索引数据库研究和应用相对于国外来说起步较晚,但近十几年的研究与建设开始加速,各种类型的全文检索型索引数据库纷纷问世,如上海图书馆研制的《全国报刊索引数据库》、南京大学开发的《中文社会科学引文索引数据库》、广西大学林仲湘先生领衔研制的《古今图书集索引》(网络版)等,这些索引数据库推向市场后均取得了良好效果。

2.多途径探讨索引编纂新技术、新方法

传统的手工编制索引工作量大,出错率高,需要花费大量的时间和精力,因此运用计算机、大数据等现代技术辅助进行索引编纂是必然选择。2000年初,张琪玉先生在中国索引学会第四届年会暨学术讨论会上发言指出:“新世纪的索引工作也应该与手工索引时代一起告别了,所谓与手工索引时代告别,是指与手工编制索引的模式告别……我们应该热情地去迎接索引的新时代——索引工作计算机化时代,或者说数据库时代”。[76]

张琪玉先生不仅是我国索引理论研究的领军者,也是索引新技术、新方法的积极探索者。他晚年发表的多篇索引技术论文,体现了索引新技术、新方法研究的多元性和开放性,自然也成为我国索引新技术、新方法研究的一个缩影。如《基于含糊抽词的汉语题内关键词索引与数据库分析》《词素轮排索引法在构词词典编排中的应用》《计算机排序还不能完全自动化》《利用WORD和WPS编制汉语题内关键词索引》《编制期刊年度主题索引和著者索引用的应用程序》《文献标引中人与计算机的分工协作》《虚拟文集与虚拟文集内容索引》《图书内容累积索引数据库的设想》《索引和数据库的选题与设计》《文献篇目数据库犹如做表格索引游戏》《索引与地图的结合》,等等。

针对计算机一般只能进行字面标引而不能实现概念标引等不足,南京农业大学师生提出了一个基于概念标引的图书内容主题索引自动编制方案,即将图书章节细化后,利用基于单篇文献的自动标引系统进行图书主题标引,并通过三种标引系统对实验语料进行标引试验,证明基于N-gram方法的图书内容主题索引自动编制是可以实现的。[77]

在索引数据库建设方面,我国的古籍索引数据库建设最为突出。其中,毛建军提出古籍索引电子化具有三大特色:一是古籍索引系统以数字化形态存在,具有复制性;二是检索速度快、准确度高;三是信息传播量大,资源利用率高。[78]

古籍索引数据库建设既能使索引技术运用到实践之中,又能使古籍资料的多方面价值成倍提升。广西大学林仲湘教授编制、广西金海湾电子音像出版社和广西师范大学出版社联合出版的《古今图书集成电子版索引》,就是我国古籍整理与现代科技成功结合的代表性成果,其采用标目式、多字段的形式进行检索,剔除冗杂信息,大大提高检索命中率,具有很高的学术价值和实用价值。[79]

王雅戈、杜慧平以《道德经》两种版本索引即《道德经》逐字索引和《郭店简本道德经》逐字索引的编纂为例,对索引之星、WORD以及自编索引软件等索引工具的应用进行探讨,开展古籍索引的自动编纂试验,并对两种版本《道德经》的字频、词频进行分析,得出以索引软件作辅助工具编纂汉文古籍索引,既可以提高效率,还可以减少差错,对整理汉文古籍文献大有益处,对古籍校勘、注释、考订、研究还可以起到辅助作用,值得推广。[80]

3.探索利用相关软件进行中文索引辅助编制

计算机技术自上个世纪末开始普及,中国的索引编制者和研究者就积极探索利用文字处理软件(如Word、WPS)、表格软件(如Excel)及数据库软件(如FoxBase、Access)中的段落文字或表格数据自动排序功能、目录索引自动生成功能,开展中文索引的计算机辅助编制研究,并取得了相应成果。具有代表性的研究论文,按刊载于相关学术期刊和文集上的时间排列如下:

侯汉清《文献分类法索引及其计算机辅助编制》(《图书情报论坛》1993年第4期);

曾蕾《计算机辅助标引及索引编制》(《索引研究论丛·索引工作自动化》,葛永庆主编,1994年);

黄水清《汉字索引款目计算机排序的原理与实践》(《江苏图书馆》1995年第1期);(www.xing528.com)

何静《图书内容索引的计算机编制》(《情报理论与实践》1995年第2期);

侯汉清《计算机在索引工作中的应用》(《高校文献信息学刊》1995年第3期);

张琪玉《用WPS文字处理软件编制简单电子索引的方法》(《图书馆杂志》1997年第3期);

王彦祥、殷岚《计算机辅助编制年鉴索引》(《年鉴信息与研究》1998年第2期);

张琪玉《利用WORD和WPS编制汉语题内关键词索引》(《中国索引》2007年第3期)。

其中,1998年王彦祥、殷岚发表的《计算机辅助编制年鉴索引》一文,对利用文字处理软件和数据库软件辅助编制中文索引进行了系统性归纳,指出“所谓计算机辅助编制中文索引,是指在人工标引出索引词并输入到计算机之后,由计算机完成排序、存储、打印输出,最后产生正式索引的过程”。[81]经过不断探索和尝试,王彦祥在2000年出版的《实用年鉴学》书稿中,以及2003年发表的《年鉴索引编纂问题及其解决方案》论文中,进一步归纳出计算机辅助编制索引的一般流程。[82]

新世纪初的2002年,施勇勤在《索引的计算机辅助编辑与制作》一文中,充分肯定了计算机技术对于索引编制的辅助作用,认为利用计算机辅助进行索引制作和编排是一项简便可行而又快捷准确的方法。[83]但是,利用常规软件进行中文索引辅助编制已显现日落西山之势,故此这里不再展开讨论。

4.多方面、长时间开展中文索引软件开发

基于中文文献的索引软件开发,始于20世纪90年代中后期,那时以探讨索引软件基本原理和开发技术为主,始终没有大的突破,也未见索引软件的正式推出。世纪交替的那几年,曾有若干国内科研机构尝试利用计算机全文检索技术,进行自动抽词并编制主题索引,其中由中国北方计算中心开发的“计算机图书索引生成系统”,原理是先期选定或编制一个中文索引主题词表并输入计算机,形成“主题词表文本文件”,然后利用该系统对目标文档进行扫描检索,将吻合的主题词提取出来,并标注具体的页码地址,生成一个“索引词表文本文件”,最后对该文件进行排序、校对和格式编辑,输出为索引文件。[84]

张琪玉先生也十分关注索引软件的研发,专门撰文《图书索引软件的功能要求与编制难题》,具体剖析开发中文索引软件的两大难题,一是标引的功能,即抽取书内可索引内容,编成索引标目与副标目;二是编制出处项的功能,即给出起讫页码。据此,张先生从中文图书实际情况出发,对图书索引软件的功能提出了标引、编制出处项、索引款目排序、产生轮排款目、相同索引标目合并、建立参照系统及助检标志、建立后控词表或类似结构、按特定版面格式输出索引数据、一般检索、组配检索、反白(或变色)显示检索结果、文本任意字词匹配检索等12个具体要求,[85]这也成为中文索引软件开发的指导性意见和技术性要求。

2003年10月,北京印刷学院王彦祥先生携手北京长城云天科技发展有限公司,在国内首先推出针对索引编制全流程的索引软件——索引之星1.0,从而结束了我国在索引领域一直没有专业软件的历史。该软件循着“人工标引索引词+计算机抽词处理+计算机排序整理”,以及“计算机抽词(依据主题词表或抽词词典)+自动添加地址出处项+人工修正处理索引款目+计算机排序整理”这两种索引软件开发模式,研制出可直接打开各种排版文件,进行人机结合的索引词标引,然后自动添加页码,并对索引款目进行多种形式排序,实现全流程计算机操作的专业索引软件。[86]

5.中国索引软件研发跟进时代发展

至2004年,经过全面优化的“索引之星2.0”正式推向市场,很快得到索引界和出版界的认可和应用。在应邀参加“2004年辞书与数字化研讨会”时,王彦祥与合作者王广林在大会上发表技术报告——“索引之星”软件研制和索引编制,并全文刊载于会议论文集上。[87]该文详细介绍了“索引之星”软件研发过程和索引编制功能及特点,软件支持所有排版软件生成的电子文件,可进行索引词抽取,也支持PDF、RTF、TXT等通用文档的直接标引,具有索引词任意标引和自动添加页码功能;可对索引词进行汉语拼音音序、中文笔画、数字页码等类型的正确排序;支持索引文件的编辑、修改、打印,并具备索引词表和索引项目动态管理功能。“索引之星2.0”突破了当时中文文献出版过程中排版文件的诸多制约,编制索引时除了需要人机结合实施抽词标引外,其他的索引自动编制功能已全面实现,达到了索引编制的高质量和高效率。

到2009年,王彦祥又发表《中国索引软件的开发与应用》一文,[88]系统回顾了我国索引软件开发的前期探索过程,进而讨论中文索引软件的研制瓶颈和取得的实质性突破,再通过剖析“索引之星2.0”软件,提出使用索引软件编制各类索引的具体步骤、操作方法、技术特点等。这些论述内容和主要观点,也成为THE INDEXER(英国《索引家》)所刊发的Indexing software in china:pastpresent and future一文的主要内容。

“索引之星2.0”推出后,也带动了我国索引界对于国内外索引软件的比较研究,相继有若干篇论文刊发出来。代表性的有孙琳发表在《中国索引》2006年第4期上的《索引之星与Word索引软件的比较》,康艳发表在《中国索引》2009年第4期上的《国内外图书内容索引软件的比较》,郭丽芳、温国强发表在《图书馆》2010第4期上的《国内外索引软件比较研究》等。这些论文对中外索引软件进行功能对比,并提出相关的改进建议,以助推中国索引软件升级。其中,郭丽芳、温国强刊文指出,我国索引软件研发起步较晚,发展水平还比较落后,要加快研制步伐,普及索引编制,扩大社会影响;呼吁国家重视索引的学术、经济和社会效益,落实索引编制的相关政策和配套机制,推动我国索引事业的现代化发展。[89]

除了“索引之星2.0”,2008年在南京农业大学攻读研究生的康艳,在对比Word内嵌的索引功能模块与“索引之星2.0”的主要特性基础上,提出并讨论过一个图书内容索引编制程序——BIS,文中还绘制了一个索引编制系统流程图[90]作者希望该系统具备综合索引、专门索引、检索、索引排序、索引排版与系统维护等功能,重点解决文本预处理、自动标引、批量标引、参照、排序等技术问题。可惜这一设计并未持续下去,也没有软件产品推出。实际情况是,十几年来还是“索引之星2.0”在国内唱独角戏,很多人希望这样的局面早日被打破。

中国索引软件研发的最新消息也值得欣慰。“索引之星2.0”经过十几年的应用,在吸收各方面新技术基础上,终于在2018年10月“第七届国际索引联盟峰会”召开之际,正式推出升级版本“索引之星3.0”。这一升级软件基于64位计算机操作系统进行重新开发设计,软件界面更加友好,使索引编制过程变得轻松愉快;软件可以兼容并打开各种格式的电子文档,尤其是跟进国际流行的通用PDF文档发展变化;软件还实现了多级标引后的索引词自动格式编排,使分级款目处理更加科学简便。新软件在中文排序方面也有新突破,可以对中文简体字和繁体字进行正确排序,并解决了中文多音字排入正确位置、自动合并页码项等难题;新软件还嵌入了人工智能技术,具备索引词的标引学习功能,可通过统计计算索引词标引结果,逐渐向中文索引词自动标引方向发展,等等。[91]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈