历史文献数据库在内容建设上的导向之一应当是如何借助数字技术手段,根据史料本身的特点进行整理和编纂,使得史料有更佳的呈现方式,从而达到更高效的利用和研究。如前文所述,NARA所藏的东京审判文本史料具有保存状况好、完备度高的特点,而超过8000分钟的视频资料则是具备独一性的新型史料,却是缺乏背景信息、未经整理的“璞玉”。基于这些特点,对它们的数字化编纂目前进行了如下工作:
1.文献全文检索功能
相较于单一的顺序浏览,全文检索的功能可以大幅提高文献资源的利用效率。只需在数字化扫描档案的基础上增加一道OCR(Optical Character Recognition)工序,使得扫描后的文献处于文字可编辑状态便能进行关键词的提取和检索。然而是否能够实现这一功能要视原始档案文字的语言及形态等要素情况,这是因为现有的识别技术对于小语种和手写体文字往往无能为力。具体到东京审判的史料,大量的个人文书信函均为手写体文字,同时兼有英、日两种语言,再加上部分原始档案质量较差,字迹模糊,这些都对文字识别的处理带来极高的难度。尽管如此,一些条件较好的档案资料仍然可以成为探索的第一步,比如法庭的庭审记录。
《远东国际军事法庭宪章》规定审判语言为英语和日语,故东京审判的庭审记录也存在英文和日文的两种文本。每天的庭审均配有专门速记员进行记录,从1946年4月29日检方向法庭正式提交起诉书开始,直至1948年11月12日宣判结束。在审判期间,英文的记录由法庭事务局逐日印刷并在第二天分发给法官、检察官、辩护律师等相关人员,而日文记录完成的速度要慢很多,经常要拖后一个月左右的时间。[16]两种文字记录在内容上有细微差异,但忠实地还原了庭审原貌。不仅包括各方当事人——庭长、检察官、辩护人、证人——在法庭上的一切正式发言,包括举证、作证、质询、辩论乃至围绕法庭程序进行的激烈争吵,同时也事无巨细地留下了支撑法庭运作的秘书处、文件部、行政部、语言部等机构的工作痕迹。可以说庭审记录是了解东京审判最基本的文献。
图2 远东国际军事法庭庭审记录英文版,1946年5月13日(Microfilm M1666,RG331,NARA)
图3 远东国际军事法庭庭审记录日文版,1946年7月16日(『極東国際軍事裁判速記録』,雄松堂書店,1968年。)
英文庭审记录格式规整,以英文印刷体为统一字体,且NARA所藏版本图像质量较高。这些前提保证了文字识别技术的可行和结果的相对可靠。目前已实现的是总共49858页的英文庭审记录的全文检索,具体包括:
●字段检索:检索某个字段的内容
●智能检索:根据检索词智能扩展检索结果
●组合检索:多个条件组合检索
●二次检索:在检索结果中再次检索
●相似性检索:提供相似检索结果(www.xing528.com)
●同句/同段检索:在文献的同一句/同一段检索
●翻译检索:中英文翻译检索
●精确/模糊检索:检索词精确/模糊匹配检索
●混合字段检索:多个字段统一检索
对使用者而言,可以不再囿于顺序检索庭审内容,以关键词为线索聚集庭审内容,大大提高了史料利用程度。相比于简单地扫描上线,可以说这一功能的实现才真正体现了较之传统整理编纂方法的优势,也标志了东京审判研究从此迈入了数字化研究的阶段。
2.视频的双语字幕制作
在实现了庭审记录的全文检索后,对8000余分钟庭审视频的编辑加工也因此有了良好的基础。原本这批视频除了开头简单标示日期和拍摄者之外,再无与庭审有关的其他信息。不光无法定位每个视频在这一天庭审中的具体时间,更难以弄清视频中走马观花似的证人和律师。因此,要使得视频资料有效地传达信息和正确地被利用,必须补充完整背景信息——配上字幕是最清晰明了的做法。为了做到这一点,必须以文字的庭审记录为支撑。
图4 XML格式、PDF格式及混合浏览三种阅读模式(www.tokyotrial.cn)
图5 NARA所藏东京审判庭审视频以及添加双语视频的效果(www.tokyotrial.cn)
而当法庭庭审记录实现了全文检索之后,便可以通过每段视频开头所提供的日期信息定位至某天的庭审记录,再根据视频中出现的对话作为检索条件,对当日庭审记录进行全文检索,最终确定视频在庭审记录中的精确位置,从而匹配英文字幕。此后,再以日文庭审记录的印证和校对基础上,完成中文字幕的翻译,以保证视频中大量人名、地名、机构名等专业名词的准确性。在这些信息添加完成之后后,再为每个视频重新编目,如此所有的视频便能通过关键词检索而得。
对于东京审判视频资料的处理典型地说明了在史料数据库建设的过程中,需要对不同形态的史料进行互相贯通和补足,进而实现高效便捷的利用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。