物联网实验教程：数据库全文精准搜索实验成果

时间：2026-01-26 理论教育安安版权反馈

【摘要】：3.实验原理全文搜索引擎DBTSearch的系统框架主要包括系统核心层和应用层，系统构架如图5-7所示。6）构建全文搜索服务。

1.实验目的

了解全文搜索引擎的工作原理，并初步掌握全文搜索引擎的实现方法，培养开发实用的搜索应用程序的能力。

2.实验设备

（1）硬件

● PC1台。

（2）软件

● Tomcat服务软件1套。

● MySQL数据库1套。

● 全文搜索引擎DBTSearch1套。

● 组织机构数据库OrgInfo1套。

3.实验原理

全文搜索引擎DBTSearch的系统框架主要包括系统核心层和应用层，系统构架如图5-7所示。

图5-7 DBTSearch系统架构

系统核心层包括存储组件（Storage Component）、索引组件（Indexer Component）和索引访问组件（Index Access Layer）3个部分。存储组件实现索引的压缩存储，存储的位置可以是本地磁盘，内存或机群等，具体的存储位置和方案对于上面的索引层是透明的。索引组件实现文档倒排，这一层又可以扩展多种不同数据类型字段的索引器。例如，对于中文文本，可以采用Word Indexer；而对于和中文文本大不相同的URL，则可以采用URL Indexer，这个索引器利用了URL的特征能实现更高效的索引，用户也可以扩展自己的索引器。索引访问组件架构在索引组件之上，实现对索引的读写、检索功能等。这一层包含3部分：索引检索（Index Searcher）、索引生成（Index Writer）和索引读取（Index Reader）。索引检索组件检索已经创建好的索引；索引生成组件输入原始文档，生成倒排索引；索引读组件读取索引的相关信息，包括索引文档遍历、索引词检索等。

在系统核心层之上是应用层，包含文档集抽象组件（Collection）、文档格式解析器组件（Parser）和文档内容分析器组件（Analyzer）组件。文档集抽象组件从待索引的文档集中抽取出单个文档，输入到解析器组件进行文档格式解析；分析器组件则对解析器解析后的文档内容进行分析（分词、去停用词和词根还原等），将文本的字符串序列转换成数字编号的词（Term ID）序列，输入到系统核心部分进行索引。分析器组件同时也应用在检索部分，将检索词转换成词编号。

核心层的存储组件、索引组件以及应用层的文档集抽象组件、文档格式解析器组件、文档内容分析器组件都可以单独扩展、升级或替换。其中，文档格式解析器组件和文档内容分析器组件可以通过COM插件扩展。

（1）索引算法及实现

索引采用目前广泛使用的向量空间模型（Vector Space Model）和TF_IDF标引策略。主要步骤是对文本记录进行分词、去除停用词、词根还原（Stemming）等简单的预处理之后，对文本建立倒排表。主文档中的每一个词（预处理之后保留的）都在倒排表中有对应的入口词项。每个入口词都指向一个属性项链表，链表中每一项记录该入口词在主文档中的出现情况，如偏移量、（英文）大小写等信息。建立索引后，对索引文件进行压缩优化，然后进行保存。上述索引过程的实现代码如下：

（2）检索算法及实现

检索过程是根据用户的查询请求，到页面库/知识库中查找相关记录，再把查询结果返还给用户。在返还的结果中，要根据记录的相关度和重要性对结果进行排序，把质量最好的结果排在检索界面的前面。系统首先对查询请求进行分析，包括分词、去除停用词、词根还原等预处理过程，然后在索引文件中找到相关的结果记录，然后进行综合性的排序和整合。上述检索过程的实现代码如下：