本节所指学术文本的格式化检索是指基于格式化查询语句的多条件检索任务。词汇或者词汇序列中可能表示为不同的词汇功能,在检索时通过限定查询语句的功能,可以实现对学术文献的精确搜索,完成传统学术数据库和学术搜索引擎不能完成的搜索任务。
图6-4 词汇功能敏感学术检索文档排序效果示例
例如,以下搜索需求在已有的学术数据库或者学术搜索引擎中并不能实现。
①检索使用“Markov Model”方法的研究文献。
②检索问题为“文本分类”,使用了“支持向量机”方法,并且试验数据为“20 News Group”的研究文献。
③检索问题为“图像切割”,使用“OpenCV”作为实现工具,发表于2010年以后的文献。(www.xing528.com)
④检索基于“黎曼流形”理论,使用了“拉普拉斯算子”方法的研究文献。
⑤检索使用了“江村经济”作为案例,采用“田野调查法”的社会学研究文献。[9]基于词汇功能的定义和词汇功能的自动识别,可以构建基于词汇功能的学术搜索引擎,实现细粒度的学术文献检索。基于词汇功能的查询语句可以表示如下。其中,term表示词汇,function表示词汇功能。由此,针对上述编号为1的查询需求,可以构造查询“(METHOD:Markov Model)”,标号为2的查询语句则可以构造为“(TOPIC:文本分类)AND(METHOD:支持向量机)AND(DATASET:20 News Group)”。
以图6-3所示文档为例,使用“(METHOD:Markov Model)”进行检索,得到的结果中应不包含“An introduction Markov models”,最终结果如图6-5所示。
图6-5 格式化搜索效果示例
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。