本书的开头部分提出了四个应用场景,其中的第三个应用场景描述如下:
(*)程序员C需要实现一个图像切割程序,可他对图像切割技术并不熟悉,C需要找到一些可用的技术方案以做研发可行性评估。C搜索了学术数据库,发现有太多研究图像切割的文章,面对如此多的技术文档,他现在非常苦恼。
程序员C面临的问题是真实存在的。图像切割(image segmentation)在图像处理工作中是一个常见任务,几乎所有的图像处理任务都会或多或少地涉及图像切割工作。在Google学术中搜索“image segmentation”,得到的提示是“找到约1 770 000条结果”,要从如此之多的文章中完整地梳理出图像切割可能的技术方案,工作量几乎是不可接受的。
随着科学研究的进步,越来越多的问题正在出现,相应的,越来越多的方法也得以提出。研究人员进行科学研究时,需要对已有的问题解决方案予以掌握,工程人员在解决实际问题时,也需要对可能的技术方案有所了解。面对海量且快速增长的学术文献,研究人员和工程人员往往没有能力对特定问题的全部解决方案予以掌握。因此,有必要开发新的技术,通过自动化的手段梳理和总结科研、工程问题的技术解决方案。
词汇功能识别能够帮助解决这一问题。通过对学术文本和技术报告中的文本词汇功能进行识别,可以提炼出问题方法对,基于此可以自动化地梳理出各个问题的解决方案。例如,通过对下列三行文本的分析,可以提炼出以下问题方法对,参见表6-1。
• This paper explores the use of Support Vector Machines(SVMs)for learning text classifiers from examples.[1]
• This paper reports a controlled study with statistical significance tests onfive text categorization methods:the Support Vector Machines(SVMs),a k-Nearest Neighbor(kNN),a neural network(NNet)approach,the Linear Least squares Fit(LLSF)mapping and a Naive Bayes(NB)classifier.[2]
• We describe here an N-gram-based approach to text categorization that is tolerant of textual errors.[3]
表6-1 从示例文本中提炼出的问题方法对
从表6-1中可以看到,文本分类(text categorization)至少能够使用6个技术方法解决,其中,使用较多的技术是支持向量机(Support Vector Machines),其他的技术包括k近邻技术(k-Nearest Neighbor)、神经网络(Neural Network)、线性最小二乘拟合(Linear Least Squares Fit)、朴素贝叶斯(Naive Bayes)和基于N元的方法(N-gram-based approach)。
形式化的,给定论文数据集D,可以从中抽取出问题方法对集合Ps={(t1,m1,c1),(t2,m2,c2),…,(tn,mn,c_n)},给定问题tq,则规定:为问题tq的技术方案集合。其中ti=tq表示ti和tq是同义关系,ti∈tq表示ti是tq的下位概念。(www.xing528.com)
从图的角度来看,问题和方法构成了一个二部图G={M,T},其中M是方法集合,T是问题集合,如图6-1所示。通过二部图表示问题与解决方法之间的关系是有意义的,尽管图6-1只给出了问题和方法之间的显式关系,但基于二部图却能够挖掘出可能存在的隐性关系,即问题潜在的解决方案,或者技术方法潜在的应用。下一小节将会基于此提出一种基于问题方法对的研究点发现方法。
图6-1 问题与方法二部图
回到本小节最初提到的程序员C的问题。为了实现对问题解决方案的梳理,本书利用收集计算机科学论文的元数据文本(论文数据来源于CNKI数据库的计算机科学期刊)识别问题方法对,得到26 772条问题方法对应关系。对问题及方法词汇进行小写转化和词干提取,得到21 478个问题和16 628个方法。在问题方法对数据上使用简单的词汇过滤方法,即可以梳理出图像切割(image segmentation)的解决技术方案列表。采用同样方法,也可以容易地找出文本分类(text categorization)的实现方法。在前述数据集上进行过滤,得到228个可用于图像切割的方法以及29个可用于文本分类的方法,部分结果见表6-2。
可以看到,表6-2中列出的技术解决方案都具有一定的可行性,给出的结果涵盖了各自问题的主要技术方法。当然,采用文本过滤的方法梳理问题的解决方案也存在着一定的不足:第一,针对问题给出的技术方法并没有就同义关系、上下文进行归并,存在着冗余。例如,针对文本分类列出了“VSM(向量空间模型)”和“sentence category VSM(句子类别向量空间模型)”两种方法,但这两种方法实际上可以被归并为一种技术。第二,技术方法在问题解决中体现的作用没有被很好地揭示出来。例如,在文本分类中,可能涉及的技术方法有支持向量机、最大熵算法、主成分分析等,其中支持向量机和最大熵算法是分类算法,在分类阶段使用,而主成分分析则多用在特征降维阶段,直接将不同作用的方法加以罗列并不是一个很好的做法。
学术文本的词汇功能识别能够用于技术方案推荐任务,利用识别出的问题方法对,可以梳理出问题的可用技术。但是,发现的问题方法对应关系在已有研究工作中已被证实过,如果需要找到问题的创新性解决方法,这一工作是无能为力的。在下一小节,本书将讨论如何基于问题方法对数据进行研究点发现。
表6-2 图像切割和文本分类可用技术列表
续表
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。