首页 理论教育 数据集与性能评估

数据集与性能评估

时间:2023-06-26 理论教育 版权反馈
【摘要】:表8-1常用的图像描述生成自然图像集续表二、常用的图像描述生成性能评价指标评价图像描述生成的质量时,一般以所生成的语言描述的准确程度和流畅程度作为衡量标准,包含客观评价指标和主观评价指标。ROUGE是由Lin C.Y.提出的评价指标。

数据集与性能评估

一、图像描述生成自然图像数据集

表8-1列出了目前常用的图像描述生成自然图像集,从图像数据、每幅图像标记的语句数量、标记数量、类别等方面进行了归纳。

表8-1 常用的图像描述生成自然图像集

续表

二、常用的图像描述生成性能评价指标

评价图像描述生成的质量时,一般以所生成的语言描述的准确程度(即语义含义是否相符)和流畅程度(即句法结构及语法正确性)作为衡量标准,包含客观评价指标和主观评价指标。

1.客观评价指标

常用的图像描述生成质量定量评价指标包括BLEU、ROGUE、METEOR、CIDEr和SPICE等。指标的值越高,表示生成的描述语句与人工标注的参考语句越接近,即生成的描述语句质量越好。这些指标的计算一般都需要使用候选语句(即待评价的语句)和参考语句(即人工标注的语句)。

(1)BLEU(Bilingual evaluation Understudy,双语互译质量评估辅助工具)是由Papineni K.等人(2002)提出的指标。BLEU通过计算候选语句与参考语句中n元组共同出现的程度来衡量二者之间的相似度。其中,n元组是由句子中的一个或多个连续的单词组成的片段。

计算BLEU时,首先根据下式计算语料层的重合度:

式中,ci∈C,表示候选语句;Si={si1,si2,…,sim}∈S,表示对应的一组参考语句。假设ωk∈Ω表示第k组可能的n元组,hk(ci)表示ωk在候选语句ci中出现的次数,hk(sij)表示ωk在参考语句sij中出现的次数。由于C Pn(C,S)倾向于较短的句子,在句子较短时得分更高,因此引入一个惩罚因子BP(brevity penalty):

其中,lc表示候选语句ci长度;ls表示参考语句sij的有效长度(若一个候选语句对应多个参考语句,那么选择与候选语句长度最接近的一个参考语句的长度作为有效长度)。

计算最终BLEU值的公式为:

其中,N=1,2,3,4,权重ωn=1/N,取值范围为[0,1]。

(2)ROUGE(recall-oriented understudy for gisting evaluation,面向召回的摘要评价替补指标)是由Lin C.Y.(2004)提出的评价指标。与BLEU类似,ROUGE主要侧重于翻译的充分性和忠实性,忽略了评价参考译文的流畅度,由ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S等一系列指标组成。

ROUGE-N(N-gram co-occurrence statistics):候选语句和参考语句中同时出现的ngram的最大值。ROUGE-N是与召回率(Recall)相关的度量指标,等式的分母是在参考语句侧出现的n-gram数量的总和。

其中,n代表n元组,Countmatch(gramn)是待测评语句中出现的最大匹配n-grams的个数。

ROUGE-L(longest common subsequence):基于最长公共子序列(Longest Common Subsequence,LCS)的度量指标。通过计算F-score值求得,采用归一化成对LCS来比较两种文本之间的相似性,计算公式如下:

ROUGE-W(weighted longest common subsequence):考虑到基本的LCS没有区分它们嵌入序列中不同空间关系的LCS,通过加权方式对其进行改进(weighed LCS,WLCS),即简单地记住到目前为止与常规二维动态程序表计算LCS所遇到的连续匹配的长度,并使用k表示以单词si和cj结尾的当前连续匹配的长度。给定两个句子X和Y,可以使用以下动态过程来计算参考语句S和候选语句C的WLCS分数:

其中,f-1是f的反函数

ROUGE-S(skip-bigram co-occurrence statistics):用于度量候选语句和一组参考语句之间的不连续二元组共现性的度量指标。

其中,SKIP2(S,C)是候选语句和参考语句之间跳过大的匹配数,β控制Rskip2和Pskip2的相对重要性。

(3)METEOR(metric for evaluation of translation with explicit ordering,显式排序翻译评价指标)是由Satanjeev Banerjee等人(2005)提出的指标。METEOR通过计算候选语句与参考语句之间精确率和召回率的平均值衡量二者之间的相似度。METEOR需要预先给定一组校准(alignment)m,而这一校准基于WordNet的同义词库,通过最小化对应语句中连续有序的块(chunks)ch得到。METEOR的计算公式为:

其中,Si和Ci分别表示参考语句和候选语句;Pen表示惩罚项;α,β,γ为评价参数;m表示候选语句和参考语句中匹配上的单词个数;ch表示语句对中连续且同序的匹配语块(chunks)的个数,Pm和Rm分别表示精确率和召回率。

(4)CIDEr(Consensus-based Image Descripton Evaluation,一致性图像描述评价)是由Vedantam等人(2015)提出的评价指标。CIDEr通过计算每个n元组的TF-IDF权重来衡量候选语句和参考语句之间的一致性,计算公式为:

(www.xing528.com)

gk(sij)为TF-IDF权重;

hk(sij)为wk在参考语句sij中出现的次数;

hk(ci)为wk在候选语句ci中出现的次数;

wk为父词条

sij为参考语句;

ci为候选语句;

Ω为所有父词条的词汇表;

I为所有图像数据集的集合;

gn(ci)为由gk(sij),即TF-IDF权重构成的向量,‖gn(ci)‖为向量gn(ci)的大小。

为了避免当一个句子经过人工判断得分很低,但是在自动计算标准中却得分很高的情况,通过增加了截断(clipping)和基于长度的高斯惩罚,得到CIDEr-D。

其中,l(ci)和l(sij)分别表示候选语句和参考句子的长度。

(5)SPICE(semantic propositional image caption evaluation,语义命题图像描述生成评价)是由Peter Anderson等人(2016)提出的评价指标。SPICE基于图的语义表示对句子中的对象、属性和关系进行编码,通过计算F-score值度量候选语句和参考语句的相似性。SPICE的计算公式如下:

其中,G(c)=〈O(c),E(c),K(c)〉,各参数意义如下:

c:候选语句;

S:参考语句;

O(c)⊆C:c中提到的对象集合;

E(c)⊆O(c)×R×O(c):表示对象之间关系的超边集合;

K(c)⊆O(c)×A:一组与对象相关联的属性集合;

T:从场景图中返回逻辑元组的函数;

P:精确率;

R:召回率;

⊗:二进制匹配操作符。

2.主观评价指标

(1)分级评价(human score)。一种常用的定性评价指标是将人对图像描述生成结果的主观性进行分级评价,比如分为4级[27]:完全正确(without any error)、少量错误(with minor error)、描述部分相关(with a somewhat related description)和描述完全不相关(with an unrelated description);或者分为3级[28]:完全正确(totally right)、部分正确(partly right)和完全错误(totally wrong)。

(2)一致性评价(human agreement)。另一种主观评价指标是通过人对于图像描述生成的主观一致性进行评价,比如通过从测试集中采集一个额外的人工图像描述作为预测,然后通过定量评价指标计算一致性;或者通过计算针对一个给定词w的HP(human precision)和HR(human recall)衡量一致性。

具体而言,通过对k+1人候选语句中使用的单词与前k个参考句子中使用的单词进行比较,来计算给定单词w的人工精确度和召回率。其中,每个负图像的权值为1,每个正图像的权值等于包含单词w的描述数量,计算公式如下:

其中,p=P(ω=1|o=1),q=P(o=1)。

一致性评价性模型中参数说明如下:

o:对象或视觉概念;

ω:与o相关的单词;

n:图像总数;

k:每幅图像的描述数量。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈