首页 百科知识 回溯测试:确保预测风险准确

回溯测试:确保预测风险准确

更新时间:2025-01-20 工作计划 版权反馈
【摘要】:回溯测试是一种正常的、隶属于计量工具框架下的方法。为了保证预测的风险数字的准确性,风险经理需要定期为其风险模型进行回溯测试。很多标准的、对在险价值进行验证的回溯测试,对在给定时间段内,实际资产组合发生的损失与估计的在险价值数值进行比较。回溯测试可以被理解成为介于艺术与科学之间的一种方式。回溯测试比较观测到的实际发生的损失是否能够被99%置信区间下的风险测量所备兑住。

一、概况

模型验证属于一般性的、检验一个模型是否合适的过程。这个过程可以通过一系列的工具来完成。这些工具包含:回溯测试、压力测试、独立审查与监控。回溯测试是一种正常的、隶属于计量工具框架下的方法。它采用验证的方法来看实际发生的损失是否与预期的相吻合。这种方法包含系统地比较历史上计算的在险价值(VaR)预测与实际发生的资产组合损益之间的偏差。

对于在险价值模型质量如何,必须通过如下方法来进行验证:比较每天运用模型计算的潜在市场风险值,将其与实际资产组合发生的价值变化(回溯测试)相比较。如果后者超过了前者,就需要基金及时地对采用的风险模型进行适当的调整。

运用在险价值作为风险披露或者是风险管理的工具不仅是出于基金公司内部的要求,这种方法同样也受到外部机构的欢迎,例如,监管机构、审计机构、投资者、贷款提供方以及评级机构等。为了简单化,回溯测试倾向于评价风险模型是否提供准确的估计。

始发于美国的次贷危机,让人们更加坚定了要估计在极端情况下资产组合风险的发展状况。在险价值不是一个“稳定”的风险测度,原因在于其并不满足次可加的条件。

选择在险价值作为测量风险的模型,有如下原因:基于成本与效益分析。这里具体是从其测量准确度、需要提供的数据类型以及实施的方便程度角度来说的。在使用在险价值模型的时候,人们进行了一系列简单化的假设:收益的分布、用来定义有可能发生的产出的历史数据的窗口等。如果不断增加假设条件,在险价值估计的精确度倾向于不断降低。

本质上,计算的风险值为人们提供了准确的信息。它为相关机构的相关人员提供了最恰当的有可能产生的风险估计。为了保证预测的风险数字的准确性,风险经理需要定期为其风险模型进行回溯测试。在风险数字不能达到满意的情况下,要求风险经理提供其他可供选择的模型。

在险价值模型为测量风险提供了基础框架。如果通常使用的模型不能够完成其测量风险的任务,那么它应当被进一步修正或者替换。即便是仍旧要求风险经理对计算的风险作出主观的评价,也要求他们运用最好可能性的框架来对风险进行测量。

通过进行回溯测试,人们可以回答下列几个问题:

(1)模型测量通常分位数或者是整个损失-收益-分布的效果如何?

(2)模型预测损失的规模与频率的效果如何?

很多标准的、对在险价值进行验证的回溯测试,对在给定时间段内,实际资产组合发生的损失与估计的在险价值数值进行比较。以最简单的方法来说,回溯测试是通过以下过程来实现的:计算实际资产组合的收益超出在险价值数值的次数,或者是百分比。接下来,将这个次数或者百分比与置信区间的水平相比较。例如,如果置信区间为99%,那么期望的资产组合收益超出在险价值的次数应当为1%左右。

回溯测试可以被理解成为介于艺术与科学之间的一种方式。它的重要性在于,将数理统计模型与质量检测融合到一起。

最简单的回溯测试组成方式为:计算给定时间内“例外”(exceptions)发生的个数,即损失大于估计的在险价值的个数,并将这个数字与选择的置信区间所期望的个数进行比较。

回溯测试比较观测到的实际发生的损失是否能够被99%置信区间下的风险测量所备兑住。也就是说,它们试图决定,资产组合99%的分位数的风险测量是否能够真实备兑住99%的资产组合的收益。

在险价值并不能够提供发生在超出给定界限之外的损失值。也就是说,在险价值并不能够区分尾部发生的损失值。对此测量方法缺陷的补充,是通过稳定的、量化损失的方法来实现的,那就是尾部损失的计算通过期望尾部损失(ETL)来完成。

另一个能够强化回溯测试分析的办法是:决定模型预测损失频率与规模的准确性。回溯期望尾部损失或者是期望尾部收益的个数可以为此提供相关的指示,即,模型究竟在捕捉期望损失(收益)超过在险价值的规模时,准确度有多高。这种方法可以提升回溯测试过程的质量。期望尾部损失预测领域和模型的比较目前还处于发展阶段,而且在经验数据上还存在许多缺陷。

Artzner(1999)[9]介绍了风险测量的期望缺口(expected shortfall,ES)。它相当于给定计算的在险价值,损失的期望值为多大。Yamai &Yoshiba(2002)[10]比较了两种测量方法,同时指出,在险价值不适合被应用在市场发生大规模震荡的时候。而在市场大规模震荡的时候,期望尾部损失是更好的选择。Angelidis &Degiannakis(2007)[11]检验了多种参数在险价值和期望尾部损失模型的业绩。他们发现,如果对于不同资产选取不同的波动率模型,测量效果比较好。

数理统计的方法为人们提供了可能,那就是检查风险模型是否能够准确地捕捉到“例外”的频率、独立性与程度。“例外”指的是在选择的时间段之内,损失(收益)超过预测的在险价值的情况。

数理检验可以将错误归纳为两类:

Ⅰ类错误,模型是正确的,但是被拒绝;

Ⅱ类错误,模型是错误的,但是没有被拒绝。

很明显,在风险管理领域中,如果犯的是第二类错误,代价会是昂贵的。出于这种原因,要求人们在计算在险价值的时候,提升上限,用以接受任何风险模型的预测结果。

为在险价值计算而进行的置信区间选择的隐含意义在于,选择的置信区间越大,“例外”产生的个数则越小,因而就越难对模型进行验证。95%的置信区间意味着,相对于99%的置信区间来说,更多的“例外”点将被观察到,因而更需要估计模型结果的准确度。

很多数量统计检验是建立在“例外”的频率与动态时间的基础上的。我们现在来看几个最普通的例子。

(一)尾部损失频率的检验(Kupiec检验)

Kupiec检验尝试确定观测到的“例外”的频率是否与按照在险价值模型和选择的置信区间计算得到的期望“例外”的频率相符合。在零假设的情况下,“正确”的“例外”发生的个数,遵循的是二项分布。如果模型是正确的,经历x个或者更多个“例外”的概率应该是:

在这里,x为“例外”的个数,p为给定置信区间下“例外”出现的概率,n为路径的数量。

如果估计的概率是在零假设条件的显著水平之上(5%~10%),模型就被接受。如果估计的概率在显著水平之下,模型则被拒绝。该检测确定了模型预测的损失与盈利——在险价值值的结果究竟有多好。

(二)条件概率备兑与尾部损失的独立性(Christoffersen测试)

Kupiec测试局限在“例外”的频率上,它忽视了这些生成的“例外”的时间动态。在险价值模型假设“例外”应该在时间动态上是独立分布的。如果“例外”展示了某些“聚类”的类别,那么在险价值模型就不会成功地捕捉到在一定条件下收益与损失的变化。

Christoffersen测试使人们能够针对“例外”发生的频率与其独立性进行次假设测试。该测试还可以做关于在险价值模型具有独立“例外”的正确频率的联合假设。

测试的另外一个收获在于,它产生了一些额外有用的信息,比如,经历风险模型产生的“例外”的条件概率,以及“例外”之间的平均天数。

聚焦于“例外”的频率与独立性的标准测试是很弱的,它经常不能够排除零假设,因而容易产生Ⅱ类错误。还有就是,“真实”的零假设概率是未知的。结果是,人们很难理解是否可以接受错误模型,或者好的模型是否能够被拒绝。其原因在于,零假设概率可能是错误的。

Dowd(2002)[12]建议,使用事件元素抽取模型自助(Bootstrapping)渐进的方式来建立零假设概率的样本,并且这些零假设概率可以被作为投入的数据来进行回溯测试。自助法包含产生可供选择的其他样本,它通过从原始在险价值样本与收益同损失中抽取观测值,并将这个观测值在被抽取以后替代样本池里的观测值。这个过程一直持续到建立好能够通过Kupiec测试与Christoffersen测试来估计p值的另外可供选择的样本的时候。

通过渐进方式产生的数值可以提供一个围绕数理统计测试结果的置信带。

除了回溯测试,传统的区间与点的风险测量,例如在险价值与期望尾部损失以外,人们还应当关注,回溯测试中究竟模型在预测收益与损失的整体分布时候效果如何。这样可以帮助人们拒绝质量不佳的模型。

在这种观点下,预测的多个分位数被用来与实际数据、观测到的低于实际数据的收益的概率进行比较。

如果风险模型是正确的,那么观测到的概率的时间序列应当是类似均匀分布变量——独立于同类分布(0,1)的。这样,人们可以通过建立柱状图生成一个关于这些概率的图表式分析并且检查它们是否平滑。(www.xing528.com)

二、回溯测试可以揭示在险价值的局限性

虽然在险价值被广泛应用在风险管理的领域,但是仍旧有很多理由让人们慎重思量其作为风险管理工具的精确度,以及其作为决策支持工具的角色。从研究者的角度来说,存在很多对于在险价值批评的观点。我们在这里将一一进行列举。自从以次贷为起始点的金融危机以来,很多观点都披露了在险价值模型的预测错误。

(一)在险价值不总是一个精确的测量

在险价值只是测量下方风险的一阶近似,它并不是一个魔幻工具。在险价值的使用方,包含监管者,不应当认为它是毫无缺陷的,而应当客观地认为它是存在局限性的。在险价值不总是正确的,其作为风险工具时有些设置是错误的。如果使用了错误的在险价值模型,在险价值测量照样是不准确的。例如,在计算一个包含很多非线性工具(例如期权等)的资产组合时,使用了参数方法的在险价值。当市场在非正常条件下时,在险价值模型的预测同样可能会是不正确的。因而要求有规律地对使用的模型进行回溯测试,用以检验在险价值模型的错误是否是来自其自身的局限性,或者由于设置的错误,或者是采用了错误的参数,又或者是由于模型本身的精确度不够等。即便在险价值模型不是一种完美的风险测量的方法,但是它最大的贡献在于,促使基金从风险的角度出发进行管理。

在险价值模型没有最精确的测量方法,每一种测量方法都有其自身的局限性。最终结果是,人们为资产、组合、公司计算的在险价值有可能是错误的,有时候这个错误大到足够导致错误测量风险敞口。错误的原因依据公司的不同以及测度的不同,会有很大区别,下面将作出详细的解释。

1.收益的分布

每一种在险价值测量都作出对于收益分布的假设。这些都有可能是使在险价值作出错误估计的原因。使用Delta-正态的在险价值估计方法,人们假设多维收益分布是正态分布的,因为在险价值是完全建立在收益标准差的基础上的。运用蒙特卡洛模拟方法,人们有更多的自由空间去区分不同类型的收益分布。但是这仍旧排除不了人们在做如此决定时可能会犯的错误。最后,通过历史模拟的方法,人们假设历史上收益的分布(基于过去的数据)可以代表未来收益的分布。实际上可以得到认证的是:收益并不是正态分布的,不仅在现实中发生“例外”的情况比模型预测更有可能发生,而且“例外”的规模也比正态分布的预测期望要大。

2.历史并不是好的预测者

所有在险价值测量都在某种程度上使用历史数据。在方差-协方差的方法中,历史数据被用作计算方差-协方差矩阵,以此作为计算在险价值的基础。在历史模拟方法中,在险价值完全建立在历史数据基础上,并且它们通过收益的时间序列计算损失发生的可能性。在蒙特卡洛模拟中,分布不一定建立在历史数据上,但是很难得出它究竟是通过何种方式派生而来的。简短地说,在险价值测量是一种有收集到的历史数据的时间区间的函数。如果这个时间区间是相对稳定的,计算出来的在险价值将会是一个较低的数值,并且不会超过未来将会发生的风险。相反,如果检查的时间区间波动率很大,则计算的在险价值将会过高。

3.非稳定的相关性

在险价值的测量是建立在对风险源头相关性的估计上的(方差-协方差与蒙特卡洛模拟),或者是在关于相关性的假设上的(在历史模拟方法中)。这些相关性的股价通常建立在历史数据的基础上,并且波动极大。一种可以测出它们究竟有多大的浮动的方法为:跟踪更广泛的、该资产类别的时间区间的相关性。

4.短时间区间

在险价值可以在季度或者年度的区间内进行计算,但是通常计算的在险价值是一天、一周或者是几周的。在多数的、真实世界的使用中,在险价值的计算都是在短时间区间内的,而不是在长时间段的。有三种观点支持短时间区间的计算:①使用在险价值的金融机构目的在于通过天-天的计算来对冲这些风险,而并不是很关心长时间区间风险敞口的发展。②监管机构,至少是针对金融机构的监管机构,需要了解短时间区间内的经常性的时间段内的风险敞口。③对于在险价值计算的输入值,无论其是通过历史模拟还是通过方差-协方差的方法计算来的,都是在短的时间区间内才能够容易地被计算出来。事实上,随着时间区间段内从天、周、月到年的变化,在险价值估计的质量会不断降低。

5.绝对数值

在险价值计算出来的不是标准差,或者全部的风险测量,而是基于概率基础上的损失会超过特定值的概率。举个例子:在险价值为1 000万美元,95%的置信区间意味着,只有5%的机会,损失会超过1 000万美元。源于基于固定价值,在险价值成为了一种受金融机构欢迎的风险测量的方法。因为这些金融机构关心它们的资本充足率。也正是出于此种原因,当注意力集中在比较不同刻度的、不同收益的投资时,在险价值不是这些公司能够测量其风险的合适工具。对于此类公司,更传统的方法,例如标准差或者是Beta值,由于它们是建立在整体风险分布的基础上的,所以对它们来说,更加合适。

简短地说,在险价值的测量方法由于注意力集中在资产所面临的风险敞口上,因而大部分的关于分布的信息被忽略了。尽管在险价值可以作出测量,比如,损失超过1 000万美元的可能性小于5%,它仍旧判断不出在大的危机情况下所能够发生的损失究竟有多大(小于5%概率时的损失额度)。它应当有能力判别最大损失究竟是10亿美元,还是1 500万美元。

(二)次优决策

即便在险价值的测量是正确的,仍旧不明确的是:将它作为帮助基金经理与投资者判断风险的测量,是否会导向更有根据的和敏感的判断。实际上,在使用在险价值作为支持决策工具的时候,会面临两种批评的观点:①即便作出决策的人是理性的,在险价值的估计为准确的,基于在险价值的投资决策判断可能会过高估计风险;②能够理解在险价值是如何计算的基金经理有可能操纵计算,用以报告更高的收益,从而导致公司经历潜在的风险。

1.风险的过高敞口

基金经理在作出投资决策时,经常采用在险价值的方法来计算风险敞口。Basak &Shapiro指出,此类的基金经理比那些不采用在险价值模型作为评估风险工具的基金经理更容易投资风险高的资产组合。这就解释了为什么借鉴在险价值模型的基金经理更容易注意避免中间环节的风险(在概率界限之下),但是他们的资产组合在更多的相反条件下容易经历更大的损失。再者说,如果不将风险程度控制在相应的概率之下(例如90%或者95%),那么有可能会在最差情况下面临更大的损失。

2.代理商问题

与任何风险测度一样,在险价值模型有可能被那些想做出投资决策的基金经理所操纵,因为他们想让基金的风险人为控制在在险价值的风险限制程度之内。因为在险价值是利用历史数据进行计算的,采用此种方法进行计算的交易员或者是基金经理有可能理解其误差并由此获益。

例如,对于油价波动的在险价值,在险价值被低估了,因为它并未捕捉到油价上升在将要到达时间节点的波动率。明白的基金经理会认为,这意味着更高的风险,而报告出的风险又可能低于实际面临的风险。

所有的风险测度都存在不足之处,但是从测量绝对价值与单个概率的角度来说,在险价值的优点明显高于其他的测量方法。

【注释】

[1]Bank for International Settlements.Stress testing at major financial institutions:survey results and practice,1995.

[2]Bank for International Settlements.Amendment to the Capital Accord to Incorporate Market Risks,1996.

[3]谈伟军,于敬兢,陈代全,胡晔永.证券公司压力测试机制研究[J].中国证券,2010(7).

[4]许航航,何昌海,陆华兵.基于货币市场基金的压力测试研究[J].财政金融,2010(3).

[5]Lore,M.,Borodovsky,L.The Professional’s Handbook of Financial Risk Management[M].Butterworth-Heinemann,2001.

[6]Laubusch,A.J.Risk Management:A Practical Guide,Risk Metrics Group,1999.本表格的部分风险因子类别参照该文献,风险因子的变化方式为作者构想。

[7]Lore,M.,Borodovsky,L.The Professional’s Handbook of Financial Risk Management[M].Butterworth-Heinemann,2001.

[8]Bank for International Settlements.Principles for sound stress testing practices and supervision,2009.

[9]Artzner P.,Delbaen F.,Eber J.-M.,Heath D.Coherent Measures of Risk[J].Mathematical Finance,vol.9,no.3,pp.203-228,1999.

[10]Yamai Y.,Yoshiba T.Comparative analyses of expected shortfall and value-at-risk(2):expected utility maximization and tail risk[J].Monetary and Economic Studies,pp.95-115,2002.

[11]Degiannakis S.,Angelidis T.Backtesting VaR models:a two-stage procedure[J].Journal of Risk Model Validation,vol.1,no.2,pp.1-22,2007.

[12]Dowd K.A bootstrap back-test[J].Risk,pp.93-94,2002.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈