首页 理论教育 基于偏差的异常分析技术

基于偏差的异常分析技术

时间:2023-06-24 理论教育 版权反馈
【摘要】:基于偏差的异常分析不采用统计检验或基于距离的度量值来确定异常对象,而是通过检查一组对象的主要特征来确定异常。基于偏差的异常分析主要有两种技术:1)序列异常技术:顺序地比较一个集合中的对象序列异常技术模仿了人类从一系列推测类似的对象中识别异常对象的方式。一个子集的相异度是对应于序列中先于它的子集增量计算的。2)采用OLAP数据立方体方法异常分析的OLAP方法是在大规模的多维数据中采用数据立方体来确定异常区域。

基于偏差的异常分析技术

基于偏差的异常分析(deviation-based outlier detection)不采用统计检验或基于距离的度量值来确定异常对象,而是通过检查一组对象的主要特征来确定异常。该方法将异常定义为与给出的描述偏离的对象,即“偏差”(deviation)。

基于偏差的异常分析主要有两种技术:

1)序列异常技术:顺序地比较一个集合中的对象

序列异常技术(sequential exception technique)模仿了人类从一系列推测类似的对象中识别异常对象的方式。算法采用这样的机制:通过扫描数据集,当发现一个数据点明显不同于前面的序列,这样的点就被认为是异常数据。

方法中的相异度函数(dissimilarity function)不一定要求是对象之间的距离度量,它可以是满足以下条件的任意函数:当给定一组对象时,如果对象间相似,返回值就较小;对象间的相异度越大,函数返回的值就越大。一个子集的相异度是对应于序列中先于它的子集增量计算的。

给定一个包含n个对象的子集合{X1,…,Xn},可能的一个相异度函数是集合中对象的方差

其中X是集合中n个数的平均值。对于字符串,相异度函数可能是模式字符串的形式(例如包含通配符),它可以用来覆盖目前所见的所有模式。当覆盖Sj—1中所有字符串的模式不能覆盖在Sj中却不在Sj—1中的任一字符串时,相异度增加。(www.xing528.com)

平滑因子(smoothing factor):估算从原始数据集中去除一个子集合,带来的相异度的降低程度。

这个算法复杂度与数据集大小呈线性关系,获得了很好的计算性能。但是序列异常在概念上有缺陷,遗漏了不少真正的异常数据,对现实复杂数据效果不好。

2)采用OLAP数据立方体方法

异常分析的OLAP方法是在大规模的多维数据中采用数据立方体来确定异常区域。如果一个立方体的单元值显著地不同于根据统计模型得到的期望值,那么该单元被认为是一个异常,并采用可视化的形式来表示,例如背景颜色反映每个单元的异常程度。用户可以选择对那些标示为异常的单元进行钻取。一个单元的度量值可能反映了发生在立方体更低层次上的异常,这些异常在当前的层次上是不可见的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈