基于偏差的异常分析(deviation-based outlier detection)不采用统计检验或基于距离的度量值来确定异常对象,而是通过检查一组对象的主要特征来确定异常。该方法将异常定义为与给出的描述偏离的对象,即“偏差”(deviation)。
基于偏差的异常分析主要有两种技术:
1)序列异常技术:顺序地比较一个集合中的对象
序列异常技术(sequential exception technique)模仿了人类从一系列推测类似的对象中识别异常对象的方式。算法采用这样的机制:通过扫描数据集,当发现一个数据点明显不同于前面的序列,这样的点就被认为是异常数据。
方法中的相异度函数(dissimilarity function)不一定要求是对象之间的距离度量,它可以是满足以下条件的任意函数:当给定一组对象时,如果对象间相似,返回值就较小;对象间的相异度越大,函数返回的值就越大。一个子集的相异度是对应于序列中先于它的子集增量计算的。
给定一个包含n个对象的子集合{X1,…,Xn},可能的一个相异度函数是集合中对象的方差:
其中X是集合中n个数的平均值。对于字符串,相异度函数可能是模式字符串的形式(例如包含通配符),它可以用来覆盖目前所见的所有模式。当覆盖Sj—1中所有字符串的模式不能覆盖在Sj中却不在Sj—1中的任一字符串时,相异度增加。(www.xing528.com)
平滑因子(smoothing factor):估算从原始数据集中去除一个子集合,带来的相异度的降低程度。
这个算法复杂度与数据集大小呈线性关系,获得了很好的计算性能。但是序列异常在概念上有缺陷,遗漏了不少真正的异常数据,对现实复杂数据效果不好。
2)采用OLAP数据立方体方法
异常分析的OLAP方法是在大规模的多维数据中采用数据立方体来确定异常区域。如果一个立方体的单元值显著地不同于根据统计模型得到的期望值,那么该单元被认为是一个异常,并采用可视化的形式来表示,例如背景颜色反映每个单元的异常程度。用户可以选择对那些标示为异常的单元进行钻取。一个单元的度量值可能反映了发生在立方体更低层次上的异常,这些异常在当前的层次上是不可见的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。