一般而言,离群点可以分成三类:全局离群点、情境(或条件)离群点和集体离群点。
1.全局离群点
在给定的数据集中,一个数据对象是全局离群点,如果它显著地偏离数据集中的其他对象。全局离群点是最简单的一类离群点,大部分的离群点检测方法都旨在找出全局离群点。
2.情境离群点
在给定的数据集中,一个数据对象是情境离群点,如果关于对象的特定情境,它显著地偏离其他对象。情境离群点又称为条件离群点,因为它们条件地依赖于选定的情境。一般地,在情境离群点检测中,所考虑数据对象的属性划分成两组:
情境属性:数据对象的情境属性定义对象的情境。一般为静态属性变量,如信用卡欺诈检测中,不同年龄、不同地区的人消费情况是不同的,先按照静态属性将人群大致分类,再检测每一类的离群点,会得到更好的结果。(https://www.xing528.com)
行为属性:定义对象的特征,并用来评估对象关于它所处的情境是否为离群点。在上述例子中,行为属性可以是消费金额、消费频率等。
情境离群点分析为用户提供了灵活性,因为用户可以在不同情境下考察离群点,这在许多应用中都是非常期望的。
3.集体离群点
给定一个数据集,数据对象的一个子集形成集体离群点,如果这些对象作为整体显著地偏离整个数据集。如一家供应链公司,每天处理数以千计的订单和出货。如果一个订单的出货延误,则可能不是离群点,因为统计表明延误时常发生。然而,如果有一天有100个订单延误,则必须注意。这100个订单整体来看,形成一个离群点,尽管如果单个考虑,它们每个或许都不是离群点。你可能需要更详细地考察这些订单,搞清楚出货问题。
与全局和情境离群点检测不同,在集体离群点检测中,不仅必须考虑个体对象的行为,而且还要考虑对象组群的行为。因此,为了检测集体离群点,需要对于对象之间联系的背景知识,如对象之间的距离或相似性测量方法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
