行为数据反映了人们的各种行为方式,这些行为通常是个体对象主动的行为(如股票交易、看病就医、通勤出行、购物等),一般情况下,行为对象具有个体性。因此,如果有两个以上(含两个)的对象长时间存在共同的行为,说明这些对象具有群体组织性,有别于通常大部分对象的个体性,这些群体是异常现象。特异群组挖掘就是在众多行为对象中找到那些少数对象群体,这些行为对象具有一定数量的相同(或相似)行为模式,表现出相异于大多数对象而形成异常的群组,目前已有相当的应用。
1)证券市场操纵行为挖掘
老鼠仓“马乐案”中,原博时基金经理马乐利用任职优势,与他人共同操作其亲友等开立的一批账户(关系账户自然人赵秋怡、疑似隐匿于银河证券客户信用交易担保证券账户等),先于或同步于其管理的博时基金多次买入、卖出相同个股(与博时精选基金相关的“众生药业”、“迪威视讯”等多只股票),如图7-4所示。这些账户隐蔽性强,在过程中没有散发传播虚假消息,也没有可供披露的提升上市公司价值的经营活动等,难以甄别,查处成本高。
图7-4 “老鼠仓”可疑账户及操纵的股票(数据和图来源于参考文献[22])
然而,这批账户通常在多天具有共同的股票交易行为,且异于其他大多数账户,是一种异常现象,形成特异群组。因此,特异群组挖掘技术将有助于发现这些可疑账户。
2)医疗保险中的保费欺诈行为挖掘[3]
我国基本医疗保险中,参保人使用医保卡就医发生费用时,由医保基金支付医保范围内的费用,超出医保范围的费用才需要个人现金支付。为保证医保基金的正常安全运转,医保机构对参保人医保消费行为有一定的限制,如参保人只能消费与病情和处方相关的药品,而不允许超范围配药,个人医保费用只允许用于本人就诊、购药等。由于每张医保卡的使用限制,一种典型的用卡欺诈行为是“医保卡套现”,即嫌疑者使用多张医保卡获得尽可能多的药品,然后卖出获取利益。正常情况下,个人使用医保卡就医是个体行为,因此嫌疑者使用一批医保卡(即多个医保卡账户)多天在多个或同一个医院进行刷卡购买药品的行为是一种异常现象。医保监督局希望能够找到这样的欺诈行为账户予以监管。图7-5是特异群组挖掘算法在某医保基金风险防控中的应用展示。图7-5a展示了7个特异群组,并给出了每个特异群组在多少天(“群组长度”)有一致的行为,“包含卡数”表示该群组中的特异对象;图7-5a的右下方还给出了有特异群组出现的一些医院示例。图7-5b将第一群组中的5个特异对象展开(考虑到隐私,已隐去身份证号,并且医保卡号和姓名也做了一定的脱敏处理)。图7-5b也展示了这些特异群组所持医保卡一般套现的药品名称和费用。
图7-5 医疗保险中的保费欺诈行为挖掘
3)智能交通监控应用中的驾车犯罪团伙挖掘
以汽车为作案工具的犯罪案件中,一种常见的情况是多辆汽车共同参与作案。作案车辆为熟悉作案地点和行程,通常会提前准备,在多天内共同出现在多个地点,随着智能交通技术的发展,这些信息都将由高清摄像头识别记录。由于城市道路上的车辆行驶以个体行为为主,因此这种有一批车辆在多天共同出现在多个监控点的行为是一种异常现象。警察机关希望能够从监控数据库中挖掘到这些车辆,为案件侦破提供线索[3]。图7-6是特异群组挖掘算法在某公安分局关于跟车行为检测中的应用展示,通过挖掘可以得到在多天共同出现在多个监控点的异常车辆群组(考虑到隐私,图7-6中的车牌数据也进行了一定的脱敏处理)。
(www.xing528.com)
图7-6 公安系统跟车行为检测
4)电子商务交易中的信誉欺诈挖掘
大多数在线交易平台(如eBay和淘宝)都已建立交易双方的信用评分系统。对卖家而言,更高的信用等级将带来更多买家,然而,从低等级到高等级需要经过较长时间积累大量的交易。于是,一些卖家采用“刷信用”方式赚取高等级的信用评分。提供“刷信用”服务的嫌疑者(甚至是专门的“刷信用”公司)通常申请一批账号与所服务卖家事先商定,在不进行实际交易的方式下给出好的信用评分。同时,这批账号又为其他多个卖家“刷信用”。相比所有在线客户,“刷信用”账号数量是相对较少的。因此,如果一组账户总是给大量相同的卖家好的信用评分,那么这组账户是可疑的。发现这些可疑账户将为交易平台信誉欺诈检测提供帮助。
5)社会网络中的小群体发现
Leskovec等人发现社会网络中,社区变得越大,社区成员的交流却变得更少[23]。因此,在这样庞大的社会网络中识别交流更加密集的小社区变得更有意义,虽然他们仅仅包含非常少的节点,即真正具有成为社区趋势的对象数量相对整个社会网络的节点而言是少部分。在大规模的社会网络中挖掘小社区群体属于特异群组挖掘问题。
6)论文抄袭检测
大多数论文都是不相同的,但是仍然存在一些抄袭的论文。例如,几篇论文抄袭同一篇,或者A抄袭B,B抄袭C,甚至出现专门的论文代写公司,这些抄袭的论文事实上构成一系列的特异群组。然而,现有的similarity join方法[24]目的只是发现抄袭论文的对象对,而不能发现多篇抄袭论文形成的特异群组。
除了在社会行为科学研究中特异群组挖掘具有广泛的应用背景,科学研究领域(如生命科学研究)产生的科学数据也有着重要的价值。
7)在生命科学研究中的特异群组挖掘
生物学家总是希望对实验收集的基因或蛋白质序列进一步分析,如识别蛋白质序列所属的家族。聚类是常用的方法,然而这些方法总是有大量的假阳性。这是因为,在一些实验收集的序列数据集中,仅仅少部分序列可能是相似的。尽管如此,传统的聚类方法将大部分序列划分到簇中。例如,Zheng等人指出许多人类转录因子(transcription factor, TF)仅仅能调控几个甚至一个下游基因[25],如TF adenosine deaminase domain-containing protein2( ADAD2)仅仅调控下游基因MUC5AC,而actin filament-associated protein 1 -like 1 (AFAP1L1)仅仅调控基因CAV1。因此,如果一个生物学家收集一个基因表达数据集,大多数下游基因被不同的TF调节,而仅仅少部分由相同的TF调节。当研究调控机制时,发现少部分被相同TF调控的基因形成的簇更为合理,而不是聚类所有的数据对象。文献[4]对特异群组挖掘算法进行了性能评估实验,对比的算法主要是经典的聚类算法DBSCAN和BBC算法(详细说明请参见文献[4])。实验结果表明(图7-7),从效率上看,特异群组挖掘算法时间随着数据对象数量的增长变化不大,具有较高的可伸缩性,而其他算法时间增长较快;在有效性方面,可以看到在相似对象密集的情况下(即τ的值越小的情况下),有效性越高,这进一步说明,特异群组挖掘算法对于高价值、低密度的数据集具有更好的性能。
图7-7 在生物数据集上特异群组挖掘算法性能[4]
此外,在公共安全方面发现突发群体事件,在社交网络大数据中发现影响安全、和谐网络环境的特异群体等都是大数据特异群组挖掘的应用需求。通过对特异群组挖掘与利用,可以减少欺诈行为、提高监管力度、提升公共安全管理和应急响应能力、帮助政府节省开支。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。