挖掘高价值、低密度的数据对象是大数据的一项重要工作,甚至高价值、低密度常常被用于描述大数据的特征[2]。存在这样一类数据挖掘需求:将大数据集中的少部分具有相似性的对象划分到若干个组中,而大部分数据对象不在任何组中,也不和其他对象相似(图7-1)。将这样的群组称为特异群组,实现这一挖掘需求的数据挖掘任务被称为特异群组挖掘,由朱扬勇和熊贇于2009年首次提出[3]。文献[3]中,特异群组英文使用peculiarity groups,意指这些群组具有特殊性、异常性;而后,文献[4]强调这些群组中的对象具有强相似性、紧黏合性(即cohesive),因此,将特异群组挖掘问题的英文进一步深化,表达为cohesive anomaly mining,意指挖掘的特异群组不仅具有特殊性、异常性,且群组对象是强相似、紧黏合。并且,将这些对象形成的群组的英文改用abnormal groups[4]
(www.xing528.com)
图7-1 大数据集里的特异群组
大数据特异群组挖掘具有广泛应用背景,在证券交易、智能交通、社会保险、生物医疗、银行金融和网络社区等领域都有应用需求,对发挥大数据在诸多领域的应用价值具有重要意义。例如,在证券市场中,特异群组常常表现为合谋操纵(多账户联合操纵)、基金“老鼠仓”等。这些账户以获取不正当利益为目的,集中资金优势或利用信息优势,操纵交易量、交易价格,扰乱市场秩序。其中,合谋操纵的行为模式主要是集中资金优势、持股优势进行市场操纵,通过使用多个账户进行分工交易、分仓持有来合谋操纵市场价格和成交量,以诱导其他投资者;基金“老鼠仓”的行为模式是通过获悉基金即将或正在交易某投资标的,且该笔交易大幅影响投资标的价格的交易信息,以相近时刻、相同买卖方向用个人私有资产同步交易该投资标的,以获取收益。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。