在训练数据上验证了模型的可靠性后,利用模型生成的GBDT 的特征分类方法对更大量的商户交易数据进行黄牛侦测,并与专家规则抓取的结果对比,对侦测结果进行进一步的量化评估。
对更多样本约1 万家商户进行黄牛交易侦测,通过模型共侦测约3 000 家黄牛商户,并通过逻辑回归模型对商户黄牛严重程度进行了排序与打分,被侦测的黄牛商户对应的评分在0.56~1 之间;通过规则共判断出1 400 余家黄牛商户,其中有1 100 余家被本文模型预测侦测,覆盖率达到了78.5%。该结果说明模型预测的黄牛商户可以较好地覆盖规则预测结果,同时对时间序列影响的考虑使得模型有更好的扩展性。
进一步对只被模型或规则单方面侦测的结果进行抽样核查,结果显示只被模型侦测的黄牛商户(约1 900家)误侦测率较低,其中有80%有明显黄牛行为;只被规则判断侦测出的黄牛商户(约300 家)其中70%有明显黄牛交易行为,表明目前的评分模型还有进一步优化提升的空间。
对只被模型侦测的结果进行进一步分析可知,模型对于以下两类黄牛商户的侦测具有很好的扩展性。其中一类为交易行为被专家规则覆盖,但由于人工的阈值设定,被规则引擎漏侦测,如图6所示;另一类是未被规则所覆盖的黄牛商户,如图7 显示的该商户有意规避了连续相同金额交易的特征,但在历史营销活动时交易异常活跃,历史交易数据存在明显的波动,被本研究时间序列特征处理后的模型精准抓获。
图6 被专家规则特征覆盖但未被规则侦测
图7 未被专家规则覆盖的黄牛商户
根据模型侦测结果,对各正负样本通过模型抽取筛选的关键交易特征进行对比分析,对模型应用效果进行评估。
1)单时间周期内正负侦测标签数据的交易特征对比(www.xing528.com)
对比模型侦测的黄牛商户与正常商户,相关特征如表3所示,由表可知,在当前侦测周期内,黄牛商户涉及交易多为折扣优惠交易,其优惠额占比明显高于正常商户。同时,黄牛标签商户相关的交易持卡人异地分散程度高,存在严重的异地刷单现象,这些持卡人绑定的银行卡、设备和电话号较多,具有较大集群信息。由此可知,通过标签侦测的黄牛商户交易相关特征与正常商户有明显的差异,模型分类效果显著。
表3 黄金周一周内的交易特征对比交易金额及优惠对比
2)3 个月(12 个周期窗口)内的交易特征对比
由图8、表4 可知,根据历史折扣交易金额对比可知,黄牛商户获取的优惠金额数明显高于正常商户;他们有更明显的连续金额交易行为,其连续交易的笔数较多、交易时间间隔较短。
表4 连续金额交易片段对比
根据以上对比可知,黄牛商户在当前交易周期及历史交易周期内,均存在明显的黄牛交易行为特征,表明模型在考虑历史时间序列影响后,其侦测具有更广泛的覆盖度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。