首页 百科知识 国土安全:证据提取与情报分析系统

国土安全:证据提取与情报分析系统

时间:2024-01-18 百科知识 版权反馈
【摘要】:5.7.1“证据抽取与联系发现”项目美国“9·11事件”以后,美国国防部高级研究计划局试图借“证据提取与联系发现”研究计划帮助情报机构提早发现和防止恐怖主义。图5.32KOJAK系统结构图5.7.2“矩阵”情报分析系统“9·11事件”发生后,美国司法和情报单位经过艰苦的调查,最终从“9·11事件”中4架被毁飞机的乘客名单中排查出了劫机者。

国土安全:证据提取与情报分析系统

自“9·11事件”以后,数据挖掘技术得到了国外尤其是美国情报部门的重视,投入了大量的资金资助该技术在反恐情报分析中的应用研究。应用数据挖掘,可以从通讯记录(电话、邮件、网络聊天、论坛的发言等)、旅行记录、移民情况、宗教信仰等大量的情报信息中发现被怀疑对象间的关系模式,并与已掌握的典型模式进行比较分析,确定被怀疑对象是否为恐怖组织或成员,以及当前恐怖活动所处的阶段等,从而能够做到及时预警。目前,在国防高级研究计划局、国土安全部、联邦调查局等单位的资助下,美国多家科研单位正在开展相关研究,例如“恐怖活动信息预警项目”、“计算机辅助乘客筛选系统”、“多状态反恐信息交换领航员计划”等,并进行了一定规模的初期实验。

5.7.1 “证据抽取与联系发现”项目

美国“9·11事件”以后,美国国防部高级研究计划局试图借“证据提取与联系发现”(Evidence Extraction and Link Discovery,EELD)研究计划帮助情报机构提早发现和防止恐怖主义。这个计划的目的是大力发展能够在海量分类的、非分类的数据源中自动发现、抽取和链接稀少证据的技术和工具。“证据抽取与联系发现”项目主要涉及三个方面的子任务:证据抽取(Evidence Extraction)、联系发现(Link Discovery)、模式学习(Pattern Learning)。证据抽取的任务是从非结构的自然语言文档中抽取获得结构化的证据。联系发现是对大量的关系型数据进行分析,从中识别出潜在威胁性活动的已知的、复杂的、多关系的模式。联系发现的数据一部分来自于证据抽取,其他的来自于已有的关系型数据库。模式学习的目的是自动学习潜在威胁性活动的新关系模式。EELD使用这些技术和工具来提高侦察能力,及早发现危害国家安全的不对称威胁,在这些松散的小组还没有开始袭击之前挖掘出他们活动的蛛丝马迹。EELD最终要实现的是从多类别的实体和多类别的联系中学习模式的能力。

这里以简单的洗钱调查为例,说明EELD中应用联系发现的方法。“公司A是制造商/销售商”、“公司A购买设备/产品”和“公司A卖出设备/产品”等单独的证据都不能够反映是否存在洗钱犯罪。但是如果综合考察各项的组合及各项之间的联系,比如“公司A是制造商,A购买了设备,接着卖出产品”,可以看出这可能是一个正常的商业行为;又比如“公司A是制造商,A高价购买设备,接着低价卖出设备”,则可能是一个可疑的异常商业行为。当然,这只是一个简单的实例,具体调查中可能涉及多个公司和多个看似无关的商业事务,从中发现可疑的公司团体和复杂的洗钱方式。通过设计联系发现系统,自动识别和推测出各种不同的可疑商业行为,而不是仅仅调查孤立的证据和简单的事务,这样可以有效地进行洗钱证据的调查。

目前,在EELD中有多种改进的关联数据挖掘技术用于联系发现,包括归纳逻辑程序设计方法(Inductive Logic Programming,ILP),还有:①基于图论的关联学习,特别是其中的SUBDUE算法(Substructure Discovery Using Minimum Description Length and Background Knowledge)已被应用于EELD;②概率关联模型,把一阶谓词和贝叶斯网络相结合;③关联特征构造,目前已将运用此方法的PEOXIMITY系统应用于联系发现的研究工作。

KOJAK是一个典型的联系发现系统,它是由Adibi等人设计,是EELD项目的成果。KOJAK系统结合了知识表示和推理的统计聚类技术与数据挖掘领域的分析技术,其目的是从大型证据数据库中找到隐藏的组队(Group)及其成员。KOJAK系统将存储在关联数据库中的首要证据和次要证据作为输入,产生组队假设(例如,组队成员列表)。该系统主要由组队产生器、相互信息模型两个模块组成,如图5.32所示。

图5.32 KOJAK系统结构图

5.7.2 “矩阵”情报分析系统

“9·11事件”发生后,美国司法和情报单位经过艰苦的调查,最终从“9·11事件”中4架被毁飞机的乘客名单中排查出了劫机者。然而,最先锁定疑凶的是美国佛罗里达州的民间人士——汉克·阿舍。他用于检索的程序被命名为“多条件反恐信息交换系统(Multistate Anti-terrorism Information Exchange)”,简称“矩阵(Matrix)”[45]。它拥有20个工作站,每个工作站都有一台电脑与由数千个英特尔主板构成的“矩阵”超级计算机相连,用于相关的情报分析。

“矩阵”情报分析处理系统的结构采用了专家系统(ES)的形式,专家系统的特色在于它的知识库和推理机构。其分析系统的结构如图5.33所示。

图5.33 “矩阵”情报分析系统

在图5.33中,知识库存放着专家对情报分析的知识,确定证据权重、关联程度等;数据库存放着收集到的基本事实和情报结论;控制机构负责控制和推理。

在“矩阵”情报分析系统中,采用贝叶斯分析推断的一般模式:先验信息+样本信息→后验信息,表示为π(θ)+p(x/θ)→π(θ/x)。此处的+表示为Bayes的作用。其分析推理的模式如图5.34所示。

图5.34 “矩阵”情报分析的基本模式

先验分布反映了试验前对总体参数分布的认识。在获得样本信息后,人们对这个认识有了改变,其结果就反映在后验分布中,即后验分布综合了参数先验分布和样本信息。由此可以看出,矩阵情报分析是一个“从有到有”的过程,且结果清楚自然,符合人们的思维习惯——根据所获得的信息修正以前的看法,不一定从零开始。从本质上说,这种方法概括了一般人的思维、学习过程。

在理论上,统计推断分析是在不掌握完全信息条件下的推断。也就是说,所掌握的信息还不足以决定问题的唯一解,这就为贝叶斯(Bayes)方法用于情报分析提供了可能性。基于“矩阵”系统的分析特征,其推断分析符合统计推断分析的特点,其基本算法为Bayes方法和更新的Bayes方法。

Bayes分析方法用于情报分析可以较好地解决主观缺陷,特别在解决某一领域情报分析问题时,效果非常明显。Bayes分析完整的表述为:假设事件h1,h2,…,hi,…,hn互不相容且构成一个完全事件集合,已知它们的概率p(hi),i=1,2,…,n。观察到某种证据d与h1,h2,…,hi,…,hn相伴随而出现,且已知条件概率p(d|hi),求在新证据d出现之后事件hi的概率,即p(hi|d)为:

其中,p(hi),i=1,2,…,n称为先验概率(基础概率);p(hi|d)称为后验概率。运用于情报分析的Bayes定理表明对于某一特定时间的情报分析结果不仅依赖于已知的条件概率,也依赖于该事件发生的基础概率。

在“9·11事件”中用“矩阵”系统进行分析时,劫机者似应满足以下条件:此人在事件发生前近一两年内才来到美国,有宗教背景,并因此在这个时间段里产生记录——电话账单、水电费单和驾照。相反,如果一位原籍中东的人士在美国定居10年,并已获得选举权,则不在怀疑对象之列。将这些证据逐步运用Bayes分析方法融入分析系统,逐步得出分析结论。

在“矩阵”系统的检索程序中,数据库中凡满足上述某些条件的人都会得到一个“0”以上的分值。最后,在数亿个人名中,有分值的只有大约12万人。其中419人得分很高,表明嫌疑最大。“9·11事件”发生后的2天里,阿舍在位于佛罗里达州博卡拉顿的家中,利用电脑对相关数据进行综合分析,在“9·11事件”发生后的第二天晚上8点终于分析出可能的劫机者。此后,阿舍将自己的分析方法编写成程序。直到第三天中午,阿舍终于可以将其整晚编写出来的程序在多年积累的海量电子数据库中集中运行,在收录的约4.5亿人的资料中进行检索。通过使用“矩阵”,阿舍检索出了此人所有用过的地址银行记录、机动车记录、驾照记录、飞机驾驶执照、借贷历史、邻居和房东的名字以及上述所有人的数码照片。

5.7.3 GeoNODE情报处理软件

美国MITRE公司开发的情报处理软件——GeoNODE通过应用自然语言理解技术可以对下述一段新闻进行分词,提取出该事件的主要概念(相同颜色色块中的文字表示同一概念):“who did what to whom,where and when”,如图5.35所示。

图5.35 对新闻分词并提取事件概念

经过对该事件的概念提取后,GeoNODE应用格式化语言XML,将该新闻所描述的情报表述为如下的结构化信息,并存储到数据库以供检索及进一步分析,如图5.36所示。

图5.36 新闻事件的XML描述

参考文献

[1]丁鹭飞.雷达原理[M].3版.西安:西安电子科技大学出版社,2002

[2]保铮,邢孟道,王彤.雷达成像技术[M].北京:电子工业出版社,2005

[3]刘宏伟,杜兰,袁莉.雷达高分辨距离像目标识别研究进展[J].电子与信息学报,2005,27(8):1328-1334

[4]陈凤,杜兰,刘宏伟,等.一种利用强度信息的雷达HRRP自动目标识别方法[J].电子学报,37(3):459-463

[5]袁莉,刘宏伟,保铮.MUSIC超分辨距离像在雷达目标识别中的问题[C].第九届全国雷达学术年会论文集,2004:369-372

[6]Jacobs S P,O’sollivan J A.Automatic Target Recognition Using Sequences of High Resolution Radar Range-profiles[J].IEEE Trans.On AES,2000,36(2):364-380

[7]边肇祺,张学工.模式识别[M].2版.北京:清华大学出版社,2000

[8]Johan A K,Suykens T.Nonlinear Modeling and Support Vector Machines[C].IEEE Instrumentalism and Measurement Technology Conference,May,2001

[9]Vincent P,Bengio J.Kernel Matching Pursuit[J].Machine Learning,2002 (48):165-187

[10]秦先祥,陈华.运动目标识别与跟踪的模板匹配算法改进及仿真研究[J].广西科学院学报,2008(04):367-375(www.xing528.com)

[11]Neri A,Colonnese S,Russo G,et al.Automatic Moving Object and Background Separation[J].Signal Processing,1998,66(2):219-232

[12]罗志升,高晓蓉,王黎,等.序列图像中运动目标检测与跟踪方法分析[J].现代电子技术,2009,32(11):125-128

[13]肖丽君.基于对称差分算法的视频运动目标分割研究[D].长春:吉林大学,2007

[14]Horprasert T,Harwood D,Davis L S.A Statistical Approach for Real-time Robust Background Subtraction and Shadow Detection[C].IEEE International Conference on Computer Vision,1999:1-19

[15]Barron J,Fleet D,Beauchemin S.Performance of Optical Flow Techniques[J].International Journal of Computer Vision,1994,12(1):42-77

[16]韩崇昭,朱洪艳.多传感器信息融合与自动化[J].自动化学报,2002,28:117-124

[17]Hall D L,James L.An Introduction to Multisensory Data Fusion[C].Proceedings of IEEE,1997,85(1):6-23

[18]Bedworth M,O’Brien J.The Omnibus Model:A New Model of Data Fusion[J].IEEE Transactions on Aerospace and Electronic Systems,2000,15(4):20-26

[19]White F E.A Model for Data Fusion[C].Proceedings of the 1st National Symposium on Sensor Fusion,1998,2:5-8

[20]Heistrand D,et al.An Automated Threat Value Model[C].Proceedings of the 50th MORS,March,1983.

[21]徐晓滨,陈丽,文成林.一种基于多源异类信息统一表示的多传感器数据融合算法[J].河南大学学报:自然科学版,2005,35(3):67-71

[22]林嘉宜,彭宏,谢嘉孟,等.不确定时态信息表示的统一模型[J].计算机应用,2005,25(3):611-614

[23]杨景辉,张继贤,李海涛.遥感数据像素级融合统一模型及实现技术[J].中国图像图形学报,2009,14(4):604-614

[24]蒙应杰,董李英,郭凯.本体技术在异构信息建模中的应用研究[J].甘肃科学学报,2005,17(1):69-72

[25]李新德,黄兴汉,王敏,等.基于信息赋值技术的统一融合框架研究[J].华中科技大学学报,2007,35(1):46-49

[26]王志胜,甄子洋.非线性信息融合估计理论[J].宇航学报,2009,30(1):8-19

[27]Pawlak Z.Rough Sets[J].International Journal of Computer &Information Sciences,1982,11(5):341-356

[28]Kryazkiewiez,M.Rules in Incomplete Systems[J].Information Sciences,1999 (113):271-292

[29]Stefanowski J,Tsoukial A.Incomplete Information Tables and Rough Classification[J].Computational Intelligence,2001,17(3):545-566

[30]Petrovic V S,Xydeas C S.Gradient-based Multiresolution Image Fusion[J].IEEE Transactions on Image Processing,2004,13(2):228-237

[31]Clark J J,Yuille A L.Data Fusion for Sensory Information Processing Systems[C].The Kluwer International Series in Engineering and Computer Science,Robotics:Vision,Manipulation and Sensors.Boston:Kluwer Academic Publishers,1990

[32]Nelson C L,Fitzgerald D S.Sensor Fusion for Intelligent Alarm Analysis[J].IEEE Transactions on Aerospace and Electronic Systems,1997,12(9):18-24

[33]Intaek Kim,Vachtsevanos G.Overlapping Object Recognition:A Paradigm for Multiple Sensor Fusion[J].IEEE Transactions on Robotics and Automation Magazine,1998,5(3):37-44

[34]严怀成,黄心汉,王敏.多传感器数据融合技术及其应用[J].传感器技术,2005,24(10):1-4

[35]Zadeh L A.Review of Shafer’s“A Mathematical Theory of Evidence”[J].AI Magazine,1984,5(3):81-83

[36]张燕军,周厚强,刘明军,等.发动机故障多级融合诊断研究[J].计算机测量与控制,2009,17(10):12-15

[37]周皓,李少洪.支持向量机与证据理论在信息融合中的结合[J].传感技术学报,2008,21(9):1566-1570

[38]Hearst M.Untangling Text Mining[C].Proceedings of Annual Meeting of Association of Computational Linguistics,1999

[39]Kupiec J,Pedersen J,Chen F.A Trainable Document Summarizer[C].Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development Information Retrieval,1995

[40]Miller G.WordNet:A Lexical Database for English[J].Communications on ACM,1995,38(11):39-41

[41]Nagasaka A,Tanaka,Y.Automatic Video Indexing and Full-video Search for Object Appearance[C].Proceedings of the 2nd Working Conference on Visual Database Systems,1991:119-133

[42]Hampapur A,Weymouth T,Jain R.Digital Video Segmentation[C].Proceedings of the 2nd ACM Int.Conf.on Multimedia,1994:357-364

[43]Leinhar R.Automatic Text Recognition for Video Indexing[C].Proceedings of the 4th ACM International Multimedia Conference,1996:11-20

[44]Melnik S,Garcia H,Rahm E.Similarity Flooding:A Versatile Graph Matching Algorithm and Its Application to Schema Matching[C].Proeedings of the 8th Int.Conf.on Data Engineering,2002:117-128

[45]高庆德,程英.美国“矩阵”情报分析系统的破解研究[J].计算机工程,2008 (9):225-226

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈