一、传染病监测数据系统
信息技术的进步极大地促进了传染病监测与防控的发展,以数据库系统为核心的数据自动采集与分析系统在全世界已经普及,极大地提高了传染病监测的自动化水平与控制干预的效率。目前,我国已经建立起完整的覆盖全国的三级疾控体系及以公共卫生预警平台和疾病卫生数据库为核心的疾控数据采集系统,在长期运行的过程中积累了大量的历史数据。有效地管理和利用这些宝贵的数据资源,对于研究传染病的时空变化特征,指导疾病预防控制决策等具有重要意义。但是随着时间的推移,面对传染病监测与防控相关数据爆炸式的膨胀,以传统的操作型数据库为主的存储、管理和分析方式已逐渐无法满足海量数据的实际应用需求,人们要求计算机能够高效地处理海量日常数据的同时,更多地参与数据分析和决策支持,最大限度地满足疾病监测与防控的及时性与准确性,解决整个系统内由于信息不平衡引起的“信息孤岛”、数据冗余等问题。
数据库设计不是为查询和数据分析而优化的,查询分析服务器和业务处理服务器使用同一个数据库,复杂查询分析影响业务系统的性能;现有系统缺乏多维分析、即席分析、钻取、切片等功能,数据库设计难以满足数据挖掘的需要;分析报表为固定格式定制报表,增加分析报表需要人工手工编程,效率低下,难以满足疾控机构和卫勤管理机关对即时、灵活的数据分析和决策支持的需求。
数据仓库是体系结构化数据存储环境的核心,是决策支持系统处理的基础,由于数据仓库技术在面对海量数据时,具有优秀的集成特性、强大的多维分析、灵活的即席查询、直观的多维视图、高效的分析过程等特点,能够更好地支持管理决策,正在被越来越广泛地应用于商业决策、生物医学研究、资源管理、海洋大气分析等领域中。特别的,在疾病监测与防控领域,数据仓库技术也受到了越来越多的重视。美国等发达国家有数据仓库用于疾病监测系统的案例,国内虽已经开始关注数据仓库用于疾控领域,但是少有成熟案例,军内还没有成规模的实用先例。
(一)数据仓库技术简介
美国著名信息工程学家W.H.Inmon将数据仓库定义为:数据仓库是面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。简单来说,数据仓库是具有以下特点的支持决策制定过程的一组数据。
1.面向主题性
数据仓库的构建依赖于特定的概念,比如客户、产品等,其数据是围绕特定主题组织起来的。相对的,操作型数据库依赖于特定的应用。
2.集成性
数据仓库利用多个数据源,为所有数据提供一个统一的视图。创建数据仓库并不需要添加新信息,但需要重新安排整理所有的信息。
3.非易失性
数据仓库反映的是历史数据的内容,而不是日常事务处理所产生的操作性数据,进入数据仓库的数据是极少甚至根本不修改的。数据仓库通常以批量方式载入与访问,其数据在进行装载时并不进行一般意义上的数据更新,而是以静态快照的格式进行的。当产生后继变化时,一个新的快照记录就会写入数据仓库,这样数据仓库中就保存了数据的历史状况。
4.时变性
时变性是指数据仓库中的每个数据单元只是在某一时间是准确的。数据仓库定期使用操作型数据库更新数据,是不同时间的数据集合,要求数据仓库中的数据保存时限能够满足进行决策分析的需要,并且均要标明该数据的时间属性。
上述特点使数据仓库从基础数据组织方式到系统应用目的都与传统操作型数据库有着本质的区别。
数据仓库的主题(Subject)、粒度(Granularity)、维度(Dimension)是数据仓库技术中的关键概念。主题是一个抽象的概念,是在较高层次上将信息系统中的数据综合、归类并进行分析利用的抽象,面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的各项数据,以及数据之间的联系;粒度指的是数据仓库中数据单元的细节成都或综合程度的级别,数据仓库环境中粒度的设计会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能回答的查询类型,粒度级别越低,查询范围越广泛,反之,粒度级别越高,查询能力越弱;维度是范围有限的主题属性,描述了主题的分析坐标,一般情况下主题具有多个定义了它最小表示粒度的维度。(www.xing528.com)
传染病监测与防控主要通过一系列的疾病预防控制机构之间的协作来实现,因此需要信息的广泛共享和有效集成,采用数据仓库、联机分析处理(On-LineAnalytical Processing、OLAP)数据挖掘技术已成为疾病预防与控制机构开发疾病预控信息系统的趋势。
各级疾病预防控制中心作为疾病监测与防控的核心部门,通过数据仓库收集汇总全国或当地的疾病报告数据,对数据进行分析整理,而后将这些数据和分析报告提供给相关研究机构与决策部门。医院等临床机构利用数据仓库技术构建医院临床信息系统,收集整理临床疾病数据,实现院内感染分析与控制、关键疾病指标监测、医疗流程管理等功能,提高工作效率,同时为疾病预防与控制中心收集并上报临床疾病报告数据。居民健康档案包括居民从出生到死亡全过程的健康信息数据,涵盖家庭个人基本健康信息、妇幼保健、疾病预防、疾病管理、医疗服务等内容,可全面详实地记录了居民的传染病发病情况。通过构建传染病监测数据仓库,能够有效地将上述各部门整合,打破数据“壁垒”,得到统一的传染病监测数据。通过对这些数据深入分析,可得到传染病发病规律、传染病暴发趋势、传染病病源地分布等,为传染病暴发预测和早期预警提供决策参考。
目前,传染病监测数据仓库,主要用以支持疾病监测预警和传染病防控科研等方面工作。
二、疾病监测预警
传统的公共卫生实践涉及健康状态评价、起因与风险因素分析、高效人工干预的开展以及高效人工干预所需系统的实现。疾病监测数据是所有这些工作的基础。
自2000年起,美国国家疾病预防控制中心开始构建国家电子疾病监测系统(National Electronic Disease Surveillance System,NEDSS),作为收集传染病报告等公共卫生数据的标准手段。在当时,美国各州有超过100个用来收集公共卫生数据的各类系统,这些系统使用各自不同的数据收集和传输方式,由此带来的问题是十分明显的,这些系统给了健康管理部门非常大的负担,导致各个系统运行的效率都不令人满意,常常在一个事件发生后的数周甚至数个月才能报告到上级健康管理部门。NEDSS作为一个统一的完整的大系统由此产生,用来代替各个独立运行的小系统,疾病预防与控制数据仓库是NEDSS的核心组件之一。该数据仓库整合不同数据来源的基础数据,集成了多个数据源,为数据分析提供了一个具有一致数据结构的数据集合,存储多年积累的超过5006B的疾病预防与控制监测数据。另外,依靠数据仓库技术实现的电子实验室报告(ElectronicLaboratory Reporting,ELR)系统,帮助实验室依据HL7(Health Level 7)信息格式和实验室测试标准化的编码体系,向州或者当地健康部门传输传染病报告,实现了自动化的安全的传染病报告上报,以代替人工的数据收集工作。实际应用中,对于肺结核、水痘、麻疹以及各种类型的流感等通用公共卫生病例,该数据仓库每个月都要实时处理分析超过200万例的病例报告,实现了面向整个国家的疾病监测管理,同时还为发病率与死亡率周报(Morbidity and Mortality Weekly Report,MMWR)提供基础数据与分析报告支持。
为了改革整个健康服务体系,提高健康服务的质量与效率,美国退伍军人事务部(United States Department of Veterans Affairs,VA)计划为整个退伍军人医疗数据系统的标准化、合并与精简等开发一整套高性能的商业智能系统,即VHA(Veterans Health Administration)Corporate Data Warehouse。到目前为止,已经开发了共同数据仓库(Corporate Data Warehouse,CDW)和4个区域数据仓库(Regional Data Warehouse,RDW1-4),其中CDW是其业务管理、健康服务系统改革的核心,RDW主要作为实时数据收集系统,以更有效地管理整个健康服务体系,更准确地提供居民健康数据。这套商务智能系统为卫生突发事件应急响应等提供了基础,比如Hillol Bala。等通过对数据仓库的扩展设计,实现了健康管理的灾难响应解决方案,以期在面对大范围灾难时健康管理部门能够快速响应并为民众提供更好的服务。
美国国家疾病预防控制中心与芝加哥市政府相关部门以及芝加哥相关科研机构开展了深入的合作,帮助公共卫生机构整合全市卫生信息,将政府部门与医院以及科研机构紧密结合起来,在不同层次开发了多个数据仓库系统。在核心部门,芝加哥公共卫生部(The Chicago Department of Public Health,CDPH)开发实现了芝加哥健康事件监测系统(Chicago Health Event Surveillance System,CHESS),该系统作为一个疾病监测与响应信息系统,收集处理芝加哥各医院以及实验室的传染病报告,将其汇总至CDPH数据仓库,对整个芝加哥的疾病暴发情况进行监测管理。在医院层次,美国国家疾病预防控制中心与芝加哥市政府相关部门、芝加哥拉什医学院合作开发了芝加哥耐药性项目(the Chicago Antimicrobial Resistance Project,CARP)电子传染病(electronic Infectious Disease,eID)临床数据仓库,旨在更好地进行医院传染病控制,并为CH ESS提供数据支持。在实际应用中,该数据仓库通过对于流行病微生物数据的自动识别,实现潜在传染病监测;通过分析分类血液培养数据,实现血液感染(Blood Stream Infections,BSI)指标监测。通过这些信息能够更深入的对医疗过程进行干预,解决院内传染病防控的挑战,进一步实现医院内疾病监测与报告的自动化。
荷兰伊芳拉兹马斯医疗中心自2000年起着手开发数据仓库,逐步迭代开发了数个数据集市。2005年起,在源讯公司(Atos Origin)的支持下,立项开发了重症监护病房(Intensive Care Unit,ICU)临床信息系统数据仓库,通过对数据仓库数据的深入分析,更好地实现了院内传染病监测以及医疗工作的质量管理等工作。近十几年来,医院临床数据仓库技术得到快速推广,包括约翰霍普金斯大学医学院等,为了管理临床数据和促进绩效管理,已经建成或者正在建设数据仓库系统。
上述例子是欧美等发达国家利用数据仓库技术进行疾病监测管理的缩影。通过在国家、州、医院等各个层次建立数据仓库,对疾病进行监测管理,同时将各相关机构整合到一起,搭建一个分层管理、信息共享的组织体系,大大地提高了疾病监测管理能力与工作效率。
在我国,数据仓库技术作为一个优秀的工具也同时受到了关注。江苏大学王晓冰等研究了电子健康档案数据仓库的模型设计、区域卫生数据集成,构建了电子健康档案数据仓库模型,为区域卫生信息系统数据集成提供了一个统一的平台,以满足区域内各类卫生机构、卫生行政管理机构对于疾病管理、医疗服务管理等信息的需求。武汉理工大学沈金等建立了一个基于多维数据模型的疾病预防控制数据仓库。北京大学人民医院自2009年全面开展数据仓库项目,建立了统一的数据平台,系统整合了住院HIS、门诊HIS、EMR、LIS以及人事数据,形成多个数据仓库系统,用以辅助疾病管理、门诊分析等具体业务。南京军区福州总医院在“军字一号”的基础上设计并开发了医院数据仓库系统,整合院内各个部门的数据,提高各个工作流程的效率。中国疾病预防控制中心正在建立数据仓库,为覆盖全国的计划免疫、传染病等业务的直报系统的数据管理和分析提供统一平台。
三、疾病防控研究
数据仓库的数据挖掘能够为疾病相关科学研究提供有力支持,主要应用有疾病发病原因及传播分析、疾病“三间”分布分析、疾病聚类关联分析、实验室数据报告数字化等。
美国西北大学使用电子健康档案数据开发了数据仓库系统,对泌尿科、内科、急诊收治的3000例以上的尿培养阳性的患者进行了仔细分析,以指导对患者的治疗方法,并指出将健康档案与数据仓库技术相结合,能够很好地改善患者管理状况,降低医疗成本。美国南佛罗里达大学公共卫生学院与工商管理学院共同开发的CATC H数据仓库,为社区健康状态的度量和评价提供了解决方法和框架,设计和实现了健康管理信息数据仓库,对将健康档案数据转化为本地社区决策支持系统的技术挑战进行了深入的研究。美国国家疾病预防控制中心数据仓库为国家相关实验室提供传染病相关分析报告,还为具有数百万用户的发病率与死亡率周报(Morbidity and Mortality Weekly Report,MMWR)提供基础数据支持,为实验室科研项目提供有力数据支持。华盛顿大学的研究机构针对美国CDC PHIN(The Public Health Information Network)系统,描述了其症候群监测信息系统架构的基础组件,讨论了现有和潜在的数据集成方式,PHIN提出的生物医学数据分类集成软件系统框架,对于症候群监测方法的研究和症候群监测系统架构的优化都具有一定意义。Polly Hitchcock Noel等利用VHA Corporate Data Warehouse存储的6个行政地区的人体测量数据,对肥胖诊断与管理、肥胖并发症等进行了深入探索。
在我国,疾病监测数据仓库相关研究起步较晚,但是近年来得到较快发展,将数据仓库技术应用到疾病预防与控制领域的研究不断深入,研究者对数据模型的设计,数据挖掘算法的优化,以及疾病关联性分析、发病因素分析方法等方面进行了探索。武汉理工大学沈金通过关联分析尝试挖掘疾病之间的关联,取得了较好效果。长春工业大学周博等探讨了数据仓库与数据集市间的模型关系,具体设计了心血管疾病数据集市的构建模型。重庆医科大学李明强等分析研究了健康档案数据仓库的多维数据模型设计,将健康档案数据划分为5个主题域,31个子域,完成了健康档案数据仓库模型的物理实现,利用数据挖掘技术对相关案例进行了挖掘研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。