3.2.2.1 数据采集
数据采集是在已建立的数据收集系统中,针对某些目标变量进行信息采集和测量的过程,采集到的数据回答能够用于解答相关问题或评估相应结果。数据采集的目标是获取高质量的原始数据进行数据分析,进而为已提出的问题提供一个有说服力的、可信的解释。虽然不同领域的数据采集方法有所不同,但对所采集数据的准确性和真实性的要求是统一的。采集数据的准确性是所有学科领域和数据属性的基础和核心。
一般而言,科学数据的采集与生产方法主要有普查、抽样调查、科学实验和观察记录四种方法。
(1)普查是为了某种特定的目的而专门组织的一次性的全面调查。普查法的特点:通常是一次性的或周期性的;有规定统一的标准时点、普查期限和项目指标,准确性高,规范程度也较高;能够为抽样调查或其他调查提供基本依据,但其使用范围比较窄,只能调查一些最基本及特定的现象。
(2)抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象做出估计和推断的一种调查方法,特点是经济性好、实效性强、适应面广、准确性高,但需要注意是否存在以偏概全的问题。
(3)科学实验指人们根据一定的科学研究目的,利用科学仪器设备,在人为控制或模拟的特定条件下,排除各种干扰,对研究对象进行观察的方法。其特征是有针对性,过程控制严密严谨,具有可重复性、可信性,且存在误差。
(4)观察记录也是数据采集的一种主要方式,其记录者不一定是人,还包含各种数据采集装置,涵盖风速仪、全站仪、遥感探测器等多种学科的数据采集装置。其特征是客观记录观测对象的被观测参数。
3.2.2.2 数据汇交与整合
数据的汇交与整合是将数据整合移动到独立的存储设备中以备长期留存的过程,其主要流程包含了数据的审核、汇总、归档等多个流程。所汇交及整合的数据既包含对某些科研单位和政府机构以后仍有用处的历史数据以外,还包含能够为某些科学研究提供标准借鉴的科学数据。目前开展数据汇交与整合的主要方式包括:
(1)科研项目数据汇交。根据统一标准,由科研项目资助者要求将项目执行过程中产生的科学数据资源进行统一提交。
(2)行业数据整合。根据各行业管理部门统一要求,对本行业涉及的科学数据或行业部门管辖范围内的科学数据进行系统整合。(www.xing528.com)
(3)企业、非营利性机构数据整合。由企业或非营利机构根据某种需求建立的科学数据库,经与期刊等组织联合或具备一定权威性和影响力后,具备吸纳外部科学数据资源的能力。
(4)科学数据整合项目。由政府或管理机构设立项目,专门支持科学数据的汇交与整合。
3.2.2.3 数据的质量控制
数据的质量是科学数据的核心,为保证数据质量可以借用信息领域的Informatica六步法(www.informatica.com)控制数据质量,具体步骤如下:
(1)探查数据内容、结构和异常。第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查可以识别数据的优势和弱势,帮助数据生产者对需要进行共享的数据进行筛选。这一步的关键目标就是明确指出数据错误和问题,例如指出由于数据生产方法和数据源的问题可能会给科学研究带来的问题。
(2)建立明确的数据质量度量标准。明确的数据质量度量标准能够为数据的使用者和质量检查者提供一个明确并且完善的度量标准,数据使用者可以通过对数据实体和数据度量标准的差异,通过电子邮件或其他方式反馈数据提供者,随时进行用户体验的反馈。
(3)设计和实施数据质量业务规则。明确数据质量业务规则,能够依据不同的数据质量标准提供不同的共享等级。
(4)将数据质量规则构建到数据集成过程中。普遍深入的数据质量控制使用户可以在数据共享服务平台的各个位置(服务专区、体验专区、实例示范区等不同模块)依据数据质量规则选择所需数据。
(5)检查异常并完善规则。在执行数据质量控制流程后,大多数数据将会被筛选和标准化,达到所设定的数据质量目标。然而,无可避免,仍会存在一些没有被筛选出的不达标数据,此时对数据质量标准进行完善。
(6)数据质量持续监测。数据质量控制不应该是一次性的,持续的监测和管理是保证数据质量的关键。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。