随着我国科技水平的不断提高以及国家公共财政对于科研基础设施等的持续资助,目前我国科学数据的总体规模呈现不断增长的良好发展趋势。一方面,科学数据在高能物理、天文等多个领域呈现爆发式的增长。另一方面,重大科研基础设施的建设与更新,资源环境领域等的长期持续观测等都带来了科学数据的快速产生与持续积累,同时新技术、新方法的发展也带动了科学数据的快速增长,进一步增加了科学数据的规模。
3.3.1.1 不同领域的科学数据资源总量
2015年我国科学数据呈现蓬勃发展的态势,不同领域的科学数据资源数量以前所未有的速度呈爆发式增长。其中高能物理、天文、地球系统、资源环境、遥感等领域的数据以观测监测数据为主,其数据增长主要来自传感器的广泛部署与应用,数据量的增长也最为迅速。例如,高能物理领域大型强子对撞机实验每年产生原始数据达15 PB,而依托原始数据产生的延伸数据每年则达到上百PB;散裂中子源实验数据库每年即新增1 TB数据;天文领域以国家天文台的中国天文数据为例,自2008年以来,自产数据的增量以约2年翻一番的速度迅速增长;地球系统科学领域已经集成了包括极地、冰冻圈、地球物理、土壤等多个地球系统相关的数据,数据资源量达138 TB,且仍逐年增长中。
资源与环境领域内的气象、地震、海洋、生态、环境等领域内的科学数据随观测手段的提高和长期积累,数据量不断增长。以地震行业为例,目前已经形成了100多个覆盖多学科、多门类的地震数据集,迄今共享的地震科学累积资源已超过300 TB。随着国产卫星的不断升空,我国在2013年前存档的遥感卫星数据达到3 PB,而目前在轨的民用航天平台已超过30个,传感器超过48个,每年实际产生数据超过3 PB。
人口与健康领域的科学数据主要存在于医疗机构、疾控机构及卫计委等部门,其中临床医学数据大量存储于各医疗机构。相比而言,我国在人口与健康、工程技术等领域主要以记录的条数反映科学数据的存量,尽管其数据条数可称为海量,但在以比特(byte)为单位进行统计时,其数据存量则相对有限。
3.3.1.2 科学数据的类型与尺度多样性
我国的地势西高东低呈三级阶梯状分布,不同自然区域之间存在着显著的地域差异,造成了不同地理单元内农业、生态、气象等科学数据类型丰富、尺度多样。以青藏高原为例,这一地区具有世界屋脊上生态环境最奇特、生物资源最丰富的自然资源宝库,是目前地球上圈层相互作用最强烈的地区。针对青藏高原地球系统科技创新与西藏经济发展,目前已经整合了青藏高原大气物理、大气环境、冰川变化、湖泊变化、水文和生态等基础和特色数据,建设形成青藏高原地区基础地理空间数据集、青藏高原分县人口与社会经济统计数据集、青藏高原台站长期监测数据集、青藏高原冰川、冻土数据集、青藏高原土地覆被变化数据集、西藏农牧林等系列数据集等,突显青藏高原的学科特色和数据类型的多样性。
另外,我国的科学数据尺度多样性特征较为明显。如全国农业资源综合区划图集数据库,已经建立了超过3 765条元数据,可提供省级、市级、县级等不同尺度的综合区划数据查询。此外,我国多民族差异对科学数据呈现丰富多样的特点也产生了巨大影响。少数民族在历史长河中形成了很多独具特色的文化和科学数据积累。以药学为例,中国藏药数据库共收录包括植物、动物、矿物药材在内约526种藏药,对每一藏药的介绍涉及其各种命名、基原、形态、资源、性味、用法、考证、临床应用、药理学研究等多个方面,形成了本民族特色和极其丰富的医药数据库。(www.xing528.com)
3.3.1.3 科研基础设施建设与科学数据增长
近年来,我国投入大量人力物力支持重大科研基础设施建设,基于大设施产生的数据已呈爆发式增长。在高能物理学科及射线应用领域,随着近年来该领域实验平台和大型仪器的规模化增长,产生的科学数据呈现井喷的态势。例如,1988年建成的北京谱仪(BES)到随后升级改造(BESⅡ)仅取得了5 800万条数据,2002年加速器升级成双环结构以及北京谱仪升级为BESⅢ后取得了约20亿条记录,大亚湾中微子实验站建站后亦取约900亿条记录。增长的海量数据也为我国在该领域的研究取得重大突破,物理学家利用大亚湾中微子实验获取的数据,获得了世界上最精确的中微子混合角theta13和质量平方差测量结果,该成果2012年为《科学》杂志评为当年十大科学发现之一,随后获得了多项国际奖项;通过BESIII实验于2013年发现的四夸克物质,该成果获得本年度美国《物理》杂志评选的十大物理发现之一(排名第一)。
在天文领域,截至2015年底,郭守敬望远镜(LAMOST)作为世界上目前光谱获取率最高的望远镜,共发布了575万个天体光谱信息。与世界上已有光谱巡天项目相比,LAMOST获取的光谱总数遥遥领先,LAMOST的巡天进展和科研成果已引起国际天文界的广泛关注和合作兴趣。在遥感领域,近年来,我国通过高分辨率对地观测系统工程,统筹建设基于卫星、平流层飞艇和飞机的高分辨率对地观测系统,完善地面资源,并与其他观测手段结合,已形成全天候、全天时、全球覆盖的对地观测能力,促进了对于海量数据的采集能力。目前在轨的民用航天平台超过30个,传感器超过48个,随着卫星增加和地面接收站建设,每年实际产生数据有望超过4 PB。
3.3.1.4 长期资源环境监测与科学数据积累
长期持续监测促进了科学数据的快速积累,尤其在资源环境领域这一特点更加明显,通过多年的坚持,国已经积累了多学科、多门类的海量数据资源。例如,截至2016年,在生态领域,经过长期系统的科学观测已获取全国气候值空间分布数据共20 GB,陆地生态系统碳水通量与碳循环动态监测数据约2 300 GB(每年新增150 GB)。在气象领域,通过站点监测、卫星遥感等手段,获得大量地面、高空、辐射、海洋、农业气象和生态气象、大气成分、卫星、雷达、气象灾害等气象科学数据,日均数据量为TB级别,年均数据量可达PB级别。在地震领域,已经整合形成了包括地震观测数据、地震探测、地震调查(考察)、地震试验与实验、地震专题、防震减灾类数据及其他地震科学数据共7大类、41中类、284个小类数据,总量已超过300 TB。
3.3.1.5 新技术新方法的带动效应
新技术新方法的应用显著提高了科学数据的采集频率、模拟精度和处理速度。以近年发展较快的医学领域为例,2000年以后,随着分子生物学方法、高通量筛选技术、快速分离技术、组合化学技术、虚拟药物筛选技术等新技术新方法的应用,药学领域的科学数据得到快速积累。例如,HiSeq X Ten测序系统使研究人员更易于开展大规模人类基因组测序,目前国内有三家机构拥有该测序系统,系统由10台超高通量测序仪HiSeq X组成,测序读长为2×150 bp,10台仪器同时运行时,每周至少可完成320个人类基因组测序(以30×覆盖度计算),每年完成的数量可超过18 000个,带动了该领域的科学数据快速增长。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。