3.1.2.1 机遇
1)大数据时代到来,科学数据工作引起高度重视
进入21世纪,人类产生的数据急剧增长,据估计,人类每天产生的数据达2.5 EB(1 EB=1 000 000 TB),人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已经进入网络化的大数据(big data)时代(李国杰等,2012)。随着大数据时代的发展,科学数据的价值得以充分的体现,已成为重要的战略资源和新的战略制高点。
图3-1 2001—2015年以“Data Curation”为主题发表的文章数目
科学数据是构成大数据的重要资源,得到国内外政府、科研机构和科学家的高度关注和重视。美国作为世界经济和科技发展的领头羊,采取“完全与开放”的政策极大地刺激了经济发展。1991—1995年,美国平均每年经济增长率为1.6%,1995—1999年平均每年经济增长率为2.7%,在“完全与开放”的数据共享实施的10年间,后五年比前五年平均每年多增长1.1个百分点。据美国经济学家计算,其中0.5个百分点是由于数据和信息的传输和应用所产生的效益(孙九林,2007)。美国是一个资本主义与市场经济起主导作用的国家,最终在信息时代最核心的数据信息开发利用上,却选择了一条与市场运作方式相“背离”的“完全、开放与无偿共享”的道路,这是因为他们把数据信息资源的特征研究得很透,并找到了开发利用最好的途径。在研究界,科学数据管理(scientific data curation)正迅速成为专业学科领域、信息科学和图书馆学的关注热点。在Web Of Science数据库中以“Data Curation”为主题进行检索,发现1900—2000年期间仅有44篇相关文献,2001—2015年期间则增加到1 600余篇。图3-1所示为2001—2015年15年间相关文章数目的变化。
2)不同领域科学数据的融合加快,提升了学科间协同创新能力
数据技术及相应的基础研究已经成为科技界的研究热点,数据科学作为一个横跨诸多领域的新兴交叉学科方向正在逐步形成。海量数据的剧增将直接为科研模式带来极大的改变。
2008年由中、美、英等多个国家共同发起的大型国际合作项目“千人基因组计划”在实验阶段就实现了每月生成大约1万亿碱基序列的数据,而最初的人类基因组项目花费了10年才产生400亿碱基的DNA序列数据。2012年,欧洲核子研究中心(CERN)利用网格计算和大数据技术发现“上帝粒子”,即希格斯粒子;寻找希格斯粒子的大型强子对撞机(LHC)实验是一个典型的基于大数据的科学实验,在1万亿个事例中才可能找出1个希格斯粒子。借助大数据的全球联盟,LHC连接了全球100万台CPU对每年产生的20 PB数据进行存储和加工(贺威等,2014)。
大数据的开发应用模式也给传统科研活动新的启发。例如,Foldit项目发起了大规模的协同研究,参与研究者达数千人,使得该项目能以前所未有的速度得到推进。GalaxyZoo研究项目召集了25万个研究者(专业研究员、业余研究者以及爱好者)帮助收集星际数据,发现了一个星系的新类,加深了人类对宇宙的认识。Polymath项目中,各个领域的研究者以及非专业数学家协作解决了一个传统方法长期无法解决的问题,这种大众协作参与科研的方式被称为“科研众筹”(crowd science)。美国哥伦比亚大学地球系统科学信息网络采用众筹方式收集欧洲地区的交通地理信息,使得这一基础信息得以快速、免费更新。
3)科学数据组织积极引领科学数据发展
国际科学联合会(international council of scientific unions,ICSU)是目前科学界最有权威的非政府国际组织,在其指导下成立的科学数据相关组织和机构如图3-2所示。其中,世界数据系统(WDS)与科学和技术数据委员会(CODATA)是目前最重要的科学数据相关国际组织,它们的成立以及科学数据作为一门独立学科的诞生,都标志着科学数据管理已成为现代科学研究管理的主要组成部分。
图3-2 ICSU的数据和信息体系战略结构图
(ICSU数据和信息特别战略协调委员会,2008)
随着我国科技资源共享和科技基础条件平台等工作的不断深入,科学数据的共享和利用也获得快速发展。2011年平台开展绩效考核与奖励补助以来,地球系统、人口健康、农业、林业、气象和地震6个通过认定的科学数据平台数据共享服务量保持每年超过20%的增长幅度,2013年支撑各级各类科技计划项目(课题)2 029项,支撑发表论文3 360篇,网站访问量超过2 500万次,在科技创新和公共服务供给方面发挥了重要作用。同时,数据平台聚焦重大需求和科技热点,组织开展了多项综合性、系统性、知识化的多平台联合专题服务,推动了科学数据与信息的深度挖掘与综合集成,有效释放了科学数据共享的内生动力。(www.xing528.com)
3.1.2.2 挑战
1)大规模科学数据处理和挖掘技术有待发展
随着科学技术的发展,大量产生的科学数据需要高效的传输、存储、长期保存、组织发现与访问、集成、融合、分析、挖掘和可视化技术。
某些科学数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,需要将高维图像等多媒体数据降维后进行度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合处理信息,并导出可理解的内容。此外针对科学数据的可视化研究急需发展,以生物大数据为例,生物数据量越大,复杂性越高,可视化在生物有效信息挖掘方面发挥的作用就越大,将有利于科研人员对复杂数据进行多角度观察并获取有效信息(周琳等,2015)。
2)科学数据的持续积累、高效管理和开放共享有待进一步加强
美国、欧洲等发达国家已经将科学数据的持续积累和开放利用能力提高到了国家科技战略的高度进行部署,并投入了大量的人力、物力和财力。通过多年持续积累,形成了一批权威、长序列、多尺度的科学数据库,并在科研过程中发挥了重要作用。对于科学数据管理起步较早且管理较为规范的国家如美国、英国、澳大利亚等,由公共财政支持产生的科学数据普遍都通过统一渠道进行汇交,并按照统一的规则进行管理和开放共享。公共财政支持产生的科学数据进行汇交,已经成为科学数据资源建设和持续积累的重要手段和途径。
相比较发达国家而言,我国科学数据重复建设、分散管理、质量参差不齐等问题仍然没有解决,一些地方科技资源过于集中、边际效应较低的问题也逐步显现,大量的科学数据仍然散落在课题组甚至科学家手中,公共财政支持产生的科学数据也没有得到完整的保存和规范的管理,保障科学数据持续积累的制度机制不健全、标准规范不完善等问题仍然十分明显,科学数据资源开放共享的针对性政策措施相对缺乏,中央地方协同推进科技资源共享的机制尚未有效建立。
3)科学数据中心建设尚显薄弱,影响力明显不足
科学数据中心是开展科学数据管理和共享服务的重要基础设施,是实现科学数据汇集、管理、存储和共享的专业化机构,与美国以及欧盟等发达国家相比,我国科学数据中心无论在数量、规模以及影响力方面都存在差距。美国、英国、澳大利亚等国家都在多个领域建立了人员齐备、运行机制健全、运行服务规范的国家级科学数据中心。如美国国家海洋与大气管理局(NOAA)、美国国家空间科学数据中心(NSSDC)、英国数据保存中心(DCC)、英国数据档案中心(UK Data Archive)以及澳大利亚国家数据服务中心(ANDS)等,都已形成从事科学数据管理和共享服务的专门机构,并在本领域形成了世界知名科学数据中心。另外,以欧洲粒子中心为代表的一大批依托大科学装置建成的科学数据中心也在持续快速发展,其国际影响力也在快速提高。我国在科学数据中心建设方面尽管也取得了快速发展,但在领域布局、资源建设、技术水平、应用能力以及运行管理等方面与国际一流的、知名的科学数据中心尚有很大差距,在科学数据中心数量、领域覆盖范围、科学数据资源规模、专业人员配备和可持续发展能力方面仍然需要加速推进。
4)科学数据的人才队伍建设需要引起关注
科学数据的生产、挖掘、分析、管理、共享需要来自政府的关注和财力的投入,更需要一批经验丰富的科学和技术人员(吴国雄等,2014)。麦肯锡公司预测美国到2018年需要深度数据分析人才44万~49万人,缺口14万~19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万人(邬贺铨,2013)。目前我国在数据领域培养国际化人才方面与大国地位差距甚远,特别是一些关键性领域尚属空白。同时,我国尚未建立对从事科学数据工作人才的评价和激励机制,而现有的针对科研人员的以论文、专利等为主要指标的评价体系,不能适应科学数据资源工作特点。大量从事科学数据生产、加工和挖掘的专业人才,得不到应有的重视和激励,导致大量人才流失,从业者处境尴尬。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。