首页 理论教育 数据科学的发展与选择

数据科学的发展与选择

时间:2023-11-18 理论教育 版权反馈
【摘要】:数据科学与计算机科学有着很深的渊源。诺尔在《数据分析学与数据学课程计划》一书中详细地解释了数据、数据表示、数据处理的基本概念。数据科学与统计学也有着密切的联系。1996年,第五届国际分类学会联合会召开了以“数据科学”为主题的大会,标志着数据科学作为一门科学被正式提出。2007年,格雷提出“数据密集型科学发现”的第四范式。数据科学有了自己的科学共同体、期刊和研究范式,标志着数据科学作为一门科学正式诞生。

数据科学的发展与选择

大数据概念源于数据概念,大数据技术同样源于数据技术及其理论。数据科学发端于对数据的生产、使用、管理、传播等现实的需求,是20世纪60年代在计算机科学和统计学的基础上逐渐成长起来的一门交叉学科,是大数据技术的重要理论基础。

数据科学与计算机科学有着很深的渊源。1966年,丹麦天文学家、计算机科学家诺尔(Peter Naur)首次使用“数据学”(datalogy)一词。在他看来,计算机科学的根本理念与原则可理解为“数据处理的科学”,可以说是计算机科学的代名词。诺尔在《数据分析学与数据学课程计划》一书中详细地解释了数据、数据表示、数据处理的基本概念。在他的推动下,丹麦计算机学会(Danish Society of Datalogy)成立,国际科学联合会的分支机构国际科学数据委员会(CODATA)成立,从而形成了所谓的“计算机科学的哥本哈根传统”,标志着国别性数据科学共同体的诞生,而“datalogy”一词在丹麦全国计算机学界一直沿用至今。1968年,诺尔在国际信息处理联合会(IFIP)大会上,坚持用“datalogy”一词来区别于国际计算机学会(ACM)计算机科学课程委员会对计算机科学的理解。2005年,诺尔因在AGOL60算法语言上的成就获得了图灵奖。

数据科学与统计学也有着密切的联系。统计学作为一门应用数学学科始于19世纪末。1946年,瑞典统计学家克拉默(Harald Cramér)的《统计学的数学方法》一书把现代统计学建立在现代测度论的严密基础之上,标志着数理统计学的诞生。统计学一直存在着各种流派,存在着各种争论。其中,统计学到底是一个什么样的科学成为第二次世界大战以后争论最大的焦点。1950年,罗马尼亚数学家华尔德(Abraham Wald)的《统计决策函数》一书把统计学发展为一门决策科学,力图把各种统计问题统一成一种模式。值得一提的是,美国统计学家图基(John W.Tukey)等人在20世纪60年代建立了稳健统计学。1962年,图基在《数理统计年鉴》上发表《数据分析的未来》一文明确指出,数据分析是一门新的科学,而不是数学的分支。1977年,图基在《探索性数据分析》一书中详细介绍了如何“让数据说话”、如何“探索”的理论与技术,开辟了现代统计学的一个全新方向。(www.xing528.com)

1993年,日本统计数学研究所教授林知己夫(Chikio Havashi)在巴黎召开的第四届国际分类学会联合会(IFCS)一次会议首次提出“数据科学”(Data Science)。1996年,第五届国际分类学会联合会召开了以“数据科学”为主题的大会,标志着数据科学作为一门科学被正式提出。数据科学开始在学术界使用。2001年,美国统计学家克利夫兰(William S.Cleveland)发表《数据科学:拓展统计学技术领域的行动计划》。2002年,CODATA创办的第一本学术期刊《数据科学杂志》问世。2007年,格雷提出“数据密集型科学发现”的第四范式。他认为,这一科学范式不同于实验科学、理论科学、计算科学的科学发现方式,明确提出了当前科学发现的方法论。格雷的“范式”与库恩的“范式”概念不同,指的是方法论意义上的数据认识的革命性变化,而不是一种方法的替代。另外,格雷的“范式”论也从另一个方面说明数据科学家作为一群职业科学家已经存在。格雷因在数据库技术与交易处理技术而成为1998年图灵奖的获得者。

从数据学概念的提出到第四范式理论的提出,历经40年。数据科学有了自己的科学共同体、期刊和研究范式,标志着数据科学作为一门科学正式诞生。2010年之后,随着大数据和数据科学的兴起,以美国高校为代表的西方高校率先开设了数据科学专业,如加利福尼亚大学宾夕法尼亚大学、伊利诺伊州立大学等高校。日本形成了以北海道大学、东京大学京都大学、滋贺大学、大阪大学和九州大学为核心的数据科学专业院校合作体系。中国一些高校加快了数据科学专业教育的步伐,继2013年北京航空航天大学最早创办数据科学专业课程之后,清华大学北京大学复旦大学等一批高校纷纷开设数据科学专业。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈