首页 理论教育 如何解决数据开发中的6用问题?

如何解决数据开发中的6用问题?

时间:2026-01-23 理论教育 懓樺 版权反馈
【摘要】:由于数据分析技术门槛很高,能够使用大数据分析技术的人很少,而将业务问题转化为数据分析问题,更需要数据科学家创造性的劳动。

为一个大数据应用需求,准备一个大数据资源,通常会遇到以下6个方面的问题,简称“6用”问题:

(1)数据不够用:获取尽可能多的数据(决策素材),是一种直觉上的追求,即数据越多,对决策越有利,或者至少要比别人知道的更多,所以大数据应用的第一个问题是“数据不够用”。至于数据达到多少就够用了,应该说到目前为止还没有一个科学的界定。

(2)数据不可用:在数据够用的情况下,还会遇到数据不可用问题。数据不可用是指拥有数据但访问不到。例如,某个公共决策需要用到民政局、公安局、社保局、税务局的数据,这些数据在各部门都有,但是数据不在一个系统里,是一个个数据孤岛,并不能用来做大数据决策,即数据事实上是不可用的;又如,一些交易系统只保留活跃用户数据,不活跃用户的数据被备份到了备份系统中,访问备份系统数据是一件费时费力的工作,甚至是不可能的工作。

(3)数据不好用:面对足够的、可用的数据资源,下一个问题是数据不好用问题,即数据质量有问题。例如,信用判定应用中,发现一些持卡人的登记信息缺失(如没有职业数据)或不正确(如收入数据不对),这些问题直接影响了决策依据的获得;又如,在战场环境中,由于敌方的有意伪装和干扰,获得的数据是非合作数据,质量更差。(https://www.xing528.com)

(4)数据不会用:数据不会用问题是指不懂大数据分析技术、不会将业务问题转化为数据分析问题,而这正是大数据决策的核心。由于数据分析技术门槛很高,能够使用大数据分析技术的人很少,而将业务问题转化为数据分析问题,更需要数据科学家创造性的劳动。例如,在网站上做精准广告是一个业务问题,在理解业务问题的基础上,用大数据技术实现需要对用户的购买喜好和需求进行聚类分析、将广告簇和用户簇进行对照,好的精准广告可以针对每个用户来做。数据科学家极其短缺使得数据不会用的问题在实际表现中非常严重。

(5)数据不敢用:数据不敢用是指因为怕担责任而将本该用起来的数据束之高阁。在“谁拥有谁负责、谁管理谁负责”的体制下,很多政府数据资源之所以没有很好地开发利用,其中一个主要原因是数据拥有部门不敢将数据用于非本部门业务目的,怕承担丧失数据安全(所有权和数据秘密)的责任。

(6)数据不能用:数据不能用有两个方面,一个是数据权属问题,即数据不属于使用者;另一个是社会问题,即隐私、伦理等问题。首先,没有使用权的数据肯定是不能用的;其次,涉及隐私的数据只做总体分析,不做个体分析,例如人口统计数据,就只能做总体分析,不能做个体分析;第三,涉及伦理等社会问题的数据也不能用,例如信用评分中的种族、民族、性别等数据就不能用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈