数据分析往往是80%的数据处理,20%的分析。大部分时候,收集和处理数据确实会占据很多时间,最后才在正确数据的基础上做分析。既然一切都是为了找到正确的结论,那么保证数据准确就显得格外重要,否则最后的结论不仅无助于业务判断和预测,反而会误导决策。
这一部分要说明以下三个情况:
获取数据
说明数据获取的方式是公开数据、爬虫技术还是调查问卷。
说明数据来源、样本量、每条数据的含义
首先,交代数据来源。例:样本数据来自国家统计局官方网站;样本数据爬取自某电商平台。
其次,交代样本量与每条观测含义。例:数据包含×××条观测,每条观测代表×××。
再次,交代变量个数与基本情况。例:数据共包含×××个变量,可以被归纳成为2组,一组代表×××,另一组代表×××。
数据说明表
数据介绍与说明可以通过多种方式展现,可以是纯文字形式,也可以用数据变量说明表。
这一部分最关键的一环是确定数据源的可靠性。主要有四种方法:同类对比、狭义/广义比对、相关对比和演绎归谬。
·同类对比(www.xing528.com)
与口径相同或相近,但来源不同的数据进行对比。示例:最常见就是把机器跑出来的数据和报表数据核对校验。
·狭义/广义对比
通过与更广义(被包含)或更狭义(包含)的数据进行对比。
比如:3C品类(信息家电)销售额与商城总销售额比较,3C的销售额更高显然是错误的,因为商城总销售额包含3C销售额;某些页面/频道的UV(独立访客)与APP总UV比较也类似。
·相关对比
通过与具有相关性、关联性的数据进行对比。
比如:某平台的Dn留存率,对于同一个基准日期来说,D60留存率一定低于D30留存率的,如果出现大于的情况,那就是错误数据了。
·演绎归谬
通过对现有数据的深入演绎,推导出结果,判断结果是否合理。
比如:某平台的销售客单价2000左右,总销售额1亿左右;计算得出当日交易用户数10万,通过乘以客单价,得到当天销售额2亿,显然与业务体量不符,可以判断为错误的数据。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。