数据分析会骗人么?
【当然会骗人】
这种骗人,既有可能来源于数据分析师的故意为之,也有可能来源于前提口径的不一致。
我们举个最经典的例子。
春节临近,记者为了报道今年春运是否存在“一票难求”的情形,于是到各个返乡列车上采访各位乘客今年是否有买到车票回家。
采访的结果是所有接受采访的乘客都表示已经买到了车票,于是记者在新闻报道中激动地宣布群众之前反映的乘车难问题根本就不存在,据采访统计,所有人都顺利买到了回家的车票。
这就是中国版的“幸存者偏差”。
如果记者把采访结果摆到总编辑面前,说我采访了200位群众,每个人都说买到了车票,成功购票率是100%,从样本推导总体,所以我认为今年买票难的问题已经得到了解决。
那总编辑是不是觉得前线记者说得很有道理,而且采访数据的结果显示也确实就是成功购票率达100%。
记者之所以根据采访结果数据分析得出错误的结论,是犯了样本偏差的错误,在返乡列车上的乘客肯定都已经买到车票了的,没买到车票的怎么会出现在列车上呢。
从一个有限的样本中推断总体特征时,样本可能不具有代表性,导致对总体的错误认识。即口径的不一致,这种情况下,数据之所以骗人来自于样本的选择或采集方法。
数据分析是一个整体与局部,主观与客观共同作用的过程,这也就意味着,只要其中有任何一个环节出了差错,就有可能导致数据分析骗人。
即数据分析不仅能够揭露事实,它也可以用于隐瞒真相!
上面所讲的是统计口径不一致导致的结论偏差,下面再讲几个数据分析师故意为之导致的数据分析骗局。
1、坐标轴上动手脚。
管理层听汇报一般都是采用PPT的形式,主要原因在于PPT的可视化图表可以让人更加直观、方便、快捷地了解数据情况,包括数据的异常情况和发展趋势。
但是可视化图表有一个很大的局限性,就是必须保证指标的统一性。
但很多人恰恰利用了数据指标一致性的漏洞,或是增加某些地方,或是隐藏某些地方,就可以让图表隐瞒真相。
比如,请看下图
从图表来看,A公司的净利润呈现逐年稳定增长的趋势,表示公司经营稳定且市场份额在逐步扩大,对于投资人来说,属于优质投资标的。
但是我们可能注意到了横坐标的单位间隔是每两年,而非一年。
如果我们还原成以一年为横坐标单位刻度,则真实的情况如下:
还原后,那么A公司的每年净利润则呈现剧烈波动的态势,得出的是完全相反的结论:经营不稳定,风险很大。
所以你看,如果A公司为了拉投资,可能会采取第一种可视化图表,以掩盖公司经营不稳定的现状。
想了解更多有关数据分析陷阱的小伙伴,可以去听一听研职在线推出的《数据分析3天实战训练营》,从数据分析思维养成、数据分析工具使用、到大厂经典数据分析案例等等,一应俱全,既能准确分析数据得出有效结论,也能识破数据分析陷阱,现在只需要花0.1元即可获得参营资格,需要自取。
2、隐匿原始数据,以混淆逻辑。
记得之前我去给一家拟投资标的做财务尽调时,发现了一件有趣的事。
这家投资标的是一家少儿教育机构,主要做一些书法、美术、泥塑手工等的培训,如果自己去销售教育课程,毛利率大概是40%,如果是跟外面的一些研学旅行团合作,毛利率大约只有60%。
所以当时,该公司的运营部门认为应该跟研学旅行机构加大合作,因为利润率高,要扩大利润率高的渠道。
但是后来发现,根本就不是这么一回事,比如自己去销售课程,销售单价300元/位,推销、教学及耗材成本合计约为150元/位,毛利率为50%,如果是跟外面的研学团合作,能够向研学团收费200元/位,教学及耗材成本约为80元/位。毛利率为60%。
初看,与研学团合作毛利率确实高,但是这是相对值指标,如果看绝对值指标,我自己去销售,一个学生我能挣150元,但跟研学团合作,一个学生我只能挣120元。
所以最正确的决策当然应该是扩大自销渠道,或者提高跟研学团的合作价格。
就好比A公司利润率很高,但是每年营业收入很少,那净利润自然也少,而B公司利润率虽然低一些,但是每年营业收入很高,那么B公司每年为股东创造的净利润会远高于A公司。
再看下面的例子。
比如某家公司在A地区的市场占有率为40%,在B地区的市场占有率为30%,单从这组数据来看,我们会得出该公司在A地区发展得较好。
但是我们再细化下去分析,可能会发现该公司在A、B地区的市场占有率是这样的“
通过细化后的市场占有率指标,我们可以看出,虽然B地区的总市场占有率低于A地区,但是分品类去看,就会发现无论是手机还是电脑业务,B地区的市场占有率均高于A地区。
即能够得出完全截然不同的结论。
那么我们如何识别数据分析中的骗局或陷阱呢,我认为要练好如下4条基本功:
1、熟知基本假设及前提
了解统计学及数据分析模型的原理和基本概念是第一步。
2、验证原始数据的来源
这是数据分析的根本,底层数据都有问题,那么分析出来的结果自然是错误的。
3、评估数据分析方法
骗局往往通过夸大分析方法的效果或操纵数据来误导人们。因此,审视分析方法是避免骗局的重要一环。了解不同的统计和分析技术,包括其优缺点和适用范围,可以更好地评估所使用的分析方法是否合理。
4、验证结果和推断
在数据分析中,正确地解释和推断结果至关重要。不要轻信没有明确依据和可信度的结论。重要的是要了解推断过程和背后的统计基础。要求分析师提供相关证据和支持材料,并进行反复确认和验证。此外,最好采用多种方法和模型来进行比较,以获得更可靠和全面的结论。
数据不会骗人,但是做数据分析的人会由于某些主观或客观的因素去误导数据分析结果解读者。
作为数据分析解读者要想不被忽悠或者做到一眼看穿本质提出质疑,要靠平时多看、多听、多分析,多锻炼自己的逻辑思维能力。
像上面所提到的《数据分析3天训练营》就汇集了各种数据分析经典案例讲解,案例听得多了,形成惯性思维,自然就能更快地戳穿数据分析背后的谎言。
=======随手点个赞,手有余香=======
这里是奥迪特饼干的会客厅,前四大审计经理,CPA+法考+税务师三证持有人,更多干货内容请移步阅读下面的回答:
大数据分析篇:
- 有哪些大数据分析案例?
- 在四大会计师事务所几年后跳槽工作的方向是什么?
- 怎么从零开始学习财务知识?
- 如何从财务报表来分析企业的偿债能力和风控能力?