在11月份所写的《顺丁数据分析——描述性统计方法(部分)》(" /> 在11月份所写的《顺丁数据分析——描述性统计方法(部分)》("/>
顺丁数据分析[2]——描述性统计的可视化进阶(部分)
来源:金联创 发布时间:2019/12/30 9:55:40

在11月份所写的《顺丁数据分析——描述性统计方法(部分)》(文章链接)这篇文章里讲解了对于数据的部分描述性统计方法:一个是平均数和中位数,另一个是全距和4分位距。那么本篇内容将会更进一步的介绍描述性统计方法。

数据来源:金联创

平均数、中位数以及全距和4分位距均是对数据的描述统计,其实有一种可视化图形可以综合这四种统计——箱体图。

箱体图和K线图较为相似,箱体图由下线、上线和箱体构成。下线为数据列的最小值,上线为数据列的最大值,箱体的下线为下4分位距,箱体的上线为上4分位距,箱体里的线为中位数。因此,箱体也是由最小值、下4分位距、中位数、上4分位距和最大值构成。这五个统计值的排序可以表示为:最小值<=下4分位距<=中位数<=上4分位距<=最大值。

介绍完箱体图,那么箱体图有什么优势呢?下面通过2019年顺丁橡胶的各企业的月度产量来举例介绍。

各企业产量箱体如上图呈离散分布,第一点,高处的箱体显然要比低处的箱体的数据大,如大庆石化箱体产量比独山子石化箱体多。第二点,有的下线会与X轴(Y=0)重合,那么可以判断年内有停车行为,像华宇橡胶、山东万达等企业的箱体呈现为线形,并与X轴重合,可以断定年内一直停车。第三点,有的企业箱体拉伸很长,如扬子石化,它的下线在4000吨左右,上线在8000吨左右,可以判断年内必有月份装置不正常而明显降负荷,又见其中位数基本贴近上4分位距和最大值,可以进一步判断,年内必有至少六个月装置正常生产。再看茂名石化,箱体主体几乎呈线形,那么至少9个月的生产维持在近满负荷生产。其他装置生产情况,大家可自行分析。

数据来源:金联创

介绍完箱体图,再看一下——热(力)图。本文中的热图是指依托于直角坐标系的图,并且用颜色区分数据的大小。上图展示了各企业在每个月的装置生产量情况(这也是箱体图无法展示的),颜色逐渐靠近红色的数据(产量)偏高,颜色逐渐靠近绿色的数据偏低。比如,大庆石化基本是一条深红色的色带,可以看出大庆石化的每个月产量很高,结合大庆石化16万吨/年产能数据的话,可以判断出大庆石化年内一直在近满负荷生产。再比如扬子石化,4-6月颜色偏绿色,那么这三个月装置负荷不高。更多的厂家生产情况,请读者自行判断。

箱体图和热图可以展示一般折线图、柱状图等基本图形展示不到的数据特征。在10月份《顺丁预测模型——指数平滑算法简介、应用以及自动化》(文章链接)一篇中,简单介绍了自动化以及机器学习的信息。本文可以作为数据分析层次的初级分析,为以后内容做铺垫。2020年将会为大家一步一步的从数据分析深入到数据挖掘,进而转战到机器学习和深度学习的内容。


    对不起,没有相关记录!