数据分析有时需要描述单变量的数据分布,有时则需要探讨多变量之间的关系。洛伦兹曲线就是用于描述多变量关系的工具之一。洛伦兹曲线,即累计频数分布曲线,主要用于分析社会财富、土地和工资分配的公平性问题。除了收入分配,洛伦兹曲线还可以展示两个分布之间的关联性,体现某一事物在另一事物中分配的集中程度。
举个例子来说明,假设我们利用收入将人口分为两组:人口组和收入组。我们不使用密度函数,而是列出分布函数,并计算出人口累计占比、收入累计占比、绝对平等的累计收入占比和绝对不平等的累计收入占比这四个指标。其中,绝对平等的累计收入占比是按照人口占比进行分配的比例。根据这四个累计占比绘图,便可得到洛伦兹曲线。
解读洛伦兹曲线的方法是通过GINI系数:
GINI系数可用于任何表示均衡分配的分析,尤其在市场产品均衡度分析中常用到这个指标。
例如,超市洗发水大部分由宝洁公司供应,其余基本由联合立白提供,可以说洗发水市场被这两家公司垄断。垄断意味着分配不均衡,因此中国洗发水市场的GINI系数会很高。同样,中国的鸡精市场主要由太太乐和豪极(均属雀巢)占据,鸡精市场几乎被雀巢垄断,其GINI系数也会非常高。
如下图所示,黄蓝线之间的面积越小,表明收入分配越平均。
当A=0时,A/(A+B)=0,GINI系数为0,表示收入分配完全平等; 当B=0时,A/(A+B)=1,GINI系数为1,表示收入分配绝对不平等。
因此,GINI系数可以在0到1之间取任意值。一般来说,GINI系数为0表示收入绝对平均,0.2
全球来看,北欧的GINI系数最低,收入分配最为平等,北欧被认为是美国唯一承认的社会主义国家。中国官方的GINI系数为0.47,表明中国的收入分配还不能称之为社会主义。











