Red Wine——红葡萄酒各指标相关性分析

特别声明:本文仅兴趣交流,感兴趣的水友也可以在下面留言,转载请联系作者。

《Red Wine——红葡萄酒各指标相关性分析》

  • 数据介绍
    数据来源:Kaggle,red-wine-quality-cortez-et-al-2009.zip
    数据指标:酸度、甜度等成分指标为连续性变量,质量为离散变量(由多个专家给出的品质等级0~10)
          {'fixed acidity': '固定酸',
           'volatile acidity': '挥发性酸',
           'citric acid': '柠檬酸',
           'residual sugar': '残留糖分',
           'chlorides': '氯化物',
           'free sulfur dioxide': '游离二氧化硫',
           'total sulfur dioxide': '总二氧化硫',
           'density': '浓厚度',
           'pH': '氢离子浓度',
           'sulphates': '硫酸盐',
           'alcohol': '酒精度',
           'quality': '质量'}  
  • 数据转换
    先看一下前十行数据 source_data.head(10)

    《Red Wine——红葡萄酒各指标相关性分析》
    将字段转换成中文 source_data.rename(columns=col_map, inplace=True)
    快速进行描述性统计 source_data.describe()
    《Red Wine——红葡萄酒各指标相关性分析》

  • 图例展示
    数据分布情况 sns.distplot(source_data['质量'], color="k",bins=6,kde= False,fit=norm) 数据为正态分布

    《Red Wine——红葡萄酒各指标相关性分析》
    各指标行列转换, 热图展示

# 皮尔森相关系数 前提是要数据正态分布
# abs(r) < 0.3 不相关
# 0 <= abs(r) <= 0.3 低相关
# 0.3 < abs(r) <= 0.8 中相关
# 0.8 < abs(r) <= 1 高相关
hq_data_corr = hq_data.corr(method = 'pearson', min_periods = 1)

mask = np.zeros_like(hq_data_corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

sns.heatmap(hq_data_corr, 
            cmap= 'RdYlGn_r', 
            linewidths = 0.05, 
            mask = mask,
            alpha = 0.95,
            annot = True,
            center=0,
            fmt = '.2f',
            vmin = -1,
            vmax = 1)

其中大红色为正相关系数,绿色为负相关性系数,颜色越深表面相关性越高

《Red Wine——红葡萄酒各指标相关性分析》

以各等级红酒分类,并相关性图例展示

sns.pairplot(hq_data
             ,vars = temp_cols
             ,kind="reg" # 回归线
             ,diag_kind="kde" # 对角分布 
             ,hue="quality" 
             ,palette='mako',
            )

《Red Wine——红葡萄酒各指标相关性分析》

  • 最后总结
    1、市场质量特别好的红酒和质量特比差的红酒数量都相对较少,更多的是质量中等的红酒。不同质量的红酒基本满足正态分布。
    2、红葡萄酒的柠檬酸与固定酸和挥发性酸相关性较强,柠檬酸与固定酸为同向变量,和挥发性酸为反向变量。
    3、质量越高的红酒,其酒中挥发酸的含量越低。
    4、葡萄酒的酒精浓度和酒的密度成强负相关关系。
    5、随着pH值的降低,柠檬酸的酸性逐渐增强。

可挖掘的信息还有很多有待大家慢慢挖掘,如果喜欢请点赞关注,谢谢支持~!

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注