(探索性数据分析 第五部分)多变量分析——总结探索性数据分析及后续步骤

发布日期:2026-04-22 09:21:21   浏览量 :0
发布日期:2026-04-22 09:21:21  
0

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

在过去的四个部分中,我们深入研究了单个特征(单变量分析),然后考察了成对特征(双变量)。现在是时候享受真正的乐趣了:多变量分析。在这里,我们将三个或更多特征交织在一起,寻找以前根本无法看到的模式。

类比——盲人与大象 🐘

你可能听过这个故事。六个盲人各自触摸大象的不同部位——象鼻、象牙、腿、尾巴、耳朵和身体。每个人描述的内容都完全不同,而且他们都没有错。但是,他们也没有人能看到全貌。

这正是当你孤立地查看特征时所发生的情况。

  • 单独看性别,它告诉你的是妇女和儿童优先
  • 单独看乘客等级,它告诉你的是财富和救生艇使用权
  • 单独看年龄,几乎显示不出什么(相关系数 r = -0.05)

但是将这三者结合起来呢?突然间,你看到了大象的全貌。一等舱的年轻男孩(年龄 < 14 岁)与三等舱的老人的生存几率截然不同。无论是性别、乘客等级还是年龄,单独任何一个都无法揭示这一点。

这就是多变量分析的目的——最终看到完整的大象。

那么,究竟什么多变量分析?

就是同时调查三个或更多变量。
让我们分解一下:

类型 涉及的特征数量 示例
单变量 1 年龄分布看起来如何?(一个变量)
双变量 2 年龄与是否幸存有何关系?(两个变量)
多变量 3+ 年龄 + 性别 + 乘客等级共同如何影响是否幸存?

每一步都揭示了前一步无法看到的模式。

步骤 1:三方生存率细分——性别 + 乘客等级 + 是否幸存

还记得第 4 部分中的交叉表吗?几乎所有头等舱的女性都幸存下来,但只有少数三等舱的男性幸存。让我们用分组条形图将其可视化。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 按性别和乘客等级分组的生存率
survival_grouped = df.groupby(['Pclass', 'Sex'])['Survived'].mean().reset_index()

fig, ax = plt.subplots(figsize=(10, 6))

sns

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部