在 Azure 机器学习工作室中估计相关系数

发布日期:2026-07-02 11:58:04   来源 : 杭州电子商务研究院    浏览量 :9
杭州电子商务研究院 发布日期:2026-07-02 11:58:04  
9

介绍

许多机器学习算法要求连续变量彼此不相关,这种现象称为多重共线性。这是因为多重共线性会对模型训练过程产生不利影响。估计数值变量之间的关系是检测和处理多重共线性的常用步骤。对于数值特征,查找相关系数是一种常见的统计技术,用于估计变量之间是否存在线性关系。本指南将演示如何在 Azure 机器学习工作室中计算皮尔逊线性相关系数。

数据

在本指南中,您将使用 Azure 机器学习工作室中提供的 Pima Indian 糖尿病数据集。该数据最初来自美国国家糖尿病、消化和肾脏疾病研究所。该数据集由多个变量组成,例如患者的怀孕次数、BMI、胰岛素水平、年龄等。您可以在此处查看这些数据。

下一步是加载和探索数据。

加载数据

登录 Azure 机器学习工作室帐户后,单击左侧栏上列出的EXPERIMENTS选项,然后单击NEW按钮。接下来,单击空白实验并将工作区命名为Correlation factor。将显示以下屏幕。

“已保存的数据集”选项下,将“Pima Indians Diabetes”数据集拖到工作区中。右键单击并选择“可视化”选项以浏览数据。

数据包含 768 行和 9 列。选择不同的变量以检查其基本统计数据。例如,下图显示了体重指数变量的详细信息。

选择列

多重共线性(即是否存在线性关系)仅针对数值变量进行测试。相关矩阵是一种识别数值变量之间多重共线性的技术。要在数据中选择所需的变量,请搜索并拖动“数据集中的选择列”模块。

下一步是单击启动列选择器,并将要测试多重共线性的数值变量放入选定的列框中,如下所示。

运行实验并可视化结果输出。

下面的输出显示结果数据有 768 行和 4 个数值变量。

您将计算这四个变量的线性相关系数。

相关矩阵

Azure 机器学习工作室使用计算线性相关模块来计算和创建相关矩阵。此模块用于为每对可能的数值变量计算一组皮尔逊相关系数。该系数表示感兴趣的变量之间的线性关系的方向和程度。

搜索并将模块拖入工作区,然后运行实验。

模块运行完成后,右键单击并选择“可视化”

完成上述步骤将生成以下相关矩阵作为输出。

解释相关矩阵

输出显示了四个数值变量之间的相关性:舒张压三头肌皮褶厚度身体质量指数年龄

舒张压与其自身之间的线性相关系数为 1,这是显而易见的,但从建模的角度来看,这没有任何意义。

舒张压肱三头肌皮褶厚度之间的相关系数为 0.207371。这不是一个显著的相关性,因此排除了这两个变量之间的多重共线性。

同样,舒张压体重指数年龄的线性相关系数分别为0.281805和0.239528。

您可以类似地解释这四个变量之间的相关系数。相关性显著的经验法则是,系数的绝对值应大于 0.6。您可以得出结论,这四个变量彼此不相关,因为线性相关系数不显著。

结论

估算相关系数有助于处理多重共线性。这通常可以提高机器学习在分类和回归任务中的表现,这些任务广泛应用于营销分析、房价预测、糖尿病预测、设备故障分析等众多领域。

线性相关系数也适用于推断统计,您可以使用它来了解解释变量和因变量之间的关系。

本指南介绍了如何在 Azure 机器学习工作室中计算线性相关系数并创建相关矩阵。您可以通过PythonR等其他技术的指南详细了解此概念。

要了解有关使用 Azure 机器学习工作室进行数据科学和机器学习的更多信息,请参阅以下指南:

  1. Azure ML Studio 入门

  2. 使用 Azure ML Studio 清理数据

  3. 使用 Azure ML Studio 进行数据预处理

  4. 使用 Azure ML Studio 进行分类建模

  5. 使用 Azure 机器学习工作室进行回归建模

  6. Azure ML Studio 中的模型验证

  7. Azure ML Studio 中的 R 和 Python 脚本

  8. Azure ML Studio 中的高级机器学习建模

  9. 使用 Azure 机器学习工作室进行命名实体识别

  10. 使用 Azure 机器学习 Studio 进行文本分析

  11. 从 Azure 机器学习工作室中的文本中提取关键短语

  12. 在 Azure 机器学习工作室中使用词云可视化文本数据

以上内容来自杭州电子商务研究院推送
关注
关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 关注 数据