互信息(Mutual Information)
100次浏览 发布时间:2024-10-17 08:32:29
1.介绍
第一次遇到一个新的数据集有时会感到难以承受。你可能会看到成百上千的特性,甚至连描述都没有。你从哪里开始?
一个伟大的第一步是建立一个排名与特征效用指标,一个衡量特征和目标之间的联系的功能。然后,您可以选择一组较少的最有用的特性进行初步开发。
我们将使用的度量称为“互信息”。互信息很像相关性,因为它衡量两个量之间的关系。互信息的优点是它可以检测任何类型的关系,而相关只能检测线性关系。
互信息是一个很好的通用度量,在特性开发的开始阶段,当您可能还不知道要使用什么模型时,它特别有用。它:
- 易于使用和解释
- 计算效率高
- 理论上有充分的根据
- 防止过度装配
- 能够发现任何一种关系
2.互信息(MI)及其度量
互信息用不确定性来描述关系。两个量之间的互信息(MI)是对一个量的知识减少另一个量的不确定性的程度的度量。如果你知道一个特性的价值,你会对目标更有信心吗?
这是一个来自艾姆斯住房数据的例子。该图显示了房屋外观质量与售价之间的关系。每个点代表一个房间:

从图中我们可以看出,知道ExterQual的值应该会让你对相应的SalePrice更加确定——ExterQual的每一个类别都倾向于将SalePrice集中在一定的范围内。ExterQual与SalePrice之间的互信息是在ExterQual的四个值上SalePrice不确定性的平均减少。例如,由于Fair出现的频率比一般情况要低,Fair在MI得分中的权重就更小。
(技术说明:我们所说的不确定性是用信息论中称为“熵”的量来衡量的。一个变量的熵大致意思是:“平均来说,你需要多少个是或否的问题来描述这个变量的发生。”你要问的问题越多,你对这个变量的不确定性就越大。互信息是指你希望功能能够回答多少有关目标的问题。)
3.解释互信息分数
数量之间的最小可能互信息为0.0。当MI为零时,量是独立的:两者都不能告诉你关于另一个的任何事情。相反地,理论上MI的上限是不存在的。但实际上,高于2.0左右的值并不常见(互信息是一个对数量,因此它的增长非常缓慢。)
下一个图将告诉你MI值如何对应于特性与目标的关联类型和程度。

应用互信息,应注意:
- MI可以帮助你了解特征作为目标预测因子的相对潜力。
- 一个特性在与其他特性交互时可能信息量很大,但单独一个特性信息量不大。MI无法检测功能之间的交互。它是一个单变量度量。
- 功能的实际用途取决于使用它的模型。特征只有在其与目标的关系是你的模型可以了解的情况下才有用。仅仅因为一个特性有一个很高的MI分数并不意味着你的模型能够用这个信息做任何事情。您可能需要先转换功能以关联。
4.例子
汽车数据集由从1985年开始的193辆汽车组成。这个数据集的目标是从汽车的23个特征(如品牌、车身风格和马力)中预测汽车的价格(目标)。在本例中,我们将使用互信息对特征进行排序,并通过数据可视化研究结果。

用于MI的scikit-learn算法将离散特征与连续特征区别对待。因此,你需要告诉它哪些是哪些。根据经验,任何必须有float数据类型的东西都不是离散的。通过给分类(object或categorialdtype)一个标签编码,可以将它们视为离散的.

Scikit-learn在其特征选择模块中有两个互信息度量:一个用于实值目标(互信息回归),另一个用于分类目标(互信息分类)。




fuel_type有一个相当低的MI分数,但正如我们可以从图中看到的,它清楚地区分了两个不同的功能趋势的价格人群。这表明,fuel_type有助于相互作用的影响,并不是不重要的。在从MI分数判断一个特性重要不重要之前,最好先研究一下任何可能的交互影响——领域知识可以在这里提供很多指导。

相关文章
-
激光美白嫩肤效果怎么样?明显吗
2023-10-18 18:09:09 -
电脑系统坏了怎么修复?4招解决
2023-10-18 18:03:36 -
前脚掌疼是怎么回事(为什么会脚底板痛?或与这7因素有关,八个方法可有效缓解)
2023-10-18 18:02:53 -
油性皮肤如何美白最快?很多人都没搞懂,难怪用大牌也是浪费
2023-10-18 17:58:54 -
如何自制美白面膜介绍7款美白面膜的自制做法
2023-10-18 17:57:27 -
电脑选购——电脑哪种品牌比较好
2023-10-18 17:56:52