沃卡惠行业资讯

资讯详情

核心机器学习指标

2023-01-30 09:27:094636

在使用机器学习时，正确评估模型性能是一项至关重要的任务。我们可以使用很多指标来做到这一点。对于刚开始涉足这一领域的人来说，这可能是个问题——至少对我来说是这样。

我将从描述真/假阴性/阳性等概念开始，因为它们是更复杂指标的基础。然后我会提到并解释准确度、精确度、召回率或校准误差等指标。我还将解释混淆矩阵背后的基础知识以及有关如何构建混淆矩阵的简短代码片段。

为什么？

在线查找资源并阅读它们很简单。每个人都可以做到，我也做到了，但我错过了所有内容的综合词汇表。这是我写这篇文章的主要动机。首先，我将描述我在之前的项目中接触到的所有指标。

我认为这样的指标词汇表对所有刚接触机器学习模型的人都有用。

指标

让我们从真阳性和其他阳性/阴性组合开始。为了便于阅读，我将其制成表格形式。

真/假阳性/阴性

混淆矩阵

不太常见的是误差矩阵，它是我们模型性能的基本视觉表示。这个概念之所以得名，是因为它可以很容易地看出系统是否混淆了两个或多个类。此外，在多类的情况下，我们可以很容易地确定一对类是模型最难区分的。

在大多数情况下，它在行中表示实际类的实例，而在列中表示预测类的实例。然而，当列是标签而行是预测时，也可以有反向表示，但这种情况不太常见。

误差矩阵

准确性

它是模型性能的基本指标。它描述了我们的模型做出正确预测的频率——通常，测量值以百分比表示。

准确性的问题在于它是一个非常差的指标并且很容易玩弄。最值得注意的是，我们可以相当轻松地在相当复杂的任务中实现高精度。

例如在反洗钱的情况下，你总是可以只返回零——这意味着这个人没有洗钱——你肯定会达到95%以上的准确率。因为大多数人实际上并没有试图做任何洗钱的事情。问题是：如此高的准确性是否意味着您的模型很好，或者您将需要一些其他指标来验证您的模型性能？我留给你的答案。

此外，当仅基于准确性时，很容易过度拟合模型。我们可能会在我们的代码中做出太多仅适用于我们的测试集并且可能根本无法概括的假设。

另一个问题是当我们错误地准备测试集时。会和train set过于相似，或者train set中会包含部分test set。我们可以再次以相当高的准确性结束，但泛化模型很差。

至于准确性的方程式——我们可以用真阳性和真阴性来表达它们。因此，它可以被视为与整个人口相比正确预测的比率。

TP + TN - 正确的预测

P + N - 总人口

精确

检查实际上正确识别了多少阳性。表示正确预测的正类与所有预测为正的项目的比率。

这可以看作是TP与TP和FP之和的比率。高精度意味着我们可以轻松识别阳性。此外，精度有助于我们形象化机器学习模型在分类正类时的可靠性。

TP+FP-分类阳性总数

记起

不太常见的是敏感性。它试图回答正确识别了多少实际阳性的问题。表示正确预测的正类与所有实际为正的项目的比率。

因此，它可以表示为TP与TP和FN之和的比值。高召回率意味着我们能够正确识别大部分阳性。而低召回率意味着该模型错误地识别了正值。

TP+FN-所有正样本

准确率和召回率问题

为了全面评估模型性能，我们需要知道这两个指标。然而，它们之间的关系却相当复杂。通常，提高准确率的行为会降低召回率，反之亦然；增加召回率的行动会导致精确率下降。因此，您必须仔细权衡并选择哪个指标对您的模型用例最重要。

信心分数

一个从0到1的数字（如果使用百分比表示法，则为0到100）用于表示我们的模型对其预测的确定程度。一般来说，置信度得分越高越好。低于0.5(50)的置信度分数可能表示随机或半随机预测。

在评估模型的准确性结果时，您还应该考虑置信度得分。您没有理由需要一个精度高但置信度低的模型。实际上是一个完全不确定其预测的模型。我们的目标应该是在一定的置信度分数内表达我们模型的准确性。

ROC和AUC分数

ROC是Receiver Operating Characteristic Curve的缩写。它是二进制分类预测能力的图形表示。描述在各种阈值设置下召回率（或真阳性率）和假阳性率（FPR）之间的关系。

AUC是曲线下面积的缩写。而AUROC是Area Under Receiver Operating Characteristic Curve的缩写。它是一个从零到一的数字，描述了位于ROC曲线下方的绘图部分。它可以用来描述我们的模型能多好地区分正样本和负样本。根据AUC的值，您的模型会有不同的行为。

对于AUC值等于：