超级容易使用的自信学习:1行代码找到错误的标签,3行代码学习噪音标签

13来自奥菲寺

你知道吗?即使是ImageNet也可能至少有100,000个标签

是一项非常具有挑战性的任务,需要在大量数据集中描述或查找标签错误。有多少男女英雄为此头疼

最近,麻省理工学院和谷歌的研究人员提出了一种广义的自信学习方法,可以直接估计给定标签和未知标签之间的联合分布

是一个通用的CL,也是一个开源的干净实验室Python包。它在ImageNet和CIFAR上的性能比其他领先技术高出30%。

有多强大?拿一个栗子上面的数字

是2012年ILSVRC ImageNet训练集中使用自信学习发现的标签错误的一个例子。研究人员将CL发现的问题分为三类:

1和蓝色:图像中有多个标签;

2,绿色:数据集应该包含一个类;

3,红色:标签错误

通过自信的学习,您可以在任何数据集中使用适当的模型来查找标签错误。下图是另外三个常见数据集的示例

△标签错误的例子目前存在于亚马逊评论、MNIST和Quickdraw数据集,这些数据集使用置信度学习来识别不同的数据模式和模型

这么好的方法,还不快尝尝?

什么是自信学习?

自信学习已经成为监督学习的一个子领域

找附近的人

从上图可以看出,CL需要2个输入:

1和样本外预测概率;

2,噪声标签;

对于弱监督,CL由三个步骤组成:

1,估计给定的有噪声标签和潜在的未受损标签的联合分布,这可以完全描述一类条件标签的噪声;

2,查找和删除有标签问题的噪音示例;

3,训练以消除误差,然后根据估计的潜在先验重新加权示例

那么CL的工作原理是什么?

让我们假设有一个包含狗、狐狸和牛的图像的数据集CL的工作原理是估计噪声标签和真实标签的联合分布。

△ left:置信计数的一个例子:右图:三种类型数据集的噪声标签和真实标签的联合分布示例

接下来,CL统计了100张标记为“狗”的图像,这些图像很可能是“狗”,如上图左侧的c矩阵所示

CL还统计了56张标记为狗但很可能属于狐狸的图像,以及32张标记为狗但很可能属于牛的图像

背后的中心思想是,当样本的预测概率大于每个类别的阈值时,我们可以自信地认为该样本属于该阈值的类别

另外,每个类的阈值是该类样本的平均预测概率

易于使用清洁实验室

刚才提到,本文中提到的通用CL实际上是一个清洁实验室Python包它被称为清洁实验室,因为它可以“清洁”标签。

Clean Lab具有以下优点:

速度快:单一、非迭代、并行算法;

的稳健性:风险最小化保证,包括不完全概率估计。

通用性:适用于任何概率分类器,包括PyTorch、Tensorflow、MxNet、Caffe2、scikit-learn等。

唯一性:唯一的软件包,用于使用噪声标签进行多类学习或查找任何数据集/分类器标签错误

1行代码查找标签错误!

确保您以保持/样本外的方式计算问题

标签错误按错误可能性排序。第一个索引最有可能是错误。

FromLeanlab。PruningImport Get _ Noise _ Index

ordered _ Label _ Errors = Get _ Noise _ Index

3代码行学习噪音标签!

from cleanlab . classification ImportLearning with Noisyllabels

from sklearn . linear _ model ImportlogisticRegression

使用* no * laborerrors估计您通过训练得到的预测值。

predictions _ test _ labels = lnl . predict

接下来,cleanlab在MNIST的性能在这个数据集上可以自动识别50个标签错误用rankpruning算法识别

原始MNIST训练数据集的标签误差描述了24个最不可靠的标签,这些标签从左到右依次排列,从上到下增加了可靠度,并表示为conf预测概率最高的标签是绿色的明显的错误用红色表示。

门户网站

https://github.com/cggnorthcut/cleanlab/

自信学习博客:

https://l7.curtissnorthcut.com/confidential-learning

Reddit讨论:

https://www . Reddit . com/r/machine learning/comments/drhtkl/r _ announding _ confidential _ learning _ finding _ and/

-end-

调查问卷优势!人工智能产业白皮书将于12月6日在会议上发布,

199量子位和国际数据中心中国将联合发布“2019中国人工智能产业白皮书”。请填写调查问卷,感谢您的支持~

填写好处:发布后尽快拿到白皮书,并在大会上获得人工智能内部参与者和观众投票的30%折扣券。点击下图填写问卷并获得问卷福利:

列表收集!人工智能顶级玩家

2019中国人工智能年度评选将评选出三大奖项。将为领先企业、业务突破人物和最具创新性的产品评选三大奖项。该名单将在2020年会议上公布。欢迎优秀的人工智能公司注册!横幅合同

”的作者

qubit QBITAI跟踪人工智能技术和产品

的新发展。如果你喜欢,请点击“观看”!

大家都在看

相关专题