13来自奥菲寺
你知道吗?即使是ImageNet也可能至少有100,000个标签
是一项非常具有挑战性的任务,需要在大量数据集中描述或查找标签错误。有多少男女英雄为此头疼
最近,麻省理工学院和谷歌的研究人员提出了一种广义的自信学习方法,可以直接估计给定标签和未知标签之间的联合分布
是一个通用的CL,也是一个开源的干净实验室Python包。它在ImageNet和CIFAR上的性能比其他领先技术高出30%。
有多强大?拿一个栗子上面的数字
是2012年ILSVRC ImageNet训练集中使用自信学习发现的标签错误的一个例子。研究人员将CL发现的问题分为三类:
1和蓝色:图像中有多个标签;
2,绿色:数据集应该包含一个类;
3,红色:标签错误
通过自信的学习,您可以在任何数据集中使用适当的模型来查找标签错误。下图是另外三个常见数据集的示例
△标签错误的例子目前存在于亚马逊评论、MNIST和Quickdraw数据集,这些数据集使用置信度学习来识别不同的数据模式和模型
这么好的方法,还不快尝尝?
什么是自信学习?
自信学习已经成为监督学习的一个子领域
从上图可以看出,CL需要2个输入:
1和样本外预测概率;
2,噪声标签;
对于弱监督,CL由三个步骤组成:
1,估计给定的有噪声标签和潜在的未受损标签的联合分布,这可以完全描述一类条件标签的噪声;
2,查找和删除有标签问题的噪音示例;
3,训练以消除误差,然后根据估计的潜在先验重新加权示例
那么CL的工作原理是什么?
让我们假设有一个包含狗、狐狸和牛的图像的数据集CL的工作原理是估计噪声标签和真实标签的联合分布。
△ left:置信计数的一个例子:右图:三种类型数据集的噪声标签和真实标签的联合分布示例
接下来,CL统计了100张标记为“狗”的图像,这些图像很可能是“狗”,如上图左侧的c矩阵所示
CL还统计了56张标记为狗但很可能属于狐狸的图像,以及32张标记为狗但很可能属于牛的图像
背后的中心思想是,当样本的预测概率大于每个类别的阈值时,我们可以自信地认为该样本属于该阈值的类别
另外,每个类的阈值是该类样本的平均预测概率
易于使用清洁实验室
刚才提到,本文中提到的通用CL实际上是一个清洁实验室Python包它被称为清洁实验室,因为它可以“清洁”标签。
Clean Lab具有以下优点:
速度快:单一、非迭代、并行算法;
的稳健性:风险最小化保证,包括不完全概率估计。
通用性:适用于任何概率分类器,包括PyTorch、Tensorflow、MxNet、Caffe2、scikit-learn等。
唯一性:唯一的软件包,用于使用噪声标签进行多类学习或查找任何数据集/分类器标签错误
1行代码查找标签错误!
确保您以保持/样本外的方式计算问题
标签错误按错误可能性排序。第一个索引最有可能是错误。
FromLeanlab。PruningImport Get _ Noise _ Index
ordered _ Label _ Errors = Get _ Noise _ Index
3代码行学习噪音标签!
from cleanlab . classification ImportLearning with Noisyllabels
from sklearn . linear _ model ImportlogisticRegression
使用* no * laborerrors估计您通过训练得到的预测值。
predictions _ test _ labels = lnl . predict
接下来,cleanlab在MNIST的性能在这个数据集上可以自动识别50个标签错误用rankpruning算法识别
原始MNIST训练数据集的标签误差描述了24个最不可靠的标签,这些标签从左到右依次排列,从上到下增加了可靠度,并表示为conf预测概率最高的标签是绿色的明显的错误用红色表示。
门户网站
https://github.com/cggnorthcut/cleanlab/
自信学习博客:
https://l7.curtissnorthcut.com/confidential-learning
Reddit讨论:
https://www . Reddit . com/r/machine learning/comments/drhtkl/r _ announding _ confidential _ learning _ finding _ and/
-end-
调查问卷优势!人工智能产业白皮书将于12月6日在会议上发布,
199量子位和国际数据中心中国将联合发布“2019中国人工智能产业白皮书”。请填写调查问卷,感谢您的支持~填写好处:发布后尽快拿到白皮书,并在大会上获得人工智能内部参与者和观众投票的30%折扣券。点击下图填写问卷并获得问卷福利:
列表收集!人工智能顶级玩家
2019中国人工智能年度评选将评选出三大奖项。将为领先企业、业务突破人物和最具创新性的产品评选三大奖项。该名单将在2020年会议上公布。欢迎优秀的人工智能公司注册!横幅合同
”的作者
qubit QBITAI跟踪人工智能技术和产品
的新发展。如果你喜欢,请点击“观看”!