超级容易使用的自信学习:1行代码找到错误的标签，3行代码学习噪音标签

13来自奥菲寺

你知道吗？即使是ImageNet也可能至少有100，000个标签

是一项非常具有挑战性的任务，需要在大量数据集中描述或查找标签错误。有多少男女英雄为此头疼

最近，麻省理工学院和谷歌的研究人员提出了一种广义的自信学习方法，可以直接估计给定标签和未知标签之间的联合分布

是一个通用的CL，也是一个开源的干净实验室Python包。它在ImageNet和CIFAR上的性能比其他领先技术高出30%。

有多强大？拿一个栗子上面的数字

是2012年ILSVRC ImageNet训练集中使用自信学习发现的标签错误的一个例子。研究人员将CL发现的问题分为三类:

1和蓝色:图像中有多个标签；

2，绿色:数据集应该包含一个类；

3，红色:标签错误

通过自信的学习，您可以在任何数据集中使用适当的模型来查找标签错误。下图是另外三个常见数据集的示例

△标签错误的例子目前存在于亚马逊评论、MNIST和Quickdraw数据集，这些数据集使用置信度学习来识别不同的数据模式和模型

这么好的方法，还不快尝尝？

什么是自信学习？

自信学习已经成为监督学习的一个子领域

找附近的人

从上图可以看出，CL需要2个输入:

1和样本外预测概率；

2，噪声标签；

对于弱监督，CL由三个步骤组成:

1，估计给定的有噪声标签和潜在的未受损标签的联合分布，这可以完全描述一类条件标签的噪声；

2，查找和删除有标签问题的噪音示例；

3，训练以消除误差，然后根据估计的潜在先验重新加权示例

那么CL的工作原理是什么？

让我们假设有一个包含狗、狐狸和牛的图像的数据集CL的工作原理是估计噪声标签和真实标签的联合分布。

△ left:置信计数的一个例子:右图:三种类型数据集的噪声标签和真实标签的联合分布示例

接下来，CL统计了100张标记为“狗”的图像，这些图像很可能是“狗”，如上图左侧的c矩阵所示

CL还统计了56张标记为狗但很可能属于狐狸的图像，以及32张标记为狗但很可能属于牛的图像

背后的中心思想是，当样本的预测概率大于每个类别的阈值时，我们可以自信地认为该样本属于该阈值的类别

另外，每个类的阈值是该类样本的平均预测概率

易于使用清洁实验室

刚才提到，本文中提到的通用CL实际上是一个清洁实验室Python包它被称为清洁实验室，因为它可以“清洁”标签。

Clean Lab具有以下优点:

速度快:单一、非迭代、并行算法；

的稳健性:风险最小化保证，包括不完全概率估计。

通用性:适用于任何概率分类器，包括PyTorch、Tensorflow、MxNet、Caffe2、scikit-learn等。

唯一性:唯一的软件包，用于使用噪声标签进行多类学习或查找任何数据集/分类器标签错误

1行代码查找标签错误！

确保您以保持/样本外的方式计算问题

标签错误按错误可能性排序。第一个索引最有可能是错误。

FromLeanlab。PruningImport Get _ Noise _ Index

ordered _ Label _ Errors = Get _ Noise _ Index

3代码行学习噪音标签！

from cleanlab . classification ImportLearning with Noisyllabels

from sklearn . linear _ model ImportlogisticRegression

使用* no * laborerrors估计您通过训练得到的预测值。

predictions _ test _ labels = lnl . predict

接下来，cleanlab在MNIST的性能在这个数据集上可以自动识别50个标签错误用rankpruning算法识别

原始MNIST训练数据集的标签误差描述了24个最不可靠的标签，这些标签从左到右依次排列，从上到下增加了可靠度，并表示为conf预测概率最高的标签是绿色的明显的错误用红色表示。

门户网站

https://github.com/cggnorthcut/cleanlab/

自信学习博客:

https://l7.curtissnorthcut.com/confidential-learning

Reddit讨论:

https://www . Reddit . com/r/machine learning/comments/drhtkl/r _ announding _ confidential _ learning _ finding _ and/

-end-

调查问卷优势！人工智能产业白皮书将于12月6日在会议上发布，

199量子位和国际数据中心中国将联合发布“2019中国人工智能产业白皮书”。请填写调查问卷，感谢您的支持~

填写好处:发布后尽快拿到白皮书，并在大会上获得人工智能内部参与者和观众投票的30%折扣券。点击下图填写问卷并获得问卷福利:

列表收集！人工智能顶级玩家

2019中国人工智能年度评选将评选出三大奖项。将为领先企业、业务突破人物和最具创新性的产品评选三大奖项。该名单将在2020年会议上公布。欢迎优秀的人工智能公司注册！横幅合同

”的作者

qubit QBITAI跟踪人工智能技术和产品

的新发展。如果你喜欢，请点击“观看”！

超级容易使用的自信学习:1行代码找到错误的标签，3行代码学习噪音标签

超级容易使用的自信学习:1行代码找到错误的标签，3行代码学习噪音标签的相关文章

美国战机数量上万美国战机数量

军长大人太凶猛_禁欲总裁太凶猛

辽宁一日游景点大全【相关词_ 辽宁一日游哪里好玩】

下雨天能去笔架山吗_下雨天能去黄果树吗

台湾旅游签证办理流程_台湾旅游最佳季节

日本_日本举行大笑比赛：参赛者集体哇哈哈

魅族note运行_魅族爆发了，6+64G+水滴屏+4000毫安，魅族Note 9开启清仓模式

监控器安装_丽水经济技术开发区对居家隔离人员家门口安装24小时监控，一有动静就报告

上市公司转让实控权_0元转让三家子公司你接吗？上市公司甩包袱过年开出地板价还有低价甩卖资产

易人北作品集微盘_报恩记公子欢喜

顺德职业技术学院贴吧【相关词_ 顺德职业技术学院学费】

用木头做陀螺_怎么用木头做手指陀螺

疫情期间银行员工_邮储银行荆门市分行严把疫情期间消毒关

三d预测_三d预测专家预测

黄山四绝是什么_原创德牧眼屎多带黄是什么原因

横琴岛面积【相关词_ 珠海横琴岛面积】

连云港到淮安多少公里_连云港

居民楼消防要求【相关词_居民楼消防通道要求】

下午3点吃水果的好处_下午4一5点吃水果好吗

2018年阜宁房价吧【相关词_ 2018年阜宁房价】

大家都在看

相关专题

超级容易使用的自信学习:1行代码找到错误的标签，3行代码学习噪音标签

超级容易使用的自信学习:1行代码找到错误的标签，3行代码学习噪音标签的相关文章

美国战机数量上万 美国战机数量

军长大人太凶猛_禁欲总裁太凶猛

辽宁一日游景点大全【相关词_ 辽宁一日游哪里好玩】

下雨天能去笔架山吗_下雨天能去黄果树吗

台湾旅游签证办理流程_台湾旅游最佳季节

日本_日本举行大笑比赛：参赛者集体哇哈哈

魅族note运行_魅族爆发了，6+64G+水滴屏+4000毫安，魅族Note 9开启清仓模式

监控器安装_丽水经济技术开发区对居家隔离人员家门口安装24小时监控，一有动静就报告

上市公司转让实控权_0元转让三家子公司你接吗？上市公司甩包袱过年开出地板价 还有低价甩卖资产

易人北作品集微盘_报恩记 公子欢喜

顺德职业技术学院贴吧【相关词_ 顺德职业技术学院学费】

用木头做陀螺_怎么用木头做手指陀螺

疫情期间银行员工_邮储银行荆门市分行严把疫情期间消毒关

三d预测_三d预测专家预测

黄山四绝是什么_原创 德牧眼屎多带黄是什么原因

横琴岛面积【相关词_ 珠海横琴岛面积】

连云港到淮安多少公里_连云港

居民楼消防要求【相关词_居民楼消防通道要求】

下午3点吃水果的好处_下午4一5点吃水果好吗

2018年阜宁房价吧【相关词_ 2018年阜宁房价】

大家都在看

相关专题

美国战机数量上万美国战机数量

上市公司转让实控权_0元转让三家子公司你接吗？上市公司甩包袱过年开出地板价还有低价甩卖资产

易人北作品集微盘_报恩记公子欢喜

黄山四绝是什么_原创德牧眼屎多带黄是什么原因