< p >“千万条道路,安全第一,不规则驾驶,两行亲人的眼泪”——这句话来自科幻电影《流浪地球》,但它也恰好概括了内容平台的“痛苦经历”。
从文字到图片,从现场直播到短片,多年来在内容创作道路上行驶的“车辆”可谓五花八门。其中,有一种“老司机”最让人头疼:
这些人,以玩色情为己任;露水之间的战斗;为无人认领的黄色生活内容“奋斗”
他们可能是你平台上的作家、主持人,甚至是配音演员这些旧驱动程序在海量内容池中茁壮成长,您无法找到、管理或清除它们。到了站台,这种感觉就像一句话:
直到一个阳光明媚的日子,平台才被有关部门命名、爱护,甚至关闭整顿,才发现两行泪水掩盖不了此时的悲壮之情。
1992-018年,全国互联网信息办公室每月平均收到网民举报的色情、欺诈和垃圾(有害)信息304.6万次,且次数不断增加。这些都是内容风险控制面临的问题,亟待解决。
内容风控制真的不容易实现准确性、实时性和批量性。随着人工智能技术和云内容的广泛应用,新内容风控制技术如何突破上述瓶颈?对于中小型企业和大型企业,适用哪种云内容控制方案?
带着疑问,雷锋邀请腾讯安全内容风险控制专家卢卡斯,就内容安全进行了真诚的问答。
1年。为什么内容风控制对平台如此重要?
卢卡斯:有三个原因:
1.如果平台在识别有害内容方面做得不好,就需要承担法律责任:最近的《关于非法使用信息网络、协助信息网络犯罪等刑事案件适用法律若干问题的解释》进一步明确了平台和产品在内容方面的义务和法律责任< p>
2。平台中有害内容的泛滥将严重影响用户的身心健康3。如果平台允许有害内容的生成和传播,将不可避免地导致劣质内容排挤高质量内容,降低平台的整体质量,从而导致用户流失。2年,色情文本内容与互联网一样古老,风控平台如何准确识别哪些文本内容是“驾驶”?如何准确识别同音字和拼音等边缘字符?如何识别象声词,如“嗯,嗯,嗯”,“啊,啊,啊”?
卢卡斯:文本是网络中最大的信息载体。所有互联网平台都面临着文本安全风险控制的问题。色情文本有一些明显的特征,如异体字的干扰、象形文字和同音字的干扰。
▲垃圾文本通过变异干扰避免传统有害文本风控模式
根据这类文本的特点,抗干扰能力弱、策略更新滞后的文本策略单独不能满足对抗的需求,需要采用文本策略与算法模型相结合的方法来提高整体识别的召回率和准确率。
文本分类算法选择和模型训练
比较典型的文本分类算法,如文本新闻网、RNN、快速文本等。该模型具有复杂度低、推理速度快、抗干扰能力强、对词序不敏感等特点,适用于短文本高度对抗的场景。在模型训练中,通过以下方法进一步提高了模型的识别效果:
1.基于汉字和拼音的Word2Vec可以丰富单词的语义信息,有效解决同音字问题; < p>
2。数据增强。训练样本中的高频词不打印。例如,单词“micro”分别补充“+v”和“+Wei”进行训练,以提高模型的抗干扰能力。3。例如,基于静态词向量和动态词向量的组合,在不同场景的大规模语料库上对静态词向量进行预训练,以捕获词的多场景语义信息,从而降低训练数据过少导致的过度拟合风险
▲短文本类型模型和训练流程
▲腾讯安全天宇内容风控文字安全打击效果
3年。色情可能是流传最广、传播最快的色情信息内容。我们知道,对于机器来说,识别色情图像的门槛非常高。企业应该做什么?
卢卡斯:图片是互联网上仅次于文本的第二大信息形式。几乎所有的互联网平台都必须面对色情和图片粗俗等问题。
我们大致将色情和低俗图片分为两种过滤类型:
有具体的有害元素,如露点、性行为等。经典的图像分类/目标检测算法适用于这种情况。该算法的挑战在于元素的类型很多,并且图片中有害元素的比例不一定很大。针对这种情况,通过注意力技术,模型可以更加关注特定的元素,而“忽略”其他不相关的图片元素。图中的输出图片是一个热图,从中可以看出模型对泄漏信息有最明显的反应,这表明模型判断这是一个粗俗图片的主要原因是它发现了“泄漏槽”的概念
▲通过关注技术使模型更加关注特定元素
抽象概念:一幅画是否有害,是由人类根据画中特定元素与生活经验相结合的结果来判断的。与识别特定元素的图像感知相比,大量模糊的图片(如性挑逗和性诱惑)将问题提到了图像认知的层面。图像多标签识别技术可以输入一张图片,输出一组标签,为图像认知提供基本的语义支持。只有在多标签的基础上建立上层模型,机器才能达到类似人类“形象认知”的效果这里的算法挑战是积累大量的训练数据来覆盖各种标签,而标签在现实世界中的分布比例往往严重失衡。如何在保持最终识别指数的同时支持大量标签类别并处理标签不平衡的问题是一个技术挑战。针对这种情况,腾讯安全天宇内容风控制采用标签级动态采样方法,通过设置忽略标签来抑制高频标签,降低损耗反向传播权重,可以有效提高低频标签的召回率,进一步提高整体识别效果。
1994年,除了文本和图片这两种主要的载体外,实时和短视频也在高速发展。对内容风控制的视频要求有什么反应?如果视频画面正常,但广播中有“咕噜声”和“呻吟声”,腾讯安全部门能认出它们吗? 199卢卡斯:直播在2016年迅速增长。近年来,视频短片发展迅速,通过视频吸引了大量网民的注意力。与文本和图片的静态内容相比,除了从视频中提取帧以识别图片的有害内容之外,直播和短视频的内容风控制还有更多的挑战:实时:作为实时流,主持人有数百万甚至数千万的粉丝在直播的同时观看节目。因此,用于风控制的算法模型的响应速度特别高。一般情况下,需要在500ms内完成色情、低俗、主持人是否本人等多项测试,并将异常情况通知平台进行处理。
性能要求:以1分钟的短片为例。如果一帧以100毫秒的间隔绘制,则需要识别600张图片才能完成一个简短的视频。串行处理需要大约5分钟,这通常不能满足用户及时上传和共享的需求。因此,需要加快视频检测的速度。除了提高机器的并行处理速度之外,后帧关联识别还可以用于在屏幕捕获期间进行跳转帧提取,以减少帧提取的总量,而不会泄露视频中的关键帧信息,从而减少图片识别的总量。目前,腾讯安全在视频检测方面利用滕循的资源进行灵活的扩展和收缩,利用跳帧识别在1分钟视频内完成检测,最多10秒。
音频检测:除了视频中的有害信息外,还可能存在视听不相关的现象,如正常直播视频,但音频为黄色,所以除了截图识别外,还需要提取音频内容进行呻吟识别等。完整的音频检测过程包括:a)VAD执行静音检测,移除静音内容,并分割音频;b)提取音频特征MFCC/Fbank等。(c)提取能够在通用模型(基于GMM或TDNN)上表示音频内容的特征;d)通过特定的后端分类器获得每个音频片段的识别结果;e)根据每个片段的得分和时长,并根据业务需要,汇总得到整个语音内容的识别结果和置信度
▲腾讯安全-色情音频识别效果
5年,这些技术是否适用于该平台,所选择的内容风控制方案是否适用于中小型企业和大型企业?
Lucas:如前所述,文本、图片和视频(音频)有不同的算法(如TextCNN、BERT、多标签识别、注意力技术和音频中的TDNN和I矢量)。不同规模的企业所选择的技术可能是相同的,但是在风控制系统的设计和实践中会有很大的差异,导致最终的结果有很大的偏差。内容的对抗是一个持续的过程。在线不变的算法模型可以解决一个暂时的问题,而不能解决各种各样的黑产品的攻击和绕过。因此,除了在线识别系统,我们还需要一套主动收集的泄露数据来补充在线模型过程:
1.获取被在线模型识别为有害的内容以及与用户报告的有害内容相关联的数字 < p>
2。提取数字的文本内容并进行文本聚类(TF-IDF、DBSCAN、层次聚类) 3。提取聚类特征信息的平均长度(数量信息熵、IP信息熵、地址信息熵) 4。通过XGBoost输出异常分类挖掘缺失样本,并手工标注
▲完整的垃圾文本过滤系统
同样,图片、视频和音频的检测系统也需要主动收集泄漏数据的过程。此外,内容风控制系统还必须具有灵活的处理能力以满足业务需求,以及对不同场景进行精细检测的能力因此,对于中小企业,我们建议选择成熟的云内容风控制方案,减少企业人力物力的持续投入,注重内容本身的运营。但是,对于大型企业来说,由于面临的风险较大,他们可能不仅要构建自己的内容风控制系统,还要借助云内容风控制能力来补充和完善自己的不足。
6年。从实际效果来看,内容风控制解决方案的应用能否实现“降本增效”,为企业降低成本?
卢卡斯:目前,腾讯安全天宇内容风控系统已经通过腾讯云和小程序开放平台服务了成千上万的客户。通过我们的内容风控制系统,我们可以在两个方面实现“降低成本和提高效率”:
降低开发成本,一键式访问
目前,腾讯安全天宇的内容风控制系统已经与腾旭云的产品有机结合。如果企业已经使用了云通信、点播、对象存储(COS)、直播和其他产品,那么它就可以访问我们的内容而无需开发。在我们识别出有害内容后,我们会主动通知企业进行处理。
▲腾讯安全天宇内容风控制系统结合腾旭运
降低成本20%~80%
随着内容风控制系统检测效果的不断提高,“黄”企业的人力投入也在不断减少。不同规模的企业可降低原始成本20%~80%过去需要大量人工输入的大量工作现在可以由系统完成。内容风控制系统测试后,企业可以将人力资源集中在审查上,以提高风控制效果,更大程度地规避有害内容带来的风险,同时也可以将人力资源投入到其他业务的创新和生产上,为企业创造更多的价值。
▲腾讯安全天空内容风控效果
7年,内容控制未来的发展方向是什么?随着虚拟现实、增强现实、5G等新技术的登陆,企业将面临哪些新的内容风控制问题?
Lucas:内容风控制的核心是识别文本、图片、视频和音频中的有害内容。在这个阶段,鉴定不能与“法医专家”的协助分开。我们需要不断细化识别以满足不同场景的需求,同时不断提高召回率和准确率以释放“法医专家”的投入,从而降低企业的成本。
目前,内容风控制对抗主要是用户生成的内容。无论是用户自拍还是专业拍摄,内容的创造都有一定的成本。当由生成对抗算法生成的文本、图片、视频和音频开始传播时,创建成本更低,并且可能更易传播。那么内容风控制不仅需要面对人生成的内容,还需要面对机器自动生成的各种内容
随着5G和其他技术的到来,虚拟现实和现实可能再次成为热点,并带来新的内容形式。然而,内容风控制的性质不会改变。只要我们做好内容生产、存储和传播三个环节的内容风控制,我们一定能够以更好的姿态迎接内容井喷发展的到来。