人口贩卖2_利用深度多模态模型打击人口贩卖

ACL 2017 Long Papers

使用深度多模式模型来打击人口贩运< br>

将人口贩运与深度多模式模型相结合

卡内基梅隆大学

[摘要]人口贩运是一种影响全球数百万人的全球性流行病性交易是贩运人口的主要形式，这主要是因为有大量帮助和教唆贩运人口的网站，这些网站可以在任何广告中宣传。在本文中，我们采用一种主要的方法来自动检测涉嫌贩卖人口的广告。我们提出了一个名为Trafficking-10k的新数据集，并为此任务标记了10，000多个广告。数据集中的每个广告都包含两个信息源:文本和图像为了准确检测贩运广告，我们设计并训练了一个深度多模态模型，称为人口贩运深度网络

1简介

人口贩运“让我们所有人蒙羞的罪行”(UNODC，2008)，自2012年以来在美国急剧上升报告的病例数量从2012年的3，279例增加到2016年的7，572例，在过去五年中翻了一番(热线)性贩运是人口贩运的一种形式，是一种全球流行病，每年影响数百万人(麦卡锡，2014年)性交易的受害者被强迫、胁迫和控制，无法寻求帮助。明确指出，贩运人口是一种现代奴役，是各级执法机构的主要任务之一。

人贩子的主要广告手段是万维网互联网使非法交易者能够在互联网上做广告，并促进了许多成人援助网站的发展。每天，成千上万的互联网广告在美国和加拿大被发布用于商业活动。隐藏在任何成人援助广告中的噪音都是由性交易商发布的。贩运活动和援助网站通常很长一段时间都没有被发现，形成了利润循环，助长了贩运人口和援助网站的增加。

是对执法的重大挑战:我们应该如何识别与性交易相关的广告？警方的人力和技术资源有限。他们手动筛选成千上万的广告，希望找到可疑信息。即使他们知道他们在寻找什么资源，他们也是这些资源的一种使用。在自然语言处理中使用最先进的机器学习方法和计算机视觉来检测和报告涉嫌贩卖的广告是我们工作的主要重点。换句话说，我们正试图找到隐藏在大量在线数据中的贩运受害者和犯罪者。通过减少执法机构必须筛选的广告数量，我们试图为执法机构提供拯救受害者的真正机会。然而，这条研究路线面临着巨大的挑战:

对环境不利人口贩运知道执法机构正在监控他们的在线活动。多年来，执法官员列出了经常出现在贩运广告中的关键词。然而，当广告人员使用复杂的混淆术语时，这些简单的查询术语将不起作用。非法交易者再次意识到这一点，转向新的关键词，并将其与广告合并以寻求帮助这种趋势为任何机器学习系统创造了一个敌对的环境，试图找到隐藏在明显可见的贩卖圈。

缺少语言元素分析在线帮助广告非常困难，因为它们缺乏语法结构，如短语结构。因此，任何形式的推理都必须更多地依赖于上下文而不是语法。这给民盟社区带来了重大挑战此外，大多数广告包含表情符号和非英语字符

通用语言上下文机器学习技术可以很容易地学习训练集中不可靠的线索，如电话号码、关键词和其他形式的语义不可靠鉴别器，以减少训练损失。由于大量的在线广告限制了训练数据和测试数据之间的相似性，仅仅依靠这些线索是徒劳的。学习的辨别特征应该被概括，销售的语义应该被模型化。

多模式属性援助物资的广告由文字和视觉信息组成。我们的模型应该依赖于这些特征例如，如果文本表明援助是在酒店房间，我们的模型应该考虑这种知识对一些视觉特征的重要性的可能影响。

我们认为，在自然语言处理、计算机视觉和处理语言和视觉问题的机器学习领域，研究人口贩运广告可以被视为一项基本挑战在本文中，我们对这一研究方向做出了以下贡献首先，我们通过深层神经模型研究补充广告的语言和视觉模式。其次，我们在自动检测涉嫌性交易的广告方面迈出了重要的一步。尽管以前的方法(Dubrawski等人，2015年)使用了简单的分类器，但我们构建了一个端到端培训的多模态深度模型，称为人口贩运深度网络(HTDN)HTDN使用文本和图像中的信息来提取人口贩运线索，与以前使用的模型相比，表现出了优异的性能第三，我们提出了首个严格标记的人口贩运检测数据集，称为“贩运-10k”，其中包括10，000多个贩运广告，并标志着被贩运者释放的可能性。

2相关工作

人口贩运的自动检测是机器学习研究中相对不发达的领域很少有人提出机器学习方法来检测在线人口贩运的迹象。这些方法大多使用简单的方法，例如多媒体匹配(周等人，2016年)、基于文本的过滤分类器，例如随机森林、逻辑回归和(杜布拉瓦斯基等人，2015年)以及命名实体识别孤立贩运案件(Nagpal等人，2015年)该研究建议使用统计方法从数据中找到关键词和贩运迹象，以帮助执法机构(肯尼迪，2012年)，并使用文本信息进行成人内容过滤(周等人，2016年)

多模式方法在过去几年中得到推广。这些多模式模型已用于医学目的，如检测自杀风险、创伤后应激障碍和抑郁症(舍雷尔等人，2016年；Venek等人，2016年；于等，2013；Valstar等人，2016年)；情绪分析(扎德等人，2016年b；茯苓等人，2016年；扎德等人，2016年a)；情感识别(茯苓等，2017年)；图像字幕和媒体描述(尤等，2016；Donahue等人，2015年)；问答(antol等人，2015年)；和多模式翻译(Specia等人，2016年)据我们所知，

是第一个检测人口贩运的多模式深度模型。

< br>

3 traffic-10k数据集

在本节中，我们将介绍我们研究的数据集我们将性交易识别问题形式化为一项机器学习任务。输入数据是单词和图像；这被映射到可能是人口贩运广告的程度。

3.1数据收集和预处理

10，000个广告中的一小部分是从用于在Trafficking-10k数据集中标记的大量补充广告中随机选择的美国和加拿大的广告分布如图1所示，图1显示了贩运-10k中广告的多样性。这种多样性确保了关于“贩运-10k”的培训模式可以在全国范围内应用。在收集的10，000个广告中，每一个都由文本和零个或更多的图像组成数据集中的文本是纯文本格式，通过从广告的原始源中剥离HTML标记来导出每个广告中的字符集被编码为UTF-8，因为有足够多的使用表情符号和非英语字符。广告截取了前184个单词，因为它覆盖了90%以上的广告。RGB通道的图像大小调整为224×224像素

图1美国和加拿大的广告流量分布-10k

3.2非法贸易标签

需要多年的实践经验和与执法部门的密切合作来检测广告是否可疑。因此，标记是一个非常复杂和昂贵的过程，不能通过众包来扩展。在我们的数据集中，标签是由两个专家标签代理来执行的，其中一个至少有五年的检测人口贩运的经验，另一个有一年的经验。在我们的数据集中，标签是由三位专家完成的。一名专家有一年以上的经验，另两名专家在人口贩运领域有五年以上的经验。为了计算交叉标记的一致性，每个被标记的人被标记上相同的一组1000个广告，并且发现名义一致性:存在83%的成对一致性(0.62克里本多夫α)另外，为了保证标签的广泛性，标签代理人和执法人员都可以引用标签，两个执法人员分别标注了500个和100个广告的子集。我们发现我们的注释有62%的平均成对一致性(0.42克里本多夫α)。这一差距是合理的，因为执法人员只有本地广告经验，而贩运-10k的标签工作人员在美国各地都有案例经验。

注释器使用专门为traffing-10k数据集设计的注释接口在标签界面中，每个广告都显示在单独的网页上广告的顺序是随机且均匀地确定的，并且注释者不能在不注释当前广告的情况下移动到下一个广告。对于每一则广告，广告人都会被问一个问题:“你认为这则广告可能与人口贩卖有关吗？”注释器提供了以下选项:“确定性链接”、“相似性否”、“弱否”、“不确定”、“弱是”、“相似性是”、“确定性是”因此，可疑广告的程度被量化为七个等级

3.3语言分析

这些广告中使用的语言给自然语言处理带来了基本的挑战这些广告中的文本内容的性质提出了一个问题，那就是，我们如何通过使用不断发展的词典在语言环境中做出推论贩运-10k数据集使用的语言与标准语法高度不一致。通常，单词被表情符号和符号代替单词的顺序是不一致的，任何形式的短语结构都很少。这种语言形式与英语口语和书面语完全不同。这些属性使得补充广告看起来有点像推特，因为这些广告通常很短(超过90%的广告最多有184个单词)这些广告的另一个复杂之处是使用不常用的词语和混淆造成的大量词语。除了复杂性，广告商还不断改变他们的写作模式，使得问题变得更加复杂。

3.4数据集统计

traffic-10k数据集有106，954个不同的单词，353，324个不同的双单词，565，403个三元组总共60，337张图片包括空格、标点符号和十六进制字符在内的不同字符总数为182广告的平均长度是137个字，标准差是74，中位数是133最短的广告有7个单词，最长的广告有1810个单词在Trafficking数据集中有106，954个不同的单词，353，324个不同的两个单词和565，403个三个单词。广告中图像的平均数量是5.9；中位数为5，最小值为0，最大值为90

可疑广告长度为134字；标准偏差为39，最小值为12，最大值为666非可疑广告长度为141；标准偏差为85，最小值为7，最大值为1810可疑广告总数为3257个；非可疑广告总数为6992个图2示出了广告数量及其长度的直方图正分布和负分布都是相似的。这意味着这两个类在长度上没有明显的差别。大多数广告的长度为80-180个单词。

4型号

在本节中，我们介绍我们的深度多模式网络，称为人口贩运深度网络(HTDN)HTDN是一个具有语言和视觉组件的多模式网络HTDN的输入是广告、文本和图像。HTDN如图3所示。在本节的其余部分，我们将概述HTDN的不同部分和每个组件的输入特性。

人口贩卖2

图3我们提议的深度贩运网络概述HTDN的输入是文本和一组5个图像文本通过语言网络Fl获得语言表示hl，并通过视觉网络Fv获得一组5个图像以获得视觉表示hv然后将h1和hv融合在一起以获得多模态表示hm基于hm的卷积决策网络用于推断广告是否涉嫌人口贩运。

4.1非法买卖单词向量

我们处理支持性广告对抗环境的方法是使用单词向量来定义不是基于其组成字符而是基于其上下文的单词例如，考虑两个单词“a$h”和“a $ h”尽管它们包含不同的字符，但它们在语义上是相同的，并且出现在相同的上下文中。因此，我们希望将这两个单词映射到相似向量在一般领域中训练的词向量没有涵盖贩运-10k中的大多数词例如，在维基百科(Pennington等人，2014)上训练的手套单词向量只覆盖了我们单个单词格式的49.7%HTDN过程的第一步是基于跳跃图模型训练单词向量(Mikolov等人，2013)这尤其适用于补充广告，因为跳格模型可以捕捉上下文，而不依赖于词序。我们使用不包含Trafficking数据的数据集，并使用1，000，000个未标记的广告来训练单词向量。对于每个广告，训练后的输入是一系列单词，输出是一系列100维单词向量，其中t是广告大小的总和我们训练的词向量覆盖了贩运-10k数据集中94.9%的词组。

4.2语言网络

我们的语言网络旨在处理援助广告的两个具有挑战性的方面:(1)违反短语结构，(2)存在与贩运无关但存在于广告中的无关信息我们通过学习一个依赖于时间的单词向量来解决这两个问题。这样，模型就不会依赖短语结构，而且还能记住过去有用的信息，使得模型受到不相关信息的干扰。我们提出一个语言网络，Fl，作为单词向量序列的输入，并输出一个神经语言表示h1作为第一步，Fl使用单词向量作为长期记忆(LSTM)网络的输入，并生成新的监督上下文感知单词向量，其中它是LSTM在时间I的输出然后，将u馈送到p = 0.5的全连接层中，以根据以下公式生成神经元语言表示，其中，LSTM的权重W1和全连接层中的隐含权重由FC表示:由

人口贩卖2

生成的H1然后被用作HTDN的一部分，并且还被独立地训练以评估语言模型的性能外语网络是LSTM和完全连接网络的结合

4.3与语言网络并行的视觉网络

是视觉网络Fv，其作为广告图像输入并提取视觉表示hv视觉网络最多需要五幅图像。贩运-10k中每个广告的中值图像是5为了从图像中学习上下文和抽象信息，我们使用了一个称为贩运-VGG(T-VGG (t-VGG)的深度卷积神经网络，这是一个著名的VGG网络的简化示例(Simonyan和Zisserman，2014)VGG是一个深度模型，有13个连续的卷积层，后面是两个完全连接的层。它不包括VGG的软最大层。微调T-VGG的过程是将每个图像映射到广告的标签上，然后执行端到端的训练。例如，如果广告中有五个带有正面标签的图像，则所有五个图像都被映射到正面标签微调后，将300个完全连接的三层200个神经元(损失阈值为p = 0.5)添加到网络中VGG和完全连接层的结合是视觉网络Fl我们将五幅图像视为输入广告。如果广告少于5个图像，则添加零填充图像对于每个图像，Fv的输出是五个图像视觉表示是一个矩阵，每5幅图像的大小为200:

4.4多模态融合

补充广告在文字和图像之间具有复杂的动态关系通常，仅凭语言或视觉线索不足以区分广告是否可疑。语言和视觉线索之间的相互作用非常重要，因此有必要对语言和视觉表征中的每个神经元进行清晰的融合表征。在我们的多模态融合方法中，我们通过计算语言和视觉表示hl和hv之间的外部关系来解决这个问题，从而建立可能结果的整个空间:

，这是两个表示的外部关系这为语言和视觉模态创建了一个联合多模态张量，称为hm在这个张量中，语言表示中的每个神经元乘以视觉表示中的每个神经元，以创建包含它们的信息的新表示因此，最终的融合张量包含来自语言和视觉模态的联合交互的信息图4的基线模型的不同输入特性的

人口贩卖2

2D t-SNE表示从左上角顺时针:一个基于专家数据的向量，一个没有专家数据的向量，视觉网络Fv的视觉特征和平均单词向量这些表示表明，traffing-10k数据集中的推断并不简单。

4.5卷积决策网络

多模态表示hm用作卷积决策网络Fd的输入Fd有两层卷积和最大化，衰减率为p = 0.5，随后是150个神经元的完全连接层，衰减率为p = 0.5该空间中的卷积使模型能够适应小范围的语言和视觉线索因此，它可以找到语言的具体组合和视觉表征之间的对应关系最终的决定是由一个单一的乙状结肠神经元做出的

5实验

在我们的实验中，我们将HTDN与以前用于检测可疑广告的方法进行了比较此外，我们还比较了HTDN及其单峰成分的性能。在我们所有的实验中，我们对广告是否被怀疑与贩卖人口有关进行了分类。我们使用的主要比较方法是加权准确度和F1得分(由于不平衡的数据集)加权精度的公式如下:

其中TP(或TN)是正类(或负类)预测，p(或n)是正(或负)示例的总数

人口贩卖2

表1我们的实验结果我们使用不同的输入来比较我们的HTDN模型和不同的基线在加权准确度和F值方面，HTDN的表现优于其他基线

5.1基线

我们将HTDN网络的性能与基本模型进行了比较，并将其分为4类

字袋型号基线该基线旨在评估现有基本分类器和基本语言特征的性能。我们训练随机森林、逻辑回归和线性SVM模型来显示简单语言模型的性能。

关键词基线这些演示了一个模型的性能，该模型使用了与执法人员提供的非法销售非常相关的一组108个关键词。代表这些关键字的二进制一热向量用于训练随机森林\逻辑回归和线性SVM模型

108单热点基线类似于“关键词基线”，我们使用特征选择技术来过滤多达108个词的信息，用于检测非法交易。我们将该基线与关键词基线的性能进行比较，以评估专家知识在关键词选择和自动数据驱动关键词选择中的有用性。

平均非法交通矢量基线我们评估不同分类器的广告放置词向量的成功程度对于随机森林、逻辑回归和线性SVM模型，计算平均单词向量并用作输入

HTDN单模这些基线显示了HTDN单峰组件的性能对于语言，我们只使用Fl组件。在视觉方面，我们使用Fv、预先训练的VGG和微调的T-VGG。

随机和人工随机是基于在训练集中给所有测试数据分配更频繁的类，并且可以被认为是我们模型的下限人工绩效指数是该任务指数的上限

我们可视化基准模型的不同输入，以显示使用不同要素集时数据集的复杂性图4示出了2d t-SNE (maarten和Hinton，2008)，其示出了根据词袋(右上)模型、专家关键词(左上)、平均词向量(右下)和视觉表示hv(左下)的数据集中的训练数据点的分布表明没有特征表示使得分类任务毫无价值。

5.2训练参数

我们实验中的所有模型都在Tracking-10k指定的训练集上训练，并在指定的测试集上测试使用训练集的子集作为验证集来执行超参数评估使用亚当优化器对HTDN模型进行了培训(金马和巴，2014年)使用Xavier初始化技术(Glorot和Bengio，2010)，初始化是使用神经权重随机执行的。随机森林模型使用10个估计量，没有最大深度，最小抽样分割值为2线性SVM模型使用l2惩罚和C = 1的平方损失

6结果和讨论

我们的实验结果如表1所示我们报告了三个指标的结果:F1评分、加权准确率和准确率由于正负样本数量的不平衡，加权精度比未加权精度更有用，所以我们把重点放在前者

HTDN表1中的第一个观察结果是，HTDN模型优于所有推荐的基线HTDN(及其变体)和其他非神经方法之间有很大的差距。这种更好的表现是一个指标，由人口贩运网络捕捉，以检测人口贩运动态的复杂互动。

模式都很有用这两种方法都有助于预测贩运的迹象(Fl和Fv

，请发一个朋友圈

，让我们一起讨论最后一公里

的人工智能登陆

铁人28_海贼王：机械巨兵出击，弗兰奇全面升级，第五位比暴君熊还要强大江苏卫视人间_破题「幸福合家欢」江苏卫视春晚这样做