最近,2018年易观A10大数据应用峰会如期在北京举行。峰会的主题是“数字未来的精益增长”大数据从业者、资本主管、企业家、技术大亨、运营专家、应用开发商和国内外知名媒体人士齐聚一堂,讨论和分享数据驱动的企业精益增长方式。苏宁尚云信息技术总部搜索算法团队负责人
孙鹏飞
在10月27日下午举行的数据挖掘专题论坛上发表了题为“苏宁特易购大数据在搜索中的应用”的演讲。演讲主要分享了搜索数据挖掘应用场景的具体体现。以下是他演讲的真实记录:今天
分享了大数据技术在搜索中应用的主要内容。首先,让我们看看产品搜索提供了哪些服务。我们有苏宁易购,苏宁图克,聚丙烯视频,苏宁商店,苏宁金融等。我们可以看到我们的数据已经被覆盖在线和离线。
我们支持如此多的产品线,因为我们采用三层架构。最左边的部分是我们的数据生成模块,中间的部分是数据处理模块,最右边的部分是数据应用程序我们可以看到,在数据生成模块中,它主要由以下几个部分组成:蜘蛛抓取的一些数据,商品数据和视频等结构化数据,以及用户行为数据。最后一个是我们的图片库,包括商品图片信息和异质图片信息。我们将根据不同的用户场景建立不同的渠道,为我们不同的业务提供服务。在数据处理层面,为不同的业务场景建立不同的业务模型,为我们的数据应用提供相应的支持和服务这些将被打包到数据应用层,以向外部世界提供相应的服务。
搜索数据挖掘应用场景
让我介绍一下今天的主要共享内容,即数据挖掘应用场景主要包括架构优化、个性化搜索排名、查询分析、智能购物指南、知识地图等
首先让我们看一下架构优化我们知道,搜索引擎建立检索商品数据的倒排,提供检索服务,并根据用户查询召回一些商品然而,这只能解决80%的问题和20%的热门词汇。召回商品的数量非常大,直接影响到召回速度,因此我们后面的级联排序无法正常实现。因此,我们在这里做了一个小的尝试来建立一个加权倒排指数,这提高了我们的整体性能。我们加权的基础是根据商品的浏览和购买等行为数据预先建模,并通过该模型计算相应的商品质量分数。通过商品质量分数,我们可以干扰这些商品在倒排列表中的位置,截断数据,并加快我们的检索性能。对比分析
优化前后,我们可以看到整体响应时间几乎翻了一番,性能也有了很大提高。然而,有人可能会问,这是否会影响召回产品的质量?事实上,情况正好相反,因为我们通过模型计算相应的产品质量分数,以确保在召回过程中召回高质量的产品。同时,基于截断数据的排序提高了排序结果的准确性,从而提高了整体服务质量,使用户体验更好。
接下来,让我们介绍一下——查询分析系统,下一个搜索的大脑。主要是理解和分析用户背后的意图,包括以下模块:类别预测、智能纠错、组件识别、知识扩展、类别关系识别、品牌关系识别
这里我们结合知识地图和关系模型来计算和分析查询的组成部分,最终确定相应的类别、品牌和属性,了解用户背后的意图,并提供准确的召回服务
搜索个性化排序说到个性化,人们自然会想到成千上万的人。在电子商务领域,建立用户肖像和商品肖像;对于用户肖像,用户根据他们的行为被标记,并且用户偏好和兴趣标签被提取。在制作肖像的过程中,遇到了一些问题。例如,如何评估肖像的准确性?此外,它的购买力偏好在不同类别下是不一致的。例如,用户可能更喜欢手机类别下的iPhone。iPhone应该属于手机的高端品牌,所以他的购买力是高端用户。但当他转向家用电器、冰箱和洗衣机时,他可能是中低端用户,所以这一类中不同类别的购买力是不同的。
让我们来看看如何构建我们的用户肖像。如何将用户肖像和我们的应用程序结合起来?在这样做的过程中,我们发现用户肖像需要与查询系统相结合来为引擎提供服务。这里有几个优点:查询可以实时分析用户的意图,并且可以根据这个意图减少标签同时,标签也可以根据意图进行加权,这样可以更好地为整个引擎服务,并且可以制定一些排序策略。
让我们看看如何设计整体架构。首先,整体架构是一个三层系统,在线、离线、近线离线阶段,利用用户行为数据、商品数据和外部异构数据,建立复杂模型,获取用户的长期行为偏好。在近线阶段,实时分析用户行为数据,并建立准实时模型来计算用户的短期偏好。在线阶段,结合离线和近线模型数据、查询分析和反作弊系统,建立一个细化的排名模型,实现个性化排名。
引入体系结构后,将引入以下算法模型系统这里使用多任务学习,从下到上分为输入层、表示层、多任务层。以下是多任务学习的一个例子。例如,第一个任务是CTR任务,在该任务中,CTR模型被训练以获得表示层的信息将表示层信息应用于任务2和任务3此外,任务2可以微调在任务1中学习到的表示层信息,以满足任务2的要求,共享表示层,并加快模型的迭代。
刚刚谈到了个性化排序。如果排序存在,就会有一些作弊。本文介绍了一种反作弊系统,以保证分拣的公平和公正。现在让我们看看我们是如何做到的。底层是数据分析平台。在收集日志数据、商品数据和存储数据后,我们将分析和提取相应的特征,然后在识别引擎中进行欺骗识别,最后提供相应的服务。
以下是核心学习引擎的介绍。众所周知,反作弊问题是样本失衡。作弊数据比正常数据少得多。因此,在建模之初就考虑到这一点,并采用集成学习的思想构建一个由多个弱分类器组成的强度分类器,综合判断是否作弊,然后做出相应的输出评分。
近年来,随着深度学习和大数据技术的发展,越来越多的人将其结合起来应用于不同的产品,尤其是智能导购和智能助手我们的团队很早就开始尝试这方面的研发工作,第一版智能购物指南产品于2016年底发布。经过几年的改造,产品现在已经比较完善,不仅可以支持智能导购,还可以支持售前和售后客户服务,甚至支持其他辅助服务。
的整体架构如下。首先,顶层处理用户输入,包括语音和文本,并将这些信息输出到我们的路由层。路由层由两部分组成,一是分析这些数据背后的意图,二是提取相应的属性信息,为不同的机器人引擎提供相应的服务;第三层是机器人引擎层。我们现在已经连接到三种类型的机器人:第一种机器人,基于任务的机器人,如天气、订票和金融机器人。第二个机器人是购物向导机器人。例如,我想买一部手机和一部便宜的手机。这是一个基于任务的机器人。第三个机器人,聊天机器人
的底层是我们的API服务和由语料库等组成的知识库
下面详细描述了每个模块首先,让我们介绍意图识别。我们把意图识别问题抽象成一个分类问题。在网上开始的时候,SVM被用来对意图进行分类。它可以解决85%的问答要求,但15%无法分析。这是由于语义上的差距所以我们考虑使用深度学习技术来实现它。这里选择了美国有线电视新闻网,而没有选择其他更复杂的网络?因为我们发现美国有线电视新闻网可以满足我们在准确性和效率方面的在线需求虽然通过复杂的网络可以提高准确率,但其性能会大大降低,从而用户体验会变得很差,所以我们从准确率和效率两个方面选择了CNN。在美国有线电视新闻网,我们做了一个小的改进,将符号矢量特征加入到输入层,我将在下面详细描述。例如,右边是华为手机的完整知识地图,显示了知识的表示。当我们获得用户的查询信息时,我们将使用知识地图对其进行矢量化,并将其拼接在一起作为CNN输入。这样做的好处是通过增加一些特征,整个有线电视新闻网的准确性进一步提高。同时,性能损失不大,在在线要求范围内
让我们来谈谈槽提取或属性提取。在这个阶段,属性提取问题主要转化为序列标记问题。在这里,我们尝试使用单词进行序列标记,使用单词进行序列标记。然而,在比较的过程中,我们发现用词进行序列标注更有效。通过对一些案例的分析,我们得出结论:由于词语的语义信息可能更完整,在标注序列时可以获得更好的标注效果。
让我介绍一下客服机器人客户服务问答中最常用的技术之一是基于检索机器人,因为我们已经建立了一个庞大的问答知识库,95%的问题可以从图书馆检索到相应的答案。因此,采用深度匹配模型来避免语义鸿沟问题
最后介绍了搜索的知识地图。近年来,我们尝试了许多新技术,并着手做了许多实验。现有的平台也为我们提供了相应的服务和技术支持,整个知识地图就是在此基础上构建的。
可以看出,底层由分布式存储、分布式检索、流计算、手动标注系统和自动标注系统组成以上是知识获取。在知识获取之后,我们将进一步细化知识并提取一些需要的实体,例如构造一些三元组和构造一些边缘关系,以形成我们的知识地图。在构建了
知识地图之后,我们需要进行另一种尝试,即知识推理。我们将提前推出一些东西并存储在图书馆,为atlas的应用提供服务。例如,我们将挖掘出一些边关系,理解一些知识,理解一些实体等等,为我们的地图集的应用提供相应的服务。
最终成为应用层。我们将为所有产品提供服务,如刚才介绍的问答系统,并通过结合知识地图提高意图识别的准确性。
之后是商品参数的误差校正这是因为购买者在将新产品上架的过程中经常会遇到属性维护错误和错误分类等问题。他们可以使用知识地图建立相应的模型来帮助他们纠正错误,还可以主动提示这些商家维护他们应该维护的信息。
的最后一部分是查询分析。查询分析过程中的大部分数据支持来自知识地图,知识地图直接影响查询分析的结果
欲了解更多信息,请登陆易观易观微信公众号(身份证:Enf Odesk)