在IJCAI-2019期间举行的腾讯TAIC晚宴和布斯讲座上,TEG数据平台的张王昌介绍了他的用户肖像组的尖端科学研究成果。
1.无监督短文本的分级分类:
2.大规模复杂网络挖掘和图形表示学习。
他的团队正积极与学术研究合作,希望加入梦想和热爱学习的力量,共同研究和应用大规模数据挖掘,如半监督/弱监督/无监督学习、小样本学习、大规模复杂网络挖掘和图形表示学习。
科研成果1:无监督短文本的分级分类
首先,以下用户与人工智能算法之间的对话显示了在实际业务中使用现有监督文本分类算法时遇到的一些困难和问题:
该算法需要大量的训练数据。
算法模型的用户无法控制。
该算法不能很好地适应类别的变化。
我们分析现有监督算法的主要问题在于缺乏对文本和类别的真正了解和理解。现有算法只是大量人工标注训练样本中的学习模式。为了解决这个问题,我们启动了一个名为:基于关键词知识和类别知识的无监督短文本分级分类的探索项目。
该项目的主要思想是引入关键字和类别的两种知识,帮助算法理解关键字和类别的含义。然后根据知识对文本进行分类和标记。关键词知识主要来自三个方面,包括:关键词的网络搜索语境、关键词的百科语境、关键词与类别词的后验相关概率。我们提出类别语义表达式来支持用户表达类别本身的丰富语义和类别之间的关系。这两种知识的引入有助于算法摆脱对大量人工标注训练样本的依赖。同时,该算法的分类过程可以手动理解和控制。
基于关键词和类别知识的无监督文本分级分类算法流程如下:
从文本中提取关键词
根据关键词知识
根据关键词的相关词向量计算文本的相关词向量
根据文本的相关词向量和类别语义表达式计算文本与每个类别的匹配度
每个文本被分成匹配度最高的类别
通过对两组文本分类数据的实验,我们发现我们自主开发的算法无需训练样本就能提供高质量的可用结果,其一类分类准确率可达80%,明显高于其他现有的无监督算法。
科研成果2:大规模复杂网络挖掘和图形表示学习
网络表示学习或图嵌入是复杂网络的最新研究课题。旨在通过神经网络模型对图结构进行矢量化,为节点分类、链接预测、社区发现等挖掘任务提供方便有效的特征,从而克服图结构难以应用于机器学习算法的难题。
这一次,我们在IJCAI上发表的学术论文《识别大规模电子支付网络中的非法账户——图形表示学习方法》创新性地提出了一种结合边缘属性的图形卷积神经网络模型,弥补了现有算法不能利用边缘属性为节点分类提供更多信息的不足。
现有的大多数图形学习算法忽略了边缘信息的价值。在这里,我们提出了一种改进的GCN算法,它可以将边缘信息传输到节点来表示结果。该算法的主要思想是在GCN相邻节点向量的聚合计算之前,在相应相邻节点的嵌入向量后面的每个节点的连接边缘拼接嵌入向量。实验表明,该算法对金融分类问题有较好的效果。我们的团队正在进一步优化模型,并正在开发一个GCN模型,该模型使用时间序列,通过使用边缘的时间序列交互信息来更好地表示动态网络。
同时,杜平数据中心开发的天使参数服务器平台在关系数据结构的计算性能方面优化了图形算法,大大加快了PageRank等算法的计算速度。例如,计算用户中心度的封闭算法比基于迷你图的算法性能提高了6.7倍。下图显示了我们的角度框架的速度对于大图的计算具有明显的优势。
我们团队积极与学术研究合作,希望加入梦想和热爱学习的力量,共同研究和应用半监督/弱监督/无监督学习、小样本学习、复杂网络挖掘和图形表示学习来进行大数据挖掘。