机器学习和深度学习


姓名:宋焱燚

性别:男

学历:本科

专业:安徽财经大学 统计与应用数学学院 统计专业

项目

DataSet

功能:对机器学习和深度学习进行数据支持的基础框架。

描述:dataset工具为数据和模型分离做准备,是一个基础框架。可以将各种数据源(磁盘,内存,GPU)的数据送进模型进行训练,用户不会感知数据的位置,也不会感知数据内部迭代逻辑。数据与模型分离将有助于项目规范并能节省大量开发时间,甚至像前后端分离一样的并行开发。

591 网商的以图搜图

功能:输入某张图片,返回相似的图片。

描述:591网商的图库数据有300G,30个类别。使用深度学习模型ResNet-101 训练这些图片数据,并用训练好的模型对图片提取特征向量,所有图片的特征量有3G左右。对于新来的查询图片,先判断其类别,然后在特定特征向量库中查询,计算向量相似度,求topk 距离,从而实现秒内的图像检索。

试卷扫描图的图像匹配

功能:将扫描到的相似(内容不同的)的答题卡堆叠整齐(矫正),矫正后的误差在3像素左右。

描述:与一般的图像配准问题不同,图像配准问题要求两张图像是相同的,但答题卡图片上的内容不是相同的,仅是相似的内容。设计一个专用于图片中含文本的的图像配准算法,通过旋转、缩放、平移等仿射变换达到任务需求。

相似数学题目搜索

功能:从题目中查找文字相似以及数学公式相似的数学题目

描述:该数学题目有5G左右,30万个数学题目,需要从中查找出某个题目的相似题目。

开发了适用于大数据量的VSM模型,用于提取题目特征。使用mini-kmeans算法对特征进行聚类,并用hdf5存储特征向量。对于查询的题目,提取特征向量,并计算特征向量之间的相似度,从而查找出相似的题目。

题目个性化推荐

功能:依据某学生昨天的做题情况、题目整体答题情况、所有学生做题情况,从题目中挑选出适当的题目,推荐给该学生。

描述:从学生数据库,题库和知识点库等数据库中,提取题目信息、学生信息和知识点信息等多种信息,将其综合在一起,计算出适当的题目,推荐给该学生。并且每一单位时间,都会回收学生上一时间的做题信息,重新综合所需信息,给出该时刻该学生的试卷。

基于spark的大规模实时数据流异常值检测

功能:针对安防系统每时间传输的数据进行异常值检测。

描述:安防系统有很多设备,每个设备一定时间后会采集新的设备数据,在spark上构建基于活动分区的算法来检测设备数据中的异常值。该算法具有并行性和分布式的特点,并行可以达到实时的需求,分布式可以满足数据量大的特点。


评论列表 0

暂无评论

admin
  • 0
    文章
  • 2
    评论