编辑/狐科技宋婉心
「智研所」沙龙第7期
演讲嘉宾:京东集团人工智能事业部智能平台部投资负责人徐博
去年在AI创业领域,一些高金额的融资使CV公司们成为了路线的明星。
4月,商汤宣布获得6亿美元c回合的融资,5月末,还宣布获得6.2亿美元c回合的融资,评价额超过45亿美元。 6月中旬,根据图表宣布完成了2亿美元c回合的融资。
计算机视觉越来越成为人工智能领域的大吸金课程,资本热闹,应用场面巨大。 但是,公司现阶段的利益似乎与高度评价相符的公司还是没有的。
但更重要的是,机遇和问题是并存的。 未来一至三年AI将成为升级传统行业结构的第一个历史窗口。 在这个窗口中,哪家强大的AI公司能够率先夺取蓝海,通过数据和业界经验的反馈来确立自己的应用障碍,很可能成为人工智能领域的下一大企业。
搜狐科学技术“智研所”沙龙在第七期,委托京东集团人工智能事业部智能平台部投资负责人徐博发表主题演讲“京东AI能力和计算机视觉”。
以下是演讲的精编
徐博:你好,谢谢你邀请我参加搜狐科技的这次演讲。 我叫徐博。 负责京东AI这一投资和创新产品的负责人。 京东其实是众所周知的,但京东AI却不为人所知。 京东AI是集团下的一级部门。
2017年刚成立,两年内在世界上许多地方成立了人工智能研究院,以基础研究为中心,50%的人是算法老师、工程老师包括产品在内的同事。 我们现在在北京北辰办公室,在京东上市前的总公司,在南京和南京大学设立了机械学习研究院,成都主要是呼叫团队,硅谷进行了比较先进的前端检测,欧洲的语言主要是英国,UCL和研究院,我们还与斯坦福,MIT进行了基础研究 国内主要是清华大学,南京大学,包括香港中文。
我们现在的科学家队伍主要是4位老师,第一位是AI部门全体的负责人,京东的副社长周博恩博士,从IBM Watson挖掘出来,以前是世界上最高科学家。 何晓东先生是微软的美国CNP研究员,开发了小冰、小娜等产品。 梅涛先生是从微软亚洲研究院发掘出来的最高科学家,负责多媒体CV。 周志华教授都很熟悉,基本上可以说是全国最优秀的机器学习科学家。
在一些支柱中,我们还是以偏知觉层的基础技术为主,声音声学主要包括语义理解、深度学习、视觉、NLP、机器学习等基础技术。 我们可以改造四条线的四个场景,呼叫,零售,市政,医疗,我们想达到的效果——人工智能,不同行业的解决方案,其实我们在选择行业时也很小心。
京东大药房是全国领先的在线医药销售平台,是京东健康专业医疗事业群,刚融资10亿美元,大部分在线药房销售。 腾讯做的和CV医学影像有关,我们做的可能有点少。 API还是CV多。
京东自己的平台上有很多画廊,我们部门支持整个京东画廊的处理,包括生成、审查。 京东摄影购买是整个部门制作的核心产品,震颤、快速、万图摄影等公司呼唤我们的产品,基本上每天呼唤数亿次。 每次拍照都要识别,速手和电器商,颤音都变成电器商,订单的转化率大约可以达到100%以上,通过这个入口后,基本上每个人都在这个入口订单。
其次是内容供应链,如审计、生成和标识。 京东的SKU数量比较多,理论上,我们可以在所有的商品,比如7—11,在商店购买,或是在大超市购买,都可以做出没有条形码的商品,或者不扫描条形码就把这个商品放在结算台下,马上购买,马上下单,马上结账 我们与香港冯氏集团合作,如永辉超市和华润万家,这款产品在香港方面已经落了两家店铺,现在仍在持续推进。
在智能照相机中,京东和《人民日报》合作,能够在不同的黑暗场面正确识别脸部,我们与北京站合作。 颜技术不成熟,易于商业落地。
1:N的情况下,n越大概率几何学上下降,包括n在内为40万,但一般超过100万的n,你的概率会下降到90%以下。 这是大家克服的难点,也是CV面孔出现的方向。 提高你的精度后,能否真正用于产业落地。 着地时,无论精度是95%还是99%,本质上都没有差别。 只要提高算法的计算速度,包括工序的实施速度在内,保证迅速识别并保证连续识别非常重要。 每个制造商的精度大致相同,为99%、98%,但是具体的识别速度、识别精度、识别所需的运算能力、必要的芯片、必要的照相机是什么样的,我的CPU在跑什么样的CPU是很重要的。
有些活体检查,脸部认识不好,特别是没有新技术。 主要是提高工程方面的重要性。 算法水平基本相同,各厂商干得非常好。
属性检查,我们制作了多模式的心理咨询技术,你可以从它的人体主体中识别出例如肌肉的颤抖。 当然,我比较实验室,实际着陆很困难。 每次肌肉摇晃,我都可以运行回归算法来识别整个你有多少感情。 我们看到美国北卡认知姿势的心理感情,这也是我们看到的方向。
人工智能感知层上升到认知层的时候,包括向应用层前进的时候,本质上突破从点到点的过程,我认为我们现在的很多问题不只是想用多模式解决的CV。
以上是我们的产品我们的技术,我想谈一谈共通化现在的技术反复过程。 正如你看到的,我们以前是segmentation,但是把两个不同的部位分开,渐渐地我们有detection框架。
例如,这个马术师识别我的马术师,识别他骑的马。 以前把所有人都放在框里,把马术师和马放在框里,现在可以把马术师和马放在框里,之后可以进行多模式的转换,现在包括说明这是什么样的照片在内,这是很大的帮助。
CV也在重复中,CV重复时提供更多服务的是从CV到nlp,从照片到文字,这是我们看到的论文。 CVPR论文是我们研究院梅涛博士发表的论文。 举个例子,我不是整个可乐罐,而是框架的像素级别的图像,现在可以把可乐罐的标志放在框架里,细到像素级别的差别。
多模式转换这个话题很有意思,不能说时间有限。 我们想通过多模式转换,从图像转换为文字,从文字转换为图像,现在从文字转换为视频,从视频转换为文字。
其实在金融上,每次提高GMV和ARPU,本质上都要通过增加交易量来提高转化率,实际上主要是通过提高用户体验,将用户体验推荐给你,你觉得很好。 比如说,这个妹妹去买一件黑大衣,她觉得这双搭配鞋很好,所以我一起买了。 这是我们为了提高用户体验,本质上我们没有提高效率,收入也没有直接提高,但是提高了体验。
刚才讲的结算台,我们在香港又掉了两家商店。 我们说to B,to半天b还是c做,这是和冯氏集团的店合作,还是消费者买?
在前几天的展览会上,很多媒体报道了这个休息室的产品,收集了模块,把触摸屏作为一个支架放进了船舱。 这些是我们看到的产品。 以人工智能使传统的硬件和传统的行业发挥作用,是我们想要达到的目标。