2019年11月26日至27日,36氪星在北京国际会议中心召开“2019WISE新经济王大会”,大会设立了13个大会场,邀请超百名新经济社区代表,着眼于新技术、新场面对传统产业的霸权与融合,创业公司、互联网巨头、投资机构、地方政府、传
目前,AI在语音识别、图像识别领域比较成熟,开始大规模落地。 人工智能的发展也从认知走向理解。
深入思考专注于语义理解的15年时间,目前在多模式语义理解方面取得了一些进展,相关技术在智能营销、智能终端落地。 对于多模式意义理解的AI落地,他们分享了什么见解和经验?
深入思考CEO AI算法科学家杨志明的演讲内容,由36位氪编辑组织:早上好
我们深入思考人工智能在多模式深度意义理解领域的进展和多模式深度意义理解的落地经验。
首先介绍我们深入思考人工智能,我们只做一件事是多模式的深刻意义理解。 人工智能的最后部分是语义理解,现在包括语音识别、图像识别在内已经比较成熟,已经开始大规模着陆。 现在大家的比例最多的是,和智能手机交流的时候,不能进行对话,有时会死掉,有时意思变得不明白。 因此,这不是人工智能,而是人工智能障碍,效果不好。 包括车载助手在内,手机助手有时候也会让你说得有点复杂,那就是不能理解你的意思。
另外,我们和人交流的时候,我们的交流也是多模式的。 例如,我们在微信上和大家交流的时候,可以和对方发出声音,发出文字,发出图像,发出视频。 其实人与人交流时,很容易正确理解对方的意思,但是机器很难理解多模式的信息。 深思熟虑集中于语义理解已有15年,但目前我们在多模式语义理解方面取得了一些进展。
现在人工智能已经发展到这个阶段,我们知道我们首先听、看、触、然后认知、理解,人工智能的发展实际上也是一样的。
第一个是从传统的计算智能到感知智能,即我们现在首先感知到一种比较普遍的所谓视觉、听觉、触觉等。 事实上,人工智能的着陆还有另一个重要部分。 我们的认知智能是用语音、文本、图像,特别是非结构化信息进行认知计算。 什么是非结构化信息,非手工结构化信息,如作文、网页、视频和语音,其实是非结构化的。 我们如何实现对这些非结构化信息的理解,这是认知智能应做的工作,这也是人工智能的最后高地,只有解决这个问题,才能实现人工智能的大规模落地。
为什么我们对这种多模式的意义理解和人际关系? 很明显,我们理解信息,就像刚才说的那样,很多场景本身都是多模式的,当我们看视频的时候,我们不会闭上眼睛看这个视频,也不会闭上耳朵看这个视频。 我们与人交流时,可能会有感情、表情、语言、握手。 人与人交流时也是如此,决不是单一模式。
人工智能的落地也是这样吗? 例如,汽车数字驾驶室的场景原本仅是语音识别和语音命令,实际上该场景包括车外场景的图像、车内的姿势、车内的表情、车内的声音等,它是多模式的场景。
医疗也是我们想听的,不仅是医生去诊察的时候看,听,闻,观察患者的多模式的信息,最终实现正确的诊断。
我们有很多2C的网站和平台,他们有很多虚拟偶像,90后就爱上了这个虚拟偶像,虚拟偶像本来的互动只是触摸、点击等,实际上是观众和虚拟眼睛 他们希望与虚拟空闲进行语音交互、视觉交互、语音交互、文本交互等。 包括我们在内的手机现在是多模式,也包括现在到达的广告。 例如,我们的网站包括文本、视频、图片等。 如何理解这个网站,点击这个页面的参加者的图片是什么,智能市场营销等。
实际上只是从单模式转移到了多模式,实际上更适合AI的大规模着陆。 大家可能都知道人工智能现在落地,是一个普遍的难题。 如何解决这个大规模的落地问题? 其实有几个。 第一个是场景问题。 多模式的这个场景一定比单模式更适合我们的人工智能着地。
二是人工智能着地技术问题,我们接触现实的所谓大数据,大量非结构化的,刚才我声音也非结构化的,视频也非结构化的,文本也非结构化的,我们看到的大页也非结构化的信息,图像也是这样。 比如说,我们的手机上有很多照片,这张照片本身的意思是什么,画的是什么呢? 等等,这些信息没有人给我们整理,当然这也是难点。
对非结构化信息的理解,我们称之为暗数据理解,也是人工智能技术的必要性和高度重要的一点。 我们深刻思考着人工智能被多模式数据的机器理解。 就像视频或文本。
机器的读书理解是什么介绍?比如说,我们读书,我们去看书的时候,读完这本书后,我听了书的知识,他可以根据理解返回正确的答案。 此时,人们已经有了这么高的技能了解书籍,有了这么大量的非结构化信息。 机器是如何理解的呢? 机器读完书后,正确理解书的知识点,正确反馈答案也是语义理解的难点和痛点。
现在机器理解已经取得了很大的突破,也就是说我们已经实现了,我们的最新产品是基于我们原创机器理解的模式深入思考的。 我们的一些朋友基于知识库、问答对和知识图表,这些知识库预先整理好了,在做智慧型客户服务和互动式工作。 想别的路,成功地用机器阅读了理解技术。 也就是说,我们原本在制作智能呼叫时,需要很多时间和精力来整理知识图像,我们深思直接用机器阅读理解,然后大致理解并阅读产品说明书和网页等非结构化信息。 而且,你可以用任何语言来问这里的知识点,那么就可以正确地回答。 这将大大提高我们整个项目的效率,规模化迁移,大大提高产品开发效率。
我们的机器阅读理解技术,能够实现人工智能,包括大规模的机器理解,不仅仅依赖于知识地图。 我们的一些顾客正在实施智能顾客服务,互动时遇到过一些问题。 例如,在智慧的家庭领域,我必须提出有营养的健康知识的问题。 我必须整理必要的知识。 目标庞大,结果半年从一年到两年都没有被结构化的数据整理出来,所以这个项目经常被搁置。 大多数情况下,我们的现实大数据是非结构化的,如果能够实现技术上机械阅读大规模非结构化文本的理解,就能够实现我们人与人之间的互动,实现AI技术的快速领域转移和大规模落地。
我们在着陆的过程中,对于几个场面,已经开始大规模着陆了,这一点我们深思熟虑。 例如,我们与着名的汽车企业品牌合作,使我们的技术落入数码驾驶室之中。 原来的客舱多数是声音指令式的,比如开空调。 但是如果说“我有点热”,原来的语音助理就不能和你对话。 如果有深刻的意义理解的话,可以说“主人,能打开空调或者天窗吗”,你只要说“空调就可以了”,只要是喜欢的温度,这个互动就会顺利进行下去。 像传统的语音命令一样,你必须记住那个语音命令表,但是我们不想记住语音命令表,我们希望机器能理解我们,这在人与人的交互和意义上是很大的不同。
我们现在落地的智能营销,智能终端都访问多模式机器了解大脑。 我们已经实现了家庭场景下的健康营养AI咨询。 比如,有关孕妇的许多问题,有必要补充营养,有注意事项,还有其他健康常识。 我们AI在大规模学习了相关文章之后,可以对这些问题作出权威性的回答。 在智力医疗领域,我们采用多模式的视觉理解进行细胞学筛查,现在已经在大型着地医院的实际情况下,配合医生解决了他们大型癌前筛查的问题。
这是数字驾驶室里的一个简单形象。 请看。
我们不仅谈话简单,而且这个谈话简洁,没有必要和它对话。 大多数情况下,我们有说“给我做”的习惯,希望机器能理解我们的需求,帮助我们。 因此,我们深思的三代机器人之间的人际关系,可以拥有上下文、多旋转和感情等。 自由对话,我们做的很好,但我们的四代机器人首先有两个特点
人力不够。 我们交流的时候不需要那么多话。 那个提供解决方案。
2、说到能做到的,这个互动机器人能使你的工作成功、成功。
另外,我们使手机、家和车三者同步。
我们在汽车环境下也可以进行健康的营养咨询。
随着社会的发展,我们越来越关心营养健康。 我们可以在汽车场合和家人联动。 机器人可以开车推荐营养健康的饮食建议等。 接受这个建议的话,机器人能够联动制作家里的设备。
正如我刚才说过的,“说”“做”——互动结束后,机器人会在后台帮助你。
本来我们对在线用户不太理解,但是如果用户不留下电话,那个用户就不见了。 我们的方案怎么样?
第一,增加了流量入口
其次,增加了与所希望用户的接触点
第三,更多地了解这个用户
最后的转化率大幅度提高。
此外,在智力医疗领域,我们已经实现了病理细胞学的大规模筛选,也许大家都觉得不可思议。 为什么有意义理解和视觉,其实我说的是多模式,多模式的视觉意义理解和视觉有一定的相关性,但完全不同。 举一个例子,我们在抵抗暴力时,认识凶器就可以了。 比如说可以识别刀子,实际上使用刀子的时候也可能是在餐桌上吃饭的场景。 让我举个例子。 例如,一只小狗在树下,传统的识别是小狗和树,用图像识别的话小狗在炎热的夏天在树下乘凉。
这是中央电视台对我们的报道。
这是我们在央视平台上进行的测试,现在我们AI在这个现实情况下真正帮助医生,不仅仅是概念,真正帮助医生大规模筛查。 这在用于大规模筛选时,AI是非常必要的。
我们在智能家庭中,联合业界的大公司,访问各个品牌的智能家庭设备,这相当于我们在家庭场合拥有多模式的AI大脑,它了解家庭各成员的健康状况,提供健康咨询。
即,用户在家庭场景中,用户的个人化和健康状态等,AI能够更理解用户。 营养健康场景中最重要的是健康和营养,我们对象的不仅仅是电视、电饭煲和扬声器,这些外接硬件是一个载体,我们的AI相当于一个家庭的中央脑,落地载体是电视和扬声器,它真的是家庭场景
最后,我们深思在意义理解的这一部分中创造了AI技术的中台,也就是说,我们知道用这个中台创造了AI,我们本来就很麻烦创造智能呼叫和对话机器人,我们其实自己有对话机器人,那相当于“母亲” 我们比如友商,比如意图识别,有很多友商都是意图匹配,我们是在线训练,我们不是让算法工程师设计模型,而是在直接场景下,用户可以直接训练出好的AI模型。
我主要介绍了深入思考的多模式语义理解技术。 尤其是机器的阅读理解,就像2019年获得世界中国领域冠军一样,比业界最有权威的友商,我们的指标提高了20.8%。
最后一句话是人工智能着陆时,最后的王冠是意义理解,通过多模式意义理解,可以大规模地使人工智能适应各种场合并迅速着陆。 未来的一个愿景是随着物联网的发展、互联网的发展,我们可以达到基层的理解、语义的理解,最后达到万物的智能。
非常感谢你