经历了一段时期的野蛮增长后,人工智能基础数据服务行业进入长期,行业结构逐渐明确。 人工智能基础数据服务方的上游是数据生产和外包的提供者,下游是AI算法研究开发部门,人工智能基础数据服务方通过数据处理能力和项目管理能力提供整体数据资源服务,而AI算法研究开发部门和AI中心则是一些数据
2018年我国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占86%,预计2025年市场规模将突破113亿元。 市场供应商主要由人工智能基础数据服务供应商和算法研发部门自行建设或直接以外包标志队伍的形式组成,其中供应商是行业的主要支持力量。
数据的安全性、采样能力、数据的质量、管理能力、服务能力等仍然是需求方的痛点,人工智能的基础运营商需要明确的具体安全管理流程,能够深入理解算法要求,提供集中、高质量的服务,能够积极配合,能够迅速应对需求方的要求。
随着算法需求日益旺盛,不能依赖人工标记来满足市场需求,从而加强了数据处理平台的持续学习能力,使机器持续学习人工标记,提高了预标记和自动标记能力对人工的替代率。 长远来说,越来越多的长尾小概率事件带来的数据需求越来越高,机械仿真和机械生成数据是解决这个问题的好方法,早期开发应对技术也是AI基础数据运营商未来的发展渠道。
人工智能基础数据服务行业综述
人工智能基础数据服务定义
指为AI算法的训练和优化提供数据收集和注释等形式的服务
人工智能基础数据服务是为AI算法训练和优化提供的数据收集、清洗、信息提取、标记等服务,以收集和标记为主。 人工智能概念开始爆发,算法、计算能力、数据作为最重要的三要素受到人们的欢迎,进入落地阶段,智能交流、人脸识别、无人驾驶等应用成为最受欢迎的,AI公司开始竞争技术与产业的结合能力,数据作为AI算法的“燃料”是实现这一能力的必要条件 为机器学习算法的训练、优化提供数据采集、标记等服务的人工智能基础数据服务已成为人工智能热潮不可或缺的一环。 电脑工程师说到AI老师,基础数据服务就是老师手中的教材。
人工智能基础数据服务的行业价值
目前,深刻的监督学习是主流,标记数据是其学习的基础
随着国内人工智能热潮的爆发,大量AI公司获得融资,为了提高算法精度,数据采集需求也前所未有地爆发,曾促进行业繁荣。 但是,早期AI基础数据服务的门限较低,玩家拥挤,行业标准模糊,服务质量参差不齐。 随着竞争的加快,AI公司对训练数据的质量要求也不断提高,产业落地成为主旋律,需求方对垂直场景的定制化数据采录需求成为主流,许多小型AI基础数据服务公司由于数据质量和采录能力而无法达到或被淘汰,成为大平台 随着算法的需求日益旺盛,目前机器可以辅助标注,改进人工主标注的手段,加强数据处理平台的持续学习和自我学习能力,机器可以标注维度,提高机器处理数据的精度,机器可以负责主标注 未来,越来越多的长尾、小概率事件对数据的需求越来越高,人机合作标记的模型性价比不足,机械仿真和机械生成数据是解决这一问题的好方法,早期开发应对技术也是AI基础数据运营商未来的发展渠道。
人工智能基础数据服务的行业价值
目前,深刻的监督学习是主流,标记数据是其学习的基础
人工智能是通过机器模拟人类认知能力的科学,机器学习是现阶段实现人工智能的主要手段。 机器学习方法通常是从已知的数据中学习规则和判断规则,构建预测模型。 其中,深度学习通过下层特征的组合,形成更抽象的上层属性类别,可以自动从信息中学习和分类有效的特征。 没有必要人为地选择特征。 通过自动提取特征、神经网络结构、末端学习等优势,深度学习是图像和语音领域最有效、当前最流行的算法框架。 在实际应用中,深度学习算法多采用监控学习模型,需要注释数据并反馈学习结果,在大量数据训练下,算法的错误率大大降低。 目前人脸识别、自动驾驶、语音对话等应用都是通过这种方法进行训练的,对各种标记数据有着巨大的需求,数据资源决定了目前人工智能的高度。 有监督学习的AI算法的应用,因为对注释数据的需求远远超过现有的注释效率和预算,所以没有监督或需要少量注释数据的弱监督学习,小样本学习成为了科学家探索的方向,但现在从学习效果和使用边界来看,有效的监督学习
人工智能基础数据服务的主要产品形式
定制服务是主要服务形式,数据集产品集中在语音类课程上
目前国内AI基础数据服务主要是数据集产品和数据资源的定制服务,数据集产品基于AI基础数据运营商自身存储的标准数据集,确保以语音数据集为主、以标准语音、英语语音、方言语音等为主的算法的优越性, 顾客采用定制服务,顾客提出具体需求,标记数据运营商直接提供给顾客的数据,收集数据并标记。 大型用户为了保证数据的安全,通常会向执行者提供Web形式的独特标记平台,以此来控制整个项目,有些AI基础数据运营商会向客户提供私有化平台的建设服务,或者是自己的平台与甲方系统之间的 除了以上两种形式外,一些AI基础数据运营商还扩展了算法服务,提供算法训练、模型构建等服务。
人工智能基础数据服务的发展背景
人工智能经济的崛起为基础数据服务长期提供良好的基本面
2010年语音识别和计算机视觉领域大大突破,国内开始产生AI概念。 截止到2015年,国内迎来人工智能创业热潮,独角兽陆续出现,融资记录不断被打破。 2012年-2019年8月在人工智能领域发生了2787起融资事件,总融资额达到4740亿元,人工智能成为最受欢迎的融资热点,百度、蚂蚁、腾讯、京东、华为等科技企业也纷纷补充。 2017年至今,产业落地已成为AI行业的主流,人工智能实体经济保持高速发展态势,行业涉及安防、金融、零售、交通、教育、医疗、市场营销、工业、农业、企服等多个领域。 下游的爆炸性增长为人工智能基础数据服务的发展提供了长期良好的基本面。
数据量呈指数增长,非结构化数据的应用依赖于清洗标注
PC、互联网和消费级移动设备的兴起宣告了数据时代的到来,物联网的发展收集了在线业务中发生的大量数据,数据量呈指数增长,据IDC统计,全球每年生产的数据量从2016年的16.1ZB到2025年的163 以前,计算机主要处理结构化数据,但人工智能模型通过处理非结构化数据较长,“玉不成器”,数据经过清洗和标记才能唤醒价值,这就产生了不断清洗和标记的需求。 在我国,每年需要添加标签的声音数据超过200万小时,照片有数亿张。
人工智能基础数据服务市场现状
人工智能基础数据服务产业链
AI的基础数据服务是行业的核心部分
人工智能基础数据服务产业地图
产业的上下游普遍交叉
AI基础数据服务方的上游是数据生产和外包的提供者,下游是AI算法的研究开发部门,AI基础数据服务方通过数据处理能力和项目管理能力提供整体的数据资源服务。 AI基础数据服务方面总体上有两种。 一个是拥有独特的标志基地和全职标志队伍,这样的企业也会直接向产业上游部分提供能力资源。 另一个是依靠大众包和外包模式,专注于数据产品的开发和项目的执行。 下游AI公司拥有独特的注释工具,可以从AI中心获得一些共同的注释工具,同时数据需求较大的企业也孵化出了独特的数据服务团队。 总体而言,产业上下游普遍存在交叉关系。
人工智能基础数据服务行业融资
融资规模集中在千万级,早期融资项目多
从融资规模来看,人工智能基础数据服务市场融资集中在千万水平。 从时间维度来看,2015年人工智能基础数据运营商获得的融资金额相对较高,业界显露头角,表明已经获得资本认可。 从获得融资的企业数量来看,现在获得融资的玩家很少,资本市场的活跃度不高。 从融资顺序看,大多数融资仍集中在早期融资上,目前上市的企业只有几家新的三板(不考虑科技公司内部孵化的基础数据运营商)。 人工智能基础数据服务的粗利润率普遍较高,但是为了保持与人工智能市场尖端算法的匹配,需要投入大量的研发成本进行数据处理平台和工具的研发升级,因此对融资有很大依赖。
人工智能基础数据服务行业的商业模式
生产、客户获得和配置合作推动发展
人工智能基础数据服务行业是典型的To B型业务,业务模式稳定。 在生产方面,主要建设投标基地和投标团队,构建群众平台,采购供应商外包服务( BPO )等模式实现生产运营,许多企业主要采用群众外包模式,百度数据由群众、 倍比赛等企业建设投标基地和全职投标队伍,在培训高素质人员、改善队伍管理方面有积极意义的客户获得方面,主要通过口碑、学术会议和展览会和代理渠道等模式进入市场,向销售员提供市场倾向、 在实施熟悉客户需求的高要求交付方面,有导入私有化和导入公有化两种,能够灵活应对客户对数据安全、交付周期和成本的个人需求。
人工智能基础数据服务市场规模
2025年市场规模突破100亿,行业年复合增长率为23.5%
2018年,我国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占86.2%,数据集产品占12.9%,其他数据资源应用服务占0.9%,行业年复合增长率为23.5%,2025年上市 从整体增长率来看,行业发展相对平稳,下游人工智能行业的持续发展能力形成长期利益。
人工智能基础数据服务细分结构
以纯粹的标记服务为主,供应商提供的服务占79%
2018年,我国人工智能基础数据服务市场以语音、视觉、NLP领域的标志服务为主,同时提供采集和标志服务较少。 这是因为原始数据经常由消费者提供。 但这并不意味着市场上数据收集需求较弱。 相反,人工智能技术落地后产生了许多新兴垂直领域的数据需求。 但是,这些数据收集困难,能够提供相关收集工具和服务的供应商获得竞争优势。 市场供应商主要由企业自行建设或直接外包团队形式和供应商组成,以供应商为行业主要支持力,占79%。
人工智能基础数据服务市场结构
业界达到高集中度,CR5占26%的市场份额
目前,人工智能基础数据服务行业的CR5占26%市场份额,行业集中度适中,即使是垄断型市场也不是充分的竞争市场。 另一方面,百度数据的大众化、海天瑞声、数定堂等企业进入市场,积累了很多顾客资源。 另一方面,由于下游企业采用公开数据集训练模式,对数据的高精度要求尚短,受生态传导效应滞后的影响,市场门槛不明显,资金和研发能力弱的中小企业仍有较强的发展土壤。 但是,随着未来下游企业的发展,直接使用的外包团队成本低廉,数据安全控制性强,一些基础需求下游企业自给自足,外部数据运营商的现有库存市场下降,必须承担高难度、最先进的任务。 它自身投入到高精度、专业化数据处理工具的开发和人工智能算法的基础研究中,要求把握顾客的需求,开拓增长市场,因此资金和研发实力成为业界的高门槛,同时受近年来资本市场冷却的影响,中小企业几家面临业务收缩, 再有一些厂商像倍比赛一样在业内开始收购,借鉴国外数据服务市场的发展情况(国外业界大企业Appen多次收购其他企业),收购也成为市场趋势,受到多个因素的重叠影响,业界集中度提高。
人工智能基础数据服务场景分析
查看基础数据服务市场现状
人物和OCR数据是视图的基本数据服务的主流
不考虑自动驾驶,2018年视图数据服务市场达到6亿6000万元,人物和OCR数据是视图数据服务的主流,特别是人物数据占市场的42.9%。 OCR占27%,其他人体识别数据、商品识别数据、工业质量检查数据、医疗影像数据、其他新场景数据等分散,合计占市场的30.1%。
查看基本数据服务技术的发展趋势
就算法的开发方向判断数据需求,挖掘增长市场
根据数据的使用方向,可以分为构筑和开发新的算法模型、根据现有的算法追加新的模块、在提供解决方案的过程中进行优化等3种。 其中,构建和开发新算法模型,基于现有算法添加新模块类型的数据需求,可以基于相应机器视觉算法的前沿开发方向进行预测。 例如,在智慧城市的场景中,汉族人脸识别和视频结构成熟,在实际应用场景中,需要优化少数民族和其他人种来提高整体算法的精度,另外,透镜跟踪成为场景开发的焦点,对应的透镜数据如何表记也对算法训练有很大的影响 另外,深度摄像机也能够很好地解决在复杂的曝光条件下收集可视角度数据的问题,从而帮助计算机阅读3 d立体监视视频,将来成为重要的研究开发方向。 综上所述,多民族、多种数据、相机数据、3D数据的收集和标记服务为视角基础数据服务市场的发展带来了增量空间,在OCR、手机、零售等其他领域也可以在算法开发方向上挖掘增量市场。
自动驾驶基础数据服务应用场景
算法尚未成熟,数据有长期需求,留有差距
L3级以上的自动驾驶系统主要包括感知、定位、预测、决策和控制5个部分,对计算机视觉技术的需求远高于ADAS,系统提取、处理和融合雷达、摄像机等传感器采集的点云和图像数据,构建车辆行驶环境,依据预测和决策 目前,自动驾驶视觉技术主要应用于监督深度学习,基于从已知变量和变量导出函数关系的算法模型,需要大量注释数据。 在全球无人驾驶大会上,主办方经常提供近亿张照片、近几十万张标记照片用于比赛队伍训练的道路测量和实际道路驾驶时,人车拥挤、密集、行动变化等复杂的环境问题,将大量的实际道路状况数据不断优化为算法,无人驾驶车辆正常 目前国内自动驾驶发展迅速,AI公司、科技公司、高清地图制造商、汽车厂等参与者众多,这一领域的数据采集和标注需求已经成为AI基础数据服务的主要项目之一,自动驾驶算法的应用尚未优化,数据需求差距不大
自动驾驶基础数据服务市场现在
2025年采矿规模超过24亿人,科技公司和车厂是主要需求者
自动驾驶基础数据主要为道路交通图像、障碍物图像、车辆行驶环境图像等,需求方以科技公司、汽车厂商和高清地图厂商为主,2018年自动驾驶行业基础数据服务规模为5.76亿元,2025年超过24亿元,三方规模分别为49%、47.2%和3.8%,行业数据的 其中,高清地图制造商算法成熟,数据自动化标记度达到90%左右,外包需求较少,以百度、图森未来为代表的自动运行技术公司一直是该领域基础数据服务的主要买家,平均各算法的训练图像数据累积需求达到千万级以上, 随着落地项目进程的加快,将出现更加细分场景的需求,近年来汽车厂商向ADAS和自动驾驶方向投入显而易见,上气、吉利等厂商年投入数亿元,对数据收集和显示的需求也逐年增加,今后3年汽车厂商对需求的
智能交互式基础数据服务市场现状
远场语音对话已成为主流需求,中文数据仍然是市场的核心
2018年语音对话相关数据服务市场规模达到13.5亿元。 语音对话主要分为近场对话、中场对话和远场对话,以智能家居、交互式机器人和车机为代表的中远场对话类数据服务需求合计占智能对话基础数据服务的68%,成为当前智能对话基础数据服务的主流需求 在服务语言中,汉语(包括方言)服务占71%的市场份额,外语资源相对不足,收集和标记难度高,成本相对较高,目前占29%的市场份额。
智能交互式基础数据服务技术发展趋势
实现超越语音识别、语义理解的复合数据书写
目前企业在智能对话系统建设方面,在单纯语音识别和合成方面技术能力较为完善,但在语境理解、多轮对话、情绪识别、模糊语义识别、意图判断等方面研究开发更为强烈,基于智能对话系统算法的发展,重复设计适合算法需求的NLP数据产品 虽然交互系统的效果与注释数据的质量和规模相关性特别强,但是当前受注释数据和模型能力的双重约束,交互过程不通过语音、语义整体的交互过程。 实现语音识别、语义理解的复合数据注释有助于减少语音信息与文本信息之间信息的错误传播。 可以积极影响整个对话过程的效果增强,提高探索智能对话基础数据服务的可能性。
人工智能基础数据服务需求分析
人工智能基础数据服务的客户定位
客户分为AI公司、科技公司、科研机构、行业企业四大类
从需求方面看,AI公司和科技公司占主要份额,AI公司着重于视觉、语音等某些类型的基础数据服务,科技公司结合集团优势,致力于人工智能整体,部门发生了很多类型的数据需求,科研单位的需求比较小。 另外,传统意义上的行业企业,如汽车制造商、手机品牌制造商、防盗制造商等传统企业,以自己的业务为中心进行技术扩大,AI的基础数据的需求也开始产生,量的水平逐渐增大,将来会释放更多的市场空间。
人工智能基础数据服务的核心需求类型
AI应用三个阶段对基础数据服务产生差异化需求
企业应用人工智能算法需要经历研发、培训和着陆三个阶段,不同阶段对AI基础数据服务也存在差异化需求。 研发需求是新算法研发扩大时产生的数据需求,一般水平较大,初期多采用标准数据集产品培训,中后期需要专业数据定制采样服务的培训需求通过显示数据来精确现有算法 通过优化鲁棒性等能力,算法成熟于市场主要需求,以定制服务为主,算法正确性要求较高的着陆场景业务需求中,相关数据采集和标记更具体的业务,如飞机维修中的涂料识别数据等
人工智能基础数据服务的需求很痛苦
五大需求痛点决定AI基础数据运营商的服务标准
目前,需求方在选择数据服务时,常遇到数据安全性、采样能力、数据质量、管理能力、服务能力等问题。 关于数据的安全性,需求方希望基础数据运营商有明确的具体安全管理程序,重视数据的传输、存储以及最后的数据破坏等环节。 在采标能力方面,需求方算法越来越接近业务,希望数据服务商在自动驾驶、工业等具有一定阈值的领域具有采标能力,能够理解客户意图,协助加标提出加标建议。 市场反应显示,大多数数据服务公司首次交付项目时,数据精度普遍较低,需要一次至两次重做,因此需求方无效数据较少,更受高精度公司的欢迎。 对于运行效率,一般来说,AI的基础数据运营商可以在项目周期内完成,但管理能力弱的公司难以在兼顾多个项目的同时提供高质量的服务,同时运行团队素养和信誉也是重要的影响因素。 服务意识是软实力,AI的基础数据运营商必须积极配合需求方的要求,迅速应对。
人工智能基础数据服务发展趋势及建议
人工智能基础数据服务开发建议
企业实行被动向主动服务的意识转变
单纯依据顾客各项诉求进行数据采集和标注是被动的,主观能动性低,行业界限有限,各公司产品和服务同质化,竞争僵局,制约了AI基础数据服务的发展。 通过用户研究发现,除了安全性、质量、效率等核心关注点外,越来越多的用户对数据服务公司有积极的服务需求,数据公司理解算法技术,理解需求场景,并参与算法的研究开发, 提出数据采样优化建议也成为数据运营商形成差异化竞争的契机,特别是在AI着陆阶段,希望能够形成集中调查、咨询、设计、收集、标记于一体的AI基础数据整体解决方法,从而形成收入与业务的边界
国际技术经济研究所( IITE )成立于1985年11月,是国务院发展研究中心所属的非营利性研究机构,主要作用是研究中国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪分析世界科技、经济发展状况,为中央和相关委员提供决策咨询服务 “全球技术地图”是国际技术经济研究所的官方微信账户,致力于向公众传递最先进的技术信息和技术革新。