在线教育音视频_ 在线教育音视频质量评价与感知系统

在线教育音视频

为了探讨用客观、完善的评价系统评价在线教学语音视频通信质量，努力进行定量、准确、横向的比较，基于在线运行的大数据系统发现端对端通信平台存在的问题，找到优化方向为提高在线教学用户体验，VIPKID语音视频团队负责人张武峰在LiveVideoStackCon2019北京站进行了在线教学语音视频质量评价和感知系统共享。

文/张武峰

整理/实时视频堆栈

你好，我是张武峰，来自VIPKID。今天，我与大家共享的是在线教育语音视频的质量评价和感知系统。

我有二十多年的音频视频开发经验，先从事传统视频会议方向的探索，然后转向3G、4G网络下的视频电话。传统视频会议经常通过互联网传播，以如何实现优质图像质量为目标的消费者级互联网与基于公共网络的环境和专业网络大不相同，面临的挑战对于专业网络完全不同。进入消费者级互联网行业时，发现自己以前在基于专业网络的商务级语音视频业务中积累的知识和经验无法有效应对新的商务场景和开发要点，知识体系的更新重组对我来说是非常必要的。

2017年，我加入了VIPKID，带领音频视频团队探索了如何在在线教育领域利用实时RTC技术。我一直从事技术优化和创新，这次的选题特别是QoE的方向，是因为探索了这几年的技术，技术最重要的是给实际的应用场景带来建设性的优化改善，发现质量评价和感知体系是其中最重要的一环。我们希望完全构建严格、专业的客观语音视频质量评估和感知系统，为用户体验优化和提高解决方案提供强有力的数据支持。

这种共享基于以下四个方面:

在线教育音视频

1 .用户的痛处

在线教育音视频

大师杜拉克说:“没有测量就没有优化。这句话也适合开发语音视频”。我们在迄今为止的开发过程中积累了很多教训。例如，在优化系统时，设计了优化算法。在设计初期，该算法将用户体验提高到新的水平，我们也通过各种自我证明方式验证了逻辑自我谈判。因此，我们在期待开发这个算法的前提下，发现算法在在线后，实际效果和期待有很大差异。该算法不会改变用户的主观体验，也会产生负面影响。该经验考虑语音视频系统为了正确、客观地评价算法的优劣需要什么样的基准。在设计语音视频系统或优化系统中的某个点时，开发人员必须首先仔细考虑如何使用数据准确测量正在开发的算法。不仅要从实验室的角度进行测量，还要从用户的角度进行测量。这样，无论是灰度测试还是频繁反复版本，都可以基于多个团队在同一方向进行的优化竞争，确立良好的测量标准，正确且客观地预测算法会给用户体验带来多大的提高和优化。

在线教育音视频

上图右侧的饼图显示，VIPKID用户对产品提出的五个重要问题(按占有率从高到低的顺序:网络问题、设备问题、行为问题、软件问题和课件问题)对于RTC开发人员来说，网络问题始终是最困难的问题，当用户数达到一定规模时，不同的硬件和软件平台设备、不同版本的软件匹配问题也成为需要解决的重要命题。

上图的左侧显示了用户对我们的服务给予差异评价时，选择差异评价的主要原因。值得注意的是，没有统一的标准来衡量这些问题，因为用户不是专业开发人员。例如，所谓“画面卡顿”，因为也有将照相机的故障等问题分类为“画面卡顿”的用户，所以需要根据大量的用户数据进行筛选清洗和分析，尽可能地确定用户最关注的几个画面点。因为在线教育是语音视频技术依赖的应用场景，所以其暴露出的语音视频技术的问题也很多。

2 .评价系统

既然有这么多复杂的用户伤害，建立专业的客观、正确、高效的语音视频用户体验评价系统是很重要的。

在线教育音视频

上图显示了语音视频评估的几个维度，以评估完整的在线教学课程中用户体验的优劣。首先，在视频中，用户对卡尔顿的感觉最为敏感，其统计方法主要是将帧与帧之间的200毫秒以上的间隔视为一次卡尔顿，(卡尔顿时间/授课市场) =卡尔顿率，我们采用5%作为引起用户卡尔顿感觉的阈值，数据主要是

视频画面的分辨率主要以MOS分辨率为评价基准，从原始视频中每分钟以1帧提取I帧图像，将MOS分辨率赋予该分辨率，将得到的系统分辨率与用户的主观感知评价进行匹配，如果最终得到的分辨率不足3分钟，则视频画面的分辨率不好请注意，这里的MOS评分不仅仅是根据肉眼感知到的画质，还根据视频代码和网络传输的集成参数，分配给在AI培训中创建的算法，数据主要通过录制授课视频获得。

在声音中，除了“清晰度”这一一般指标之外，“声音的大小”是基于用户反馈而新增的评价维度。这主要是因为很多用户在上课时声音过大或过小而难以听清，所以这种情况在老师的直播或录像课时离麦克风的距离不适当，录音设备不好，客户端的设置出错的可能性很大。我们选择老师讲话的部分，计算其音量是否合适，低于30分，认为其片段的音量不符合用户的体验要求，“清晰度”仍然使用常见的MOS分数形式，程序评分目标视频剪辑的语音，在3分以下以上是为了我们确立的在线教育而设计的完整的评价维度集合，被用作技术团队的KPI。对于每个项目，都有专门的团队可以优化算法和技术指标以改进目标维，从而实现最佳效果。

2.1 .视频纸箱率:

纸盒比率是根据1对1的视频应用场景，在通过将用户的观看时间内的帧和帧之间的总时间除以用户的观看总时间(上课中的用户的在线时间)而定义的1对多的视频场景中，纸盒对用户数的分配统计克鲁顿率在5%以上的用户数，把这个数字除以总授课人数(也就是说，进入教室的10s以上的用户数)。这里的200ms的阈值实际上是比较严格的标准，有些互联网公司决定在600ms左右。我们统计了更多的卡尔顿案例，得到了更多的数据，为了让我们进行卡尔顿的分析和研究，技术团队能够实现更好的优化。每个指标在建立时都与应用场景紧密相关，这些指标与技术有关，但与用户的主观感觉是一一对应的。

我们把统计的卡尔顿情况细分到以下水平。其中，遇到1、2级克鲁顿的用户比例约为5%，遇到3、4、5级克鲁顿的用户比例约为18%。这个数字在行业内是比较好的情况。

在线教育音视频

2.2 .视频评分算法流程

我们花了大约2~3个月的时间探索视频评分算法，早期读了很多论文，发现行业还没有优秀的参考视频评分算法。当时，其他厂商的比较成熟的算法也没有达到理想的效果，一张照片训练无法收敛。因此，试图从视频编码数据流中提取诸如GOP帧的宏块的大小、宏块的数目、分组丢失的数目等参数以创建训练数据集，然后使用该数据集训练评分算法模型我们将得到的模型与人工标志进行比较，最终效果符合我们的需求，与用户主观感知结果的一致度约为80%，该算法模型被固定下来，用于后续的重要开发活动。

在线教育音视频

2.3 .特征提取

特征提取的第一步是分析基于各种系统和格式(如mp4、flv和ts )的在线课程视频文件。当原始文件被组合为H.264/H.265码流时，码流解码程序分析解码的图像序列，然后导入场景检测程序由此产生特征提取部件。特征提取部件包括否则，直接输入到特征提取程序中有效的特征被提取并超出它们时，基于最大序列长度对特征提取单元进行划分，生成满足序列长度要求的多个特征提取单元，并且将这些特征提取单元输入到特征提取程序，以生成我们期望的特征数据。

在线教育音视频

2.4 .视频培训的重要参数

下图显示了训练算法模型所需的几个重要参数。宏块的数量、帧的类型、宏块是否丢失包等。该部分训练所消耗的计算资源较多，为了取得较好的训练效果，需要服务方面强大可靠的硬件支持。

在线教育音视频

2.5 .音质P.563

从事语音质量评估的朋友应该不知道该语音质量评估模型，该算法模型是2004年提出的。无论是音频还是视频，所有参考评分算法都不能在线使用。由于我们不能直接检索源和接收目标数据，因此用于在线语音视频场景的评分算法必定是单侧参考算法。 P.563是不依赖发送源数据而仅通过接收侧数据就能够直接计算评价分数的可靠单边算法。下图显示了大致的流程

在线教育音视频 0

首先，提取出的原始数据经过预处理对语音参数特征进行提取和计算，将所得到的参数分类为多个失真类型，选择与各失真类型相对应的语音质量模型，得到正确的客观的MOS得分。至此为止说明了评价维度有音量的大小，P.563在预处理的过程中计算出Active Speech Level adjustment这一参数，将4ms的帧长度下的speech level作为声音的大小，值的范围为1~100，由于连续3帧以上超过阈值不合格，相反作为背景噪声进行滤波，所以获得了评价语音质量所需的全部重要得分。

2.6 .质量分析体系

迄今为止我们已经介绍了获得算法的方法，在获得正确算法后，如何开展大量的质量分析和数据运算成为下一个重要命题。为了解决这一命题，我们设计了一个支持全局任务调度的分布式质量分析系统:接口层HTTP接口与公司BI系统对接，BI系统发布质量分析任务，从HTTP接口转移到任务生成层根据从上层分发的任务列表合理分配任务，有效利用计算资源的分配结果被传递给Job Server Node，Job Server Node将任务实际分发给任务消费层CmqaWorker系统，每个工作器下面的音频质量评估和视频质量评估等实际执行计算任务。 CmqaCollector在-quality-evaluation执行评估计算时收集相关数据并将其存储在DBI中，并且在每次分发任务时，Cmqa Master都会从DBI检索数据，以了解哪些计算资源可用以及任务负载较低该任务系统主要在每天上完所有课后的夜间22:00~次日08:00运行，以免影响实时授课。当然，因为也有必须在白天的授课中同步进行的特殊数据，所以系统整体持续运行了24小时。

在线教育音视频

3 .质量感觉

3.1海豚系统

在线教育音视频

我们将基于以上评价体系构建的质量感知体系作为“海豚体系”，该体系整天运行，感知基于全球四十多个节点配置的一千五百多台服务器的授课体系。在此系统中，您可以立即知道这些节点发生异常，以及哪些用户发生了问题。像VIPKID这样收费的产品很多，用户对产品体验的要求很高，我们必须提高一切技术标准，尽可能正确快速地处理危机性故障。整个质量识别系统框架首先包括基础数据或SDK上报日志(其贡献数据最多，包括音频视频的SDK、音频视频的帧率、纸箱比率、用户使用的平台版本、相机数据等)、客户端在从业务侧面记录(构建流加速系统的流服务、信令服务、运行状况等)、BI数据和QOS数据(来自音频视频以外的数据)中抽取和收集数据之后，清洗数据。这些清洁的结构化数据被标记，使下一次多维分析预处理数据变得容易，最后通过统一的数据接口向分析和查询服务系统传输数据。该系统有三个作用:标签系统和多维分析。实时预警:可预警动态问题和节点故障问题挖掘:传输算法模型，生产智能垄断模型，同时发掘问题设备。

在线教育音视频

上图显示了我们基于这个质量检测系统制作的实时监视的大盘子。

3.2核心指标

下图显示了实时课程质量跟踪、问题统计信息和客户端发布前后比较的主要指标。所有课程的分析结果表明，例如收集纸箱速率的数据，纸箱速率与帧速率呈正相关，正常帧速率为15FPS，但一些用户的帧速率为5FPS，这是遇到纸箱问题的用户。每门课都有很多标签，但是真正的问题分析是通过分析某个标签突然变多，还是在这门课上出现了多个异常标签，在确定问题时也用标签确定的。

在线教育音视频

3.3实时指标趋势跟踪

下图显示了实时指标的趋势跟踪，可以看出不同地区网络的垄断状况大不相同，这也是我们优化协调参与的重要依据。

在线教育音视频

3.4单节质量跟踪

下图以时间为纬度汇总了课堂质量的变动。课堂重要事件，课堂质量变化跟踪，课堂质量评价，主要面向SDK研发、后端研发等业务人员。

在线教育音视频

3.5问题故障诊断

在线教育音视频

房间的时间打点主要用于问题跟踪和故障排除，以应对用户的反馈。

4 .总结

在线教育音视频

我们的系统组有很多可以进一步改善的地方。例如，基于录音文件的评价标准无法完全表现下行品质，授课量多则服务方的计算资源消耗高，基于参数的视频品质评价算法与编码器的类型相关，不同的代码流需要重新训练等。这也是我们未来努力的方向。

把孙悟空吃了_ 孙悟空到底吃没吃过人如果没有, 他为什么要自黑呢区块链溯源技术开发_ 区块链溯源，打假双十一