大神硬核分析在线红色视频发现回放音量飙升的秘密

由于视频已经成为一种重要的媒体,视频博客和视频博客也已经成为一种职业,如何增加他们自己的视频量是大多数内容制作人最头疼的问题之一。当然,互联网上有很多内容制作、热点跟踪和编辑技能分享,但你可能不知道机器学习也能在其中发挥很大作用。

联合数据的两位作者梁宁和贾斯汀对硬核进行了技术分析他们的分析目标是SydneyCummings,一个新崛起的YouTube健身博客。

9悉尼拥有美国国家运动医学协会的私人教练证书,也是跳高运动员。她的账号注册于2016年5月17日,累计播放次数为27,031,566次。目前,她拥有21万粉丝,每天都在稳步更新,这具有重大的研究意义。请注意,以下研究将通过Python实现

SydneyCummings?例如,最新的标题是“30分钟的手臂和臀肌力量练习!”燃烧310卡路里!它通常包括时间、身体部位、燃烧的卡路里和其他关于锻炼的描述性词汇。在观众点击这个视频之前,他们会知道几个信息:

30分钟-我将在30分钟内完成整个培训;

锻炼手臂和臀肌——我将全身心地投入到手臂和臀肌中,集中力量;

燃烧310卡路里——我燃烧了相当多的卡路里

掌握以上关键信息是提前准备的,接下来有六个步骤:观察数据,利用自然语言处理技术对视频进行分类,选择特征,创建目标,构建决策树,阅读决策树接下来,让我们看看作者是如何一步一步进行研究的。

预先准备:抓取数据

实际上有许多不同的方法来抓取YouTube数据由于这只是一个一次性的项目,作者选择了一个简单的方法,只需要手动操作,不依赖于额外的工具。

以下是一步一步的步骤:

选择所有视频;

右键单击最新视频并选择“检查”;

将光标悬停在每一行上,找到高亮显示所有视频的最低级别的HTML代码/元素级别;

例如,如果使用Chrome浏览器,看起来如下:

右键单击元素并选择“复制”,然后选择“复制元素”;

将复制的元素粘贴到文本文件中并保存它们。这里,JupyterLab文本文件被使用并保存为sydney.txt;

使用Python来提取信息和清理数据

是下一个有趣的部分。他们将集中精力从这些数据中提取特征,并研究影响回放音量的因素。

步骤1:观察数据

将数据导入到Python在最后一节中已经完成。以下是数据集df_videos,共有837个视频

df_videos有8个功能来描述每个视频的详细信息,包括:标题、发布时间、视频长度、播放音量、地址、卡路里、具体发布日期以及发布后的天数。

此外,他们注意到数据重叠是因为博客作者多次上传相同的视频,在接下来的分析中将忽略这个小样本。

第2步:使用NLP

对视频进行分类在这一步中,他们根据标题中的关键词对视频进行分类

分组标准是:

这个视频针对的是身体的哪个部位?

这个视频的目的是增加肌肉还是减肥?

或任何其他关键字?这位

的作者使用自然语言工具包(Python中常用的开源NLP库)来处理标题。

生成关键字列表

首先,标记视频的标题此过程使用分隔符将标题文本字符串拆分为不同的标记这样,计算机程序可以更好地理解文本

这些标题中有538个不同的单词。下面列出了最常用的标签/单词可以发现,这些词经常被使用,这再次证明博客写手真的喜欢标准格式的视频标题。

基于高频词列表,作者创建了3个关键词列表,可用于对以下链接中的视频进行分类

body _ keywords-这标识了视频所针对的身体部位,如“完整的”身体、“腹部肌肉”和“腿部”

健身程序_类型_关键词-区分运动类型,如“有氧”、“拉伸”和“力量”

其他关键词-这包括常用但难以分类的关键词,如“训练营”、“疲惫”和“减肥”

词干关键词列表

在形成这些关键词列表后,作者还提取了词干这是为了确保计算机能够识别同义词。例如,abs是AbdominalExercise的简写,单词“abS”和“ab”有相同的词干“AB”

YouTube标题的标记和词干除了关键词,作者还需要标记和提取标题的词干这些过程可以为关键字和标题列表的进一步匹配做准备。

第三步:特征工程

经过头脑风暴,他们选择了两个特征——基于关键词和基于时间

基于关键词的特征指示器特征

由于之前的工作,现在有3个关键词列表和简化的标题可以匹配来对视频进行分类。

根据body_keywords和work _ type _ keywords进行分类,视频中有许多关键字。因此在匹配之前,作者还创建了两个特征:面积和健身类型这些功能将视频的所有身体部位和锻炼类型连接成一个字符串

例如,一个健身视频可以同时做“腹肌”和“腿”,或者同时做“有氧”和“力量”。视频的特色区域是“腹部肌肉+腿部”,健身类型是“有氧+力量”

同时,作者还确定了类似的关键词,如“总量”和“完整”、“核心”和“腹肌”,并将其归入一组。在

结束时,他们创建了三种不同类型的虚拟特征:

is_{}_ region来识别视频是否包含特定的身体部位;

is_{}_健身,确定健身类型;

title_contains_{}查看标题是否包含其他关键字

为清晰起见,视频标题“腿部力量消耗训练”应为_腿部_面积=真,IS _力量_锻炼=真,标题_包含_消耗=真,而所有其他内容均为假

频率特征

除了上述特征之外,作者还创建了三个特征:num_body_areas、num _健身程序_ types和num_other_keyword,以计算视频标题中提到的关键词数量

,例如,名为“腹肌和腿部有氧力量训练”的num_body_areas和num _健身类型都是2

这些功能有助于确定视频中应包含的最佳身体部位数量或锻炼类型最后但同样重要的是,作者创建了一个功能:卡路里每分钟,以查看卡路里燃烧的速度。毕竟,观众都想要一些明确的锻炼目标。

,当然,在整个过程中不可避免的会有一些错误分类的视频,作者在转向时间特征之前也做了手工修复,这里就不再重复了。

基于时间序列的特征

通过上述基于关键词的特征,作者发现了流行视频的类型但是这是否意味着博客应该总是发送相同类型的视频呢?

为了回答这个问题,他们还创建了一些基于时间序列的功能:

num_same_area,过去30天内同一地区发布的视频数量例如,feature =6表示除了上身的当前视频之外,在过去30天中还有5个上身健身视频。

last_same_area,自同一身体部位的最后一个视频以来的天数例如,此功能=10表示最后一个腹部肌肉视频是在10天前发布的。

last _ same _健身程序,与last_same_area相同,仅适用于健身类型

num_unique_areas,在过去30天内锻炼了几个不同的身体部位

num _ unique _健身程序,过去30天发布的不同健身类型的视频数量

这些功能将有助于理解观众喜欢相同还是不同类型的视频。

应该注意的是,博客作者偶尔会发布与健身无关的视频,而且广播的数量变化很大,所以作者没有将这些包括在分析中。此外,他们还过滤掉了前30天的视频,因为它们缺乏足够的历史数据。

接下来,请查看以下功能项目的具体流程

多重共线性测试多重共线性测试什么是多重共线性测试,维基百科的解释是多重共线性是一种现象,在这种现象中,多重回归模型中的预测变量可以从其他预测变量中以相对较高的精度进行线性预测多重共线性不会降低模型整体的预测能力或可靠性,至少在样本数据集中不会。它只影响单个预测值的计算

为什么这很重要?

假设博客作者只在周一发布力量训练,而她的视频总是在周一更频繁地播放。因此,当分析广播量时,应该归因于他们在周一的发布,还是因为他们正在进行力量训练?为了获得一个真实的答案,作者必须确保特征之间没有强共线性。成对相关

是一种常见的方法,但是当多个特征出现时,共线性可能同时存在。

因此,作者使用了一种更复杂的方法——K-折叠交叉验证来实现这一目标

的详细过程如下:

根据判断选择一组关键特征进行共线性检验。这位

的作者选择了对YouTube视频播放量至关重要的特性,并添加了三个由随机数组成的特性:随机0、随机0、随机1、随机2。当比较特征之间的关系时,它们充当锚如果一个特征不太重要或者与这些随机特征相似,那么它就不是目标特征的重要独立变量。

为K折交叉验证准备了这些功能

在此过程中,他们转换分类特征:区域和健身程序类型这种转换确保每个类别级别至少有k个值

使用一个特征作为目标,另一个特征作为自变量来训练预测模型

接下来,作者遍历每个特征并使用其他特征来拟合模型以预测它。他们使用一个简单的梯度提升模型和卡路里特征是相关的。这个发现很直观,因为你锻炼的时间越长,消耗的热量就越多。

这种关系不难理解

长度和卡路里之间存在正相关,但是强度不足以将它们直接归在一起。因为40-45分钟的视频消耗的热量与30-35分钟、50-55分钟甚至超过60分钟的视频重叠。因此,这两个特征都被保留

此外,作者发现数_同_面积和面积_满,这两个特征也是相关的。这个发现有点令人惊讶,然后开始解密

下图显示了面积与面积的关系

num_same_area功能,计算过去30天内同一部分发布的视频数量Area_ful代表全身锻炼,这是悉尼视频中最常见的一种。因此,当数字相同的面积大,这些视频是针对全身锻炼。

假设我们发现更高的面积会导致更高的YouTube观看率,但是我们不知道这是因为面积满还是面积相同因此,由于相同的逻辑,作者放弃了相同区域数特征,也放弃了相同锻炼数特征

步骤4:创建目标

您可能还记得,本研究的目标是增加YouTube的播放量。这是否意味着我们可以直接瞄准广播音量?

,但请注意!广播音量以倾斜的方式分布。平均播放次数为27,641次,最高视频达到130万次。这种不平衡会给模型的解释带来问题。

因此,作者创建了特征视图_四分位作为目标。

他们将视频分为两类——高播放视频和低播放视频“高”占播放的视频总数的75%,即35578个或更多的视频,其余被归类为“低”

以这种方式,作者使用预测模型来寻找最高回放音量为25%的视频的特征组合

步骤5:构建决策树

准备好所有工作,我们根据目标视图构建决策树模型_四分位数!

为了避免过度拟合,作者将叶节点的最小样本设置为10为了让我们更容易理解,作者将树的最大深度设置为8层。

步骤6:阅读决策树

在最后一步,作者将研究和总结导致高或低回放音量的“分支”他们发现了什么?

发现1:卡路里每分钟是最重要的特征人们似乎不太关心锻炼的类型或身体部位。

每分钟消耗超过或等于12.025卡路里,这是一个高消耗。60%的视频有很高的观看率。每分钟燃烧卡路里少于

的视频并不流行,只有7.2%的视频播放得更高。

,每分钟的卡路里消耗量在9.846和12.025之间,其他因素也将发挥更大的作用。

发现2:不同的部位和不同的锻炼方式不能增加演奏音量

这个发现超出了作者的想象。用各种方式锻炼不是更好吗?

当过去一个月身体不同部位的锻炼次数非常多且≥10次时,视频观看倾向较低即使每分钟燃烧的卡路里非常高,这也是事实。

结合了前两种观点,78%的视频在以下情况下播放得更多:

每分钟燃烧大量热量;在过去的一个月里,

在身体的不同部位锻炼较少。

发现3:臀部健身非常受欢迎

当一个视频消耗较少的卡路里,但只要是臀部锻炼,33%仍然可以得到高播放;否则,只有4.6%的视频有较高的回放速度。

建议:如何提高

的发挥总而言之,作者给了悉尼三条建议:

建议1:燃烧卡路里

正如我们所见,每分钟消耗的卡路里是最重要的特征,而12.025是一个神奇的数字

下表是不同时长的视频应该燃烧多少卡路里的节点:

30分钟锻炼:361卡路里

40分钟锻炼:481卡路里

50分钟锻炼:601卡路里

60分钟锻炼:722卡路里

作者还提出了一个猜想:数字只会刺激人的心理,人们可能只是想看看

建议2:少用不同的身体部位关键词

有些人不喜欢。

人们不喜欢健身标题中有太多不同的身体部位根据该模型,一个月内组合少于10个身体部位更好。

作者注意到悉尼在她最近的视频中使用了较少的身体部位关键词最明显的一点是,她一直用“手臂”或“上身”来代替“二头肌”或“背部”这样的词

建议3:更多臀部锻炼的用户悉尼可能会有更多女性,她们倾向于“臀部”可塑性,而不是增加手臂肌肉。人们愿意牺牲燃烧更少的卡路里来获得更健美的臀部。也许悉尼应该在视频中加入一些消耗较少卡路里的臀部锻炼

建议4:未经证实的想法

例如,在本月初发起一项新活动本月初发布的视频更有可能获得更高的浏览量。也许人们喜欢设定新的目标来开始新的一个月。第二,避免在5天内进行同样的锻炼。在

的结尾,作者还说研究有一些局限性:

这些建议是基于过去的表现。然而,优酷经常打破常规,尝试新的想法。有鉴于此,我们可以将机器学习应用于他们的竞争对手

仅侧重于标题和其他一些信息的分析,如订户数量、性别和地区统计数据,这些信息可能包含更多特征、更准确的调查结果和解释。

来源:雷锋网

大家都在看

相关专题