原标题:炸药的秘密?——三亚
199网上旅游销售影响因素分析最近,一档名为“关注游客”的综艺节目在卫星电视上大受欢迎。综艺节目以明星和他们的朋友一起参加旅行为特色,这在网民中引起了热烈的讨论,也引发了另一次旅行热潮。如何在一波又一波的旅游热潮中把自己的旅游产品变成炸药,是旅行社密切关注的问题。以三亚团体旅游在线旅游产品为例,描述并建模各种可能的销量影响因素,对消费者评论进行词频统计,利用LDA模型挖掘主题,将文本挖掘获得的主题出现概率作为衍生自变量添加到后续回归模型中,最终建立以产品历史销量和月平均销量分布为因变量的模型,为旅行社探索和挖掘相关信息,提供修改旅游产品的建议。背景介绍
沙滩,椰风和海韵。三亚有60%的森林覆盖率,209.1公里的海岸线和19个高质量的海湾。在过去的十年里,三亚已经建成了23个独特的旅游景点,如:三亚湾椰梦走廊、西岛海洋休闲世界、五指洲度假中心、天涯海角风景区等。三亚现在有近200家旅游酒店和近30家四星级和五星级酒店。2018年,三亚接待游客2242.5万人,比2017年增长11.3%。全年旅游总收入514.73亿元。全市共有14个甲级及以上景区,其中5A景区3个,4A景区5个。三亚已经形成了一个完整而有吸引力的旅游产品体系,这也是本文选择三亚作为研究对象的原因。
在整个在线旅游市场,在线旅行社市场的交易规模稳步增长,在线产品预订也呈现多元化发展。网络旅游的整体格局已经稳定。随着旅游细分市场的发展,在线旅游的市场份额越来越稳定。突破性壁垒增加,窗口逐渐缩小,市场集中度进一步提高。2018年网络旅游交易额达到1.2万亿元
根据一家网站发布的报告,超过70%的游客在旅游时选择使用旅游产品,以家庭为单位的私人旅游团数量增加了105%随着旅游产品的蓬勃发展,网络旅游的蓬勃发展和市场营业额的不断扩大,如此广阔的市场发展前景必将成为商家的必备品。这么多在线旅行社是如何在高度竞争的市场中赢得第一名,并把他们的产品销售成爆炸物的?这位
的小编辑决定从“难以获得顾客”的问题切入。通过分析影响三亚在线团队旅游产品销量的因素,可以为旅行社获得更多的销量和更高的利润,并从消费者评论的角度直接触及旅行社的痛点。
数据描述
本文中使用的数据是从大型在线旅游网络中获取的。所有受欢迎的城市都被选为一个接一个攀登的起点,重量也随之减轻。总共还剩下1813个样本。每一个数据代表一个三亚集团旅游产品的相关信息。有610个样本包含销售量信息和455条评论
描述性分析
我们发现在爬行的1813条数据中,有610条旅游产品带有销量信息。因此,本研究将因变量分为两部分。首先,我们分析了产品是否有历史销量的影响因素。然后对有销量的产品的销量进行标准化,并分析其影响因素。
01
因变量:无论三亚集团在线旅游产品是否有
销售额,三亚集团在线旅游产品中只有610个有历史销售额,占33.6%
自变量描述,以是否购物、产品价格是否可见为例分析如下:
我们发现没有购物的团体旅游产品比有购物的产品获得顾客的能力更强。有销量产品的总价格低于无销量产品具有
可视旅游地图的产品比没有可视旅游地图的产品具有更好的客户获取能力。旅游地图的展示可以帮助消费者直观地了解整体的旅游情况,也可以使消费者更愿意长时间停留在产品页面上,从而提高购买概率。
02
因变量:三亚团队旅游产品月平均销量为
。我们选择所有有历史销量的产品,用产品评审的最早日期代替在线日期,进行标准化处理,消除在线时间对销量的影响,得到我们关心的因变量——三亚团队旅游产品的月平均销量进行对数处理,绘制如下直方图,整体呈右侧分布,大部分产品销量小于10(人/月)销售额高达700.87(人/月),来自海南省三亚市,由旅游网站自营。这是5号和4号的团体旅游产品。
自变量描述,以旅游天数、景点总数和产品等级为例分析如下:旅游天数在3天到9天之间的
天的旅游产品最受消费者欢迎,旅行社在制作产品时应该制作更多这一范围内的旅游产品。行程中有3-9个景点的产品有很多离散的销售值,说明三亚团队旅游爆炸物安排的旅游景点总数集中在3-9个范围内旅行社需要为团体旅游安排数量适中的景点,过多的景点会导致成本增加。
良好评级是使用产品的消费者的定量反馈,反映了公众对产品的看法从图中可以看出,96%~99%的优惠等级产品的总销量明显高于其他范围的产品,三亚组团旅游的爆炸性产品也出现在这个优惠等级范围内。
有趣的是,有些产品的满意度高达100%,但销量很低,这可能是因为这些产品在网站上是较新的产品,或者是因为广告宣传力度不够,一些高质量的产品没有被公众发现。
评论概述
首先,我们抓取了在线旅行团的所有产品评论信息,有455个产品有评论在停止单词、添加语料库和分词之后,3分以上的分数被分为好的评价和差的评价。每个词频为top140的单词被选中,画出下面的单词云图出现频率最高的赞美词是:酒店、服务、幽默、热情、景点等。然而,在糟糕的评论中最常见的词是:酒店、购物、自费、客户服务、时间、项目等。
建立了基于LDA的
评论内容主题模型。我们预处理了455个产品的所有评论内容,并使用线性判别分析模型挖掘产品特征前六个主题模型被打印出来,顶级词汇被提取出来。我们可视化了LDA主题模型,结果是一个动态的交互式网页。下图仅显示了主题4。从图的右侧,我们可以看到它通常与导游因素有关。
同样,其他主题也是可视化的。根据每个主题给出的前10个单词,下表显示了每个主题的前10个单词及其归纳类别。审查的主题在一定程度上反映了消费者的关切和需求。我们计算每个产品对每个主题特征的评论概率,即每个产品在每个类别中的得分,并将其应用到后续的回归模型中,以观察其对销量的影响是否显著
回归模型建立
01
逻辑回归(有或没有历史销售额)
1.1模型建立和解释
首先,我们为互联网上所有以历史销售额为因变量的三亚集团旅游产品建立了一个初始逻辑回归模型基于BIC准则,变量选择采用反向逐步回归法最终回归模型如下获得
从估计结果来看,在显著性水平为0.05的条件下,有三点值得注意:
1。这个网络的自营产品比那些非自营产品更有可能被消费者“光顾”。
2。网页上有可视旅游地图的产品比没有可视地图的产品更容易销售。这可以与在网页上显示自由活动的数量相结合。我们发现,只要显示免费活动数量的产品比没有信息的产品更有能力赢得顾客,在线旅游产品的“门面”就非常重要!
3。带购物功能的团体旅游产品比不带购物功能的产品更难销售。
1.2模型
的评估我们建立了一个混淆矩阵。在这种情况下,设定的阈值是样本的正比例和负比例(产品销售占总产品的比例)根据混淆矩阵,模型的误分类率为44.60%,偏高。真实阳性率为70.05%,正确预测1的能力更强。FPR(假阳性率)是31.67%,这减少了错误预测1为0的概率。AUC=0.77
1.3。
02
线性回归(月平均销售额)
2.1模型的建立和解释在这一部分中,我们选择月平均销售额作为因变量,建立初始线性回归模型,并利用AIC准则通过后向逐步回归进行变量选择计算烹饪距离,去除强影响点,最后选择对数线性回归模型,得到下表
F检验的p值小于显著性水平(0.05),因此模型整体上是显著的,并且至少有一个自变量对产品的月销售额有显著影响这种情况下的R侧为0.633,自变量可以解释因变量(旅游产品的平均月销售量)变化的63.3%
的具体解释如下:产品本身的
(1)因素:在其他因素控制不变的情况下,网络自营团体旅游产品月平均销量比网络非自营团体旅游产品月平均销量高80.01%。产品是否被安排购物和产品价格仍然是非常重要的因素。为团体旅游安排的旅行天数也值得关注。3到9天的产品比3天或更短时间的产品月平均销售额高36.58%。太短的旅行不适合大多数人。
(2)产品评价因素:在控制其他因素不变的情况下,优惠评价率提高1%,月平均销量提高2.28%我们还将挖掘出的评论内容主题出现在每个产品评论中的概率放入模型中,发现食宿、导游和路线分数等因素是影响产品强势销售的因素。
2.2模型评估一组低于
的诊断图形输出。从残差图可以看出,异方差性并不明显。QQ图告诉我们,常态是很令人满意的。右下角的库克距离图显示样本没有强影响点。
2.3模型采用
回归系数,如下图所示,直观地显示出我们发现所有影响因素中最具影响力的是产品的良好评级。高的好评表明消费者对产品非常满意,这样的产品更有可能成为“爆炸性产品”
重新解释产品自身因素的影响。从我们的模型中,我们可以看到有三个因素与月平均销售量有明显的负相关,即购物(基准组:不购物)、价格和自由活动次数
和评论中挖掘的主题解释了平均月销售量:六个主题中的五个显著解释了销售量。其中,导游因素得分和路线得分对平均月销售量影响较大,说明消费者在购买和完成产品旅游后,对导游和整体路线安排印象最深。此外,食品和住房因素的得分也对销量有较大影响,食品和住房因素的得分自然取决于旅行社是否为团体旅游设计了合适的旅游产品。
但是,同一时期的数据是模拟的,结果只能用于解释。但是,对于平台侧,可以收集更多的产品信息,其他信息如前一个销售周期对应的评论数量等可以用于建模,进一步用于销量预测等工作。
下面的总结和建议
是根据全文分析结果给旅行社的建议: