大数据行销报告
标题:消费者在线教育行为分析:基于视频分析与机器学习的视频课程消费研究
副标题:《Consumer Behavior in the Online Classroom: Using Video Analytics and Machine Learning to Understand the Consumption of Video Courseware》 作者:Mi Zhou, George H. Chen, Pedro Ferreira, Michael D. Smith
研究背景
- 非结构化多媒体数据正在重塑管理实践
- 目前80%的公司数据是非结构化的
- 非结构化数据增长速度比结构化数据快15倍
- 企业尚未充分利用这些数据
- 视频是最关键的非结构化数据类型
- 每日Facebook有80亿视频浏览量
- YouTube每日提供10亿小时视频
- 预计到2022年,视频将占消费者互联网流量的82%
- 在线教育市场迅速增长
- 教育培训是一个7万亿美元的产业
- 美国77%的企业使用在线学习
- 疫情期间在线教育使用大幅增加
- 预计到2025年,在线教育市场将达到3500亿美元
研究问题
本研究旨在解决以下核心问题:
- 在线视频的哪些关键特征会影响其被观看的程度?
- 平台如何使用可扩展和自动化的方法量化视频特征?
- 在线教学视频的特征如何预测消费者行为?
研究方法框架


研究提出了一个创新的视频特征框架,包括三类特征:
- 基本视频属性
- 视频长度、演讲速度、场景长度、情感分析等
- 讲师情绪与物理特征
- 使用深度学习模型检测面部表情和情绪
- 分析讲师外观特征(年龄、性别、眼镜、微笑等)
- 视觉美学特征
- 动态特征:前景运动区域、运动幅度、运动方向
- 色彩特征:暖色调比例、饱和度、亮度、对比度、清晰度
数据来源
研究使用了两个独特的数据集:
- MasterClass数据集
- 771个在线视频
- 超过260万观看记录
- 来自225,580名消费者
- 各领域专家(设计、新闻、编剧等)的教学视频
- Crash Course数据集
- 1,127个视频
- YouTube频道有超过1200万订阅者
- 传统教育学科内容(人工智能、哲学、统计学、世界历史等)
视频特征分析方法
基本视频属性
- 视频长度:以分钟计算,研究显示较短视频往往更具吸引力
- 演讲速度:每分钟说话的词数,更快的语速往往与更高的用户参与度相关
- 平均场景长度:使用PySceneDetect计算场景之间的平均时间
- 情感分析:使用基于规则的模型分析字幕中的语言情感

讲师情绪与物理特征
- 使用微软研究院的预训练深度学习模型识别讲师表情
- 分析八种情绪:愤怒、蔑视、厌恶、恐惧、快乐、中性、悲伤和惊讶
- 估计外观特征:年龄、性别、眼镜、面部毛发、秃顶程度、发色、化妆、微笑
视觉美学特征
- 动态特征:使用OpenCV计算前景/背景分割和光流分析
- 色彩特征:分析色调、饱和度、亮度、对比度和清晰度
消费者行为测量
研究通过两个二元变量测量消费者观看行为:
- Y_complete:消费者是否看完整个视频
- Y_next:消费者是否观看课程中的下一个视频
这些指标代表平台最关注的两个关键消费者行为指标。
预测方法
研究采用梯度提升机(GBM)算法预测消费者行为:
- 使用80%的消费者数据作为训练集
- 通过5折交叉验证选择超参数
- 在测试集上评估模型性能
- 使用机器学习可解释性方法分析特征重要性:
- 排列特征重要性(Permutation Feature Importance)
- Shapley值(SHAP)--->补充
研究结果
预测性能
- 预测消费者是否会观看完整视频的准确率:92%
- 预测消费者是否会观看下一个视频的准确率:88%
特征重要性分析
类别级特征重要性:
- 消费者过去平均完成率是预测当前行为的最重要因素
- 基本视频属性(如视频长度)对预测有显著影响
- 讲师情绪和物理特征也显著影响观看行为
个体级特征重要性:
观看完整视频的关键因素
:
- 较长视频与更高完成率相关(在MasterClass环境中)
- 课程中较后的章节完成率较低
- 积极情绪的讲述内容增加完整观看概率
- 讲师情绪影响复杂,非线性关系
- 讲师年龄与观看完成率呈正相关
- 视觉特征中,动态和清晰度的影响呈非对称性
观看下一个视频的关键因素
:
- 消费者平均完成率仍有积极影响
- 较高的演讲速度对观看下一视频有负面影响
- 较强的情绪表达(如愤怒)与观看下一视频的概率呈正相关
- 亮度和清晰度较低的视频降低观看下一视频的概率
稳健性检验结果
研究将框架应用于Crash Course数据集,预测视频受欢迎程度的准确率达到85%,证明了该框架在不同视频消费环境中的适用性。
研究贡献
研究提供了四个主要贡献:
- 开发了一个新的视频特征框架,能分析非结构化视频数据
- 证明了该框架可用于预测个人级别的消费者行为
- 证明了该框架可用于预测视频的总体受欢迎程度
- 提供了关于制作有效教学视频的可解释洞察
管理启示
研究结果为在线教育平台提供了重要的管理启示:
改进视频制作
:
- 对于重要内容分配适当的时间
- 注意讲师情绪表达的复杂影响
- 确保视频有适当的动态变化,但避免过多
- 保持高清晰度和适当亮度
个性化干预策略
:
- 基于预测结果设计干预,提高用户参与度
- 为个别消费者定制内容和推荐
新产品需求预测
:
- 在视频上线前预测其潜在表现
- 测试不同版本的效果
研究局限性
- 虽然研究测量了观看行为,但未能测量学习成果
- 研究分析了两个商业环境,未来研究应扩展到更广泛的环境
- 课程主题与特定讲师的"匹配度"可能影响观看行为
- 数据是观察性的,无法声称因果效应
- 关于消费者行为的数据仅限于测量视频观看量
未来研究方向
- 分析课程内容和视频如何影响消费者的学习成果
- 在非商业学习环境中分析视频特征的影响
- 调查课程主题与讲师之间的"匹配度"对观看行为的影响
- 进行实验研究分析视频特征对参与度的因果影响
- 利用更细粒度的消费者行为数据进行分析
总结
- 研究开发了一个创新的视频特征框架,用于分析非结构化视频数据
- 框架包含三类特征:基本视频属性、讲师情绪与物理特征、视觉美学特征
- 研究表明这些特征可准确预测消费者的视频观看行为
- 视频特征对消费者参与度有复杂、非线性的影响
- 该框架为在线教育平台提供了有价值的工具,可用于改进视频内容和个性化用户体验
结束语
随着视频在教育和更广泛的营销环境中变得越来越重要,理解非结构化视频数据并利用这些数据测量经济结果,为行业从业者和研究人员创造了令人兴奋的机会。本研究代表了向基于非结构化视频数据的数据驱动分析迈出的重要一步。
额外补充-数据的详细训练过程
数据集和训练方法指标详细分析
MasterClass数据集详情
数据收集
- 视频数量:771个视频
- 课程数量:32个不同课程
- 视频质量:原始视频为高质量,分辨率为1920×1080像素
- 总数据量:原始视频文件总大小约1.66TB
- 处理后数据:为便于分析,视频转换为640×360像素,总大小约178GB
- 辅助数据:每个视频都有对应的时间编码字幕文件
用户观看数据
- 观看记录总数:超过260万观看记录
- 用户数量:225,580名用户
- 采样方法:从MasterClass所有用户中随机抽样
- 记录内容:包含用户ID、观看的课程、观看的视频、观看了视频的百分比
- 课程长度:MasterClass课程包含10到36个章节不等,每章一个视频
消费者行为指标
Y_complete
(完成指标)
- 定义:消费者是否观看完整个视频
- 编码:完整观看=1,否则=0
- 数据集中的平均完成率:39.7%
Y_next
(续看指标)
- 定义:消费者是否观看课程中的下一个视频
- 编码:观看至少下一个视频5%=1,否则=0
- 数据集中的平均续看率:82.3%
用户历史行为指标
- AvgCompletion:用户观看特定视频前的平均完成率
- 平均值:30.8%,用作预测模型的重要输入特征
Crash Course数据集详情
数据收集
- 视频数量:1,127个视频
- 课程数量:39个不同课程
- 内容类型:传统教育学科,包括统计学、计算机科学、物理、化学、生物等
- 平台:YouTube频道,有超过1200万订阅者
- 辅助数据:每个视频的时间编码字幕文件
用户观看数据
从第三方公司获取的历史浏览量和点赞数据
人气指标Y_popular
:
- 定义:视频上传一年内的"点赞"数高于中位数=1,否则=0
- 用于验证框架在另一环境中的可行性
特征提取方法详解
1. 基本视频属性提取
视频长度
- 直接测量视频的分钟数
- MasterClass视频平均长度:11.61分钟,标准差:4.76分钟,范围:1.49-53.17分钟
说话速度
- 计算:字幕中的总单词数÷视频长度
- 平均说话速度:144.05单词/分钟,标准差:28.87
平均场景长度
- 使用PySceneDetect算法识别场景切换
- 计算场景之间的平均时间
- 平均场景长度:0.232分钟,标准差:0.116分钟
情感分析
- 使用Hutto和Gilbert (2014)的规则模型分析字幕
- 输出情感极性分数,范围从-1(极度负面)到1(极度正面)
- 平均情感得分:0.069,标准差:0.045
2. 讲师情绪与物理特征提取
情绪识别
- 使用微软研究院的预训练深度学习模型
- 每10秒提取一帧,应用情绪识别
- 识别8种情绪:愤怒、蔑视、厌恶、恐惧、快乐、中性、悲伤和惊讶
- 对视频中所有采样帧的测量取平均值
外观特征提取
- 使用相同的微软算法估计:
- 年龄(平均值:52.38岁)
- 性别(89%识别为男性)
- 眼镜(40.4%带眼镜)
- 面部毛发(平均值:0.103)
- 秃顶程度(平均值:0.157)
- 发色(分类为几种颜色)
- 化妆(10.7%检测到化妆)
- 微笑(平均值:0.135)
3. 视觉美学特征提取
动态特征
前景运动区域
:使用OpenCV中的前景/背景分割算法
- 计算每帧中前景运动区域的百分比
- 平均值:0.201,标准差:0.101
运动幅度和方向
:使用OpenCV中的密集光流算法
- 测量像素级的运动幅度(以像素为单位)和方向(以度为单位)
- 运动幅度平均值:0.580,标准差:0.286
- 运动方向平均值:3.113,标准差:0.072
色彩特征
暖色调比例
:帧中暖色像素(黄色、红色等)的比例
- 平均值:0.633,标准差:0.176
饱和度
:帧中所有像素的平均饱和度
- 平均值:0.336,标准差:0.123
亮度
:帧中所有像素的平均亮度
- 平均值:0.300,标准差:0.126
亮度对比度
:像素亮度的标准差
- 平均值:0.199,标准差:0.034
清晰度
:亮度足够的像素比例
- 平均值:0.978,标准差:0.039
模型训练方法详解
数据集分割
- 使用80%的消费者数据作为训练集
- 20%作为测试集
- 确保测试集中的消费者在训练集中不出现
特征使用策略
- 预测Y_complete:使用视频前20%的特征
- 预测Y_next:使用消费者实际观看部分的视频特征
- 例如:消费者只看了40%的视频,则仅使用前40%的视频特征
算法选择
- 主要使用梯度提升机(GBM)算法
- 原因:在各种不同应用的机器学习挑战中表现良好
- 用回归树作为基本模型预测残差
超参数选择
- 在训练数据内使用5折交叉验证
- 选择最佳超参数后在完整训练数据上训练
模型解释方法
类别级特征重要性
- 使用排列特征重要性策略(Permutation Feature Importance)
- 将三类视频特征视为单个大特征
- 计算方法:置换特征值后的预测误差÷原始预测误差
个体级特征重要性
- 使用SHAP(SHapley Additive exPlanations)方法
- 计算每个特征对每个预测的具体贡献
- 可视化方法:使用密度散点图展示所有特征对整个数据集的影响
模型性能结果
MasterClass模型性能
- 预测Y_complete的平均准确率:92%(F1分数=0.91)
- 预测Y_next的平均准确率:88%(F1分数=0.85)
- 仅使用平均完成率特征的Y_complete准确率:74.38%
- 仅使用平均完成率特征的Y_next准确率:83%
Crash Course模型性能
- 预测视频是否受欢迎(Y_popular)的准确率:85%
- 精确率:0.84,召回率:0.88
- 基本视频属性的特征重要性约为2.5
- 美学特征在预测Crash Course视频受欢迎度时重要性最高
论文中的SHAP值应用
在这篇研究视频特征对消费者行为影响的论文中,作者使用SHAP值来理解:
- 特征重要性排序: 所有特征按其SHAP值之和排序,展示哪些特征对预测最重要。
- 特征影响方向: SHAP值的正负表示特征值增加是提高还是降低了预测结果(如完成率、观看下一视频的概率)。
- 特征值与影响关系: 通过颜色编码(红色表示高特征值,蓝色表示低特征值),展示特征值大小与其影响之间的关系。
论文中的发现示例
以论文图15为例,SHAP值分析揭示了:
- 平均完成率(AvgComplete): 用户过去较高的平均完成率(红色点)与更高的当前视频完成概率相关(SHAP值为正)
- 视频长度(videoLen): 较长的视频(红色点)实际上与更高的完成率相关(SHAP值为正)
- 情绪特征: 讲师的情绪特征(如愤怒、惊讶)与完成率的关系复杂,表现为非线性影响
- 章节编号(chapter): 后面的章节(红色点)与较低的完成率相关(SHAP值为负)
SHAP值的优势
- 本地准确性: SHAP值能保证模型的预测值等于基线值加上所有特征的贡献。
- 一致性: 如果模型改变,使某个特征对预测的贡献增加,那么这个特征的SHAP值也会增加。
- 可视化友好: 通过SHAP值可以创建直观的可视化图表,帮助理解模型决策过程。
在这篇论文中,SHAP值帮助研究者理解了复杂的非线性关系,比如视频特征如何精细地影响消费者的观看行为,这种理解对于制作更有效的教学视频提供了重要指导
