基于FP-Growth算法的模块化课程关联性实证研究
摘要
关键词
FP-Growth算法、模块化课程、关联性
正文
随着工业4.0时代产业转型升级,智能制造和数字化技术对红旗班组长技能素质提出了更高要求,传统的职业技能培训难以适应现代班组长型人才的发展要求,需要重构职业能力体系,科学设计课程结构和考核评价方法。
团队同一汽专家共同进行工段班长职业能力调研分析,开发了红旗工段班长“HTL3315"能力模型,从红旗情怀、抗压能力等核心行为特征,生产管理能力、质量管理能力等专业能力,沟通能力、问题解决能力等非专业能力三个维度,构建红旗工段班长能力图谱,对红旗班长、段长、工长分层次、分阶梯建立能力要求。根据能力图谱,开设了标准作业、文件作成、数智化等课程。
本文运用FP-Growth算法分析大数据分析基础、汽车商务智能、Python、大数据开发与实践等4个课程模块的成绩关联性,挖掘课程关联规则,对课程结构进行科学评估。
1 模块化课程关联性分析方法
1.1相关定义
定义1. 频繁项集。频繁项集是指支持度大于等于最小支持度的集合。
定义2. 支持度(Support)。支持度表示同时包含A和B的事务占所有事务(I)的比例。公式为:Support(A→B)=P(A,B)/P(I)=P(A∪B)/P(I)。
定义3. 提升度(Lift)。提升度表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公式为: Lift(A→B)=P(B|A)/P(B)。
定义4. 置信度(Confidence)。置信度表示包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。公式为:Confidence(A→B)=P(B|A)= P(A∪B)/P(A)。
1.2 FP-Growth算法
关联规则是反映一个事物与其他事物之间的相互依存性和关联性。关联规则算法主要有Apriori算法、FP-Growth算法、Eclat算法等。FP-growth算法是一种基于频繁项集树(FP-tree)的关联规则挖掘算法,通过构造FP树避免多次扫描数据集和产生候选项集的过程。算法首先扫描数据集,生成FP树来统计每个项的支持度,然后通过FP树产生候选规则,并根据设定的最小置信度阈值筛选出满足条件的强关联规则。FP-growth算法计算开销小,效率高,尤其适用于大规模数据集。
2 FP-Growth算法下的模块化课程关联性分析
2.1实验环境与数据来源
本研究运用基于Python的Orange3软件进行关联性分析,实验数据来自我校开展的红旗工段班长培训课程大数据分析基础、汽车商务智能、Python、大数据开发与实践等4个学习模块,选取第一期培训学员65条成绩记录作为原始数据。
2.2数据预处理
原始数据中存在成绩缺失问题,采用去除记录的方式进行数据清洗,最终得到60条有效数据。
课程的成绩本身为离散型数据,由于课程考核方式和考试难度的差异,若将成绩直接作为事务集输入到模型中,会导致模型的泛化能力变差且效率低下。本研究采用“五级制成绩”进行数据的离散化处理,所得的成绩等级划分如表1所示。
表1 成绩等级划分表 | |||||
成绩区间 | [0,60) | [60,70) | [70,80) | [80,90) | [90,100] |
评定等级 | E | D | C | B | A |
离散化变换后的数据结果如表2所示。
表2 离散化变换后的成绩数据
姓名 | 大数据分析基础 | 汽车商务智能 | Python | 大数据开发与实践 |
胡* | E | A | B | A |
许** | B | B | A | A |
王* | D | B | C | D |
刘* | E | B | D | A |
岳* | B | A | A | A |
… | … | … | … | … |
3 实验结果与分析
运用Orange3平台获取数据,在Associate组件中选用FP-Growth算法进行成绩的关联性分析,经反复实验,将最小支持度设为0.1,最小置信度设为0.8,按置信度排序,得到课程优秀规则和预警规则。
表3 模块化课程优秀规则
关联规则 | 支持度 | 提升度 | 置信度 | ||
大数据分析基础=B, 汽车商务智能=A, Python=A | → | 大数据开发与实践=A | 0.1 | 2.069 | 1 |
大数据分析基础=B, 汽车商务智能=A | → | 大数据开发与实践=A | 0.15 | 1.862 | 0.9 |
大数据分析基础=B, Python=A | → | 大数据开发与实践=A | 0.167 | 1.724 | 0.833 |
汽车商务智能=A | → | 大数据开发与实践=A | 0.267 | 1.655 | 0.8 |
从模块化课程优秀规则可以得出,大数据分析基础、汽车商务智能、Python等课程成绩优异的,大数据开发与实践课程成绩更易取得好的成绩。
表4 模块化课程预警规则
关联规则 | 支持度 | 提升度 | 置信度 | ||
大数据分析基础=E, 大数据开发与实践=D | → | Python=D | 0.117 | 3.75 | 1 |
汽车商务智能=D, Python=D | → | 大数据开发与实践=D | 0.1 | 3 | 1 |
汽车商务智能=D | → | 大数据开发与实践=D | 0.117 | 2.625 | 0.875 |
汽车商务智能=D, 大数据开发与实践=D | → | Python=D | 0.1 | 3.214 | 0.857 |
从模块化课程预警规则可以得出,大数据分析基础和汽车商务智能成绩较低的,会导致Python和大数据开发与实践课程成绩低下。提升度均大于1,说明课程模块之间是有效的强关联规则。
4 结语
本文对模块化课程成绩进行数据清洗和离散化后,运用FP-Growth算法分析各模块成绩之间的关联关系, 构建课程优秀规则和预警规则。结果表明,提升度均大于1,说明课程模块之间是有效的强关联规则,FP-Growth算法的应用为课程成绩预警和课程结构的科学规划提供了决策支持。
参考文献
[1]任鸽,吴猛,汗古丽·力提甫,等. 基于改进Apriori算法的高校课程预警规则库构建[J]. 计算机系统应用,2021,30(7):290-295. DOI:10.15888/j.cnki.csa.008040.
[2]刘建树,李健维,刘霖. 基于改进兴趣度的船舶关联规则挖掘[J]. 舰船电子工程,2019,39(1):78-82. DOI:10.3969/j.issn.1672-9730.2019.01.019.
...