基于FP-Growth算法的模块化课程关联性实证研究

期刊: 读好书 DOI: PDF下载

李博,玄玉慧

长春汽车工业高等专科学校

摘要

本文对模块化课程成绩进行数据清洗和离散化后,运用FP-Growth算法分析各模块成绩之间的关联关系, 构建课程优秀规则和预警规则。结果表明,FP-Growth算法的应用为课程成绩预警和课程结构的科学规划提供了决策支持。


关键词

FP-Growth算法、模块化课程、关联性

正文


随着工业4.0时代产业转型升级,智能制造和数字化技术对红旗班组长技能素质提出了更高要求,传统的职业技能培训难以适应现代班组长型人才的发展要求,需要重构职业能力体系科学设计课程结构和考核评价方法

团队同一汽专家共同进行工段班长职业能力调研分析,开发了红旗工段班长“HTL3315"能力模型,从红旗情怀、抗压能力等核心行为特征,生产管理能力、质量管理能力等专业能力,沟通能力、问题解决能力等非专业能力三个维度,构建红旗工段班长能力图谱,对红旗班长、段长、工长分层次、分阶梯建立能力要求。根据能力图谱,开设了标准作业、文件作成、数化等课程。

     本文运用FP-Growth算法分析大数据分析基础、汽车商务智能、Python、大数据开发与实践等4个课程模块的成绩关联性,挖掘课程关联规则,对课程结构进行科学评估。

1 模块化课程关联性分析方法

1.1相关定义

定义1. 频繁项集频繁项集是指支持度大于等于最小支持度的集合

定义2. 支持度Support)。支持度表示同时包含A和B的事务占所有事务I的比例。公式为Support(A→B)=P(A,B)/P(I)=P(A∪B)/P(I)。

定义3. 提升度(Lift)提升度表示包含A的事务中同时包含B事务的比例“包含B事务的比例”的比。公式为: Lift(A→B)=P(B|A)/P(B)

定义4. 置信度Confidence)。置信度表示包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。公式为:Confidence(A→B)=P(B|A)= P(A∪B)/P(A) 

1.2 FP-Growth算法

关联规则是反映一个事物与其他事物之间的相互依存性和关联性关联规则算法主要有Apriori算法、FP-Growth算法Eclat算法等FP-growth算法是一种基于频繁项树(FP-tree)的关联规则挖掘算法通过构造FP树避免多次扫描数据集和产生候选项集的过程。算法首先扫描数据集,生成FP树统计每个项的支持度然后通过FP树产生候选规则,并根据设定的最小置信度阈值筛选出满足条件的强关联规则。FP-growth算法计算开销小,效率高,尤其适用于大规模数据集。

2 FP-Growth算法下的模块化课程关联性分析

2.1实验环境与数据来源

研究运用基于Python的Orange3软件进行关联性分析,实验数据来自我校开展的红旗工段班长培训课程大数据分析基础汽车商务智能Python大数据开发与实践4个学习模块选取第一期培训学员65条成绩记录作为原始数据

2.2数据预处理

    原始数据中存在成绩缺失问题采用去除记录的方式进行数据清洗最终得到60条有效数据。

    课程的成绩本身为离散型数据,由于课程考核方式考试难度的差异,若将成绩直接作为事务集输入到模型中,导致模型的泛化能力差且效率低下。研究采用五级制成绩进行数据的离散化处理所得成绩等级划分如表1所示 

1 成绩等级划分表

成绩区间

[0,60)

[60,70)

[70,80)

[80,90)

[90,100]

评定等级

E

D

C

B

A

离散化变换后的数据结果如表2所示。

2 离散化变换后的成绩数据

姓名

大数据分析基础

汽车商务智能

Python

大数据开发与实践

*

E

A

B

A

**

B

B

A

A

*

D

B

C

D

*

E

B

D

A

*

B

A

A

A

 

3 实验结果与分析

运用Orange3平台获取数据,Associate组件中选用FP-Growth算法进行成绩的关联性分析经反复实验,将最小支持度设为0.1,最小置信度设为0.8按置信度排序,得到课程优秀规则和预警规则

3 模块化课程优秀规则

关联规则

支持度

提升度

置信度

大数据分析基础=B, 汽车商务智能=A, Python=A

大数据开发与实践=A

0.1

2.069

1

大数据分析基础=B, 汽车商务智能=A

大数据开发与实践=A

0.15

1.862

0.9

大数据分析基础=B, Python=A

大数据开发与实践=A

0.167

1.724

0.833

汽车商务智能=A

大数据开发与实践=A

0.267

1.655

0.8

从模块化课程优秀规则可以得出,大数据分析基础汽车商务智能Python等课程成绩优异的,大数据开发与实践课程成绩更易取得好的成绩。

4 模块化课程预警规则

关联规则

支持度

提升度

置信度

大数据分析基础=E, 大数据开发与实践=D

Python=D

0.117

3.75

1

汽车商务智能=D, Python=D

大数据开发与实践=D

0.1

3

1

汽车商务智能=D

大数据开发与实践=D

0.117

2.625

0.875

汽车商务智能=D, 大数据开发与实践=D

Python=D

0.1

3.214

0.857

模块化课程预警规则可以得出大数据分析基础汽车商务智能成绩较低的,会导致Python和大数据开发与实践课程成绩低下。提升度均大于1说明课程模块之间是有效的强关联规则

4 结语

本文对模块化课程成绩进行数据清洗和离散化,运用FP-Growth算法分析模块成绩之间的关联关系, 构建课程优秀规则和预警规则结果表明,提升度均大于1说明课程模块之间是有效的强关联规则FP-Growth算法的应用为课程成绩预警和课程结构的科学规划提供了决策支持

 

 

参考文献

[1]任鸽,吴猛,汗古丽·力提甫,等. 基于改进Apriori算法的高校课程预警规则库构建[J]. 计算机系统应用,2021,30(7):290-295. DOI:10.15888/j.cnki.csa.008040.

[2]刘建树,李健维,刘霖. 基于改进兴趣度的船舶关联规则挖掘[J]. 舰船电子工程,2019,39(1):78-82. DOI:10.3969/j.issn.1672-9730.2019.01.019.

 

 

 


...


阅读全文