中国高校课件下载中心 》 教学资源 》 大学文库

【机器学习】可拓数据挖掘在学生成绩分析中的应用研究

文档信息
资源类别:文库
文档格式:PDF
文档页数:7
文件大小:3.78MB
团购合买:点击进入团购
内容简介
【机器学习】可拓数据挖掘在学生成绩分析中的应用研究
刷新页面文档预览

第17卷第4期 智能系统学报 Vol.17 No.4 2022年7月 CAAI Transactions on Intelligent Systems Jul.2022 D0:10.11992/tis.202112020 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.tp.20220419.1703.007.html 可拓数据挖掘在学生成绩分析中的应用研究 刘大莲2,田英杰3 (1.北京联合大学数理部,北京100101:2.北京联合大学数理与交又科学研究院,北京100101:3.中国科学院 虚拟经济与数据科学研究中心,北京100190) 摘要:为了充分利用教育大数据资源,促进教学改革良性发展,本文利用可拓支持向量机、可拓k均值聚类 等多种可拓数据挖掘方法及皮尔逊相关系数,对高校学生数学课程的平时作业、期中和期末考试成绩等进行挖 掘和分析,探索试卷设计的科学性,学生对知识点的掌握程度,以及哪些题目是影响学生成绩的主要因素,针 对每个学生给出其该门课程日后学习的侧重点等。将不断发展的前沿科研方法应用于需要不断改革的教育教 学中,同时也对长期沉睡的庞大的学生成绩数据加以充分利用,科研指导教学,教学反哺科研,起到很好的示 范作用。 关键词:可拓学:数据挖掘:分类:聚类;支持向量机;皮尔逊相关系数;教育大数据;学生成绩分析 中图分类号:TP18文献标志码:A 文章编号:1673-4785(2022)04-0707-07 中文引用格式:刘大莲,田英杰.可拓数据挖掘在学生成绩分析中的应用研究.智能系统学报,2022,17(4):707-713. 英文引用格式:LIU Dalian,.TIAN Yingjie..Application of extension data mining in student achievement analysis.CAAI transac-. tions on intelligent systems,2022,17(4):707-713. Application of extension data mining in student achievement analysis LIU Dalian,TIAN Yingjie' (1.Institute of Mathematics and Physics,Beijing Union University,Beijing 100101,China;2.Institute of Fundamental and Interdis- ciplinary Sciences,Beijing Union University,Beijing 100101,China;3.Research Center on Fictitious Economy and Data Science, Chinese Academy of Sciences,Beijing 100190,China) Abstract:To make full use of the educational big data resources and promote the sound development of teaching re- form,this paper applies several extension data mining methods,including an extenics support vector machine,an im- proved k-means algorithm based on extension distance,etc.,and the Pearson's correlation coefficient,to analyze the usual homework,midterm,and final examination results of a college students'mathematics course,to explore the scien- tificity of test paper design,students'mastery of knowledge points,and which topics are the main factors affecting stu- dents'performance.Furthermore,some advance information is given to each student to tell them which point they should focus on in this course later.This paper applies the constantly developing,cutting-edge scientific research meth- ods to the education and teaching that need constant reform and makes full use of the huge student achievement data that has been sleeping for a long time.It has played a good example of scientific research guiding teaching and teaching feeding scientific research. Keywords:extenics;data mining;classification;clustering;support vector machine;Pearson's correlation coefficient; big data in education:analysis of student score 当代社会,随着信息技术的突飞猛进,高等学 法提供了新思路。学生成绩在高等学校里不但是 校的教育教学改革的深入化也受到了深刻的影 衡量学校人才培养水平的一个重要指标,同时也 响。尤其处于大数据时代,数据挖掘的各种方法 是教育大数据中的一个重要内容。由于学生成绩 被应用到教育行业6,为寻找更好的教育教学方 具有数据类型相对统一,数据量较大,相对容易 获取等特点,因此依据恰当的数据挖掘技术,对 收稿日期:2021-12-11.网络出版日期:2022-04-22. 基金项目:国家自然科学基金面上项目(72071049):教育部人 学生成绩进行不同角度的深入挖掘和分析,从而 文社科规划基金项目(18 YJAZH049);北京联合大学 教育教学研究与改革项目(J2021Y053). 得到指导教学的新方法或新理论的研究成为高等 通信作者:田英杰.E-mail:yj@ucas.ac.cn 学校教学改革的一个研究热点。丁智斌等利用

DOI: 10.11992/tis.202112020 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.tp.20220419.1703.007.html 可拓数据挖掘在学生成绩分析中的应用研究 刘大莲1,2,田英杰3 (1. 北京联合大学 数理部,北京 100101; 2. 北京联合大学 数理与交叉科学研究院,北京 100101; 3. 中国科学院 虚拟经济与数据科学研究中心,北京 100190) 摘 要:为了充分利用教育大数据资源,促进教学改革良性发展,本文利用可拓支持向量机、 可拓 k-均值聚类 等多种可拓数据挖掘方法及皮尔逊相关系数,对高校学生数学课程的平时作业、期中和期末考试成绩等进行挖 掘和分析,探索试卷设计的科学性,学生对知识点的掌握程度,以及哪些题目是影响学生成绩的主要因素,针 对每个学生给出其该门课程日后学习的侧重点等。将不断发展的前沿科研方法应用于需要不断改革的教育教 学中,同时也对长期沉睡的庞大的学生成绩数据加以充分利用,科研指导教学,教学反哺科研,起到很好的示 范作用。 关键词:可拓学;数据挖掘;分类;聚类;支持向量机;皮尔逊相关系数;教育大数据;学生成绩分析 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2022)04−0707−07 中文引用格式:刘大莲, 田英杰. 可拓数据挖掘在学生成绩分析中的应用研究 [J]. 智能系统学报, 2022, 17(4): 707–713. 英文引用格式:LIU Dalian, TIAN Yingjie. Application of extension data mining in student achievement analysis[J]. CAAI transac￾tions on intelligent systems, 2022, 17(4): 707–713. Application of extension data mining in student achievement analysis LIU Dalian1,2 ,TIAN Yingjie3 (1. Institute of Mathematics and Physics, Beijing Union University, Beijing 100101, China; 2. Institute of Fundamental and Interdis￾ciplinary Sciences, Beijing Union University, Beijing 100101, China; 3. Research Center on Fictitious Economy and Data Science, Chinese Academy of Sciences, Beijing 100190, China) Abstract: To make full use of the educational big data resources and promote the sound development of teaching re￾form, this paper applies several extension data mining methods, including an extenics support vector machine, an im￾proved k-means algorithm based on extension distance, etc., and the Pearson’s correlation coefficient, to analyze the usual homework, midterm, and final examination results of a college students’ mathematics course, to explore the scien￾tificity of test paper design, students’ mastery of knowledge points, and which topics are the main factors affecting stu￾dents ’ performance. Furthermore, some advance information is given to each student to tell them which point they should focus on in this course later. This paper applies the constantly developing, cutting-edge scientific research meth￾ods to the education and teaching that need constant reform and makes full use of the huge student achievement data that has been sleeping for a long time. It has played a good example of scientific research guiding teaching and teaching feeding scientific research. Keywords: extenics; data mining; classification; clustering; support vector machine; Pearson’s correlation coefficient; big data in education; analysis of student score 当代社会,随着信息技术的突飞猛进,高等学 校的教育教学改革的深入化也受到了深刻的影 响。尤其处于大数据时代,数据挖掘的各种方法 被应用到教育行业[1-6] ,为寻找更好的教育教学方 法提供了新思路。学生成绩在高等学校里不但是 衡量学校人才培养水平的一个重要指标,同时也 是教育大数据中的一个重要内容。由于学生成绩 具有数据类型相对统一,数据量较大,相对容易 获取等特点,因此依据恰当的数据挖掘技术,对 学生成绩进行不同角度的深入挖掘和分析,从而 得到指导教学的新方法或新理论的研究成为高等 学校教学改革的一个研究热点。丁智斌等[7] 利用 收稿日期:2021−12−11. 网络出版日期:2022−04−22. 基金项目:国家自然科学基金面上项目(72071049);教育部人 文社科规划基金项目(18YJAZH049);北京联合大学 教育教学研究与改革项目 ( JJ2021Y053). 通信作者:田英杰. E-mail:tyj@ucas.ac.cn. 第 17 卷第 4 期 智 能 系 统 学 报 Vol.17 No.4 2022 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2022

·708· 智能系统学报 第17卷 决策树中的D3算法对学生成绩进行分析,从而 5)对于输入x,首先用决策函数fx)得到其 得出了影响学生成绩的内部原因及一些其他相关 对应的预测类别,然后用其可拓变量对应的可 结论。喻铁朔等II是基于支持向量机(support 拓区间d和b分别代替[x],这样对E个可拓变 vector machine,.SVM)等4种数据挖掘的方法对学 量,就得到2旧个不同的组合值。相应的,基于x得 生成绩进行预测,从不同角度对4种模型进行对 到了2个新的输入,分别用决策函数来判断,若 比,得出不同模型适用于不同课程的结论,对高 有一个被判断为-y,则认为该输人是可变换的。 校学生课程成绩预测。钟文精等9基于k-means 1.2基于可拓距的k-means聚类算法 聚类算法,对学生成绩进行聚类分析,为进行深 可拓k-meanst22基于可拓学中点x与区间 入的教学改革和设计提供数据依据。本文依据可 X=的距离定义,提出了一种选取k-means 拓数据挖掘中的几种重要算法及皮尔逊相关系 算法初始聚类中心的新方法,算法描述如下: 数,对北京某高校经管类学生的数学课程相关成 1)计算出两两样本间距离及等效密集距离 绩进行多角度深入分析,从而得到一些和教学相 区间Z=[A,B]=[min(D),max(D列,其中D=dld= 关的重要结论,为改进教学方法,提高教学质量 给出合理化建议。 V∑伏-}为两两样本间距离集合: 2)按照两样本的距离Z对区间的左右测距的 1基础知识与算法 距离和左、右侧距的定义,将距离映射为左侧 1.1可拓支持向量机 距pp及可拓右侧距pp,将pp按从小到 可拓学是由广东工业大学蔡文研究员创立的 大顺序依次排序,同S={(x1,y),(,2),…,(,)}时 一门原创学科。在众多专家学者的不解努力下, 计算样本间可拓平均左侧距p及可拓平均右侧 历经30余年的潜心研究,建立了可拓论体系和可 距p,; 拓创新方法体系018。可拓数据挖掘92是将可 3)遍历排序好的可拓距,将其中首个大于样 拓学的理论和方法与挖掘数据的方法技术相结 本间可拓平均左侧距p的可拓距对应中心点坐标 合的一门新技术,可拓支持向量机2就是其中一 作为第一个初始聚类中心: 种经典机器学习算法与可拓理论深人结合而产 4)计算排好序可拓距中下一个值对应中心点 坐标并依次计算出其与已确定的初始聚类中心的 生的新算法。与标准的支持向量分类机不同,可 拓支持向量机是解决可拓分类问题的,其在进行 可拓距,将其与样本平均可拓右测距p进行比较, 标准分类问题预测的同时,更注重于找到那些 若其均大于可,则该中心点坐标作为下一个初始 聚类中心;否则重新执行步骤4: 通过变化分量(特征)的值而转换类别的样本,这 样的样本称为可拓样本,而相应的变量称为可拓 5)如果遍历一次后,初始聚类中心未达到K, 则按式(1)计算出缩小因子,动态缩小样本平均 变量。 可拓右侧距p,重新回到步骤3; 算法可拓支持向量分类机算法(ESVM) 1)给定训练集:其中x∈R",∈Y={1,-1, Ca-k K≠K (1) i=1,2,…,l。给定可拓样本x的可拓变量j的可 1 k'=K 拓区间d和b,j=1,2,…,n;选择合适的惩罚参数 式中:《为每次遍历后所获得的初始聚类中心个 C>0: 数;K为指定聚类中心数 2)构造并求解最优化问题: 6)若聚类中心数达到K时,则完成初始聚类 min ∑∑w40+∑a 中心的选取。 l.3皮尔逊(Pearson)相关系数 S.t. 21a=0 Pearson相关系数2)用于分析定量数据,当数 0≤a≤C,i=1,2,…,l 据满足正态分布时可用Pearson相关系数查看变 得最优解a; 量间相关性。其公式为 3)计算b: B=y-∑(x.j≤asC ∑(x-0-到 r=- i=1 4)构造决策函数: ∑G-0-亦 fe=g(∑+b)月 式中:相关系数r的取值范围为-1≤r≤1。r>0为 正相关,r<0为负相关,0<川<1表示相关程度

决策树中的 ID3 算法对学生成绩进行分析,从而 得出了影响学生成绩的内部原因及一些其他相关 结论。喻铁朔等[8] 是基于支持向量机(support vector machine, SVM)等 4 种数据挖掘的方法对学 生成绩进行预测,从不同角度对 4 种模型进行对 比,得出不同模型适用于不同课程的结论,对高 校学生课程成绩预测。钟文精等[9] 基于 k-means 聚类算法,对学生成绩进行聚类分析,为进行深 入的教学改革和设计提供数据依据。本文依据可 拓数据挖掘中的几种重要算法及皮尔逊相关系 数,对北京某高校经管类学生的数学课程相关成 绩进行多角度深入分析,从而得到一些和教学相 关的重要结论,为改进教学方法,提高教学质量 给出合理化建议。 1 基础知识与算法 1.1 可拓支持向量机 可拓学是由广东工业大学蔡文研究员创立的 一门原创学科。在众多专家学者的不懈努力下, 历经 30 余年的潜心研究,建立了可拓论体系和可 拓创新方法体系[10-18]。可拓数据挖掘[19-20] 是将可 拓学的理论和方法与挖掘数据的方法技术相结 合的一门新技术,可拓支持向量机[21] 就是其中一 种经典机器学习算法与可拓理论深入结合而产 生的新算法。与标准的支持向量分类机不同,可 拓支持向量机是解决可拓分类问题的,其在进行 标准分类问题预测的同时,更注重于找到那些 通过变化分量(特征)的值而转换类别的样本,这 样的样本称为可拓样本,而相应的变量称为可拓 变量。 算法 可拓支持向量分类机算法(ESVM) xi ∈ R n yi ∈ Y = {1,−1} i = 1,2,··· ,l xk j a k j b k j j = 1,2,··· ,n C > 0 1 ) 给定训练集:其中 , , 。给定可拓样本 的可拓变量 的可 拓区间 和 , ;选择合适的惩罚参数 ; 2) 构造并求解最优化问题: min α 1 2 ∑l i=1 ∑l j=1 αiαjyiyj(xi · xj)+ ∑l i=1 αi s.t. ∑l i=1 aiyi = 0 0 ⩽ αi ⩽ C, i = 1,2,··· ,l α ∗ 得最优解 i; b ∗ 3) 计算 : b ∗ = yj − ∑l i=1 α ∗ i yi(xi · xj), j ∈ { j 0 ⩽ α ∗ j ⩽ C } ; 4) 构造决策函数: f(x) = sgn(∑l i=1 α ∗ i yi(xi · x)+b ∗ ) ; xk f(xk) yk a k j b k j [xk]j |E| 2 |E| xk 2 |E| −yk 5) 对于输入 ,首先用决策函数 得到其 对应的预测类别 ,然后用其可拓变量对应的可 拓区间 和 分别代替 ,这样对 个可拓变 量,就得到 个不同的组合值。相应的,基于 得 到了 个新的输入,分别用决策函数来判断,若 有一个被判断为 ,则认为该输入是可变换的。 1.2 基于可拓距的 k-means 聚类算法 x X0 = 可拓 k-means[ 2 2 ] 基于可拓学中点 与区间 的距离定义,提出了一种选取 k-means 算法初始聚类中心的新方法,算法描述如下: Z = [A,B] = [min(D),max(D)] { D = d |d = √∑m p=1 (x p i − x p j ) 2 } 1) 计算出两两样本间距离及等效密集距离 区 间 ,其中 为两两样本间距离集合; Z ρ (i, j) i ρ (i, j) i ρ (i, j) j ρ (i, j) r ρ (i, j) i ρ (i, j) i S = {(x1, y1),(x2, y2),··· ,(xl , yl)} ρl ρr 2) 按照两样本的距离 对区间的左右测距的 距离和左、右侧距[9] 的定义,将距离映射为左侧 距 及可拓右侧距 ,将 按从小到 大顺序依次排序,同 时 计算样本间可拓平均左侧距 及可拓平均右侧 距 ; ρl 3) 遍历排序好的可拓距,将其中首个大于样 本间可拓平均左侧距 的可拓距对应中心点坐标 作为第一个初始聚类中心; ρr ρr 4) 计算排好序可拓距中下一个值对应中心点 坐标并依次计算出其与已确定的初始聚类中心的 可拓距,将其与样本平均可拓右测距 进行比较, 若其均大于 ,则该中心点坐标作为下一个初始 聚类中心;否则重新执行步骤 4; K η ρr 5) 如果遍历一次后,初始聚类中心未达到 , 则按式(1)计算出缩小因子 ,动态缩小样本平均 可拓右侧距 ,重新回到步骤 3; η =    1+ c 2 n −k ′ c 2 n , k ′ , K 1, k ′ = K (1) k ′ K 式中: 为每次遍历后所获得的初始聚类中心个 数; 为指定聚类中心数 6) 若聚类中心数达到 K 时,则完成初始聚类 中心的选取。 1.3 皮尔逊(Pearson)相关系数 Pearson 相关系数[23] 用于分析定量数据,当数 据满足正态分布时可用 Pearson 相关系数查看变 量间相关性。其公式为 r = ∑n i=1 (xi − xˆ)(yi −yˆ) √∑n i=1 (xi − xˆ) 2 (yi −yˆ) 2 r −1 ⩽ r ⩽ 1 r > 0 r < 0 0 < |r| < 1 式中:相关系数 的取值范围为 。 为 正相关, 为负相关, 表示相关程度。 ·708· 智 能 系 统 学 报 第 17 卷

第4期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·709· 2高校学生成绩特点分析 为zg7~2g18)共18道题日,总结出18个主要的 知识点。同上述S数据处理类似,我们把每个学 2.1数据描述 生的知识点掌握描述成一个18维向量,根据每个 收集了北京联合大学2018一2019学年包括 学生期末试卷的考试总成绩的及格与否把学生分 旅游学院、管理学院和商务学院3个学院共计 成正负两类。这样把所有学生组成一个大小为 929名学生的数据,包括经管类概率论与数理统 841的两类分类问题的数据集2,记为S2 计(I)课程的平时作业、期中和期末考试成绩 下面将基于S,和S2进行学生成绩特点的挖 等。根据期末试卷的5道客观题(记为kg1kg5) 掘分析。 和10道主观题(记为zg6~zg15)共15道题目,总 结出15个主要的知识点。为便于分析,我们把每 2.2基于可拓SVM的试卷题目影响力分析 个学生的知识点掌握描述成一个15维向量,向量 基于成绩数据集1,探索哪些知识点是影响 的每个分量即为该生在某个知识点上的掌握程度。 学生及格与否的主要因素,从而检测试卷是否满 而知识点的掌握程度则根据学生的平时作业成 足出题意愿;进一步,对每个学生,可以给出决定 绩、期中和期末试卷上考核相应知识点的得分,综 其及格与否的某个或某几个具体题目,以便学生 合计算得到。最后根据每个学生期末试卷的考试 以后有所侧重学习。 总成绩的及格与否把学生分成正负两类,及格为 首先,对建立的训练集S1={(x1y),(2),…, 正类,不及格为负类。这样把所有学生组成一个 (,)》∈(R×Y),其中x∈R5,y,∈Y={1,-1},i=1, 大小为929的两类分类问题的数据集1,记为S。 2,…,929,利用5-折交叉验证方法,选取最优的 收集了我北京联合大学2018一2019学年包 参数C和径向基核函数参数,并用最优参数对整 括旅游学院、管理学院和商务学院3个学院共计 个训练集进行训练,得到最终的决策函数。利用 841名学生的数据,包括微积分(Ⅱ)课程的平时作 此决策函数进行规则抽取,可以得到基本的分 业、期中和期末考试成绩等。根据期末试卷的 类规则,我们这里将分类规则按照决策树的形式 6道客观题(记为kg1~kg6)和12道主观题(记 表示如图1所示。 2g153.5 毁6 value=[418.0,418.0 类型=通过 、假 2g11≤7.5 2g143.5 gni=0.303 gn=0.379 人数=220 人数=616 value-298.96768.345 value=-119.033,349.655】 类型=通过 类型=未通过 2g105 2g6s4.5 gini=0.159 gini=0.496 gn=0.338 人数=84 人数=74 gin=0.145 人数=136 人数=542 value=-[262.98.25.0191 value-=35.987,43.326 value=91,35L25.019 类型=未通过 类型=通过 value=27.682,324.636 类型=通过 类型=未通过 gn=0.059 gini=0.296 gni=0.489 zg10s4.5 人数=72 人数=64 人数=50 g1ni=0.053 alue=174.397,5.492 value=-88.583,19.527 value-=19.377,26.239 人数=492 类型=通过 类型=通过 类型=未通过」 value=8.305,298.397] 类型=未通过 gini=0.265 人数=76 人数=416 vaue=8.305.44.546] value=0.253.8511 类型=未通过 类型=未通过 图1分类规则图 Fig.1 Classification rule diagram 由图1可以看出,据此规则得到的节点数为 的区分规则是选择那些对学生是否及格判断起主 13,叶子节点数为7,树的最大深度为5,最基本 要作用的题型及题号。从树中可以看出在众多规

2 高校学生成绩特点分析 2.1 数据描述 收集了北京联合大学 2018—2019 学年包括 旅游学院、管理学院和商务学院 3 个学院共计 929 名学生的数据,包括经管类概率论与数理统 计 ( I)课程的平时作业、期中和期末考试成绩 等。根据期末试卷的 5 道客观题(记为 kg_1~kg_5) 和 10 道主观题(记为 zg_6~zg15)共 15 道题目,总 结出 15 个主要的知识点。为便于分析,我们把每 个学生的知识点掌握描述成一个 15 维向量,向量 的每个分量即为该生在某个知识点上的掌握程度。 而知识点的掌握程度则根据学生的平时作业成 绩、期中和期末试卷上考核相应知识点的得分,综 合计算得到。最后根据每个学生期末试卷的考试 总成绩的及格与否把学生分成正负两类,及格为 正类,不及格为负类。这样把所有学生组成一个 大小为 929 的两类分类问题的数据集 1,记为 S1。 收集了我北京联合大学 2018—2019 学年包 括旅游学院、管理学院和商务学院 3 个学院共计 841 名学生的数据,包括微积分(II)课程的平时作 业、期中和期末考试成绩等。根据期末试卷的 6 道客观题(记为 kg_1~kg_6)和 12 道主观题(记 为 zg_7~zg_18)共 18 道题目,总结出 18 个主要的 知识点。同上述 S1 数据处理类似,我们把每个学 生的知识点掌握描述成一个 18 维向量,根据每个 学生期末试卷的考试总成绩的及格与否把学生分 成正负两类。这样把所有学生组成一个大小为 841 的两类分类问题的数据集 2,记为 S2。 下面将基于 S1 和 S2 进行学生成绩特点的挖 掘分析。 2.2 基于可拓 SVM 的试卷题目影响力分析 基于成绩数据集 1,探索哪些知识点是影响 学生及格与否的主要因素,从而检测试卷是否满 足出题意愿;进一步,对每个学生,可以给出决定 其及格与否的某个或某几个具体题目,以便学生 以后有所侧重学习。 S 1 = {(x1, y1),(x2, y2),··· , (xl , yl)} ∈ (R n ×Y) l xi ∈ R 15 yi ∈ Y = {1,−1} i = 1, 2,··· ,929 C 首先,对建立的训练集 ,其中 , , , 利用 5–折交叉验证方法,选取最优的 参数 和径向基核函数参数,并用最优参数对整 个训练集进行训练,得到最终的决策函数。利用 此决策函数进行规则抽取[24] ,可以得到基本的分 类规则,我们这里将分类规则按照决策树的形式 表示如图 1 所示。 zg_15≤5.5 gini=0.5 人数=836 value=[418.0, 418.0] 类型=通过 zg_11≤7.5 gini=0.303 人数=220 value=[298.967, 68.345] 类型=通过 zg_14≤3.5 gini=0.379 人数=616 value=[119.033, 349.655] 类型=未通过 真 假 zg_10≤3.5 gini=0.159 人数=136 value=[262.98, 25.019] 类型=通过 gini=0.496 人数=84 value=[35.987, 43.326] 类型=未通过 gini=0.338 人数=74 value=[91.351, 25.019] 类型=通过 zg_6≤4.5 gini=0.145 人数=542 value=[27.682, 324.636] 类型=未通过 gini=0.059 人数=72 value=[174.397, 5.492] 类型=通过 gini=0.296 人数=64 value=[88.583, 19.527] 类型=通过 gini=0.489 人数=50 value=[19.377, 26.239] 类型=未通过 gini=0.265 人数=76 value=[8.305, 44.546] 类型=未通过 gini=0 人数=416 value=[0, 253.851] 类型=未通过 zg_10≤4.5 gini=0.053 人数=492 value=[8.305, 298.397] 类型=未通过 图 1 分类规则图 Fig. 1 Classification rule diagram 由图 1 可以看出,据此规则得到的节点数为 13,叶子节点数为 7,树的最大深度为 5,最基本 的区分规则是选择那些对学生是否及格判断起主 要作用的题型及题号。从树中可以看出在众多规 第 4 期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·709·

·710· 智能系统学报 第17卷 则中zg_15,2g14,zg_11,zg_6都被作为分枝的因 我们对概率统计试卷上的题型进行了影响度可视 素。从根节点带有特征取值范围来看,根节点的 化操作,可视化结果如图2所示。 两个分支分别代表两类学生成绩分布,一类是 0.5 zg15的得分大于5.5分,另一类是zg15得分小 0.4 于5.5分。 从根节点的左分支中关于g11得分是否大 于7.5的分支对比观察中可以发现,即便学生对 02 zg11得分小于8.5,学生的及格率依然很高,由 0.1 此可见,对该分支的进一步挖掘,可以找出更加 具备辨识度的特征以及取值范围。 ¥329199¥3 从根节点的右分支出发,我们可以发现,第个 化化色位位他 题型 二分支节点判断的特征为zg14的得分是否小于 等于3.5。从选择人数上看,zg_14的得分大于 图2各题影响度可视化图 Fig.2 Impact of each question 3.5的学生比相应得分小于3.5的人数高出468 人,但是在zg14得分超过3.5的同学不及格的概 主观题第15题zg15作为影响学生概率统 计及格的重要因素,该现象在管理学院、旅游学 率更高。由此可见,在众多主观题中,zg_15对学 院尤为明显。主要原因在于Zg_15得分难度低, 生的成绩及格影响更高,而zg14对是否成绩及 导致该题得高分的同学较多;对于其他的主观 格的概率呈现出较低的相关性,所以导致在14号 题,例如zg_14和zg_11也有类似的趋势。而反 主观题得分高的同学在最后的及格率分析中影响 观客观题的影响比例,可以看到影响力几乎为0, 度不高。 原因在于客观题题型分值较小,且相对得分容易 将上述分析进一步总结到规则表1,从中可 获得,所以导致客观题所占的影响力整体较低。 以看出,影响学生对概率统计及格率的主要因素 结合上述表1的分析研究,绝大多数及格学生的 有以下3点: 提分关键在于第11、14和15号主观题。 表1S,及格率规则 在上面已得到普遍规律的前提下,进一步分 Table 1 Pass rate rules of S 析影响每个学生是否及格的关键知识点: 类型 选择规则 合计人数 因每个题目学生得分都有不同,所以每个题 通过 Zg_15≤5.5→2g_11≤7.5 136 目对应的变量都是可拓变量。首先定义所有题目 通过 2g_15>>5.5→zg_14≤3.5 心 jj=1,2,…,15)的可拓区间,即[a,bl。这里将每 未通过 2g_15≤5.5→zg11>7.5 个题目不得分和得最高分设为可拓区间上下界, 84 即a=0,b,为该题目的得分。针对每个学生x的 未通过 zg15>5.5+zg14>3.5 542 →2g6≤4.5 每个题目对应的变量,用其可拓变量对应的可拓 区间d和分别代替[x,和心y小,这样对E=15个 1)第15号主观题:从5条分支规则中可以发 可拓变量,就得到25个不同的组合值。相应的, 现,将第15号主观题得分作为根节点分支范围的 基于x,利用决策函数得到了25新的输入,分别用 合计人数最多,由此可以推断第15号主观题是影 决策函数来判断,若有一个被判断为-yk,则认为 响学生对于概率统计课程及格率的主要因素。 该输入是可变换的。 2)第14号主观题:在所有的规则中同样也对 以学生1为例,我们得到kg4,Zg13是影响 第14号主观题的得分范围进行了划分,基于前面 其及格与否的2个关键题目,即如果学生1,在kg4 的第15题的分支背景,第14号主观题的取值范 和Zg13对应的知识点掌握程度从最低变为最高 围也有了相应的调整。 的情况下,其将由不及格而变成及格:而对于学 3)第11号主观题:在规则表中,存在前馈规 生12,同理可知学生对kg2,Zg13,Zg15对应的 则一致的两条规则。第11号主观题的得分是否 知识点掌握程度是影响其及格与否的关键。 超过7.5分是区分他们的关键。 2.3基于可拓距的k-means聚类算法成绩特定分析 另外,从结果上看,对规则主要的考虑因素也 基于成绩数据集S2,我们拟分析学生成绩 集中在主观题型中,而客观题影响度较低。为了 分布的整个规律,首先建立数据集S2={(x1,), 进一步探究一张试卷中各个题型之间的重要性, (22),…,(,M,其中x∈R18,y∈Y={1,-1},i=1

则中 zg_15,zg_14,zg_11,zg_6 都被作为分枝的因 素。从根节点带有特征取值范围来看,根节点的 两个分支分别代表两类学生成绩分布,一类是 zg_15 的得分大于 5.5 分,另一类是 zg_15 得分小 于 5.5 分。 从根节点的左分支中关于 zg_11 得分是否大 于 7.5 的分支对比观察中可以发现,即便学生对 zg_11 得分小于 8.5,学生的及格率依然很高,由 此可见,对该分支的进一步挖掘,可以找出更加 具备辨识度的特征以及取值范围。 从根节点的右分支出发,我们可以发现,第个 二分支节点判断的特征为 zg_14 的得分是否小于 等于 3.5。从选择人数上看,zg_14 的得分大于 3.5 的学生比相应得分小于 3.5 的人数高出 468 人,但是在 zg_14 得分超过 3.5 的同学不及格的概 率更高。由此可见,在众多主观题中,zg_15 对学 生的成绩及格影响更高,而 zg_14 对是否成绩及 格的概率呈现出较低的相关性,所以导致在 14 号 主观题得分高的同学在最后的及格率分析中影响 度不高。 将上述分析进一步总结到规则表 1,从中可 以看出,影响学生对概率统计及格率的主要因素 有以下 3 点: 表 1 S1 及格率规则 Table 1 Pass rate rules of S1 类型 选择规则 合计人数 通过 zg_15≤5.5 → zg_11≤7.5 136 通过 zg_15> > 5.5 → zg_14≤3.5 74 未通过 zg_15≤5.5 → zg_11>7.5 84 未通过 zg_15>5.5 → zg_14>3.5 → zg_6≤4.5 542 1)第 15 号主观题:从 5 条分支规则中可以发 现,将第 15 号主观题得分作为根节点分支范围的 合计人数最多,由此可以推断第 15 号主观题是影 响学生对于概率统计课程及格率的主要因素。 2)第 14 号主观题:在所有的规则中同样也对 第 14 号主观题的得分范围进行了划分,基于前面 的第 15 题的分支背景,第 14 号主观题的取值范 围也有了相应的调整。 3)第 11 号主观题:在规则表中,存在前馈规 则一致的两条规则。第 11 号主观题的得分是否 超过 7.5 分是区分他们的关键。 另外,从结果上看,对规则主要的考虑因素也 集中在主观题型中,而客观题影响度较低。为了 进一步探究一张试卷中各个题型之间的重要性, 我们对概率统计试卷上的题型进行了影响度可视 化操作,可视化结果如图 2 所示。 kg_1 kg_2 kg_3 kg_4 kg_5 zg_6 zg_7 zg_8 zg_9 zg_10 zg_11 zg_12 zg_13 zg_14 zg_15 0 0.1 0.2 0.3 0.4 0.5 影响度 题型 图 2 各题影响度可视化图 Fig. 2 Impact of each question 主观题第 15 题 zg_15 作为影响学生概率统 计及格的重要因素,该现象在管理学院、旅游学 院尤为明显。主要原因在于 zg_15 得分难度低, 导致该题得高分的同学较多;对于其他的主观 题,例如 zg_14 和 zg_11 也有类似的趋势。而反 观客观题的影响比例,可以看到影响力几乎为 0, 原因在于客观题题型分值较小,且相对得分容易 获得,所以导致客观题所占的影响力整体较低。 结合上述表 1 的分析研究,绝大多数及格学生的 提分关键在于第 11、14 和 15 号主观题。 在上面已得到普遍规律的前提下,进一步分 析影响每个学生是否及格的关键知识点: j(j = 1,2,··· ,15) [aj ,bj] aj = 0 bj xk a k j b k j [xk]j [yk]j |E| = 15 2 15 xk 2 15 −yk 因每个题目学生得分都有不同,所以每个题 目对应的变量都是可拓变量。首先定义所有题目 的可拓区间,即 。 这里将每 个题目不得分和得最高分设为可拓区间上下界, 即 , 为该题目的得分。针对每个学生 的 每个题目对应的变量,用其可拓变量对应的可拓 区间 和 分别代替 和 ,这样对 个 可拓变量,就得到 个不同的组合值。相应的, 基于 ,利用决策函数得到了 新的输入,分别用 决策函数来判断,若有一个被判断为 ,则认为 该输入是可变换的。 以学生 t1 为例,我们得到 kg_4,zg_13 是影响 其及格与否的 2 个关键题目,即如果学生 t1 在 kg_4 和 zg_13 对应的知识点掌握程度从最低变为最高 的情况下,其将由不及格而变成及格;而对于学 生 t2,同理可知学生对 kg_2, zg_13,zg_15 对应的 知识点掌握程度是影响其及格与否的关键。 2.3 基于可拓距的 k-means 聚类算法成绩特定分析 S 2 = {(x1, y1), (x2, y2),··· ,(xl , yl)} xi ∈ R 18 yi ∈ Y = {1,−1} i = 1, 基于成绩数据集 S2,我们拟分析学生成绩 分布的整个规律 .首先建立数据集 ,其中 , , ·710· 智 能 系 统 学 报 第 17 卷

第4期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·711· 2,…,841。为了对数据有整体的了解和把握,以 =3时效果比较好。 便于进一步从不同角度进行分析。首先,我们对 30 数据利用t-SNE方法进行降维和可视化展示, 20 图3(a)是微积分()课程的全体成绩分布图。可 0 0 以发现,图中的成绩数据分布较为紧密,紧密的 -10 样本分布为数据聚类添加了难度。同时,为了验 -20 -30 证“同一学院的学生,该门课程的总体水平较为接 -40 近”这一设想,我们按照学院划分,将管理学院、 -50 -30 -20 -10010203040 旅游学院和商务学院的学生成绩作为不同类别的 数据,利用t-SNE方法进行降维和可视化展示,如 (a)=3可视化图 图3(b)所示。很明显看出,结果和我们预期吻 30 合。(可视化图均为示意图,坐标无实际意义。) 20 40 -10 -20 0 -30 -40 -5 -20 -30 -20-10010203040 -40 b)=4可视化图 60 -0 -20 -10 0 10 20 30 30 20 (a)全体成绩分布图 10 0 40 -10 20 -20 -30 -40 20 -50 -30 -20-100 10203040 -40 (c)=5可视化图 -60 30 -20-1001020 30 图4k-means可视化图 (b)按学院划分成绩分布图 Fig.4 Visualization of k-means 进一步,我们对聚类的3类进行分析,对每一 图3整体数据可视化图 Fig.3 Visualization of the overall data 类中所有点的每个分量求均值,探索每类的特 点,得到表2。可以看出类别2与1,3在各个题 对于具有上述特征的数据,采用上述1.2节 目对应的知识点掌握程度都有明显区别,也就是 中所阐述的基于可拓距的k-means聚类算法,把 类别2的学生,几乎对所有知识点掌握都较差,这 k分别取为3、4、5,并利用t-SNE方法进行降维和 些学生需要全面补习;而类别1和3之间只在某 可视化展示得到如下结果(如图4),可以看出 些知识点上取值差别稍大,比如Zg18。 表2=3聚类分析表 Table 2 k=3 Cluster analysis table 类别个数kg1kg2kg3kg_4kg5kg62g72g_8zg_9zg_10zg_112g_12zg_132g_142g_152g_16zg_172g_18 13142.212.682.702.602.760.395.885.925.875.75.986.36.686.086.049.279.791.41 22001.731.432.111.831.980.274.453.903.683.343.354.464.264.23.296.260.960.17 32252.321.692.452.312.720.255265.075.155255.816.1965.885.669.0277.250.67 2.4基于Pearson相关系数的试卷题目相关性分析 关性分析,结果如图5所示,其中颜色越深代表着 基于数据集S,利用Pearson相关系数进行相 相关性越大。可以发现:正对角线代表着当前特

2,··· ,841 。为了对数据有整体的了解和把握,以 便于进一步从不同角度进行分析。首先,我们对 数据利用 t-SNE 方法进行降维和可视化展示, 图 3(a) 是微积分 (II) 课程的全体成绩分布图。可 以发现,图中的成绩数据分布较为紧密,紧密的 样本分布为数据聚类添加了难度。同时,为了验 证“同一学院的学生,该门课程的总体水平较为接 近”这一设想,我们按照学院划分,将管理学院、 旅游学院和商务学院的学生成绩作为不同类别的 数据,利用 t-SNE 方法进行降维和可视化展示,如 图 3(b) 所示。很明显看出,结果和我们预期吻 合。(可视化图均为示意图,坐标无实际意义。) −30 −10 −20 x 0 10 20 30 −40 −60 −20 0 20 40 (a) 全体成绩分布图 y −30 −20 −10 x (b) 按学院划分成绩分布图 0 10 20 30 −40 −60 −20 0 20 40 y 图 3 整体数据可视化图 Fig. 3 Visualization of the overall data 对于具有上述特征的数据,采用上述 1.2 节 中所阐述的基于可拓距的 k-means 聚类算法,把 k 分别取为 3、4、5,并利用 t-SNE 方法进行降维和 可视化展示得到如下结果(如图 4),可以看出 k=3 时效果比较好。 (c) k=5 可视化图 (a) k=3 可视化图 (b) k=4 可视化图 −30 −10 −20 x 0 10 20 30 40 −40 −50 −30 30 −10 −20 0 10 20 y −30 −10 −20 x 0 10 20 30 40 −40 −50 −30 30 −10 −20 0 10 20 y −30 −10 −20 x 0 10 20 30 40 −40 −50 −30 30 −10 −20 0 10 20 y 图 4 k-means 可视化图 Fig. 4 Visualization of k-means 进一步,我们对聚类的 3 类进行分析,对每一 类中所有点的每个分量求均值,探索每类的特 点,得到表 2。可以看出类别 2 与 1,3 在各个题 目对应的知识点掌握程度都有明显区别,也就是 类别 2 的学生,几乎对所有知识点掌握都较差,这 些学生需要全面补习;而类别 1 和 3 之间只在某 些知识点上取值差别稍大,比如 zg_18。 表 2 k=3 聚类分析表 Table 2 k=3 Cluster analysis table 类别 个数 kg_1 kg_2 kg_3 kg_4 kg_5 kg_6 zg_7 zg_8 zg_9 zg_10 zg_11 zg_12 zg_13 zg_14 zg_15 zg_16 zg_17 zg_18 1 314 2.21 2.68 2.70 2.60 2.76 0.39 5.88 5.92 5.87 5.7 5.98 6.3 6.68 6.08 6.04 9.27 9.79 1.41 2 200 1.73 1.43 2.11 1.83 1.98 0.27 4.45 3.90 3.68 3.34 3.35 4.46 4.26 4.2 3.29 6.26 0.96 0.17 3 225 2.32 1.69 2.45 2.31 2.72 0.25 5.26 5.07 5.15 5.25 5.81 6.19 6 5.88 5.66 9.027 7.25 0.67 2.4 基于 Pearson 相关系数的试卷题目相关性分析 基于数据集 S1,利用 Pearson 相关系数进行相 关性分析,结果如图 5 所示,其中颜色越深代表着 相关性越大。可以发现:正对角线代表着当前特 第 4 期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·711·

·712· 智能系统学报 第17卷 征与特征自身的相关性计算值,正对角线上的值 应用于不断深化改革的教育教学中,同时也对长 均为1,颜色最深。其余部分代表着当前特征与 期沉睡的庞大的学生成绩数据加以充分利用,教 其他特征的相关性计算,颜色的深浅代表着相关 学促进科研,科研反哺教学,起到了示范作用。 性的强弱。具体而言:客观题kg1,kg_2,kg3, 采用的相关算法是我们精心选取的算法,针对相 kg4,kg5之间相关性热力图颜色为浅绿色,说明 关成绩数据分析有一定的优势。将来我们可以进 它们之间相关性较弱,但是总体保持着正相关的 一步深入研究,探讨如何将解决矛盾问题的可拓 关系。据此可以推断,客观题一道题的得分情况 学和机器学习的相关算法深度融合,起到如虎添 对另外一题的得分情况影响较低,或者说题目本 翼的作用。深究如何进一步将科研的方法应用到 身考查的知识点不相关。而主观题之间的相关性 教育大数据中,从而对推进教学改革,进一步提 则更加复杂。根据主观题之间的相关性热力图分 高高校教学质量做出贡献。同时也希望上述分析 布,它们之间存在负相关和正相关两种相关关 能起到抛砖引玉的作用。 系。相关性的数值越接近1或-1,说明两组数据 之间正向或反向线性关联越强。例如,zg6与 参考文献: zg_7、zg7与zg_8,zg8与zg9之间的相关性热 [1]徐承俊,朱国宾.数据挖掘在全国计算机等级考试 力图颜色为黄色,说明它们之间的相关性为负相 (NCRE)成绩分析中的研究及应用).计算机应用与 关。与之相反的情况为:zg7与zg9、zg11与 软件,2020,37(8:64-67,73 Zg12之间的相关性热力图颜色为蓝色,说明具 XU Chengjun,ZHU Guobin.Research and application of 有很强的正相关性,两个特征的相关密切程度比 data mining in national computer rank examination 较高。此时就要引起注意,试卷中zg7与zg9、 (NCRE)achievement analysis[J].Computer applications zg11与zg12之间是否考察知识点重合,还是题 and software,2020,37(8):64-67.73 目难易程度相近引起的高度相关。如果出现命题 [2]郭鹏,蔡骋.基于聚类和关联算法的学生成绩挖掘与分 知识点重合,是否符合我们考核的目的,从而对 析).计算机工程与应用,2019,55(17)169-179. GUO Peng,CAI Cheng.Data mining and analysis of stu- 考试后试卷命题合理性分析给出提示。 dents'score based on clustering and association al- kg I 1.00 gorithm[J].Computer engineering and applications,2019, kg 2 0.75 55(17):169-179. [3]唐笑林数据挖掘技术的研究和应用).华东理工大学 zg 6 0.50 ze 7 学报(自然科学版),2008,34(2)290-295 0.25 TANG Xiaolin.Application and research of data zg 10 zg 11 mining[J].Journal of east China University of Science 2 and Technology (natural science edition),2008,34(2): zg 14 -0.25 290-295 zg 15 22 [4]张树滑,基于D3算法的大学生成绩数据挖掘与体能 分析系统设计[J].现代电子技术,2019,42(5):104 图5题目相关性热力图 106,110. Fig.5 Correlation map ZHANG Shuhua.Design of sports achievement data min- ing and physical fitness analysis system based on ID3 al- 3结束语 gorithm[J].Modern electronics technique,2019,42(5) 本文主要基于可拓数据挖掘的几种重要方法 104-106,110 [5]王小根,陈瑶瑶.多模态数据下混合协作学习者情感投 及皮尔逊相关系数,对高校学生成绩利用不同模 型,从不同角度进行分析,从而分析影响学生成 入分析).电化教育研究,2022,43(2):42-48,79 绩的主要题目,探索学生对知识点的掌握程度。 WANG Xiaogen,CHEN Yaoyao.Analysis of blended collaborative learners'emotional engagement based on 进一步,对每个学生,可以给出决定其及格与否 multimodal data[J].E-education research,2022,43(2): 的某个或某几个具体知识点,以便学生以后有所 42-48,79. 侧重学习。试卷中各题目相关性强弱分析的结 [6]沈苗,来天平,王素美,等.北京大学课程推荐引擎的设 论,也对课程考核等方面给出合理化指导和建 计和实现.智能系统学报,2015,10(3:369-375. 议。将不断发展的、前沿的科学技术、科研方法 SHEN Miao,LAI Tianping,WANG Sumei,et al.Design

征与特征自身的相关性计算值,正对角线上的值 均为 1,颜色最深。其余部分代表着当前特征与 其他特征的相关性计算,颜色的深浅代表着相关 性的强弱。具体而言:客观题 kg_1,kg_2,kg_3, kg_4,kg_5 之间相关性热力图颜色为浅绿色,说明 它们之间相关性较弱,但是总体保持着正相关的 关系。据此可以推断,客观题一道题的得分情况 对另外一题的得分情况影响较低,或者说题目本 身考查的知识点不相关。而主观题之间的相关性 则更加复杂。根据主观题之间的相关性热力图分 布,它们之间存在负相关和正相关两种相关关 系。相关性的数值越接近 1 或−1,说明两组数据 之间正向或反向线性关联越强。例如, zg_6 与 zg_7、zg_7 与 zg_8,zg_8 与 zg_9 之间的相关性热 力图颜色为黄色,说明它们之间的相关性为负相 关。与之相反的情况为:zg_7 与 zg_9、zg_11 与 zg_12 之间的相关性热力图颜色为蓝色,说明具 有很强的正相关性,两个特征的相关密切程度比 较高。此时就要引起注意,试卷中 zg_7 与 zg_9、 zg_11 与 zg_12 之间是否考察知识点重合,还是题 目难易程度相近引起的高度相关。如果出现命题 知识点重合,是否符合我们考核的目的,从而对 考试后试卷命题合理性分析给出提示。 kg_1 kg_2 kg_3 kg_4 kg_5 zg_6 zg_7 zg_8 zg_9 zg_10 zg_11 zg_12 zg_13 zg_14 zg_15 kg_1 1.00 0.75 0.50 0.25 0 −0.25 kg_2 kg_3 kg_4 kg_5 zg_6 zg_7 zg_8 zg_9 zg_10 zg_11 zg_12 zg_13 zg_14 zg_15 图 5 题目相关性热力图 Fig. 5 Correlation map 3 结束语 本文主要基于可拓数据挖掘的几种重要方法 及皮尔逊相关系数,对高校学生成绩利用不同模 型,从不同角度进行分析,从而分析影响学生成 绩的主要题目,探索学生对知识点的掌握程度。 进一步,对每个学生,可以给出决定其及格与否 的某个或某几个具体知识点,以便学生以后有所 侧重学习。试卷中各题目相关性强弱分析的结 论,也对课程考核等方面给出合理化指导和建 议。将不断发展的、前沿的科学技术、科研方法 应用于不断深化改革的教育教学中,同时也对长 期沉睡的庞大的学生成绩数据加以充分利用,教 学促进科研,科研反哺教学,起到了示范作用。 采用的相关算法是我们精心选取的算法,针对相 关成绩数据分析有一定的优势。将来我们可以进 一步深入研究,探讨如何将解决矛盾问题的可拓 学和机器学习的相关算法深度融合,起到如虎添 翼的作用。深究如何进一步将科研的方法应用到 教育大数据中,从而对推进教学改革,进一步提 高高校教学质量做出贡献。同时也希望上述分析 能起到抛砖引玉的作用。 参考文献: 徐承俊, 朱国宾. 数据挖掘在全国计算机等级考试 (NCRE) 成绩分析中的研究及应用 [J]. 计算机应用与 软件, 2020, 37(8): 64–67,73. XU Chengjun, ZHU Guobin. Research and application of data mining in national computer rank examination (NCRE) achievement analysis[J]. Computer applications and software, 2020, 37(8): 64–67,73. [1] 郭鹏, 蔡骋. 基于聚类和关联算法的学生成绩挖掘与分 析 [J]. 计算机工程与应用, 2019, 55(17): 169–179. GUO Peng, CAI Cheng. Data mining and analysis of stu￾dents' score based on clustering and association al￾gorithm[J]. Computer engineering and applications, 2019, 55(17): 169–179. [2] 唐笑林. 数据挖掘技术的研究和应用 [J]. 华东理工大学 学报(自然科学版), 2008, 34(2): 290–295. TANG Xiaolin. Application and research of data mining[J]. Journal of east China University of Science and Technology (natural science edition), 2008, 34(2): 290–295. [3] 张树滑. 基于 ID3 算法的大学生成绩数据挖掘与体能 分析系统设计 [J]. 现代电子技术, 2019, 42(5): 104– 106,110. ZHANG Shuhua. Design of sports achievement data min￾ing and physical fitness analysis system based on ID3 al￾gorithm[J]. Modern electronics technique, 2019, 42(5): 104–106,110. [4] 王小根, 陈瑶瑶. 多模态数据下混合协作学习者情感投 入分析 [J]. 电化教育研究, 2022, 43(2): 42–48,79. WANG Xiaogen, CHEN Yaoyao. Analysis of blended collaborative learners’ emotional engagement based on multimodal data[J]. E-education research, 2022, 43(2): 42–48,79. [5] 沈苗, 来天平, 王素美, 等. 北京大学课程推荐引擎的设 计和实现 [J]. 智能系统学报, 2015, 10(3): 369–375. SHEN Miao, LAI Tianping, WANG Sumei, et al. Design [6] ·712· 智 能 系 统 学 报 第 17 卷

第4期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·713· and implementation of the course recommendation en- processing of contradictory problems[J].Science&tech- gine in Peking University[J].CAAI transactions on intel- nology review,2014,32(36):15-20. ligent systems,.2015,10(3):369-375. [18]杨春燕,蔡文,涂序彦.可拓学的研究、应用与发展 [7]丁智斌,袁方,董贺伟.数据挖掘在高校学生学习成绩 系统科学与数学2016.36(9:1507-1512 分析中的应用J】.计算机工程与设计,2006,27(4): YANG Chunyan,CAI Wen,TU Xuyan.Research,ap- 590-592 plication and development on extenics[J].Journal of sys- DING Zhibin,YUAN Fang,DONG Hewei.Application tems science and mathematical sciences,2016,36(9): of data mining to analysis of university students'grades 1507-1512. [J].Computer engineering and design,2006,27(4): [19]蔡文,杨春燕,陈文伟,等.可拓集与可拓数据挖掘 590-592. [M.北京:科学出版社,2008. [8]喻铁朔,李霞,甘琤.基于学生成绩回归预测的多模型 [20]杨春燕,蔡文.可拓数据挖掘研究进展).数学的实践 适用性对比研究).中国教育信息化,2020(17):23-28, 与认识.2009.394):134141 [9]钟文精,焦中明,蔡乐.基于K-Means算法的学生成绩 YANG Chunyan,CAI Wen.Recent progress in exten- 聚类分析).教育信息技术,2021(5):56-58 sion data mining[J].Mathematics in practice and theory, [10】蔡文,杨春燕,何斌.可拓逻辑初步M.北京:科学出 2009.39(4):134-141 版社,2003 [21]陈晓华,刘大莲,田英杰,等.可拓支持向量分类机) [11]CAI Wen,YANG Chunyan,LIN Weiehu.Extension en- 智能系统学报,2018,13(1)147-151. gineering methods[M].Beijing:Science Press,2003 CHEN Xiaohua,LIU Dalian,TIAN Yingjie,et al.Ex- [12]蔡文,可拓集合和不相容问题[J】.科学探索学报, tension support vector classification machine[J].CAAI 19831):83-97 transactions on intelligent systems,2018,13(1):147- CAI Wen.Extenics and incompatibility[J].Journal of 151. scientific exploration,1983(1):83-97. [22]赵燕伟,朱芬,桂方志,等.基于可拓距的改进k [13】李文军,杨春燕,汤龙,等.可拓学中相关关系的变换 means聚类算法[J].智能系统学报,2020,15(2): 方法研究).智能系统学报,2019,14(4):619-626. 344-351. LI Wenjun,YANG Chunyan,TANG Long,et al.Re- ZHAO Yanwei,ZHU Fen,GUI Fangzhi,et al.Improved search on the transformation method for the correlation k-means algorithm based on extension distance[J.CAAI relation in extenics[J].CAAI transactions on intelligent transactions on intelligent systems,2020,15(2):344- systems,2019,144):619-626 351. [14]杨春燕,李卫华,汤龙,等.基于可拓学和HowNet的策 [23]盛骤,谢式千.概率论与数理统计及其应用M.2版 略生成系统研究进展).智能系统学报,2015,10(6): 北京:高等教育出版社,2010. 823-830 [24]YANG Sixiao,TIAN Yingjie,ZHANG Chunhua.Rule YANG Chunyan,LI Weihua,TANG Long,et al. extraction from support vector machines and its applica- Strategy-generating system based on extenics and tions[C]//2011 IEEE/WIC/ACM International Confer- HowNet[J].CAAI transactions on intelligent systems, ences on Web Intelligence and Intelligent Agent Techno- 2015.10(6:823-830. logy.Lyon:IEEE,2011:221-224. [15]王丽萍,叶季平,苏学灵,等.基于可拓学理论的防洪 作者简介: 调度方案评价研究与应用[水利学报,2009,40(12) 刘大莲,副教授,主要研究方向为 1425-1434 最优化理论与方法、数据挖掘。发表 WANG Liping,YE Jiping,SU Xueling,et al.Evalu- 学术论文18篇。 ation of flood control operation program based on exten- ics theory and its application[J].Journal of hydraulic en- gineering,2009,40(12):1425-1434 [16]杨春燕,李兴森.可拓创新方法及其应用研究进展) 工业工程,2012,15(1131-137. 田英杰,教授,博士生导师,中国 YANG Chunyan,LI Xingsen.Research progress in ex- 科学院大学经济与管理学院副院长」 tension innovation method and its applications[J].Indus- 主要研究方向为机器学习、大数据挖 trial engineering journal,2012,15(1):131-137. 掘与最优化。出版中英文专/合著5 [1刀杨春燕,蔡文.可拓学与矛盾问题智能化处理).科技 部,近5年发表学术论文50余篇。 导报.2014.32(36):15-20 YANG Chunyan,CAI Wen.Extenics and intelligent

and implementation of the course recommendation en￾gine in Peking University[J]. CAAI transactions on intel￾ligent systems, 2015, 10(3): 369–375. 丁智斌, 袁方, 董贺伟. 数据挖掘在高校学生学习成绩 分析中的应用 [J]. 计算机工程与设计, 2006, 27(4): 590–592. DING Zhibin, YUAN Fang, DONG Hewei. Application of data mining to analysis of university students’ grades [J]. Computer engineering and design, 2006, 27(4): 590–592. [7] 喻铁朔, 李霞, 甘琤. 基于学生成绩回归预测的多模型 适用性对比研究 [J]. 中国教育信息化, 2020(17): 23–28. [8] 钟文精, 焦中明, 蔡乐. 基于 K-Means 算法的学生成绩 聚类分析 [J]. 教育信息技术, 2021(5): 56–58. [9] 蔡文, 杨春燕, 何斌. 可拓逻辑初步 [M]. 北京: 科学出 版社, 2003. [10] CAI Wen, YANG Chunyan, LIN Weiehu. Extension en￾gineering methods[M]. Beijing: Science Press, 2003 [11] 蔡文. 可拓集合和不相容问题 [J]. 科学探索学报, 1983(1): 83–97. CAI Wen. Extenics and incompatibility[J]. Journal of scientific exploration, 1983(1): 83–97. [12] 李文军, 杨春燕, 汤龙, 等. 可拓学中相关关系的变换 方法研究 [J]. 智能系统学报, 2019, 14(4): 619–626. LI Wenjun, YANG Chunyan, TANG Long, et al. Re￾search on the transformation method for the correlation relation in extenics[J]. CAAI transactions on intelligent systems, 2019, 14(4): 619–626. [13] 杨春燕, 李卫华, 汤龙, 等. 基于可拓学和 HowNet 的策 略生成系统研究进展 [J]. 智能系统学报, 2015, 10(6): 823–830. YANG Chunyan, LI Weihua, TANG Long, et al. Strategy-generating system based on extenics and HowNet[J]. CAAI transactions on intelligent systems, 2015, 10(6): 823–830. [14] 王丽萍, 叶季平, 苏学灵, 等. 基于可拓学理论的防洪 调度方案评价研究与应用 [J]. 水利学报, 2009, 40(12): 1425–1434. WANG Liping, YE Jiping, SU Xueling, et al. Evalu￾ation of flood control operation program based on exten￾ics theory and its application[J]. Journal of hydraulic en￾gineering, 2009, 40(12): 1425–1434. [15] 杨春燕, 李兴森. 可拓创新方法及其应用研究进展 [J]. 工业工程, 2012, 15(1): 131–137. YANG Chunyan, LI Xingsen. Research progress in ex￾tension innovation method and its applications[J]. Indus￾trial engineering journal, 2012, 15(1): 131–137. [16] 杨春燕, 蔡文. 可拓学与矛盾问题智能化处理 [J]. 科技 导报, 2014, 32(36): 15–20. YANG Chunyan, CAI Wen. Extenics and intelligent [17] processing of contradictory problems[J]. Science & tech￾nology review, 2014, 32(36): 15–20. 杨春燕, 蔡文, 涂序彦. 可拓学的研究、应用与发展 [J]. 系统科学与数学, 2016, 36(9): 1507–1512. YANG Chunyan, CAI Wen, TU Xuyan. Research, ap￾plication and development on extenics[J]. Journal of sys￾tems science and mathematical sciences, 2016, 36(9): 1507–1512. [18] 蔡文, 杨春燕, 陈文伟, 等. 可拓集与可拓数据挖掘 [M]. 北京: 科学出版社, 2008. [19] 杨春燕, 蔡文. 可拓数据挖掘研究进展 [J]. 数学的实践 与认识, 2009, 39(4): 134–141. YANG Chunyan, CAI Wen. Recent progress in exten￾sion data mining[J]. Mathematics in practice and theory, 2009, 39(4): 134–141. [20] 陈晓华, 刘大莲, 田英杰, 等. 可拓支持向量分类机 [J]. 智能系统学报, 2018, 13(1): 147–151. CHEN Xiaohua, LIU Dalian, TIAN Yingjie, et al. Ex￾tension support vector classification machine[J]. CAAI transactions on intelligent systems, 2018, 13(1): 147– 151. [21] 赵燕伟, 朱芬, 桂方志, 等. 基于可拓距的改进 k￾means 聚类算法 [J]. 智能系统学报, 2020, 15(2): 344–351. ZHAO Yanwei, ZHU Fen, GUI Fangzhi, et al. Improved k-means algorithm based on extension distance[J]. CAAI transactions on intelligent systems, 2020, 15(2): 344– 351. [22] 盛骤, 谢式千. 概率论与数理统计及其应用 [M]. 2 版. 北京: 高等教育出版社, 2010. [23] YANG Sixiao, TIAN Yingjie, ZHANG Chunhua. Rule extraction from support vector machines and its applica￾tions[C]//2011 IEEE/WIC/ACM International Confer￾ences on Web Intelligence and Intelligent Agent Techno￾logy. Lyon: IEEE, 2011: 221−224. [24] 作者简介: 刘大莲,副教授,主要研究方向为 最优化理论与方法、数据挖掘。发表 学术论文 18 篇。 田英杰,教授,博士生导师,中国 科学院大学经济与管理学院副院长, 主要研究方向为机器学习、大数据挖 掘与最优化。出版中英文专/合著 5 部,近 5 年发表学术论文 50 余篇。 第 4 期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·713·

已到末页,全文结束
刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档