- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘技术在高校贫困生管理工作中路径研究
数据挖掘技术在高校贫困生管理工作中路径研究 摘要:近几年,国家对困难学生的资助力度不断加大,政策也不断完善,给各学校对困难学生的评定提出了较大的挑战,如何从纷繁复杂的信息中挖掘有效的信息进行合理评定。本研究从建立贫困生数据库出发,采用SQL和SPSS软件,使用决策树算法和chi2算法,具体梳理了贫困生基本信息,发现综合评定成绩对贫困生的评定有较好的预测作用。
关键词:数据挖掘;贫困生;chi2算法
中图分类号:TP311.52 文献标识码:A 文章编号:1009-3044(2014)09-1869-03
1 问题的提出
高校贫困生问题一直是国家和社会各界关注的一个焦点。随着教育成本的不断增加和高等教育大众化,国家不断加大对贫困生的资助力度,社会各界也通过各种渠道与形式给贫困生各种支持,加之贫困生比例的不断增加,贫困生的界定、资助与管理问题成为各高校资助部门的难题。尤其是欠发达、多民族的贵州地区,高校贫困生比例超过40%,且相当部分是少数民族,庞大、复杂的贫困生信息,如何对贫困身份进行正确、有效的界定与评价,如何资助、贫困名额如何分配、信息如何查询与管理,更考量资助部门的能力。
《关于认真做好高等学校家庭经济困难学生认定工作的指导意见》(教财〔2007〕8号)明确指出:“家庭经济困难学生是指学生本人及其家庭所能筹集到的资金,难以支付其在校学习期间的学习和生活基本费用的学生。”要求“各省、自治区、直辖市教育、财政部门参照本行政区域内各地(市、州)的城市居民最低生活保障标准,确定各地(市、州)的家庭经济困难学生认定标准”,随后给出了具体标准,要求根据各地发展情况将贫困生界定为将学生分为一般贫困、贫困和特困。高校有来自全国各地的学生,如何界定是个难题,决定如何资助更是难题,因此,综合各方面因素,建立贫困生数据管理系统为高校贫困生管理提供科学的工作依据和界定标准很有必要。
2 数据库的指标及建立
本研究使用SQL Server2008软件创建数据库,数据库分为4个模块:学校――系别――学生――主要指标。主要指标的选择结合贵州省经济发展情况、学生个人基本情况及学校要求,分为以下几个部分,见图1。数据来源使用某高校资助中心4个系363名贫困学生数据,结合这些学生的智育、德育成绩建立数据库,数据库挖掘算法使用决策树算法与线性回归算法。
图1 高校贫困生管理系统主要指标
3 数据挖掘算法及分析
3.1 贫困生基本数据
数据挖掘可以快速对纷繁复杂的数据进行自动分类,便于查找有用信息。研究通过对大量的贫困生信息进行基本筛选,使用C45[1]算法对数据进行初级计算梳理,对贫困学生进行分类。部分结果见表1。
3.2 贫困生主要指标分析
经过数据处理分析(表3),发现本次363名贫困生中,男生166人(45.7%),女生197人(54.3%);结合学校资助中心意见,一般来说将“单亲或离异家庭、父母双方多病”的界定为特别贫困,“父母一方多病或残疾、多子女求学、自然灾害”的界定为一般贫困,其他为贫困。据此,贫困189人(52.1%),一般贫困55人(15.2%),特殊贫困119人(32.8%)。将德育成绩与智育成绩结合,分数“90及以上”定等级为优,“[80-90)”为良,“[70-80)”为中等,“[60-70)”为及格,“60分以下”为不及格,发现优5人(1.4%),良170人(46.8%),中等167人(46.0%),及格21人(5.8%)。贫困原因位居前三位的分别是多子女求学、父母一方多病或残疾、单亲或离异家庭;家庭负收入低、负担重,自然灾害的影响也达10%以上。
3.3 连续属性离散化的Integral Chi2算法在贫困生界定中的作用
贫困生的界定一直是个难题, 影响贫困界定的因素有很多,本研究综合学生和学校实际,选择比较常用的综合成绩和困难原因两个因素,困难原因基于教育资助部门对学生家庭经济的认定,运用综合成绩来判定资助部门对贫困等级的认定,综合成绩对贫困等级的预测算法使用连续属性离散化的Integral Chi2算法,统计量为[χ2],计算公式为[2]:
其中,k为决策类别数,Aij为i区间中j类样本的个数,Eij=Ri×Cj/N。[Ri=j=1kAij]为i区间中样本的个数,[Cj=i=12Aij]为j类样本数,[N=i=12Ri]为总样本的个数[3]。[χ2]值越小,说明分布越均匀,节点越不重要,识别率也就越低;[χ2]值越大,说明分布越分散,节点越重要,识别率越高。[χ2]值大于固定临界值,意味着数据离散程度大,节点的存在是必要的,识别水平显著。
综合成绩与贫困等级的结果分析发现,综合成绩等级对贫困等级有较好的预测作用,[χ
文档评论(0)