基于主成分分析的免费师范生生源多因素分析.doc
《基于主成分分析的免费师范生生源多因素分析.doc》由会员分享,可在线阅读,更多相关《基于主成分分析的免费师范生生源多因素分析.doc(24页珍藏版)》请在沃文网上搜索。
1、分类号: 本科生毕业论文(设计)题目: 基于主成分分析的免费师范生生源多因素分析_作 者 单 位 计算机科学学院 基于主成分分析的免费师范生生源多因素分析高玉梁(陕西师范大学计算机科学学院, 陕西 西安710062)摘 要:应用主成分分析原理,以少数的综合变量取代原有的多维变量,使数据结构简化,把原指标综合成几个主成分,再以这几个主成分的贡献率为权数进行加权平均,构造出一个综合评价函数。本文以目前国家正在实施的免费师范生政策为背景,对陕西师范大学的免费师范生进行了系统性的问卷式抽样调查,并对调查结果进行整理统计和主成分分析,从而提取出免费师范生生源变化的主要影响因素(即特征)。本文所应用的学科
2、为模式识别,涉及到的理论方法是特征选择与特征提取,同时深刻理解K-L变换的定义、概念,以及在特征提取中的应用。关键词:主成分分析 综合评估 特征选择 特征提取Based on Principal Component Analysis in the Various Source of Tuition-free Normal College StudentGao Yuliang(College of Computer Science,Shaanxi Normal University,Xian 710062,Shaanxi, China)Abstract: The theory of princi
3、ple component analysis can use less comprehensive variables to instead of the multivariate variables, this method can simplify the structure of the data and aggregate the original index into several principal components.Regarding the contribution rate of this principal component as right, count weig
4、hted average and make up a comprehensive assessment function. The paper take the present country policy of Tuition-free Normal College Student as a background,then the students in the Shaanxi Normal University has been carried on a systematic questionnaire and it uses the theory to analysis the stat
5、istical results, thus extract the major effect factors(That is characteristic) to the changing source of tuition-free Normal College Student. The related subjects is Pattern Recognition, in this process, the feature selection and extraction are also used. At the same time , according to the analysis
6、, it needs to understand something as definitions, concepts of Karhunen-Loeve Transform and its application in feature extraction. Key words: principle component analysis comprehensive assessmentfeature selection feature extraction1.绪论41.1 课题的背景及提出的意义41.1.1课题提出的背景41.1.2课题提出的意义41.2 研究现状41.2.1 主成分分析理论
7、简介41.2.2 理论原理及基本思想51.2.3 主成分分析理论在实验研究的应用情况52.主成分分析的前提62.1模式识别62.2样品与特征62.3特征提取62.4特征选择72.5 K-L变换73.主成分分析的设计与实现73.1基本概念73.2主成分分析方法的设计83.3主成分分析方法的计算步骤103.4主成分分析方法的实例103.5主成分分析方法的优缺点124.关于免费师范生生源问题分析134.1研究方法134.2生源分析过程144.2.1原始数据的标准化处理144.2.2计算相关系数矩阵154.2.3计算R的特征值与特征向量164.2.4确定主成分个数164.2.5综合评价174.3计算机
8、分析相关代码195 结论21结束语21附录 【参考文献】21致 谢221.绪论 1.1 课题的背景及提出的意义 1.1.1课题提出的背景2007年国家决定在六所教育部直属的师范大学进行师范生免费教育,在这一政策实施三年以来,事实已经证明这六所大学(北京师范大学、华东师范大学、东北师范大学、华中师范大学、陕西师范大学、西南大学)的生源较之以前发生了明显的变化,至于是什么原因引起了这个变化呢?不外乎是个人、家庭、社会等诸多方面的因素直接或间接导致的,在这些因素中,大多数人也肯定是由于同样的某些理由使他们选择了报读上述院校,鉴于这个事实,本文就选用主成分分析方法去探讨免费师范生生源多因素这一问题。1
9、.1.2课题提出的意义免费师范生生源因素众多,而基于主成分分析的免费师范生生源多因素分析的目的则在于在我们对这种分析方法的原理充分理解下,灵活地运用一种科学理论去解释现实问题,培养理论联系实际的能力。同时,在免费师范生生源问题日益得到社会各界重视的前提下,运用一种科学理论去分析这一热门话题,一方面得出的结论具有较高的可信度,反之,另一方面如果结论和人们的直观感觉相一致,也同时对主成分分析方法的科学性和合理性进行了验证。1.2 研究现状1.2.1 主成分分析理论简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。在实际课题中,为了全面分析问题,往往
10、提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的问题时,变量个数太多自然就增加课题的复杂性。在很多情形,变量之间是有一定的相关关系的,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映的信息方面尽可能保持原有的信息。它是模式识别学科中特征选择所运用到的方法之一。1.2.2 理论原理及基本思想 设法将原来众多具有一定相关性变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可
11、能多地反映原来变量的信息的统计方法,这即是主成分分析理论的原理之所在,它也是数学上处理降维的一种方法。 通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、
12、第四,第m个主成分,这m个主成分包含原来P个指标的所有信息。1.2.3 主成分分析理论在实验研究的应用情况 “多元统计分析”是近几十年来迅速发展起来的一门学科。随着微机的普遍使用及统计软件的推广普及,回归分析、判别分析、聚类分析因子分析、对应分析等等,各种多元统计方法已广泛应用于自然科学各学科乃至社会科学各个领域。主成分分析是一种常用的多元统计分析方法,相对于其他统计学方法,它更强调用数据本身来指导分析过程,而不是依赖于事先给定的某些假设。 主成分分析在地震预测中的应用。根据主成分分析可以得到反应地震强度异常特征的综合指标形,发现该指标在2次地震前出现明显的异常变化,震后异常恢复,综合指标形可
13、以较好地反映地震活动异常增强的特征。 主成分分析在生命科学研究中的应用。生物样品特征谱的复杂多变性,对生物的每一个细小特征都进行处理分析已经是不现实的一种方法,因此很多的统计分析方法自然就被排除了,而主成分分析对于高维度的分子生物学数据则似乎是一种最恰当的分析方法。主成分分析在经济评价中的应用。在研究较复杂的经济问题时,利用多元统计分析中的主成分分析,可从多个经济指标中找出起支配作用的共同因素,从而抓住主要矛盾,以较少的变量进行定量分析,对企业的经济效益进行公正的评价。 此外,主成分分析方法已经被作为一种科学的分析方法广泛地运用于工农业生产、环境保护、商业盈利等等,并且主成分分析方法的应用领域
14、会随着技术的进步越来越广阔。2.主成分分析的前提2.1模式识别所谓模式识别技术,是随着现代科学技术的发展,特别是计算机技术的发展而形成的一种模拟人的各种识别能力和方法的技术。它基本上属于一种自动判别和分类的理论。模式识别当前主要运用在地球环境的调查研究、生物医学工程、生产管理自动化、军事侦查等领域。模式识别技术是在计算机上实现的,而计算机只识别数字和字符,故所有模式都必须首先数值化或符号化,才能进行自动识别,也就是说前提是对模式的特征测量数值化。2.2样品与特征在模式识别中,被观测的每个对象成为一个样品。对每个样品必须确定一些与识别有关的因素,作为研究的根据;每个因素成为一个特征。例如,在研究
15、地震危险区域划分时,每个样品是一块区域,与之对应的特征可以取该区域内的各项地质地貌特征,如主活动断裂数,主活动断裂的端点及交汇点个数,区域内的最大高程等。又如,在医学诊断中,每个样品是一个患者,特征便可取与诊断有关的各项病理指标等,如体温、血压、白血球数目等。2.3特征提取 模式识别建立在对模式特征量化的基础上,也就是说,首先要对表征模式的各种特征加以量测或量化,得到每一模式的特征数值集合或特征向量,然后根据不同类型模式具有不同的特征数值集合,进行自动辨别。 特征的引入通常要经过一个从少到多,又从多到少的过程。所谓从少到多,是指在设计识别方案的初期阶段应尽量多地列举出各种可能与分类有关的特征,
16、这样可以充分利用各种有用的信息,改善分类效果,这一步骤称为特征提取或特征抽提,如利用K-L变换的分类来进行特征提取。 这里产生的问题是特征数值向量的分量个数很多(或维数很多),但是否都能有效地代表各类模式,针对不同的对象,是否都需要那么多特征来进行辨别,这是需要考虑的问题。由于模式识别是由计算机自动处理的来完成的,在模式维数很高的情况下,计算量太大,且识别精度并不一定随着维数增多而提高,因此就很有必要对已有的众多特征进行选择与提取,也就是说需要选择最有代表性的特征,另外,针对不同的研究对象,还需要进行不同的特征组合。2.4特征选择为了使特征数目从多到少,需要进行所谓的特征选择。特征选择通常包括
17、两方面的内容:一方面是对单个特征的选择,即对每个特征分别进行评价,从中找出那些对识别作用最大的特征,如K-W检验、直方图方法、不确定性选择等等;另一方面是从大量原有特征出发,构造少数有效的新特征,有时也称为降维映射,如主成分分析、对应分析。在模式识别技术中最常使用的特征选择方法就是降维映射方法,而降维对分方法中所得到的新特征D,D是原有特征X1,X2,X3的二次函数,因此这种映射称为非线性映射。目前比较普遍使用的降维映射方法仍然是线性映射,即各个新特征Yi(i=1,2,v,vn)与旧特征X1,X2,,Xn之间的关系为 Yi=Ai1+Ai2X2+AinXn,i=1,2,v 其中各Aij是常数在本
18、文的免费师范生生源多因素分析中,我们采用的是线性映射的主成分分析这一方法来进行特征选择这一过程。2.5 K-L变换 K-L变换(Karhunen-Loeve Transform)是建立在统计特性基础上的一种变换,K-L变换的突出优点是相关性好,是均方误差意义下的最佳变换,它在数据压缩技术中占有重要地位,但需要先知道信源的协方差矩阵并求出特征值。求特征值与特征向量并不是一件容易的事,维数较高时甚至求不出来。即使能借助计算机求解,也很难满足实时处理的要求,而且从编码应用看还需要将这些信息传输给接收端。这些因素造成了K-L变换在工程实践中不能广泛使用。人们一方面继续寻求解特征值与特征向量的快速算法,
19、另一方面则寻找一些虽不是“最佳”、但也有较好的去相关与能量集中的性能且容易实现的一些变换方法。而K-L变换就常常作为对这些变换性能的评价标准。3.主成分分析的设计与实现3.1基本概念设有一批样品,假定对每个样品取n个特征,即X=(x1,x2,xn)T,要求构造n个新特征y1,y2,yn,并使得它们满足以下1)、2)、3)3个条件:1) 每个新特征是原有各特征的线性组合,即 yi=ui1x1+ui2x2+uinxn,i=1,2,n, 或yi=uT iX,ui=(ui1,ui2,,uin)T,i=1,2,n,其中uij是常数,2) 各个新变量之间是互不相关的,即相关系数为零,即 r(yi,yj)=
20、0, i,j=1,2,n; ij 3) u1使y1的方差达到极大值,u2使y2的方差达到次大,即 var(y1)var(y2)var(yn)0 需要注意的是上述方差达到极大须加上某种限制,否则线性组合的权值无穷大就没有意义了,实际问题常规定ui12 +ui22+uin2 =1以方便计算。满足以上条件的新特征y1,y2,yn,分别称为样品点的第1、2、n个主成分,其中样品的数学模型如下:X=(x1,x2,xn)T=,m为样品的个数.由以上的变换可以看出主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信息量,也不减少总信息量。3.2主成分分析方法的设计怎样求出样本数据的的主成分y
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 成分 分析 免费 师范生 生源 因素