欢迎来到沃文网! | 帮助中心 分享知识,传播智慧!
沃文网
全部分类
  • 教学课件>
  • 医学资料>
  • 技术资料>
  • 学术论文>
  • 资格考试>
  • 建筑施工>
  • 实用文档>
  • 其他资料>
  • ImageVerifierCode 换一换
    首页 沃文网 > 资源分类 > DOC文档下载
    分享到微信 分享到微博 分享到QQ空间

    多元统计分析》第三版例题习题数据文件__人大何晓群.doc

    • 资源ID:1046928       资源大小:1.09MB        全文页数:40页
    • 资源格式: DOC        下载积分:10积分
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录 微博登录
    二维码
    微信扫一扫登录
    下载资源需要10积分
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,下载更划算!
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元统计分析》第三版例题习题数据文件__人大何晓群.doc

    1、何晓群多元统计分析第三版(2012)数据文件第2章 例2-1 1999年财政部、国家经贸委、人事部和国家计委联合发布了国有资本金效绩评价规则。其中,对竞争性工商企业的评价指标体系包括下面八大基本指标:净资产收益率、总资产报酬率、总资产周转率、流动资产周转率、资产负债率、已获利息倍数、销售增长率和资本积累率。下面我们借助于这一指标体系对我国上市公司的运营情况进行分析,以下数据为35家上市公司2008年年报数据,这35家上市公司分别来自于电力、煤气及水的生产和供应业,房地行业,信息技术业,在后面各章中也经常以该数据为例进行分析。 表2-1行业公司简称股票代码净资产收益率总资产报酬率资产负债率总资产

    2、周转率流动资产周转率已获利息倍数销售增长率资本积累率电力、煤气及水的生产和供应业深圳能源0000279.174.9253.45.391.573.562.7633.00深南电000037.611.2361.17.601.741.41-12.81-.01富龙热电000426-11.30-5.5648.89.13.76-.34-40.10-9.93穗恒运000531-7.70-1.5370.25.572.70.61-29.45-7.15粤电力000539.34-1.1554.84.482.42.5211.78-7.72韶能股份000601-2.95-1.2961.79.272.52.5315.77-

    3、4.67ST惠天000692-1.86-.8163.34.401.09.438.08-1.82城投控股60064912.288.4639.92.25.5740.2029.21-2.19大连热电6007191.58.9660.53.32.701.31-3.44.75华电能源600726.43.3377.63.402.391.0812.66-6.04国电电力6007951.26.2071.65.261.681.10-5.885.68房地行业长春经开600215.09.2129.10.05.081.239.07.09大龙地产6001591.21.0961.63.04.051.84-57.90-.08

    4、金丰投资6006069.786.5146.07.20.316.22-51.99-8.40新黄浦6006386.815.9631.91.12.315.57-18.484.99浦东金桥6006399.026.1642.74.20.864.5140.624.75外高桥6006486.902.0978.11.702.477.0419.885.21中华企业60067514.316.8263.67.37.445.8933.9311.82渝开发0005146.535.1431.61.14.404.42-15.566.64莱茵置业00055821.227.9573.67.44.521.04-13.1528.4

    5、2粤宏远000573-8.47-4.8444.12.14.24-3.90-26.72-7.81中国国贸6000078.406.2148.06.123.041.101.205.06万科A00000212.655.7767.44.37.3910.6215.388.93三木集团0006321.961.0580.12.88.951.74-11.30-9.55国兴地产0008382.972.2144.34.17.1730.65-74.763.06中关村0009319.691.7280.11.47.572.03-7.901.59信息技术业中兴通讯00006311.655.0270.15.981.214.2

    6、827.3617.40长城电脑0000661.01.3953.931.353.571.22-6.99-30.87南天信息0009489.486.6145.431.061.414.6215.13110.72同方股份6001003.572.6353.32.78.002.79-4.7726.72永鼎股份6001052.541.6971.91.42.631.8727.492.63宏图高科60012210.715.4257.491.772.123.2133.0311.23新大陆0009974.543.7431.88.861.097.4918.42-6.27方正科技6006014.423.1643.951

    7、.404.673.06-13.584.73复旦复华6006244.443.6849.44.53.853.1913.572.60习题3.今选取内蒙古、广西、贵州、云南、西藏、宁夏、新疆、甘肃和青海等9个内陆边远省份。选取人均GDP、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口的比例等五项能够较好的说明各地区社会经济发展水平的指标。验证一下边远及少数民族聚居区的社会经济水平与全国平均水平有无显著差异。边远及少数民族聚居区的社会经济水平发展的指标数据:地区人均GDP三产比重人均消费人口增长文盲半文盲内蒙古506831.121418.2315,83广西407634.220

    8、409.0113.32贵州234229.8155114.2628.98云南435531.1205912.125.48西藏371643.5155115.957.97宁夏427037.3194713.0825.56新疆622935.4274512.8111.44甘肃345632.8161210.0428.65青海436740.9204714.4842.92数据来源:中国统计年鉴(1998)。5项指标的全国平均水平0=(6212.01 32.87 2972 9.5 15.78)/第3章例3-1 若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表3-1。在表中,“

    9、标准工资收入” 、“职工奖金” 、“职工津贴” 、“性别” 、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数” 、“政治面貌” 等,指标如何选择取决于聚类的目的。 表3-1 某市2001年城镇居民户主个人收入数据X1 职工标准工资收入 X5 单位得到的其他收入X2 职工奖金收入 X6 其他收入X3 职工津贴收入 X7 性别X4 其他工资性收入 X8 就业身份X1X2X3X4X5X6X7X8540.000.00.00.00.06.00男国有1137.00125.0096.000.0109.00812.00女集体1236.00300.00270.000.0

    10、102.00318.00女国有1008.000.096.000.086.0246.00男集体1723.00419.00400.000.0122.00312.00男国有1080.00569.00147.00156.00210.00318.00男集体1326.000.0300.000.0148.00312.00女国有1110.00110.0096.000.080.00193.00女集体1012.0088.00298.000.079.00278.00女国有1209.00102.00179.0067.00198.00514.00男集体1101.00215.00201.0039.00146.00477.

    11、00男集体例3-3EnglishNorwegianDanishDutchGermanFrenchOneEneneeneinunTwoTototweezweideuxThreeTretredriedreitroisFourFirefireviervierquatreFiveFemfemvijffunfeinqSixSekssekszessechssixsevenSjusyvzevensiebcnseptEightAteotteachtachthuitNineNininegenneunneufTenTititienzehndixSpanishItalianPolishHungarianFinnis

    12、hUnounojedenegyyksiDosduedwakettokaksiTrestretrzyharomkolmecuatroquattroczterynegyneuaCincocinquepiecotviisiSeixseiszeschatkuusiSietesettesiedemhetseitsemanOchoottoosiemnyolckahdeksaunuevenovedziewieckilencyhdeksanDiezdiecidziesiectizkymmenen例3-4X1 食品支出(元/人) X5 交通和通讯支出(元/人)X2 衣着支出(元/人) X6 娱乐、教育和文化服务

    13、支出(元/人)X3 家庭设备、用品及服务支出(元/人) X7 居住支出(元/人)X4 医疗保健支出(元/人) X8 杂项商品和服务支出(元/人)X1X2X3X4X5X6X7X8辽宁1772.14568.25298.66352.20307.21490.83364.28202.50浙江2752.25569.95662.31541.06623.05917.23599.98354.39河南1386.76460.99312.97280.78246.24407.26547.19188.52甘肃1552.77517.16402.03272.44265.29563.10302.27251.41青海1711.0

    14、3458.57334.91307.24297.72495.34274.48306.45例3-5 x1 人均粮食支出 (元/人) x5 人均衣着支出 (元/人) x2 人均副食支出 (元/人) x6 人均日用杂品支出 (元/人) x3 人均烟、酒、饮料支出 (元/人) x7 人均水电燃料支出 (元/人) x4 人均其他副食支出 (元/人) x8 人均其他非商品支出 (元/人)x1x2x3x4x5x6x7x8 北 京21.30124.8935.4373.9893.0120.5843.97433.73 天 津21.50122.3929.0851.6455.0411.3054.88288.13 河 北

    15、18.2590.2124.4532.4462.487.4547.50178.84 山 西21.8466.3818.0531.3274.488.1934.97177.45 内蒙古21.3767.0820.2835.2781.0710.9439.46182.20 辽 宁22.74115.8828.2142.4458.079.6348.65194.85 吉 林20.2288.9418.5435.6365.728.8150.29186.52 黑龙江21.3375.5014.0029.5669.298.2442.08165.90 上 海21.13168.6940.8170.1274.3215.4650.

    16、90422.74 江 苏18.61122.5127.0742.5063.4715.3836.14240.92 浙 江19.96142.2443.3350.74101.7712.9253.44394.55 安 徽19.61107.1332.8535.7761.347.5334.60142.23 福 建25.56171.6522.3040.5357.1312.6054.03225.08 江 西18.75104.6815.5535.6151.8011.1836.27142.72 山 东18.2788.3419.0743.1972.9812.5942.16200.18 河 南19.0773.1818.

    17、0129.3864.518.9138.14155.45 湖 北18.76102.6721.8730.4764.3311.9942.14168.17 湖 南20.25104.4520.7238.1562.9812.6739.16213.56 广 东23.68173.3017.4343.5953.6616.8665.02385.94 广 西18.70131.3511.6932.0641.5410.8442.77178.51 海 南16.16139.9212.9823.5824.8710.7632.35144.21 重 庆18.18120.3926.1837.9468.1611.6438.48246

    18、.37 四 川18.53109.9521.4933.0450.9810.8833.96183.85 贵 州18.3392.4325.3832.1956.3214.0038.57144.82 云 南22.3099.0833.3632.0152.067.0432.85190.04 西 藏29.67146.9064.5154.3686.1014.7732.19193.10 陕 西20.0370.7519.7534.9553.2910.5538.20189.41 甘 肃18.6872.7423.7238.6962.419.6535.26170.12 青 海20.3375.6420.8833.8653.

    19、8110.0632.82171.32 宁 夏19.7570.2418.6736.7161.7510.0840.26165.22 新 疆21.0378.5514.3534.3364.989.8333.87161.67第4章例4-1 判别分析的一个重要应用是用于动植物的分类当中,最著名的一个例子是1936年Fisher的鸢尾花数据(Iris Data)。鸢尾花为法国的国花,Setosa、Versicolour、Virginica是三种有名的鸢尾花,其萼片是绚丽多彩的,和向上的花瓣不同,花萼是下垂的。这三种鸢尾花很像,人们试图建立模型,根据萼片和花瓣的四个度量来把鸢尾花分类。该数据给出150个鸢尾花

    20、的萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)、花瓣宽(petal width)以及这些花分别属于的种类(Species)等共五个变量。萼片和花瓣的长宽为四个定量变量,而种类为分类变量(取三个值Setosa、Versicolour、Virginica)。这里三种鸢尾花各有50个观测值。数据格式如下图所示:定义新的变量y为被解释变量,用“1”代表Setosa鸢尾花,用“2”代表Versicolour鸢尾花,用“3”代表Virginica鸢尾花,将萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal l

    21、ength)和花瓣宽(petal width)四个变量作为解释变量。使用SPSS软件中的AnalyzeClassifyDiscriminant,就进入了判别分析的对话框。分组变量(Grouping Variable)选择y,然后定义的区域,最小值是1,最大值是3。解释变量(Independents)选择sepal.length、sepal.width、petal.length和petal.width。统计量(Statistics)选项中选择描述统计量Means,Univariate ANOVAs和BoxM ,函数选择Fisher和非标准化函数,矩阵选择Within-groups correla

    22、tion。分类(Classify)选项中选择先验概率(所有组相等或根据组的大小计算概率),因为三个品种的都是50种,因此两种选择的效果一样,子选项显示(display)中选择每个个体的结果(Casewise results),综合表(Summery Table)和“留一个在外”(Leave-one-out classifation)的验证原则,协方差矩阵选择Within-groups,作图选择Combined-groups。保存(Save)选项中可以选择预测的分类、判别得分以及所属类别的概率。如果采用逐步判别法,我们还可以选择判别的方法(Method)。得到分析结果如下:输出结果4-1Disc

    23、riminant(1)(2)(3)输出结果4-1分析的是各组的描述统计量和对各组均值是否相等的检验。第1张表反映的是有效样本量及变量缺失的情况。第2张表是各组变量的描述统计分析。第3张表是对各组均值是否相等的检验。由第3张表可以看出,在0.01的显著性水平上我们拒绝变量萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值相等的假设,即认为变量萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值是有显著

    24、性差异的。 输出结果4-2Boxs Test of Equality of Covariance Matrices(1)(2)输出结果4-2是对各组协方差矩阵是否相等的BoxM检验。第1张表反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出协方差矩阵不是病态矩阵。第2张表是对各总体协方差阵是否相等的统计检验。由值及其显著水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等)。因此,在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups,以检验采用Within-groups和Separate-groups两种协方差所得出的结果是否存在

    25、显著差异。如果存在显著差异就应该采用Separate-groups协方差矩阵,反之,就用Within-groups协方差矩阵。输出结果4-3Summary of Canonical Discriminant Functions(1) (2) 输出结果4-3分析的是典型判别函数。第1张表反映判别函数的特征值、解释方差的比例和典型相关系数。第一判别函数解释了99.1的方差,第二判别函数解释了0.9%的方差,两个判别函数解释了全部方差。第2张表是对两个判别函数的显著性检验。由Wilks Lambda检验,认为两个判别函数在0.05的显著性水平上是显著的。 输出结果4-4(1) (2) (3) (4)

    26、 输出结果4-4显示的是判别函数、判别载荷和各组的重心。第1张表是标准化的判别函数,表示为,这里表示标准化变量,标准化变量的系数也就是前面讲的判别权重。第2张表是结构矩阵,即判别载荷。由判别权重和判别载荷可以看出两个解释变量对判别函数的贡献较大。第3张表是非标准化的判别函数,表示为我们可以根据这个判别函数计算每个观测的判别Z得分。第4张表是反映判别函数在各组的重心。根据结果,判别函数在这一组的重心为(-7.608,0.215),在这一组的重心为(1.825,-0.728),在这一组的重心为(5.783,0.513)。这样,我们就可以根据每个观测的判别Z得分将观测进行分类。输出结果4-5Clas

    27、sification Statistics(1) (2) (3) (4) (5)输出结果4-5是分类的统计结果。第1张表概括了分类过程,说明150个观测都参与分类。第2张表说明各组的先验概率,我们在Classify选项中选择的是所有组的先验概率相等。第3张表是每组的分类函数(区别于判别函数),也称费歇线性判别函数,由表中的结果可以说明,这一组的分类函数是这组的分类函数是这组的分类函数是。我们可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。第4张表是分类矩阵表。Predicted Group Membership表示预测的所属组关系,Original表示原始数据的所属组

    28、关系,Cross-validated表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的。由第4张表可以看出,通过判别函数预测,有147个观测是分类正确的,其中,组50个观测全部被判对,组50个观测中有48个观测被判对,组50个观测中有49个观测被判对,从而有147/150=98%的原始观测被判对。在交叉验证中,组50个观测全部被判对,组50个观测中有48个观测被判对,组50个观测中有49个观测被判对,从而交叉验证有147/150=98%的原始观测被判对。还可以通过分类结果分析判对和判错的百分比。第(5)为分类结

    29、果图,从图中可以看到,Setosa鸢尾花与Versicolour鸢尾花和Virginica鸢尾花可以很清晰的区分开,而Versicolour鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。我们还可以通过保存(Save)选项选择预测的类别关系和判别得分等,对观测进行诊断。由前面分析我们发现,协方差矩阵不等,可以考虑采用Separate-groups协方差矩阵,选择Separate-groups协方差矩阵,其他选择同上,得分类结果表如下:输出结果4-6(1)(2)由第1张表可以看出,通过判别函数预测,有146个观测是分类正确的,其中,组50个观测全部被判对,组50个观测中有47

    30、个观测被判对,组50个观测中有49个观测被判对,从而有146/150=97.3%的原始观测被判对。第(2)为分类结果图,从图中可以看到,Setosa鸢尾花与Versicolour鸢尾花和Virginica鸢尾花可以很清晰的区分开,而Versicolour鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。由输出结果4-6可以看出,采用Separate-groups协方差矩阵与采用Within-groups协方差矩阵的预测效果没有明显的差别,因此,可以采用Within-groups协方差矩阵来进行判别。例4-2 距离判别案例。为了研究2008年全国各地区城镇居民家庭人均消费支出情

    31、况,按人均收入、人均GDP以及消费支出将29个省、市、自治区(除天津和陕西以外)分为三种类型,设置group变量取值分别为1、2、3。试建立判别函数,判定天津、陕西分别属于哪个消费水平类型。判别指标及原始数据见表41。解:本例中组数k=3,判别指标p=8,各组中样本为:,待判样品个数为2。总体协差阵的逆矩阵:表4-1 2008年31个省、市、自治区农村居民家庭平均每人生活消费支出 x1 人均食品支出 (元/人) x5 人均交通和通信支出 (元/人) x2 人均衣着支出 (元/人) x6 人均文教娱乐用品及服务支出(元/人) x3 人均住房支出 (元/人) x7 人均医疗保健支出 (元/人) x

    32、4 人均家庭设备及服务支出 (元/人) x8 其他商品及服务支出 (元/人)序号地区x1x2x3x4x5x6x7x8Group1上 海7108.621520.611646.191182.24755.293373.192874.54937.2112广 东5866.91975.061748.16947.54836.392623.081936.38594.4513北 京5561.541571.741286.321096.571563.12293.232383.52704.2414浙 江5522.561546.461333.69713.31933.112392.632195.58520.9515江 苏

    33、4544.641166.911042.1813.45794.631357.961799.75458.116福 建5078.851105.311300.1722.17540.631777.061453.18523.8327重 庆4418.341294.31096.82842.09878.251044.361267.03305.628云 南4272.291026.5739.2331.94606.861216.46732.95150.4229西 藏4262.771011.82634.94310.22317.08966.74419.59400.38210四 川4255.481042.45819.285

    34、90.51564.931121.45947.01338.03211海 南4226.9491.841106.39565.51536.41303.5930.87247.08212广 西4082.99772.28891.33603.84529.361376.031081.54290.04213湖 北3996.271099.16914.26604.4675.32890.121037.24260.74214湖 南3970.421090.72960.82674.84790.95971.051110.11376.62215安 徽3905.051010.61988.12579.59633.93920.7711

    35、60.14325.82216山 东3699.421394.111247.04806.35799.791410.451277.43372.01217江 西3633.05969.58851.15623.17483.96872.57945.99337.91218贵 州3597.94851.5836.54525.7471.39871.15934.73260.27219辽 宁4378.141187.411270.95507.4913.131295.71145.46533.29320内蒙古3553.481616.561028.19672.64869.711191.71383.53512.81321宁 夏3

    36、352.831178.881069.15596.81816.871096.321043.72403.71322青 海3315.94945.14802.73538.54610.02787.63880.86311.72323吉 林3307.141259.621285.28510.49914.47954.961071.8425.3324新 疆3235.771245.02781.9535.31643.481003.89812.36411.63325甘 肃3183.791022.62846.26546.23654.82817.17936.33301.4326河 北3155.41137.221097.41

    37、574.84808.881062.31946.38304.28327黑龙江3128.11217.04941.25494.49864.89749.05906.19321.95328河 南3079.821141.76963.59633.32790.87915.12988.95324.03329山 西2974.761137.711250.87471.65769.79931.331041.91228.5331天 津5005.091153.661528.28817.181220.921567.871608.97520.492陕 西3586.131047.611007.68618.16862.7967.5

    38、21281.58400.68资料来源:中国统计年鉴2008距离判别法无法在SPSS中直接实现,在R软件中运行如下程序,可得。距离判别程序:#读取数据(数据集为“城镇消费.csv”)a=read.csv(d:/data/城镇消费.csv,header=T);a;names(a);attach(a);a1=a1:5,;a1;a2=a6:18,;a2;a3=a20:29,;a3;#计算协方差阵、逆矩阵、和各组均值v=cov(a,3:10);v;v_1=solve(v);v_1;m=mean(a,3:10);m;m1=mean(a13:10);m1;m2=mean(a23:10);m2;m3=mean(a33:10);m3;#计算与三组的距离d1=c(1:31);i=1for(i in 1:31)if(i=31)d1i=as.matrix(ai,3:10-m1)%


    注意事项

    本文(多元统计分析》第三版例题习题数据文件__人大何晓群.doc)为本站会员(星星)主动上传,沃文网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知沃文网(点击联系客服),我们立即给予删除!




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服点击这里,给沃文网发消息,QQ:2622162128 - 联系我们

    版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。

    Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1

    陕公网安备 61072602000132号     违法和不良信息举报:0916-4228922