⑴ 多元统计分析法主要包括
多元统计分析方法主要包括线性回归分析方法、判别分析方法、聚类分析方法、主成份分析方法、因子分析方法、对应分析方法、典型相关分析方法以及片最小二乘回归分析方法等。
《多元统计分析方法》是2009年上海格致出版社出版的图书,作者是(德)巴克豪斯。本书主要讲解了多元统计分析中最常见的九种方法。
简介
多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点。主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验。
多元方差分析、直线回归与相关、多元线性回归与相关(Ⅰ)和(Ⅱ)、主成分分析与因子分析、判别分析与聚类分析、Shannon信息量及其应用。简称多元分析。当总体的分布是多维(多元)概率分布时,处理该总体的数理统计理论和方法。数理统计学中的一个重要的分支学科。
⑵ 多元统计分析概述
后期会把每一章的学习笔记链接加上
多元统计分析 是研究多个随机变量之间相互依赖关系及其内在统计规律的一门学科
在统计学的基本内容汇总,只考虑一个或几个因素对一个观测指标(变量)的影响大小的问题,称为 一元统计分析 。
若考虑一个或几个因素对两个或两个以上观测指标(变量)的影响大小的问题,或者多个观测指标(变量)的相互依赖关系,既称为 多元统计分析 。
有两大类,包括:
将数据归类,找出他们之间的联系和内在规律。
构造分类模型一般采用 聚类分析 和 判别分析 技术
在众多因素中找出各个变量中最佳的子集合,根据子集合所包含的信心描述多元系统的结果及各个因子对系统的影响,舍弃次要因素,以简化系统结构,认识系统的内核(有点做单细胞降维的意思)
可采用 主成分分析 、 因子分析 、 对应分析 等方法。
多元统计分析的内容主要有: 多元数据图示法 、 多元线性相关 与 回归分析 、 判别分析 、 聚类分析 、 主成分分析 、 因子分析 、 对应分析 及 典型相关分析 等。
多元数据是指具有多个变量的数据。如果将每个变量看作一个随机向量的话,多个变量形成的数据集将是一个随机矩阵,所以多元数据的基本表现形式是一个矩阵。对这些数据矩阵进行数学表示是我们的首要任务。也就是说,多元数据的基本运算是矩阵运算,而R语言是一个优秀的矩阵运算语言,这也是我们应用它的一大优势。
直观分析即图示法,是进行数据分析的重要辅助手段。例如,通过两变量的散点图可以考察异常的观察值对样本相关系数的影响,利用矩阵散点图可以考察多元之间的关系,利用多元箱尾图可以比较几个变量的基本统计量的大小差别。
相关分析就是通过对大量数字资料的观察,消除偶然因素的影响,探求现象之间相关关系的密切程度和表现形式。在经济系统中,各个经济变量常常存在内在的关系。例如,经济增长与财政收人、人均收入与消费支出等。在这些关系中,有一些是严格的函数关系,这类关系可以用数学表达式表示出来。还有一些是非确定的关系,一个变量产生变动会影响其他变量,使其产生变化。这种变化具有随机的特性,但是仍然遵循一定的规律。函数关系很容易解决,而那些非确定的关系,即相关关系,才是我们所关心的问题。
回归分析研究的主要对象是客观事物变量间的统计关系。它是建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在看起来不确定的现象中的统计规律的方法。回归分析不仅可以揭示自变量对因变量的影响大小,还可以用回归方程进行预测和控制。回归分析的主要研究范围包括:
(1) 线性回归模型: 一元线性回归模型 , 多元线性回归模型 。
(2) 回归模型的诊断: 回归模型基本假设的合理性,回归方程拟合效果的判定,选择回归函数的形式。
(3) 广义线性模型: 含定性变量的回归 , 自变量含定性变量 , 因变量含定性变量 。
(4) 非线性回归模型: 一元非线性回归 , 多元非线性回归 。
在实际研究中,经常遇到一个随机变量随一个或多个非随机变量的变化而变化的情况,而这种变化关系明显呈非线性。怎样用一个较好的模型来表示,然后进行估计与预测,并对其非线性进行检验就成为--个重要的问题。在经济预测中,常用多元回归模型反映预测量与各因素之间的依赖关系,其中,线性回归分析有着广泛的应用。但客观事物之间并不一定呈线性关系,在有些情况下,非线性回归模型更为合适,只是建立起来较为困难。在实际的生产过程中,生产管理目标的参量与加工数量存在相关关系。随着生产和加工数量的增加,生产管理目标的参量(如生产成本和生产工时等)大多不是简单的线性增加,此时,需采用非线性回归分析进行分析。
鉴于统计模型的多样性和各种模型的适应性,针对因变量和解释变量的取值性质,可将统计模型分为多种类型。通常将自变量为定性变量的线性模型称为 一般线性模型 ,如实验设计模型、方差分析模型; 将因变量为非正态分布的线性模型称为 广义线性模型 ,如 Logistic回归模型 、 对数线性模型 、 Cox比例风险模型 。
1972年,Nelder对经典线性回归模型作了进一步的推广,建立了统一的理论和计算框架,对回归模型在统计学中的应用产生了重要影响。这种新的线性回归模型称为广义线性模型( generalized linear models,GLM)。
广义线性模型是多元线性回归模型的推广,从另一个角度也可以看作是非线性模型的特例,它们具有--些共性,是其他非线性模型所不具备的。它与典型线性模型的区别是其随机误差的分布 不是正态分布 ,与非线性模型的最大区别则在于非线性模型没有明确的随机误差分布假定,而广义线性模型的 随机误差的分布是可以确定的 。广义线性模型 不仅包括离散变量,也包括连续变量 。正态分布也被包括在指数分布族里,该指数分布族包含描述发散状况的参数,属于双参数指数分布族。
判别分析是多元统计分析中用于 判别样本所属类型 的一种统计分析方法。所谓判别分析法,是在已知的分类之下,一旦有新的样品时,可以利用此法选定一个判别标准,以判定将该新样品放置于哪个类别中。判别分析的目的是对已知分类的数据建立由数值指标构成的 分类规则 ,然后把这样的规则应用到未知分类的样品中去分类。例如,我们获得了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标中发现两类人的区别。把这种区别表示为一个判别公式,然后对那些被怀疑患胃炎的人就可以根据其化验指标用判别公式来进行辅助诊断。
聚类分析是研究 物以类聚 的--种现代统计分析方法。过去人们主要靠经验和专业知识作定性分类处理,很少利用数学方法,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。为了克服定性分类的不足,多元统计分析逐渐被引人到数值分类学中,形成了聚类分析这个分支。
聚类分析是一种分类技术,与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。 聚类分析 与 回归分析 、 判别分析 一起被称为多元分析的三个主要方法。
在实际问题中,研究多变量问题是经常遇到的,然而在多数情况下,不同变量之间有一定相关性,这必然增加了分析问题的复杂性。主成分分析就是一种 通过降维技术把多个指标化为少数几个综合指标 的统计分析方法。如何将具有错综复杂关系的指标综合成几个较少的成分,使之既有利于对问题进行分析和解释,又便于抓住主要矛盾作出科学的评价,此时便可以用主成分分析方法。
因子分析是主成分分析的推广,它也是一种把多个变量化为少数几个综合变量的多元分析方法,但其目的是 用有限个不可观测的隐变量来解释原变量之间的相关关系 。主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多元分析中,变量间往往存在相关性,是什么原因使变量间有关联呢? 是否存在不能直接观测到的但影响可观测变量变化的公共因子呢?
因子分析就是寻找这些公共因子的统计分析方法,它是 在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别 。例如,在研究糕点行业的物价变动中,糕点行业品种繁多、多到几百种甚至上千种,但无论哪种样式的糕点,用料不外乎面粉、食用油、糖等主要原料。那么,面粉、食用油、糖就是众多糕点的公共因子,各种糕点的物价变动与面粉、食用油、糖的物价变动密切相关,要了解或控制糕点行业的物价变动,只要抓住面粉、食用油和糖的价格即可。
对应分析又称为相应分析,由法国统计学家J.P.Beozecri于 1970年提出。对应分析是在因子分析基础之上发展起来的一种多元统计方法,是Q型和R型因子分析的联合应用。在经济管理数据的统计分析中,经常要处理三种关系,即 样品之间的关系(Q型关系)、变量间的关系(R型关系)以及样品与变量之间的关系(对应型关系) 。例如,对某一行业所属的企业进行经济效益评价时,不仅要研究经济效益指标间的关系,还要将企业按经济效益的好坏进行分类,研究哪些企业与哪些经济效益指标的关系更密切一些,为决策部门正确指导企业的生产经营活动提供更多的信息。这就需要有一种统计方法, 将企业(样品〉和指标(变量)放在一起进行分析、分类、作图,便于作经济意义.上的解释 。解决这类问题的统计方法就是对应分析。
在相关分析中,当考察的一组变量仅有两个时,可用 简单相关系数 来衡量它们;当考察的一组变量有多个时,可用 复相关系数 来衡量它们。大量的实际问题需要我们把指标之间的联系扩展到两组变量,即 两组随机变量之间的相互依赖关系 。典型相关分析就是用来解决此类问题的一种分析方法。它实际上是 利用主成分的思想来讨论两组随机变量的相关性问题,把两组变量间的相关性研究化为少数几对变量之间的相关性研究,而且这少数几对变量之间又是不相关的,以此来达到化简复杂相关关系的目的 。
典型相关分析在经济管理实证研究中有着广泛的应用,因为许多经济现象之间都是多个变量对多个变量的关系。例如,在研究通货膨胀的成因时,可把几个物价指数作为一组变量,把若干个影响物价变动的因素作为另一组变量,通过典型相关分析找出几对主要综合变量,结合典型相关系数对物价上涨及通货膨胀的成因,给出较深刻的分析结果。
多维标度分析( multidimensional scaling,MDS)是 以空间分布的形式表现对象之间相似性或亲疏关系 的一种多元数据分析方法。1958年,Torgerson 在其博士论文中首次正式提出这一方法。MDS分析多见于市场营销,近年来在经济管理领域的应用日趋增多,但国内在这方面的应用报道极少。多维标度法通过一系列技巧,使研究者识别构成受测者对样品的评价基础的关键维数。例如,多维标度法常用于市场研究中,以识别构成顾客对产品、服务或者公司的评价基础的关键维数。其他的应用如比较自然属性(比如食品口味或者不同的气味),对政治候选人或事件的了解,甚至评估不同群体的文化差异。多维标度法 通过受测者所提供的对样品的相似性或者偏好的判断推导出内在的维数 。一旦有数据,多维标度法就可以用来分析:①评价样品时受测者用什么维数;②在特定情况下受测者可能使用多少维数;③每个维数的相对重要性如何;④如何获得对样品关联的感性认识。
20世纪七八十年代,是现代科学评价蓬勃兴起的年代,在此期间产生了很多种评价方法,如ELECTRE法、多维偏好分析的线性规划法(LINMAP)、层次分析法(AHP)、数据包络分析法(EDA)及逼近于理想解的排序法(TOPSIS)等,这些方法到现在已经发展得相对完善了,而且它们的应用也比较广泛。
而我国现代科学评价的发展则是在20世纪八九十年代,对评价方法及其应用的研究也取得了很大的成效,把综合评价方法应用到了国民经济各个部门,如可持续发展综合评价、小康评价体系、现代化指标体系及国际竞争力评价体系等。
多指标综合评价方法具有以下特点: 包含若干个指标,分别说明被评价对象的不同方面 ;评价方法最终要 对被评价对象作出一个整体性的评判,用一个总指标来说明被评价对象的一般水平 。
目前常用的综合评价方法较多, 如综合评分法、综合指数法、秩和比法、层次分析法、TOPSIS法、模糊综合评判法、数据包络分析法 等。
R -- 永远滴神~
⑶ 统计学属于数学类的专业吗
统计学属于数学类的专业。
统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关决策提供依据和参考,其不仅仅是统计数字,还包含了调查、收集、分析、预测等,应用范围十分广泛。
课程体系:《C/C++程序设计》《数理统计学》《保险会计学》《初等数论》《应用多元统计分析》《统计学概论》《金融建模》《风险理论分析》《复变与积分变换》《宏观经济统计分析》 。
就业的单位有:银行、证券公司、信托投资公司、保险公司等各种金融机构以及国家部委、企业、咨询公司和学校等。
就业前景:
随着大数据时代的来临,统计学和数据分析更是发生了革命性的变化。各行各业都产生了大量的数据。这些数据都需要用统计方法进行挖掘分析应用,才能成为有价值的信息资产。计算机和大数据为统计学带来了广阔的市场前景,带火了统计学专业,统计学的热潮已从研究生蔓延到本科。
以上内容参考:网络——统计学
⑷ 多元统计分析与统计分析的区别是什么差不多吗
多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和对个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点。主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归与相关(Ⅰ)和(Ⅱ)、主成分分析与因子分析、判别分析与聚类分析、Shannon信息量及其应用。简称多元分析。当总体的分布是多维(多元)概率分布时,处理该总体的数理统计理论和方法。数理统计学中的一个重要的分支学科
统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。它是继统计设计、统计调查、统计整理之后的一项十分重要的工作,是在前几个阶段工作的基础上通过分析从而达到对研究对象更为深刻的认识。它又是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完善的资料是统计分析的必要条件
⑸ 多元统计分析方法的作用是什么
多元统计分析方法的作用使实际工作者利用多元统计分析方法解决实际问题更简单方便。
如果每个个体有多个观测数据,或者从数学上说,如果个体的观测数据能表为P维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法就叫做多元统计分析,它是数理统计学中的一个重要的分支学科。
典型相关分析
它是寻求两组变量各自的线性函数中相关系数达到最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但至今未能广泛应用。
⑹ 统计分析数据时有哪些数学方法
一般来说,一些简单的加总,平均应该够用。。。
再学的深一点就是线性回归分析,方差分析,主成分分析与典型相关分析 ,判别分析 ,聚类分析 等多元统计分析···
⑺ 多元统计分析的先修课程是不是统计学呢
是的,多元统计学的学习需要有较好的 概率论 数理统计(基本统计)理论,当然也需要高等数学的一定基础,还要有统计软件的了解。建议先学完统计学,在选多元统计,否则学不明白,纯粹就混个学分了。
⑻ 多元统计分析可以通过计量分析做吗
多元统计分析可以通过计量分析做。
多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点,主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归与相关主成分分析与因子分析、判别分析与聚类分析、信息量及其应用。
多元统计分析
研究客观事物中多个变量或多个因素之间相互依赖的统计规律性,在它的重要基础之一是多元正态分析,又称多元分析,如果每个个体有多个观测数据,或者从数学上说,如果个体的观测数据能表为维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法就叫做多元统计分析。
⑼ 统计学方法有哪些
一、描述统计
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
集中趋势分析:集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?
离中趋势分析:离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。
相关分析:相关分析探讨数据之间是否具有统计学上的关联性。这种关系既包括两个数据之间的单一相关关系——如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系——如年龄、抑郁症发生率、个人领域空间之间的关系;既包括A大B就大(小),A小B就小(大)的直线相关关系,也可以是复杂相关关系(A=Y-B*X);既可以是A、B变量同时增大这种正相关关系,也可以是A变量增大时B变量减小这种负相关,还包括两变量共同变化的紧密程度——即相关系数。实际上,相关关系唯一不研究的数据关系,就是数据协同变化的内在根据——即因果关系。获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。
例如,我们想知道对监狱情景进行什么改造,可以降低囚徒的暴力倾向。我们就需要将不同的囚舍颜色基调、囚舍绿化程度、囚室人口密度、放风时间、探视时间进行排列组合,然后让每个囚室一种实验处理,然后用因素分析法找出与囚徒暴力倾向的相关系数最高的因素。假定这一因素为囚室人口密度,我们又要将被试随机分入不同人口密度的十几个囚室中生活,继而得到人口密度和暴力倾向两组变量(即我们讨论过的A、B两列变量)。然后,我们将人口密度排入X轴,将暴力倾向分排入Y轴,获得了一个很有价值的图表,当某典狱长想知道,某囚舍扩建到N人/间囚室,暴力倾向能降低多少。我们可以当前人口密度和改建后人口密度带入相应的回归方程,算出扩建前的预期暴力倾向和扩建后的预期暴力倾向,两数据之差即典狱长想知道的结果。
推论统计:
推论统计是统计学乃至于心理统计学中较为年轻的一部分内容。它以统计结果为依据,来证明或推翻某个命题。具体来说,就是通过分析样本与样本分布的差异,来估算样本与总体、同一样本的前后测成绩差异,样本与样本的成绩差距、总体与总体的成绩差距是否具有显着性差异。例如,我们想研究教育背景是否会影响人的智力测验成绩。可以找100名24岁大学毕业生和100名24岁初中毕业生。采集他们的一些智力测验成绩。用推论统计方法进行数据处理,最后会得出类似这样儿的结论:“研究发现,大学毕业生组的成绩显着高于初中毕业生组的成绩,二者在0.01水平上具有显着性差异,说明大学毕业生的一些智力测验成绩优于中学毕业生组。”
其中,如果用EXCEL 来求描述统计。其方法是:工具-加载宏-勾选"分析工具库",然后关闭Excel然后重新打开,工具菜单就会出现"数据分析"。描述统计是“数据分析”内一个子菜单,在做的时候,记得要把方格输入正确。最好直接点选。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、假设检验
1、参数检验
参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。
1)U验 :使用条件:当样本含量n较大时,样本值符合正态分布
2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布
A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;
B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;
C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。
2、非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
A 虽然是连续数据,但总体分布形态未知或者非正态;
B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
三、信度分析
介绍:信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。
方法:(1)重测信度法编辑:这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。
(2)复本信度法编辑:让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。
(3)折半信度法编辑:折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表(李克特量表(Likert scale)是属评分加总式量表最常用的一种,属同一构念的这些项目是用加总方式来计分,单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成,每一陈述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五种回答,分别记为5、4、3、2、1,每个被调查者的态度总分就是他对各道题的回答所得分数的加总,这一总分可说明他的态度强弱或他在这一量表上的不同状态。)。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式:求出整个量表的信度系数(ru)。
(4)α信度系数法编辑:Cronbach
α信度系数是目前最常用的信度系数,其公式为:
α=(k/(k-1))*(1-(∑Si^2)/ST^2)
其中,K为量表中题项的总数, Si^2为第i题得分的题内方差, ST^2为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。
总量表的信度系数最好在0.8以上,0.7-0.8之间可以接受;分量表的信度系数最好在0.7以上,0.6-0.7还可以接受。Cronbach 's alpha系数如果在0.6以下就要考虑重新编问卷。
检査测量的可信度,例如调查问卷的真实性。
分类:
1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度
2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。
四、列联表分析
列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。
简介:一般,若总体中的个体可按两个属性A、B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。
列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
用于分析离散变量或定型变量之间是否存在相关。
列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?在r×с表中,若以pi、pj和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi,pj称边缘概率,pij称格概率),“A、B两属性无关联”的假设可以表述为H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估计(见点估计)分别为行和及列和(统称边缘和)
为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假设检验),当h0成立,且一切pi>0和pj>0时,统计量的渐近分布是自由度为(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,可以据此对h0作检验:若Ⅹ值足够大,就拒绝假设h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。
需要注意:
若样本大小n不很大,则上述基于渐近分布的方法就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显着性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。
对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。
列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。
五、相关分析
研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;
2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;
3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。
六、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
分类
1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系
2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,
七、回归分析
分类:
1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。
2、多元线性回归分析
使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。
1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法
2)横型诊断方法:
A 残差检验: 观测值与估计值的差值要艰从正态分布
B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法
C 共线性诊断:
• 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
• 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等
3、Logistic回归分析
线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况
分类:
Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。
4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等
八、聚类分析
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多着名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
定义:
依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。
各指标之间具有一定的相关关系。
聚类分析(cluster
analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析区别于分类分析(classification
analysis) ,后者是有监督的学习。
变量类型:定类变量、定量(离散和连续)变量
样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。
1、性质分类:
Q型聚类分析:对样本进行分类处理,又称样本聚类分祈使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等
R型聚类分析:对指标进行分类处理,又称指标聚类分析使用相似系数作为统计量衡量相似度,相关系数、列联系数等
2、方法分类:
1)系统聚类法:适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类
2)逐步聚类法:适用于大样本的样本聚类
3)其他聚类法:两步聚类、K均值聚类等
九、判别分析
1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体
2、与聚类分析区别
1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本
2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类
3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类
3、进行分类 :
1)Fisher判别分析法 :
以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类,适用于两类判别;
以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于
适用于多类判别。
2)BAYES判别分析法 :
BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;
十、主成分分析
介绍:主成分分析(Principal
Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息。
原理:在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
缺点: 1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。
2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
十一、因子分析
一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法
与主成分分析比较:
相同:都能够起到治理多个原始变量内在结构关系的作用
不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法
用途:
1)减少分析变量个数
2)通过对变量间相关关系探测,将原始变量进行分类
十二、时间序列分析
动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型
时间序列是指同一变量按事件发生的先后顺序排列起来的一组观察值或记录值。构成时间序列的要素有两个:其一是时间,其二是与时间相对应的变量水平。实际数据的时间序列能够展示研究对象在一定时期内的发展变化趋势与规律,因而可以从时间序列中找出变量变化的特征、趋势以及发展规律,从而对变量的未来变化进行有效地预测。
时间序列的变动形态一般分为四种:长期趋势变动,季节变动,循环变动,不规则变动。
时间序列预测法的应用:
系统描述:根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述;
系统分析:当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理;
预测未来:一般用ARMA模型拟合时间序列,预测该时间序列未来值;
决策和控制:根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
特点:
假定事物的过去趋势会延伸到未来;
预测所依据的数据具有不规则性;
撇开了市场发展之间的因果关系。
①时间序列分析预测法是根据市场过去的变化趋势预测未来的发展,它的前提是假定事物的过去会同样延续到未来。事物的现实是历史发展的结果,而事物的未来又是现实的延伸,事物的过去和未来是有联系的。市场预测的时间序列分析法,正是根据客观事物发展的这种连续规律性,运用过去的历史数据,通过统计分析,进一步推测市场未来的发展趋势。市场预测中,事物的过去会同样延续到未来,其意思是说,市场未来不会发生突然跳跃式变化,而是渐进变化的。
时间序列分析预测法的哲学依据,是唯物辩证法中的基本观点,即认为一切事物都是发展变化的,事物的发展变化在时间上具有连续性,市场现象也是这样。市场现象过去和现在的发展变化规律和发展水平,会影响到市场现象未来的发展变化规律和规模水平;市场现象未来的变化规律和水平,是市场现象过去和现在变化规律和发展水平的结果。
需要指出,由于事物的发展不仅有连续性的特点,而且又是复杂多样的。因此,在应用时间序列分析法进行市场预测时应注意市场现象未来发展变化规律和发展水平,不一定与其历史和现在的发展变化规律完全一致。随着市场现象的发展,它还会出现一些新的特点。因此,在时间序列分析预测中,决不能机械地按市场现象过去和现在的规律向外延伸。必须要研究分析市场现象变化的新特点,新表现,并且将这些新特点和新表现充分考虑在预测值内。这样才能对市场现象做出既延续其历史变化规律,又符合其现实表现的可靠的预测结果。
②时间序列分析预测法突出了时间因素在预测中的作用,暂不考虑外界具体因素的影响。时间序列在时间序列分析预测法处于核心位置,没有时间序列,就没有这一方法的存在。虽然,预测对象的发展变化是受很多因素影响的。但是,运用时间序列分析进行量的预测,实际上将所有的影响因素归结到时间这一因素上,只承认所有影响因素的综合作用,并在未来对预测对象仍然起作用,并未去分析探讨预测对象和影响因素之间的因果关系。因此,为了求得能反映市场未来发展变化的精确预测值,在运用时间序列分析法进行预测时,必须将量的分析方法和质的分析方法结合起来,从质的方面充分研究各种因素与市场的关系,在充分分析研究影响市场变化的各种因素的基础上确定预测值。
需要指出的是,时间序列预测法因突出时间序列暂不考虑外界因素影响,因而存在着预测误差的缺陷,当遇到外界发生较大变化,往往会有较大偏差,时间序列预测法对于中短期预测的效果要比长期预测的效果好。因为客观事物,尤其是经济现象,在一个较长时间内发生外界因素变化的可能性加大,它们对市场经济现象必定要产生重大影响。如果出现这种情况,进行预测时,只考虑时间因素不考虑外界因素对预测对象的影响,其预测结果就会与实际状况严重不符。
⑽ 多元统计分析的简介
multivariate statistical analysis
研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律性。它的重要基础之一是多元正态分析。又称多元分析 。 如果每个个体有多个观测数据,或者从数学上说, 如果个体的观测数据能表为 P维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法就叫做多元统计分析 。 它是数理统计学中的一个重要的分支学科。20世纪30年代,R.A.费希尔,H.霍特林,许宝碌以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到迅速发展。50年代中期,随着电子计算机的发展和普及 ,多元统计分析在地质 、气象、生物、医学、图像处理、经济分析等许多领域得到了广泛的应用 ,同时也促进了理论的发展。各种统计软件包如SAS,SPSS等,使实际工作者利用多元统计分析方法解决实际问题更简单方便。重要的多元统计分析方法有:多重回归分析(简称回归分析)、判别分析、聚类分析、主成分分析、对应分析、因子分析、典型相关分析、多元方差分析等。
早在19世纪就出现了处理二维正态总体(见正态分布)的一些方法,但系统地处理多维概率分布总体的统计分析问题,则开始于20世纪。人们常把1928年维夏特分布的导出作为多元分析成为一个独立学科的标志。20世纪30年代,R.A.费希尔、H.霍特林、许宝禄以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到了迅速的进展。40年代,多元分析在心理、教育、生物等方面获得了一些应用。由于应用时常需要大量的计算,加上第二次世界大战的影响,使其发展停滞了相当长的时间。50年代中期,随着电子计算机的发展和普及,它在地质、气象、标准化、生物、图像处理、经济分析等许多领域得到了广泛的应用,也促进了理论的发展。
多元分析发展的初期,主要讨论如何把一元正态总体的统计理论和方法推广到多元正态总体。多元正态总体的分布由两组参数,即均值向量μ(见数学期望)和协方差矩阵(简称协差阵)∑ (见矩)所决定,记为Np(μ,∑)(p为分布的维数,故又称p维正态分布或p 维正态总体)。设X1,X2,…,Xn为来自正态总体Np(μ,∑)的样本,则μ和∑的无偏估计(见点估计)分别是
和
分别称之为样本均值向量和样本协差阵,它们是在各种多元分析问题中常用的统计量。样本相关阵R 也是一个重要的统计量,它的元素为
其中υij为样本协差阵S的元素。S的分布是维夏特分布,它是一元统计中的Ⅹ2分布的推广。
另一典型问题是:假定两个多维正态分布协差阵相同,检验其均值向量是否相同。设样本X1,X2,…,Xn抽自正态总体Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要检验假设H 0:μ1=μ2(见假设检验)。在一元统计中使用t统计量(见统计量)作检验;在多元分析中则用T2统计量,
,其中,
,
·
,T2的分布称为T2分布。这是H.霍特林在1936年提出来的。
在上述问题中的多元与一元相应的统计量是类似的,但并非都是如此。例如,要检验k个正态总体的均值是否相等,在一元统计中是导致F统计量,但在多元分析中可导出许多统计量,最着名的有威尔克斯Λ统计量和最大相对特征根统计量。研究这些统计量的精确分布和优良性是近几十年来多元统计分析的重要理论课题。
多元统计分析有狭义与广义之分,当假定总体分布是多元正态分布时,称为狭义的,否则称为广义的。近年来,狭义多元分析的许多内容已被推广到更广的分布之中,特别是推广到一种称为椭球等高分布族之中。
按多元分析所处理的实际问题的性质分类,重要的有如下几种。 简称回归分析。其特点是同时处理多个因变量。回归系数和常数的计算公式与通常的情况相仿,只是由于因变量不止一个,原来的每个回归系数在此都成为一个向量。因此,关于回归系数的检验要用T2统计量;对回归方程的显着性检验要用Λ统计量。
回归分析在地质勘探的应用中发展了一种特殊的形式,称为趋势面分析,它以各种元素的含量作为因变量,把它们对地理坐标进行回归(选用一次、二次或高次的多项式),回归方程称为趋势面,反映了含量的趋势。残差分析是趋势面分析的重点,找出正的残差异常大的点,在这些点附近,元素的含量特别高,这就有可能形成可采的矿位。这一方法在其他领域也有应用。 由 k个不同总体的样本来构造判别函数,利用它来决定新的未知类别的样品属于哪一类,这是判别分析所处理的问题。它在医疗诊断、天气预报、图像识别等方面有广泛的应用。例如,为了判断某人是否有心脏病,从健康的人和有心脏病的人这两个总体中分别抽取样本,对每人各测两个指标X1和X2,点绘如图 。可用直线A将平面分成g1和g2两部分,落在g1的绝大部分为健康者,落在g2的绝大部分为心脏病人,利用A的垂线方向l=(l1,l2)来建立判别函数
y=l1X1+l2X2,可以求得一常数с,使 y<с 等价于(X1,X2)落在g1,y>с等价于(X1,X2)落在g2。由此得判别规则:若,l1X1+l2X2<c
判,即此人为健康者;若,l1X1+l2X2>C
判,
即此人为心脏病人;若,l1X1+l2X2=c则为待判。此例的判别函数是线性函数,它简单方便,在实际问题中经常使用。但有时也用非线性判别函数,特别是二次判别函数。建立判别函数和判别规则有不少准则和方法,常用的有贝叶斯准则、费希尔准则、距离判别、回归方法和非参数方法等。
无论用哪一种准则或方法所建立的判别函数和判别规则,都可能产生错判,错判所占的比率用错判概率来度量。当总体间区别明显时,错判概率较小;否则错判概率较大。判别函数的选择直接影响到错判概率,故错判概率可用来比较不同方法的优劣。
变量(如上例中的X1和X2)选择的好坏是使用判别分析的最重要的问题,常用逐步判别的方法来筛选出一些确有判别作用的变量。利用序贯分析的思想又产生了序贯判别分析。例如医生在诊断时,先确定是否有病,然后确定是哪个系统有病,再确定是什么性质的病等等。 又称数值分类。聚类分析和判别分析的区别在于,判别分析是已知有多少类和样本来自哪一类,需要判别新抽取的样本是来自哪一类;而聚类分析则既不知有几类,也不知样本中每一个来自哪一类。例如,为了制定服装标准,对 N个成年人,测量每人的身高(x1)、胸围(x2)、肩宽(x3)、上体长(x4)、手臂长(x5)、前胸(x6)、后背(x7)、腰围(x8)、臀围(x9)、下体长(x10)等部位,要将这N个人进行分类,每一类代表一个号型;为了使用和裁剪的方便,还要对这些变量(x1,x2,…,x10)进行分类。聚类分析就是解决上述两种分类问题。
设已知N个观测值X1,X2,…,Xn,每个观测值是一个p维向量(如上例中人的身高、胸围等)。聚类分析的思想是将每个观测值Xi看成p维空间的一个点,在p维空间中引入“距离”的概念,则可按各点间距离的远近将各点(观测值)归类。若要对 p个变量(即指标)进行分类,常定义一种“相似系数”来衡量变量之间的亲密程度,按各变量之间相似系数的大小可将变量进行分类。根据实际问题的需要和变量的类型,对距离和相似系数有不同的定义方法。
按距离或相似系数分类,有下列方法。①凝聚法:它是先将每个观察值{Xi}看成一类,逐步归并,直至全部观测值并成一类为止,然后将上述并类过程画成一聚类图(或称谱系图),利用这个图可方便地得到分类。②分解法:它是先将全部观测值看成一类,然后逐步将它们分解为2类、3类、…、N类,它是凝聚法的逆过程。③动态聚类法:它是将观测值先粗糙地分类,然后按适当的目标函数和规定的程序逐步调整,直至不能再调为止。
若观察值X1,X2,…,Xn之间的次序在分类时不允许打乱,则称为有序分类。例如在地质学中将地层进行分类,只能将互相邻接的地层分成一类,不能打乱上下的次序。用于这一类问题中的重要方法是费希尔于1958年提出的最优分割法。
聚类分析也能用于预报洪水、暴雨、地震等灾害性问题,其效果比其他统计方法好。但它在理论上还很薄弱,因为它不象其他方法那样有确切的数学模型。 又称主分量分析,是将多个变量通过线性变换以选出较少个数重要变量的一种方法。设原来有p个变量x1,x2,…,xp,为了简化问题,选一个新变量z,
,
要求z尽可能多地反映p个变量的信息,以此来选择l1,l2,…,lp,当l1,l2,…,lp选定后,称z为x1,x2,…,xp的主成分(或主分量)。有时仅一个主成分不足以代表原来的p个变量,可用q(<p)个互不相关的呈上述形式的主成分来尽可能多地反映原p个变量的信息。用来决定诸系数的原则是,在
的约束下,选择l1,l2,…,lp使z的方差达到最大。
在根据样本进行主成分分析时又可分为R型分析与Q型分析。前者是用样本协差阵(或相关阵)的特征向量作为线性函数的系数来求主成分;后者是由样品之间的内积组成的内积阵来进行类似的处理,其目的是寻找出有代表性的“典型”样品,这种方法在地质结构的分析中常使用。 它是由样本的资料将一组变量
y2,……yp)
分解为一些公共因子f与特殊因子s的线性组合,即有常数矩阵A使у=Af+s。公共因子f 的客观内容有时是明确的,如在心理研究中,根据学生的测验成绩(指标)来分析他的反应快慢、理解深浅(公共因子);有时则是不明确的。为了寻求易于解释的公共因子,往往对因子轴进行旋转,旋转的方法有正交旋转,斜旋转,极大变差旋转等。
从样本协差阵或相关阵求公共因子的方法有广义最小二乘法、最大似然法与不加权的最小二乘法等。通常在应用中,最方便的是直接利用主成分分析所得的头几个主成分,它们往往是对各个指标影响都比较大的公共因子。 它是寻求两组变量各自的线性函数中相关系数达到最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但至今未能广泛应用。
上述的各种方法可以看成广义多元分析的内容,在有些方法中,如加上正态性的假定,就可以讨论一些更深入的问题,例如线性模型中有关线性假设检验的问题,在正态的假定下,就有比较系统的结果。 多元分析也可按指标是离散的还是连续的来区分,离散值的多元分析实质上与列联表分析有很大部分是类似的,甚至是一样的。
非数量指标数量化的理论和方法也是广义多元分析的一个重要的研究课题。