㈠ 水土资源合理利用案例研究———以张掖地区为例
9. 5. 1 张掖地区土地利用结构空间分异特征
研究区域土地利用结构的空间分异,可对复杂土地利用现象进行规律性简化,进而为各种土地利用问题的深入研究提供指导性框架。随着土地利用信息的日益丰富,如何科学处理大量相关信息,已是土地利用格局研究面临的问题。多元统计分析方法的应用,为相关的空间分异研究提供了可行的方法和手段。计算机应用技术的发展,使多元统计分析过程中的计算速度已不是限制因素; 相应地,发掘和利用数值方法,探索区域宏观空间分异特征的研究取得了许多进展 ( 李元,2000; 唐华俊等,2000) 。
本节以甘肃张掖市各县区 1996 年土地利用详查数据为基础,用提取主要信息的因子分析和综合各种信息的聚类分析相结合的方法,探讨该区域土地利用结构的空间分异特征。
以甘肃张掖市 6 个县 ( 区) 为评价单元,具体包括甘州区、肃南裕固族自治县、民乐县、临泽县、高台县和山丹县。基础数据为 1996 年土地利用详查数据,具体到土地利用的二级类型数据。除去面积为零或面积极小的土地利用二级类型外,引入计算的土地利用结构类型有 25 种,包括耕地中的灌溉水田、水浇地、旱地,园地中的果园,林地中的有林地、灌木林地、疏林地、未成林地、苗圃,草地中的天然草地、改良草地、人工草地,居民点及工矿用地中的城镇、农居、独立工矿地、特殊用地,交通用地中的铁路、公路、农村道路,水域中的河流、水库、坑塘、苇地、滩涂、沟渠。
多元统计分析方法中的因子分析和聚类分析是两种重要的综合评价方法。因子分析是建立一种从高维空间到低维空间的映射,这种映射能保持样本在高维空间的某种 “结构”,其中最明显的是与 “排序”有关的结构 ( 于秀林等,1999; 胡永宏等,2000) 。因子分析不仅可以研究各个指标之间的关系,进而进行指标归类; 而且更重要的是通过因子分析的综合评价,可赋予每个评价单元少数富含有结构性映射的综合得分值或降维新指标以及反映新指标重要程度的特征根值。
聚类分析主要体现综合分析的作用,并能展示各样本之间的亲疏关系。其局限性是,变量的量纲不同会影响分析结果,但经消除量纲影响的标准化处理,又使每个变量权重一致; 更为重要的是不能剔除变量之间的多余或重叠信息。可见单纯的聚类分析结果往往不能真实反映各样本之间的亲疏关系。但以因子分析的特征根为权重,乘以相应的因子得分值,则可以得到体现变量重要程度的少数指标,在此基础上进行的聚类分析可以较客观地反映样本或评价单元之间的亲疏关系。
对 25 种土地利用结构类型的比重进行因子分析和聚类分析。因子分析的具体步骤: ①利用主成分分析法提取公共因子。②根据方差累计贡献率提取特征根 ( 一般认为大于 70%) 。③选择方差最大正交旋转进行变换。④依据回归法计算因子得分。聚类分析方法的具体步骤: ①以因子分析的前几个特征根和相应的因子得分值,计算新的变量; ②在新变量非标准化的前提下,用 Euclidean 方法计算样本间距离,用 Ward 方法进行连接 ( 于秀林等,1999;胡永宏等,2000) 。
9. 5. 1. 1 评价指标之间的关系
评价指标的归类是综合数值分析的基础。有关土地利用结构类型的各种指标之间存在着程度不同的相关性,通过因子分析,可对不同指标做进一步的归并,深化人们对各种指标之间 “亲疏”关系的理解。如表9. 46、表9. 47、图9. 13 所示,前3 个特征根值的累计贡献率已经达到81. 559%( 大于 70%) ,即 25 个变量所反映的信息可由 3 个主成分 ( λ1+ λ2+ λ3≈20. 4 个变量) 反映81. 559%,降维效果十分明显。因此,在 25 个特征根中提取前 3 个特征根。
表 9. 46 因子分析总方差解释
注 : 提取方法为主成分分析; 旋转方法: 方差最大正交旋转。
表 9. 47 旋转后的因子成分矩阵
注: 提取方法为主成分分析; 旋转方法: 方差最大正交旋转。表中不显示绝对值小于 0. 1 的数值。
由表 9. 47 可知,第一因子在农村道路沟渠、特殊用地、水浇地、城镇、农居、果园、公路、改良草地、苇地和苗圃比重上的载荷较高,其中改良草地的影响为负,其他为正; 第二因子在独立工矿地、未成林地、疏林地、灌木林地、滩涂、水库、坑塘、天然草地和铁路用地比重上的载荷较高,疏林地、灌木林地和天然草地影响为负,其他为正; 第三因子在有林地、人工草地、旱地、灌溉水田和河流比重上的载荷较高,人工草地和旱地影响为负,其余为正。每个因子中载荷较高的土地利用结构类型比重之间具有较高的相关性,相应的土地利用结构类型可归为一类。这样,通过因子分析,可将 25 类土地利用类型归并为 3 类。
9. 5. 1. 2 评价单元之间的关系
通过因子分析,可利用每个因子得分对评价单元进行排序比较。以含有主要特征的降维变量乘以相应的特征根为新指标,通过聚类分析可研究各评价单元之间的亲疏关系 ( 图 9. 14) ,为分区定界提供定量依据。
图 9. 13 降维分析碎石图
如果采用较长的距离阈值,如连接距离阈值为 90,可将评价单元分为两大类,即西北部的张掖市甘州区、临泽县和高台县,以及东南部的肃南裕固族自治县、民乐县和山丹县。随着采用距离阈值的减小,评价单元可逐步分离。如连接距离阈值为 70,评价单元归并为 4 类,即: ①张掖市甘州区,②临泽县和高台县,③南裕固族自治县,④民乐县和山丹县。各评价单元的亲疏关系如图 9. 14 所示。
图 9. 14 基于因子分析的系统聚类分析
9. 5. 1. 3 类型区的归并
根据基于因子分析的系统聚类分析结果,按照区划方法的经典原则 ( 黄秉纬,1989; 郑度等,1997; 吴传钧等,1994) ,结合土地资源分布特点 ( 蒙吉军,1998) ,则可以实现从分类到分区的转换。研究结果可将张掖市的土地利用结构分为 4 个类型区 ( 图 9. 15) 。
图 9. 15 张掖市土地利用结构分区
几大类土地利用结构的空间变化情况为: 耕地比重肃南裕固族自治县最低,其他地区从东南部到西北部,有下降的趋势,其中与甘州区比邻的县耕地比重较大; 园地比重甘州区最高,以甘州区为中心,向其他方向园地比重下降; 林地比重东南部较高,向西北部降低,甘州区林地比重较低; 牧草地比重东南部较高,向西北部降低,甘州区牧草地比重较高; 居民工矿地和交通用地比重以甘州区为高值中心向其他方向减小,但高台县的略有上升; 水域面积比重,以临泽县及其比邻的县市较高; 未利用地比重从东南向西北下降,肃南裕固族自治县的未利用地比重也较高 ( 表 9. 48) 。
表 9. 48 张掖市土地利用结构 ( 占土地总面积比例) ( 1996) 单位: %
9. 5. 2 张掖地区土地利用结构时间变化特征
1997 ~ 2000 年期间,张掖地区土地利用结构的变化幅度不大。耕地、园地、居民及工矿地、交通用地和水域用地面积都有所增加; 牧草地和未利用地面积有下降的趋势,林地面积有升有降( 表 9. 49) 。
从各县区土地利用状况分析,耕地在各县区均有所增加; 园地面积主要增加在高台、山丹和民乐; 林地面积增加在肃南、临泽、民乐,减少在高台,其他县区基本不变; 牧草地面积在各县区均有减少; 居民点及工矿地、交通用地基本不变或略有增加; 水域面积在临泽和高台增加; 未利用土地除肃南外,均有减少的趋势。
表 9. 49 张掖市土地利用变化 单位: 103hm2
9. 5. 3 张掖市水土资源匹配
9. 5. 3. 1 张掖市各县区灌溉定额及其适宜绿洲面积的确定
张掖绿洲气候干旱,具有光照资源充沛的优势和年降水量不足的特点,加上结构复杂、起伏较大的地形和沙漠戈壁发射率高,大气湿度低,净辐射反而比同纬度湿润地区低 ( 246~287MJ/m2) 。因此必须考虑水热资源的平衡,在调节水热资源的基础上进行灌溉,才能取得良好的生态、经济效益。蒙吉军 ( 1998) 根据水热平衡对张掖市各县区的灌溉定额做了深入研究。
( 1) 实际蒸散的确定
蒸散的确定有多种方法,其中影响较大的是彭曼和拜伦的方法。拜伦提出以 “实际”蒸散代替可能蒸散,其实际蒸散是由实际气温、降水制约的湿润状况反推出来的蒸散,是与不同干湿区的临界值比较后得出的各种蒸散值,对评价降水量的丰欠、流域水分平衡、水热平衡等都有重要作用。由于张掖绿洲处在干旱、半干旱地区,下垫面不可能达到恒定的湿润状态,不具备可能蒸散的条件。因此,本文采用了拜伦的实际蒸散公式来计算调节水热资源的一系列参数。
西北典型内流盆地水资源调控与优化利用模式:以黑河流域为例
西北典型内流盆地水资源调控与优化利用模式:以黑河流域为例
式中
S———湿润指数;
Si———月湿润指数;
P———月降水量 ( cm) ;
t———月均温 ( ℃ ) ;
Ea———S= 6. 37 ( 即半湿润区中值条件) 的实际蒸散量 ( cm) ;
T———年均温 ( ℃ ) ;
T'———综合性年温;
Rt———年净辐射;
A———气温年均差 ( U = 0. 366A) ;
D———干燥率;
Lp———潜热。
据此法计算结果见表 9. 50。各县区实际蒸发量 ( Ea) 在 44. 2969~56. 2470cm 之间,净辐射约( 17×104~ 24×104) J/ ( a·cm2) ; 干燥度甘州、临泽、高台在 7 ~ 9 之间,肃南、山丹、民乐在 2~ 4 之间,说明前者属于干旱气候,后者属于半干旱气候。
表 9. 50 按照拜伦蒸散公式计算的张掖绿洲调节水热平衡的参数
( 据蒙吉军,1998)
( 2) 波文比与灌溉定额
波文比是感热消耗 ( C) 对潜热消耗 ( LE) 的比值,即 β=C/LE。它反映了下垫面上的感热与潜热比,可明显表示其干湿状况,一般 β 越大下垫面越干燥,反之则湿润,通常情况下,海洋为0. 1,沙漠可达 5. 8 以上。在计算波文比时潜热用实际蒸散 ( Ea) 乘以汽化潜热 ( L) 即可求得,感热 ( C) 用净辐射 ( Rt) 减潜热 ( Lp) 求得。计算结果见表 9. 50。除民乐外其他地方 β 均大于0. 6,说明感热消耗过多,显热消耗不足。计算实际蒸散、净辐射以及波文比都是为了求得合理的灌水深度和灌溉定额。
当 S=6. 37、D =1. 377 时,为半湿润区的中值,按这一湿润指数推算的 Ea称为基本实际蒸散( E1. 37) ; 当 S = 9. 56、D = 0. 90 时,为湿润区的中值,据此推算的 Ea为最优实际蒸散 ( E0. 9) 。满足 E1. 37可使植被生长良好; 满足 E0. 9可使植被生长最优。因此,调节水热平衡应将 E 控制在 E1. 37和 E0. 9之间,同时灌溉定额也将随 E 调控。计算公式如下:
西北典型内流盆地水资源调控与优化利用模式:以黑河流域为例
西北典型内流盆地水资源调控与优化利用模式:以黑河流域为例
参考温带湿润区情况,波文比取 β=0. 4 就可以照顾 Rt在感热和显热方面的适当分配。如 β=0. 4,则合理蒸散 E0. 4= 1. 19Rt,g0. 4= E0. 4-P,Q0. 4= 100 g0. 4。式中,g1. 37、g0. 9、g0. 4分别为基本灌溉深度、最优灌溉深度和合理灌溉深度,Q1. 37、Q0. 9、Q0. 4分别为基本灌溉定额、最优灌溉定额和合理灌溉定额。据此得出灌溉定额,见表 9. 51。
表 9. 51 张掖绿洲各县区各类灌溉定额和深度
( 据蒙吉军,1998)
超额灌溉,不仅浪费了大量的水资源,而且导致了成片土地的盐碱化。因此必须节约水资源,以防止土壤盐碱化的继续蔓延。据中科院沙漠所在临泽进行的作物需水量实验研究得出的结论:年降水量 100mm、蒸发量 2400mm 的河西走廊,每年灌水 4500m3/ hm2就可达到亩产吨粮。因此,不论从理论上还是实践上都证明,控制灌溉定额对绿洲生态平衡是非常重要的。据此,本研究取合理灌溉定额作为计算合理绿洲面积的基础。
( 3) 张掖市 2005 年和 2010 年农业可供水量预测
由于历史传统原因,农业一直是张掖市用水的主体。2000 年张掖市生活 ∶ 工业 ∶ 农业 ∶ 生态用水的比例为2. 2 ∶ 2. 8 ∶ 87. 7 ∶ 7. 4。而在 2001 年,全区用水总量为 24. 50×108m3,其中的 95. 1%为农林牧业用水。根据 《张掖市节水型社会建设试点实施方案大纲》,张掖市到 2010 年的节水目标是: ①保障国务院批准的分水方案,正常年份使正义峡下泄水量达到 9. 5×108m3; ②全区用水总量由目前的 26×108m3减少到 20×108m3,全区生活 ∶ 工业 ∶ 农业 ∶ 生态用水比例调整为5. 8 ∶7. 7 ∶ 56. 8 ∶ 29. 6。综合上述,2005 年整个张掖市安排用水总量为 22×108m3,生活 ∶ 工业 ∶ 农业∶ 生态用水比例为4. 5 ∶ 5. 0 ∶ 72. 5 ∶ 18. 0。以此推算,张掖市 2005 年农业用水量为 15. 95×108m3,2010 年农业用水量为 11. 36 × 108m3。根据上述总量控制指标以及现状用水区域比例,2005 年和2010 年张掖市各县区农业可供水量如表 9. 52 所示。
表 9. 52 张掖市 2005 年和 2010 年农业可供水量预测与绿洲面积
( 4) 基于基本灌溉定额的适宜绿洲面积
干旱区绿洲的水土平衡一般采用公式 A=W/I 来计算。式中,A 为绿洲面积 ( hm2) ,W 为农业可用水量 ( m3) ,I 为灌溉定额 ( m3/ hm2) 。根据各县 ( 区) 大农业净供水量及合理灌溉定额,各县 ( 区) 适宜的绿洲面积如表 9. 52 所示。
9. 5. 3. 2 生态安全条件下的绿洲土地利用结构
( 1) 绿洲的生态环境问题与防护林建设
黑河流域目前所面临的主要生态环境问题是,上游山区水源涵养林的破坏及其保护和中下游平原地区人工和天然绿洲沙漠化及其治理。此外,还有污染和土壤盐碱化等环境问题。污染问题从目前来看还不太明显和突出,但在流域工业化进程中是不可避免的,应特别重视,防患于未然。因为对干旱地区来说,任何污染物都是只吞不吐,不能排出区外,如果没有污水的科学化处理和高标准排放,日积月累,最终将会彻底地污染和破坏人类现有的生存空间,造成无法挽回的损失。土地次生盐碱化是干旱地区三大自然灾害之一,因局部地区大水漫灌和地下水位过高造成,随着流域地表水和地下水联合开发利用阶段的完成,将最终得到根本的抑制和治理。干旱地区植物生长离不开水源,上游山区降水较多,水源涵养林主要分布在温湿条件适宜的中山地带和亚高山地带,不需人工灌溉,山前平原的中、下游地区降水稀少,无论是人工还是天然绿洲都需要外来( 主要来自山区) 水源补充灌溉。绿洲既然是干旱地区一种零星分布的逆沙漠化景观,必然要遭遇到干旱地区所特有的各种自然灾害的包围和侵袭。以从事农业生产为主的人工绿洲,如果没有一个完整的能够抵御这些自然灾害的防护体系,就不会有生态环境良好的、适于人类生存的可持续发展基地。干旱地区人民在长期利用和改造自然的社会生产实践过程中,最终找到了既能美化和保护环境,又能抵御主要自然灾害的两全其美的方法,就是 “植树造林,绿化祖国,保护环境”,在人工绿洲内部和外围营造和建立适宜比例的防护体系。黑河流域经过国家两期 “三北防护林建设工程”的实施,集中分布在中游地区的人工绿洲内部,已有 90%以上的农田得到保护,促进了环境和生产的双丰收,在国家第二期 “三北防护林工程”实施后,完整的人工绿洲生态环境防护体系,在 2000 年最终建成,使 100%的绿洲和农田得到庇护。由于干旱地区生态效益和经济效益具有高度的统一性,二者相辅相成,良好的生态效益不仅是获取高经济效益的基础和保证,也是实现可持续发展不可缺少的。因此在缺水和因缺水生态环境十分脆弱的干旱地区,应当更为强调良好生态环境的保护和建设,其用水保证在排序上应仅次于生活供水。实际上,在具体的生产实践中,所有比较稳定的人工绿洲都具有十分完整和健全的林业防护体系。人工绿洲防护林体系是指: 在绿洲外围建立灌草固沙带和营建防风固沙林带; 在绿洲边缘营建大型基干防风防沙林带;在绿洲内部营造护田林网,实行农林混作,包括营建护渠 ( 田) 林、护路林、村落 “四旁植树”和在小片夹荒地、盐碱下潮地、河滩地上,建设小片经济林、用材林和大片薪炭养畜林等。从绿洲的外围到内部,根据不同的生境和需要进行植树造林,使整个绿洲的林木分布均匀,布局合理,构成一个层层设防的网、片、带和乔、灌、草结合的防护林体系。防护林体系的防护能力,一般随林地的增加而提高,但不是林地面积越大越好,而是到一定程度后不再提高,另外林地比例过大,还会出现农林争地、争水和林带胁地等问题,因此 “林地”比例应有一个 “适宜度”。根据研究和长期的生产实践,黑河流域中游防护林地面积以占人工绿洲总面积的 12%为宜 ( 北部被风沙包围的绿洲可增加到 13%) ,其中绿洲边缘大型防风沙林带占 0. 9%,农田防护林面积占 7%,护路林面积占 1. 9%,四旁植树面积占 2. 3% ( 曲耀光等,2000) 。
( 2) 防护林建设的区域差异分析
根据 “九五”国家重点科技攻关计划项目 96-912,黑河流域水资源合理利用与社会经济和生态环境协调发展研究 ( 程国栋等) 成果,可较合理地设定各县市防护林建设的结构。张掖市境内现形成两个大沙区: 一是甘州至高台沙区,沙漠主要分布于黑河水系的干支流两岸,成片状,带状零星散布于绿洲农田区和交通沿线; 二是山丹、民乐沙区,包括山丹、民乐两县的北部地区和张掖石岗墩带,以戈壁沙滩为主,被绿洲农田所包围或隔离开。地下水位埋藏较深。1995 年山丹县境内现状不存在现代风沙化土地,即不存在流动沙丘 ( 地) 。固定或半固定沙丘 ( 地) 以及非生物固沙工程地等为代表的沙质荒漠土地,仅存在戈壁沙滩荒漠。流域中游地区其他各县境内土地沙漠化程度都十分严重,其中高台、临泽县,沙漠化土地已达总土地面积的 54. 9%~64. 3%,超过半数; 最少的肃南裕固族自治县境内沙漠土地也占总土地面积的 20%,且多集中于冲洪积平原地势平坦的绿洲周围。如果不计戈壁滩地,仅以单纯意义上的活动沙丘、固定或半固定沙丘及非生物工程固沙地计算各地的沙化土地,可得出: 民乐县为 1. 565 × 104hm2,占总土地面积的22. 05%; 甘州区为 2. 413×104hm2,占土地总面积的 6. 92%; 临泽县为 1. 229×104hm2,占总土地面积的 40. 37%; 高台县为 10. 708×104hm2,占总土地面积的 24. 32%; 肃南裕固族自治县为6. 491× 104hm2,占总土地面积的 13. 0%。反映出民乐、临泽及肃南等地各类沙丘面积所占比例较大,张掖市以戈壁沙滩地所占比例最大,约占沙化土地面积的 70. 80%。在沙漠化土地中,流动沙丘起沙风速小,大约 5m/s,而且比固定沙地在起沙条件下输沙强度大,风沙机会也多,因此是危害性最大的一类沙化土地类型; 半固定沙丘介于流动沙丘与固定沙丘之间,同样比固定沙丘的危害性要大。因此,从风沙危害性及潜在风沙机会 ( 风沙时间及沙丘推移扩展强度) 两方面来说,流动沙丘及半固定沙丘的多少,可以表征一个区域的沙化危害程度及潜在风沙强度。从表 9. 53 可看出,民乐、肃南两地流动沙丘所占比例较大,反映该地区现代沙化过程较强烈; 高台县境内,不仅沙漠化土地规模较大,而且流动沙丘所占比例也较大,沙漠化危害程度较其他地区要严重。临泽县境内,流动沙丘规模较小,但半固定沙丘范围较大,二者合起来已占总沙漠化土地的 54%,植被生态体系建设与维护程度将直接影响该地区的沙化程度。
表 9. 53 张掖市沙漠化土地分布特征
注: 表中肃南裕固族自治县括号中的数据为沙漠化面积与草地面积之比。
研究区沙漠化土地分布的另一个特征就是大部分地区,沙漠化面积均大于现状耕地面积。除山丹县以外 ( 耕地面积大于沙漠化面积) ,民乐、甘州两县区沙漠化面积约为耕地面积的 1. 4~1. 5倍。农耕环境相对恶劣,农业生态环境较脆弱,沙化威胁较大。肃南耕地面积较少,其比值意义不大,与草地面积相比,草地面积要显着大于沙漠化面积。如果用耕地、林地及草地之和代表现状绿洲面积,则临泽现状绿洲面积与沙漠化面积之比为 1 ∶ 1. 27,高台绿洲面积与沙漠化面积之比为 1 ∶ 2. 3; 而民乐绿洲面积约为沙漠化面积的 2. 04 倍。这些结果反映出流域中游地区山丹、民乐、肃南等境内现状绿洲面积要大于沙漠化土地面积,绿洲仍是自然生态体系中的主体要素,但在临泽、高台等中下游地区,沙漠化土地面积已超过绿洲面积而成为主导性环境要素。
根据表 9. 54,山丹、民乐、甘州和肃南防护林面积设置为人工绿洲面积的 12%,相应的绿洲边缘大型防风沙林带占 0. 9%,农田防护林面积占 7%,护路林面积占 1. 9%,四旁植树面积占2. 3%。临泽和高台县防护林面积设置为人工绿洲面积的 13%,相应的绿洲边缘大型防风沙林带占1%,农田防护林面积占 7. 6%,护路林面积占 2. 1%,四旁植树面积占 2. 5%。根据陈昌毓 ( 1995)的研究,适宜农田面积占人工绿洲面积的百分比如表 9. 54 所示。
表 9. 54 张掖市绿洲土地利用结构 ( 占适宜绿洲面积的百分比) 单位: %
由此可以根据表 9. 54 计算 2005 年人工绿洲区农林牧用地面积,如表 9. 55 所示。
表 9. 55 张掖市 2005 年绿洲土地利用结构预测 单位: hm2
根据近几年,特别是 2001 年耕地复种指数及农作物种植结构,可以预测 2005 年可能的农作物种植情况 ( 表 9. 56) 。
表 9. 56 张掖市 2005 年绿洲农作物种植结构预测 单位: hm2
根据基于因子分析的聚类分析的结果,各县区 ( 评价单元) ,在土地利用结构上: 临泽县和高台县非常相近,并在一定连接距离上与甘州区相近; 民乐县和山丹县也非常相近,并在一定连接距离上与肃南裕固族自治县相近。因此,在水土资源匹配、土地利用结构和农作物种植结构调整上可以参照上述分区结果。
㈡ 统计学专业的研究概况
20世纪的最后五年,人类富有创造性的勤奋努力,使信息技术、生命科学等领域的研究取得了重大突破,在科学技术史册中谱写了光辉的篇章。统计学学科伴随着科学技术的发展在理论研究和实际应用中也取得了可喜的进展。本报告分别从国外、国内研究概况及中国高校统计学科的研究发展情况给予扼要总结和回顾。 随着科学技术的飞速发展,统计方法与技术的应用越来越重要。19世纪统计技术为基因学说奠定了理论基础,在即将跨入21世纪的今天,科学技术对统计方法的依赖愈来愈强。世界上许多国家尤其是发达国家都非常重视统计学理论的研究和发展。根据国际统计学会(ISI)近几年的会刊及统计学方面的着名杂志,可将近几年国际统计界研究的主要问题概括如下:
1.统计学基本理论研究有:概率极限理论及其在统计中应用、树形概率、Banach空间概率、随机PDE’S、泊松逼近、随机网络、马尔科夫过程及场论、马尔科夫收敛率、布朗运动与偏微分方程、空间分支总体的极限、大的偏差与随机中数、序贯分析和时序分析中的交叉界限问题、马尔科夫过程与狄利克雷表的一一对应关系、函数估计中的中心极限定理、极限定理的稳定性问题、因果关系与统计推断、预测推断、网络推断、似然、M——估计量与最大似然估计、参数模型中的精确逼近、非参数估计中的自适应方法、多元分析中的新内容、时间序列理论与应用、非线性时间序列、时间序列中确定模型与随机模型比较、极值统计、贝叶斯计算、变点分析、对随机PDE’S的估计、测度值的处理、函数数据统计分析等。
2.统计学主要应用领域有:社会发展与评价、持续发展与环境保护、资源保护与利用、电子商务、保险精算、金融业数据库建设与风险管理、宏观经济监测与预测、政府统计数据收集与质量保证等、分子生物学中的统计方法、高科技农业研究中的统计方法、生物制药技术中的统计方法、流行病规律研究与探索的统计方法、人类染色体工程研究中的统计方法、质量与可靠性工程等。 “九五”期间中国统计界出现了社会经济统计学与数理统计学相互学习、共同提高、共创未来的新局面。1996年10月,中国统计学会、中国概率统计学会、中国现场统计学会联合举办了全国统计科学讨论会,这是“九五”期间中国统计学术界一次盛会,它标志着中国社会经济统计学与数理统计学的合作已进入实质性阶段。统计界在数理统计与社会经济统计学的结合方面、风险管理与保险精算方面、空间统计学及其应用方面、政府统计数据质量研究与评价方面、信息技术、网络技术在统计学的应用方面、金融及证券理论研究方面、国民经济核算理论与应用方面、综合国力研究方面等取得了可喜的成就。“九五”期间国内统计界主要有影响的研究可概括如下:
1.理学类统计学一级学科地位的确立
“九五”期间中国统计界关于建立和完善统计学学科体系的研究与争论异常激烈。统计界对“大统计”的认识通过大量探索已逐步趋向统一。所谓“大统计”是针对中国过去数理统计、社会经济统计、生物医学统计等各学科领域的应用统计各自为政相对面窄而言。1998年9月国家教育部颁布的《普通高等学校本科专业目录和专业介绍》将统计学列为理学类一级学科,这是中国统计界“九五”期间的重大成就。教育部这项专业调整是为了适应市场经济与国际接轨的要求,在“宽口径,厚基础”的指导思想下,将原来的504个专业调整到249个专业,50%以上专业被砍掉,然而统计学不仅保留,而且列入理学类一级学科,这是中国统计界广大理论工作者辛勤努力的重要成就,是中国统计界值得庆幸的大事,它的颁布对中国统计的未来具有重大意义和深远影响。这一专业目录的确定为中国统计界长期的争论进一步指明了发展方向。这个方向就是——适应市场经济与国际接轨的统计学就是理学类统计学。统计学一级学科的地位表明统计学既不是经济学的一个子学科,也不是数学的一个子学科,统计学就是统计学。尽管统计学被教育部专业目录确定为理学类一级学科,但统计界,尤其是中国高等统计教育界经济类统计学者反对者甚多。有的学者认为理学类统计学就是数学,只有经济学其中的统计学才是统计学。赞成者认为统计学就是统计学,理学类统计学与数学有着质的区别,经济学类的统计学已被中国实践证明是前苏联的文科式统计学,根本不能代表作为方法论的整个统计学科。这一争论还将继续一段时间。
2.统计学基本理论与方法问题研究
“九五”期间中国统计界围绕与国际统计学接轨做了大量研究工作,系统地介绍了国外统计学研究的一些新进展。这方面最为突出的是国家统计局统计教育中心和中国统计出版社组织国内一流统计专家翻译出版了15本现代外国统计学优秀着作。这些着作令中国统计界不少学者大开眼界,从中汲取丰富的统计理论和方法,已在中国统计界产生了积极影响,为理学类统计学科的建立与发展奠定了基础。为适用新专业目录的需要,国内高校的统计教师们编写了一批统计方法和应用的新教材。中国统计界在抽样方法、时间序列分析、多元统计分析、非参数统计、回归分析、指数理论、宏观经济建模等理论与应用研究方面作了大量工作。
3. 政府统计数据质量的研究
随着中国社会主义市场经济的深入发展,政府统计数据无论是在国家制定发展战略和社会、经济发展的宏观调控中,还是企业制定营销策略以及社会、经济、环境等科学研究领域都起着不可或缺的重要作用,用户对政府统计数据的内在质量以及数据的产生、提供过程的可靠性的企盼也越来越高。关于中国政府统计数据的质量关注和研究的学者很多,发表的论文或报告已有近百篇之多。几乎每个省都设立了统计数据质量研究的课题,全国哲学社会科学基金还设立了“关于评估、改进和保证中国政府统计数据质量问题的研究”的重点项目。该项目从定性与定量的有机结合上开展对政府统计数据的评价与研究,主要从技术与方法上对中国政府统计数据的质量作出客观评价,对改进、提高、控制、监测中国政府统计数据的质量从理论与实践的结合上做了一些研究和探索。但总体来看,现有的大多数研究基本停留在定性的评说上,提批评的多,提实质性建议的少;指责体制的多,研究评价、改进、识别的理论与方法的少,大多数文献把统计数据的质量问题归结为中国的政治、经济体制问题。事实上,纵观北美、欧盟等许多国家的政府统计数据,无一例外地也存在数据质量问题,政府统计数据的质量是各国普遍存在和广泛关注的热点问题。
4. 风险管理和保险精算的研究
“九五”期间关于风险管理和保险精算的研究得到较快发展,主要表现在不少发达国家风险管理和保险精算名着的翻译出版,中国统计方面杂志以及几次全国概率统计学术会议这方面论文的显着增加。风险管理与保险精算的研究不仅满足中国社会主义市场经济的需要,也更大地扩展了统计学方法的应用。这方面的研究从引进国外理论已向中国的具体应用健康发展,保险精算的研究已由寿险领域向非寿险领域扩展,尤其是开始结合中国实际向社会保障领域有效延伸。
5. 统计学在金融、证券领域的应用研究
1997年开始的亚洲金融风暴,给亚洲乃至世界经济的健康发展带来危机,中国经济的发展也受到亚洲金融风暴的影响。国家的经济安全、金融安全被国家领导核心重视,为统计技术与方法的应用提供了新的机遇,在全国应运而生建立了金融数学与金融工程管理中心、证券期货模拟实验室、金融数学系等。全国有不少统计学者成为研究金融、证券、投资的主力。从发表的论文来看统计方法研究金融、证券问题主要有:(1)有效投资组合研究。最为典型的是VaR技术的运用和具有异方差的时间序列模型技术的应用。(2)结构分析研究。运用多元统计方法分析股票的投资结构、探讨股票涨跌规律、寻求证券市场发展与影响因素的关系。(3)金融安全概率的研究。有学者运用东南亚等国和中国的金融数据资料,结合金融安全给出预警概率,为国家宏观经济调控和金融风险防范提供了有力的决策依据。
6. 统计综合评价理论与应用的研究
国际竞争力的研究是颇受世界各国关注的重要研究。中国学者在“九五”期间开始开展这一领域的研究、并且通过刻苦努力紧跟这一领域的世界水平,在这方面中国学者所用的统计方法与世界水平相当,结合中国国情国力取得了重要成果。这方面有国民经济核算进一步发展的国际竞争力统计研究,知识经济时代中国科技创新的国际竞争力研究,中国金融、保险等领域的国际竞争力研究还有统计方法在社会经济发展水平的综合评价中的应用,顾客满意度量测与评价的研究等。
7. 国民经济核算理论与应用研究
“九五”期间,中国的国民经济核算体系研究进一步完善。在内容上,以增加值和GDP为核心,已经能比较全面地反映中国国民经济生产全过程、收入与分配、消费、储蓄、实物投资、金融投资、国际收支、资本和财富存量的变化等。为国家制定经济政策和宏观调控发挥着积极作用。可喜的是已有一些学者在国家的可持续发展、环境与核算技术相结合方面取得了重要研究成果。
8.质量体系认证应用研究
“九五”期间,一股“ISO9000”认证热席卷全球,质量体系认证日益成为国际贸易中所要求的供方质量保证能力和水平的标志。ISO9000族标准中有许多要素涉及到统计技术与方法的应用,中国已有近2万家大中型企业通过了认证。这方面的认证,对统计方法的应用提供了新的机会,中国不少统计学者找到了统计应用的现场,为国有企业员工培训、提高素质、扭亏增盈,国家经济形势好转发挥了统计工作者的积极作用。特别是试验设计、ISO14000和6质量标准技术的推广对改进企业管理水平,提高产品质量,提升企业国际竞争力发挥了重要作用。
9.抽样调查方法的研究与应用
“九五”期间关于抽样调查方法的研究与应用在中国开展的如火如荼。例如,交通部还建立了统计抽样调查系统。交通运输的大量统计数据已基本由抽样调查方法获得。全国许多行业对本部门关心的问题进行抽样调查,不少部门就公众关注的热点问题开展公众调查,有的报刊还定期刊登公众调查的调查报告。中国90年代初成立了不少市场调查公司,经过几年的大浪淘沙,全国生存下来的公司经营状况不错。网上调查、电话调查在中国也健康发展。有关抽样调查的理论,如非抽样误差控制的研究也得到统计界的广泛重视。
10.空间统计与地理信息系统的应用研究
空间统计学是近几年统计学发展的一个新领域,其主要的应用包括遥感,国土资源估计,农业和林业,海洋学、生态学和环境观测。在遥感技术的应用中,得到的统计数据通常以网络的形式出现,而且这些数据受到大气效应、观测位置以及测量工具的影响产生误差,空间统计学的应用在于,针对这种特殊的数据,研究如何控制误差、如何建立模型、如何处理资料信息。在资源的估测中,空间统计学的应用在于,如何利用空间统计数据,估计资源的总储量、资源的地区分布、资源的开发等。在环境监测等领域也作了积极的探索。
㈢ 统计学专业的学科发展
人类带着上个千年创造的辉煌跨入新的千年。面对忽忽到来的21世纪,每个人、每个实体、每个学科,乃至整个国家都面临机遇和挑战。欲行千里,始于足下,走好21世纪的头五年,至关重要。在此,我们将对21世纪的头五年,即中国经济社会发展的第十个五年计划中,统计学学科的发展予以厚望。
一、统计学学科的研究发展趋势
21世纪是知识经济的时代,信息技术、计算机技术为统计学理论与方法的发展将产生巨大的推动作用。知识创新是时代的基本特征。统计学理论与方法的创新必将为众多领域和学科的发展体现出应有的价值。统计学与其他学科的紧密结合将产生新的边缘学科,许多学科的发展将依赖于统计理论与技术的应用,更为复杂数据的处理方法将成为统计理论界研究的热点,实用快捷的统计方法与技术将更加普及。
二、十五”期间统计学学科研究的奋斗目标
“九五”期间统计学学科的建立为“十五”已打下了坚实基础,通过五年的努力,中国统计学理学类一级学科的地位将更加牢固,中国高等统计教育将发生较大的变化,大多数院校的统计专业将改造成适应一级学科地位的统计学,高校统计专业的课程设置将更具有时代特点,统计学理论与方法的应用将在社会主义市场经济建设中发挥重大作用。有些统计学理论研究与应用将缩小与世界水平的差距,在某些研究方面将达到世界先进水平。
三、“十五”期间统计学研究的重点领域
1.统计理论与方法的创新研究
统计学的生命力就在于应用,应用为统计学的发展赋予活力。
“十五”期间异方差性时间序列问题研究、离散多元统计分析研究、数据挖掘理论研究、异常数据诊断的研究、非参数理论与方法的研究、抽样与非抽样误差理论的研究等将是统计理论研究的热点。知识经济、新经济对统计理论与方法提出更高要求,如何适应电子商务时代统计数据的收集,空间遥感技术的运用等都为统计理论提出新挑战,统计工作者必须创新出适合各种复杂类型数据的统计方法才能适应实践的需求。
2.开展空间统计学理论与应用的研究
空间统计学是近几年统计学发展的一个新领域,主要指运用遥感技术进行国土资源的测定,农业和林业、海洋生物、环境生态的观测。这种观测数据通常表现为网络形式,而且这些数据受到大气效应、观测工具等诸多因素的影响。空间统计学的应用在于,针对这种特殊的数据,研究误差控制、数据处理、模型建立、统计推断。这将是统计学研究的新领域。
计算机技术的发展对统计学发展影响的研究
信息技术与计算机技术的发展是推动新经济发展的主要动力。可以断言,没有计算机的发展就没有统计方法的普遍有效应用。计算机技术的飞速发展为统计学方法的应用带来挑战和发展的机遇。统计数据的收集如何有效借助网络技术,统计调查方法如何适应现代信息技术,统计数据处理如何深入都将成为研究的热点问题。
3.生命科学与生物技术中统计方法的应用研究
21世纪是生命科学的世纪,人类不久将完全揭示人类基因排序。19世纪中叶基因学说的创立,就是依赖于统计推断技术,21世纪生命科学中将有大量的相关研究要借助统计方法与技术,这个领域的学者将大有作为。21世纪医学领域的科技创新,将使许多不治之症得到解决,生物制药将在医学领域大放异彩,统计学方法在生物制药技术中的广泛应用将是不争的事实。美国辉瑞制药公司每年投入50亿美金用于研究发展,在美的生物统计人员极易找到高薪的工作就足以说明这一领域的广阔前景。
4.国家经济安全与金融、保险领域的应用研究
国家的经济安全及其金融危机的防范问题是中国改革开放中必须高度重视的问题。国家经济安全、金融危机的预警系统的研究是与统计学方法紧密联系的研究热点,投资项目的风险管理研究也将依赖统计学者去研究解决。保险产品的精算理论与实践在“九五”期间得到一定的进展,为这一领域的深入发展奠定了基础,如何将发达国家保险精算的理论与中国保险业实际相结合值得深入研究,尤其是保险精算方法向社会保障领域延伸的研究是中国国情赋予给这个领域的迫切任务。
5.政府统计数据质量的进一步研究
政府统计数据的质量在“九五”期间得到国人的普遍关注。不仅国家哲学社科基金设立重点研究课题,几乎各地方政府也设专项研究,发表的论文已有近百篇。然而这方面的研究还有待深入,不仅从制度上约束、控制数据的可靠性,从检测、验证的方法上还需进一步探讨。有的重点课题已在检验方法上有所突破,但如何具体与中国政府实际数据紧密结合,实施这些方法还须加大力度进行研究和实践。
6.统计学在社会、人口、教育、环境等领域的应用研究
社会的发展、人口的控制、教育结构的调整与发展、环境的保护等领域存在着大量急待研究的问题,统计学方法是定性与定量研究的有力工具。统计学方法在这些领域将会有广阔的应用前景。
四、“十五”期间统计学重点研究课题及其简要论证
1. 中国统计教育发展战略研究
统计教育是统计科学长期发展的战略问题。但中国统计教育却存在着招生难、分配难、经费缺、师资不足、教材陈旧、课程设置不合理等诸多问题。因此,加强统计教育研究也是我们的重要课题。
研究内容包括:统计教育指导思想的研究;统计教育发展目标的研究;统计教育如何适应市场经济发展的要求,适应现代信息产业与信息技术的要求,适应与国际接轨的要求等问题,要研究统计教育改革与培养目标模式转换的问题;统计专业培养方案研究;研究统计教育基础理论课程设置和统计教育办学层次问题;研究统计教学方法及教学中计算机运用的问题;研究统计师资队伍建设与培养问题。
理学类一级学科的统计学课程建设的研究
中国大多数院校统计专业的课程设置基本上是前苏联的文科模式,这与国际接轨的理学类统计学严重不适应。统计学专业应该开设一些什么课程,这关系到统计专业是否得到社会认可,是关系到统计专业生存与发展的大问题。课程建设与课程设置、教材编写必须高度重视,这应该成为“十五”期间研究解决的主要课题之一。
关于提高政府统计数据质量问题的进一步研究部分统计数据的质量低,可靠性不够是从上到下各级领导与各界人士广泛关注的热点问题之一。提高和保证中国官方统计数据的质量,不仅是政府进行宏观决策重要保证,也是改善社会风气重要方面之一。要想从根本上提高和保证官方统计数据的质量,从统计学的角度看,必须解决好以下问题:(1)建立评价统计数据质量的质量标准;(2)对影响统计数据质量的各种因素进行系统分析,找出其中限制性环节;(3)对现有各种统计调查方法的实用性进行比较研究,确定适合中国国情的科学的统计调查方法体系;(4)建立统计数据质量控制体系,选择适当的方法和控制手段,对统计数据质量实现从指标、设计、调查、汇总到分布的全过程质量控制;(5)宏观总量数据的科学估算问题研究。这些问题在“九五”期间已得到较多研究,但是检验、诊断及控制数据质量的实践研究须进一步深入。
中国“地下经济”活动核算的理论和方法研究
过去几年,中国的“地下经济”问题表现很突出,并引起人们的关注。“地下经济”的存在,它的规模多大,性质如何,影响怎样,会影响到国民生产总值和人民生活水平的正确统计,影响对改革开放成果的评价,也影响到中国经济政策和调控措施的落实。对“地下经济”问题的研究、计量已是完善国民经济核算体系,改善客观经济管理的重要内容。西方国家对“地下经济”的研究已有20多年的历史,但一直没有形成十分成熟的理论和方法。结合中国“地下经济”的具体特点,研究“地下经济”核算的理论和方法,不仅具有现实意义,也具有国际意义。
对“地下经济”核算理论与方法的研究主要包括:“地下经济”的界定与划分;“地下经济”的核算范围;“地下经济”活动的性质及表现;“地下经济”的测算方法如直接调查法、间接推算法、各种测算方法的结合运用;“地下间接”调查方法体系的建立与实施;“地下经济”对国民经济核算的影响及分析,“地下经济”对国民经济发展影响的统计分析等。这一研究课题在“九五”期间就曾提出,但实质性的进展不大。
关于旅游经济、假日经济和休闲时间的统计研究
“十五”期间中国的经济结构将得到进一步调整,假日经济、旅游经济将占一席之地。关于这个领域统计指标体系的建立问题的研究,旅游客流量、宾馆入住率、景点门票收入、餐饮业收入、航空、铁路等运输客流量的预测研究等。随着人民生活水平的提高,生活质量及其休闲时间的规律研究对于制定有关政策,开发市场都具有重要的现实意义。这些都是统计科学应用的新课题。
抽样技术在社会经济统计调查中的应用
尽管从理论上讲,抽样技术从样本容量确定到抽样估计都已经比较成熟,但在抽样方法的具体应用过程中却存在许多难于解决的实际问题。尤其是运用抽样技术于社会经济现象的调查中更是如此。当前中国统计制度改革的重要内容之一是推行以抽样调查为中心,以定期普查为基础的新统计调查体系。而这要求我们必须解决应用抽样调查技术所面临的许多具体实际问题,包括:(1)抽样调查中国家样本和地方样本的协调与配合问题;(2)对于按某一标志代表性抽取的样本,如何保证其它标志的代表性问题;(3)抽样调查中的不回答问题;(4)抽样调查过程中调查误差的控制问题;(5)对于缺损数据的科学估算问题;(6)抽样调查方案设计与实施中其它问题。在研究过程中,始终要注意考虑中国的具体国情。“十五”期间更应关注网络技术和通信技术在抽样调查中的应用研究。
关于中国居民消费模式的量化研究
消费与收入之间有着密切的关系。消费函数是可支配收入与总消费支出之间关系的数学描述。研究中国居民消费与收入之间的关系,量测中国居民的消费水平,探讨影响居民消费的主要因素。研究者应考虑到影响消费的众多因素,利用统计数据,建立消费模型,并总结建立中国消费函数应注意的问题和经验。
中国第五次人口普查数据资料的深度分析
2000年11月1日的第五次人口普查是跨入21世纪的一次规模最大的统计调查,这些大量数据无疑隐含着非常宝贵的信息,对这些数据的深入挖掘和分析,为国家制定各种宏观政策将起到巨大作用。过去受统计人员水平和计算机水平所限中国对人口普查数据的挖掘远不如国外的竞争对手。“十五”期间对第五次人口普查数据的深入分析是中国政府统计界的一大任务。
关于灾害损失统计指标与方法的研究
自然灾害是人类不能回避的一个现实问题,几乎每年都有不同的自然灾害,给人民生命财产造成极大损失。总结研究自然灾害及其造成的损失具有重大的现实意义。统计指标的建立,数据的收集,规律的探讨这是总结和掌握灾害规律的重要过程。统计理论和方法在这一领域将会发挥重要作用。
金融市场风险的测度及管理模型研究
金融市场是具有高风险的市场。运用统计方法研究金融风险,建立风险监测系统,不仅能够为管理层宏观调控金融市场提供科学的理论依据,而且对投资个人和机构实施风险控制具有重要指导作用。本课题立足中国金融市场,旨在从数量及数量关系上研究风险的测度方法,风险管理模型的选择及其管理对策。
SPC技术在产品质量控制中的应用
产品的质量关系到企业的生存。中国许多企业非常重视产品质量控制,从产品的设计到生产的全过程的质量管理已经有些经验。但是这方面仍有潜力可挖,特别是统计方法在质量管理中的运用与发达国家差距较大。该课题研究应紧密结合某企业或某产品的生产过程,运用统计方法,实施产品设计、生产的全过程控制。这方面的研究可结合企业ISO9000认证进行。还可进一步探讨“6”质量标准在中国企业的推广应用。
高新技术产业的综合考核与评价研究
关于企业经济效益的综合评价研究在过去已有不少,然而高新技术企业的评价考核指标体系的建立仍是一个新问题。高新技术企业与传统企业的评价指标应有严格的不同,应具有高新技术的自身特点。这方面研究需要政府统计与企业统计人员一起进行研究,探讨指标体系的建立,数据的收集、数据的分析等。
关于数理统计方法普及和推广的研究
数理统计方法的科学性已被中国广大统计工作者所接受,但由于历史原因,中国社会经济统计界对数理统计的基本理论和方法了解甚少。许多数理统计方法数学味太浓,实际统计工作者难以掌握。如何普及数理统计方法,使广大统计工作者容易掌握,并在实践应用中有很强的可操作性是需研究的问题。研究者需提出切实的可行性方案,并给予论证。
多元统计方法在社会经济数据处理中的应用
多元统计分析是研究多个变量间相互关系的一个数理统计分支。经济问题的复杂多样性,经济因素间的互相制约性,通过多元分析的一些方法,研究经济变量之间的相互关系,寻找影响经济现象的主要因素是非常有效的方法。研究者可结合社会主义建设中的任何具体问题进行研究,并注意总结多元统计方法在实际应用中存在的问题。
时间序列分析在经济预测中的应用
这里所说的时间序列是随机时间序列的分析,时间序列分析是数理统计中的一个重要分支。许多经济指标都可依时间顺序得到一串经济数据,按时间顺序排列的经济数据就是经济时间序列。利用时间序列方法研究中国的某些经济指标的变化情况,建立相应的序列分析模型,并用时序模型去预测某经济指标的未来数值为国家的宏观调控服务。研究者应注意在中国应用时间序列方法存在的问题,克服中国经济数据的一些缺陷,大力开展VaR模型技术的应用,总结时序分析在中国应用的经验。
复杂动态随机系统的统计学方法研究
在社会、经济、自然等领域,经常遇到的反映现实的系统都是非常复杂的动态随机系统,它们的特征是,系统本身非常复杂,需要用成千上万个参数进行描述,而且有关数据一般只能通过观察而非实验来取得。此外,在这些系统的研究中,随机化和可重复性难于保证。这样,就使得现有的各种统计学方法的应用效果不理想。在经济学研究中,现有各种大规模经济计量模型在分析预测社会经济现象及其趋势时,经常出现失误,就是一个明显的例证。究其原因主要有:(1)模型过于抽象,脱离实际太远;(2)依据的数据质量不高;(3)采取的统计方法要求的前提条件不能满足。类似的例子在研究许多生态、环境中的大系统问题时也经常出现。
统计方法在教育、考试测量研究中的应用
通过对各种考试现有资料的分析处理,并进行适当的实验测试分析研究,寻找出各种考试的自身规律和特点,为更好地组织考试提供科学依据。要列举出考试中各种因素,运用统计方法,分析研究这些因素对考试的影响,找出各主要影响因素,为更有效地控制这些因素提供方法和依据。这方面的研究是多变量的统计方法的应用。多元统计分析方法是这一领域地主要研究工具。
统计学方法在生命科学、生物制药等领域的应用
生命科学、生物制药的研究在21世纪将得到飞速发展。这一领域的发展带动统计学理论与技术的发展,为统计理论和方法找到广阔的应用领域。通过对这一领域的应用将拓宽统计方法在中国的应用,也必将促进统计方法与理论的完善。
参考文献:
1.1996——1998年普通高校人文社会科学统计资料汇编
2.教育部人文社会科学研究第二届优秀成果奖获奖成果简介汇编
3.教育部人文社会科学重点研究基地建设试点工作文件汇编
4.普通高等学校人文社会科学研究“九五”规划咨询报告汇编
5.全国哲学、社会科学“九五”期间统计学发展回顾与“十五”期间研究的重要领域、方向与研究。
㈣ 多元统计分析的简介
multivariate statistical analysis
研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律性。它的重要基础之一是多元正态分析。又称多元分析 。 如果每个个体有多个观测数据,或者从数学上说, 如果个体的观测数据能表为 P维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法就叫做多元统计分析 。 它是数理统计学中的一个重要的分支学科。20世纪30年代,R.A.费希尔,H.霍特林,许宝碌以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到迅速发展。50年代中期,随着电子计算机的发展和普及 ,多元统计分析在地质 、气象、生物、医学、图像处理、经济分析等许多领域得到了广泛的应用 ,同时也促进了理论的发展。各种统计软件包如SAS,SPSS等,使实际工作者利用多元统计分析方法解决实际问题更简单方便。重要的多元统计分析方法有:多重回归分析(简称回归分析)、判别分析、聚类分析、主成分分析、对应分析、因子分析、典型相关分析、多元方差分析等。
早在19世纪就出现了处理二维正态总体(见正态分布)的一些方法,但系统地处理多维概率分布总体的统计分析问题,则开始于20世纪。人们常把1928年维夏特分布的导出作为多元分析成为一个独立学科的标志。20世纪30年代,R.A.费希尔、H.霍特林、许宝禄以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到了迅速的进展。40年代,多元分析在心理、教育、生物等方面获得了一些应用。由于应用时常需要大量的计算,加上第二次世界大战的影响,使其发展停滞了相当长的时间。50年代中期,随着电子计算机的发展和普及,它在地质、气象、标准化、生物、图像处理、经济分析等许多领域得到了广泛的应用,也促进了理论的发展。
多元分析发展的初期,主要讨论如何把一元正态总体的统计理论和方法推广到多元正态总体。多元正态总体的分布由两组参数,即均值向量μ(见数学期望)和协方差矩阵(简称协差阵)∑ (见矩)所决定,记为Np(μ,∑)(p为分布的维数,故又称p维正态分布或p 维正态总体)。设X1,X2,…,Xn为来自正态总体Np(μ,∑)的样本,则μ和∑的无偏估计(见点估计)分别是
和
分别称之为样本均值向量和样本协差阵,它们是在各种多元分析问题中常用的统计量。样本相关阵R 也是一个重要的统计量,它的元素为
其中υij为样本协差阵S的元素。S的分布是维夏特分布,它是一元统计中的Ⅹ2分布的推广。
另一典型问题是:假定两个多维正态分布协差阵相同,检验其均值向量是否相同。设样本X1,X2,…,Xn抽自正态总体Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要检验假设H 0:μ1=μ2(见假设检验)。在一元统计中使用t统计量(见统计量)作检验;在多元分析中则用T2统计量,
,其中,
,
·
,T2的分布称为T2分布。这是H.霍特林在1936年提出来的。
在上述问题中的多元与一元相应的统计量是类似的,但并非都是如此。例如,要检验k个正态总体的均值是否相等,在一元统计中是导致F统计量,但在多元分析中可导出许多统计量,最着名的有威尔克斯Λ统计量和最大相对特征根统计量。研究这些统计量的精确分布和优良性是近几十年来多元统计分析的重要理论课题。
多元统计分析有狭义与广义之分,当假定总体分布是多元正态分布时,称为狭义的,否则称为广义的。近年来,狭义多元分析的许多内容已被推广到更广的分布之中,特别是推广到一种称为椭球等高分布族之中。
按多元分析所处理的实际问题的性质分类,重要的有如下几种。 简称回归分析。其特点是同时处理多个因变量。回归系数和常数的计算公式与通常的情况相仿,只是由于因变量不止一个,原来的每个回归系数在此都成为一个向量。因此,关于回归系数的检验要用T2统计量;对回归方程的显着性检验要用Λ统计量。
回归分析在地质勘探的应用中发展了一种特殊的形式,称为趋势面分析,它以各种元素的含量作为因变量,把它们对地理坐标进行回归(选用一次、二次或高次的多项式),回归方程称为趋势面,反映了含量的趋势。残差分析是趋势面分析的重点,找出正的残差异常大的点,在这些点附近,元素的含量特别高,这就有可能形成可采的矿位。这一方法在其他领域也有应用。 由 k个不同总体的样本来构造判别函数,利用它来决定新的未知类别的样品属于哪一类,这是判别分析所处理的问题。它在医疗诊断、天气预报、图像识别等方面有广泛的应用。例如,为了判断某人是否有心脏病,从健康的人和有心脏病的人这两个总体中分别抽取样本,对每人各测两个指标X1和X2,点绘如图 。可用直线A将平面分成g1和g2两部分,落在g1的绝大部分为健康者,落在g2的绝大部分为心脏病人,利用A的垂线方向l=(l1,l2)来建立判别函数
y=l1X1+l2X2,可以求得一常数с,使 y<с 等价于(X1,X2)落在g1,y>с等价于(X1,X2)落在g2。由此得判别规则:若,l1X1+l2X2<c
判,即此人为健康者;若,l1X1+l2X2>C
判,
即此人为心脏病人;若,l1X1+l2X2=c则为待判。此例的判别函数是线性函数,它简单方便,在实际问题中经常使用。但有时也用非线性判别函数,特别是二次判别函数。建立判别函数和判别规则有不少准则和方法,常用的有贝叶斯准则、费希尔准则、距离判别、回归方法和非参数方法等。
无论用哪一种准则或方法所建立的判别函数和判别规则,都可能产生错判,错判所占的比率用错判概率来度量。当总体间区别明显时,错判概率较小;否则错判概率较大。判别函数的选择直接影响到错判概率,故错判概率可用来比较不同方法的优劣。
变量(如上例中的X1和X2)选择的好坏是使用判别分析的最重要的问题,常用逐步判别的方法来筛选出一些确有判别作用的变量。利用序贯分析的思想又产生了序贯判别分析。例如医生在诊断时,先确定是否有病,然后确定是哪个系统有病,再确定是什么性质的病等等。 又称数值分类。聚类分析和判别分析的区别在于,判别分析是已知有多少类和样本来自哪一类,需要判别新抽取的样本是来自哪一类;而聚类分析则既不知有几类,也不知样本中每一个来自哪一类。例如,为了制定服装标准,对 N个成年人,测量每人的身高(x1)、胸围(x2)、肩宽(x3)、上体长(x4)、手臂长(x5)、前胸(x6)、后背(x7)、腰围(x8)、臀围(x9)、下体长(x10)等部位,要将这N个人进行分类,每一类代表一个号型;为了使用和裁剪的方便,还要对这些变量(x1,x2,…,x10)进行分类。聚类分析就是解决上述两种分类问题。
设已知N个观测值X1,X2,…,Xn,每个观测值是一个p维向量(如上例中人的身高、胸围等)。聚类分析的思想是将每个观测值Xi看成p维空间的一个点,在p维空间中引入“距离”的概念,则可按各点间距离的远近将各点(观测值)归类。若要对 p个变量(即指标)进行分类,常定义一种“相似系数”来衡量变量之间的亲密程度,按各变量之间相似系数的大小可将变量进行分类。根据实际问题的需要和变量的类型,对距离和相似系数有不同的定义方法。
按距离或相似系数分类,有下列方法。①凝聚法:它是先将每个观察值{Xi}看成一类,逐步归并,直至全部观测值并成一类为止,然后将上述并类过程画成一聚类图(或称谱系图),利用这个图可方便地得到分类。②分解法:它是先将全部观测值看成一类,然后逐步将它们分解为2类、3类、…、N类,它是凝聚法的逆过程。③动态聚类法:它是将观测值先粗糙地分类,然后按适当的目标函数和规定的程序逐步调整,直至不能再调为止。
若观察值X1,X2,…,Xn之间的次序在分类时不允许打乱,则称为有序分类。例如在地质学中将地层进行分类,只能将互相邻接的地层分成一类,不能打乱上下的次序。用于这一类问题中的重要方法是费希尔于1958年提出的最优分割法。
聚类分析也能用于预报洪水、暴雨、地震等灾害性问题,其效果比其他统计方法好。但它在理论上还很薄弱,因为它不象其他方法那样有确切的数学模型。 又称主分量分析,是将多个变量通过线性变换以选出较少个数重要变量的一种方法。设原来有p个变量x1,x2,…,xp,为了简化问题,选一个新变量z,
,
要求z尽可能多地反映p个变量的信息,以此来选择l1,l2,…,lp,当l1,l2,…,lp选定后,称z为x1,x2,…,xp的主成分(或主分量)。有时仅一个主成分不足以代表原来的p个变量,可用q(<p)个互不相关的呈上述形式的主成分来尽可能多地反映原p个变量的信息。用来决定诸系数的原则是,在
的约束下,选择l1,l2,…,lp使z的方差达到最大。
在根据样本进行主成分分析时又可分为R型分析与Q型分析。前者是用样本协差阵(或相关阵)的特征向量作为线性函数的系数来求主成分;后者是由样品之间的内积组成的内积阵来进行类似的处理,其目的是寻找出有代表性的“典型”样品,这种方法在地质结构的分析中常使用。 它是由样本的资料将一组变量
y2,……yp)
分解为一些公共因子f与特殊因子s的线性组合,即有常数矩阵A使у=Af+s。公共因子f 的客观内容有时是明确的,如在心理研究中,根据学生的测验成绩(指标)来分析他的反应快慢、理解深浅(公共因子);有时则是不明确的。为了寻求易于解释的公共因子,往往对因子轴进行旋转,旋转的方法有正交旋转,斜旋转,极大变差旋转等。
从样本协差阵或相关阵求公共因子的方法有广义最小二乘法、最大似然法与不加权的最小二乘法等。通常在应用中,最方便的是直接利用主成分分析所得的头几个主成分,它们往往是对各个指标影响都比较大的公共因子。 它是寻求两组变量各自的线性函数中相关系数达到最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但至今未能广泛应用。
上述的各种方法可以看成广义多元分析的内容,在有些方法中,如加上正态性的假定,就可以讨论一些更深入的问题,例如线性模型中有关线性假设检验的问题,在正态的假定下,就有比较系统的结果。 多元分析也可按指标是离散的还是连续的来区分,离散值的多元分析实质上与列联表分析有很大部分是类似的,甚至是一样的。
非数量指标数量化的理论和方法也是广义多元分析的一个重要的研究课题。
㈤ 多元统计分析方法的作用是什么
多元统计分析方法的作用使实际工作者利用多元统计分析方法解决实际问题更简单方便。
如果每个个体有多个观测数据,或者从数学上说,如果个体的观测数据能表为P维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法就叫做多元统计分析,它是数理统计学中的一个重要的分支学科。
典型相关分析
它是寻求两组变量各自的线性函数中相关系数达到最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但至今未能广泛应用。
㈥ 因子分析法的概念
1.主成分分析
主成分分析主要是一种探索性的技术,在分析者进行多元数据分析之前,用他来分析数据,让自己对数据有一个大致的了解,这是非常有必要的。主成分分析一般很少单独使用:a、了解数据。(screening the data),b、和cluster analysis(聚类分析)一起使用,c、和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成分对变量简化(rece dimensionality),d、在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。
2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。
5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。
在算法上,主成分分析和因子分析很类似,不过在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。
2.聚类分析(Cluster Analysis)
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。
在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作。
3.判别分析(Discriminatory Analysis)
判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。
费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。
距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。
4.对应分析(Correspondence Analysis)
对应分析是一种用来研究变量与变量之间联系紧密程度的研究技术。
运用这种研究技术,我们可以获取有关消费者对产品品牌定位方面的图形,从而帮助您及时调整营销策略,以便使产品品牌在消费者中能树立起正确的形象。
这种研究技术还可以用于检验广告或市场推广活动的效果,我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品的不同认知图来看出广告或市场推广活动是否成功的向消费者传达了需要传达的信息。
5.典型相关分析
典型相关分析是分析两组随机变量间线性密切程度的统计方法,是两变量间线性相关分析的拓广。各组随机变量中既可有定量随机变量,也可有定性随机变量(分析时须F6说明为定性变量)。本法还可以用于分析高维列联表各边际变量的线性关系。
注意
1.严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的相关形式。
2.典型相关模型的基本假设和数据要求
要求两组变量之间为线性关系,即每对典型变量之间为线性关系;
每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系,可先线性化:如经济水平和收入水平与其他一些社会发展水之间并不是线性关系,可先取对数。即log经济水平,log收入水平。
3.典型相关模型的基本假设和数据要求
所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后,再放入典型相关模型中进行分析。
6.多维尺度分析(Multi-dimension Analysis)
多维尺度分析(Multi-dimension Analysis) 是市场研究的一种有力手段,它可以通过低维空间(通常是二维空间)展示多个研究对象(比如品牌)之间的联系,利用平面距离来反映研究对象之间的相似程度。由于多维尺度分析法通常是基于研究对象之间的相似性(距离)的,只要获得了两个研究对象之间的距离矩阵,我们就可以通过相应统计软件做出他们的相似性知觉图。
在实际应用中,距离矩阵的获得主要有两种方法:一种是采用直接的相似性评价,先将所有评价对象进行两两组合,然后要求被访者所有的这些组合间进行直接相似性评价,这种方法我们称之为直接评价法;另一种为间接评价法,由研究人员根据事先经验,找出影响人们评价研究对象相似性的主要属性,然后对每个研究对象,让被访者对这些属性进行逐一评价,最后将所有属性作为多维空间的坐标,通过距离变换计算对象之间的距离。
多维尺度分析的主要思路是利用对被访者对研究对象的分组,来反映被访者对研究对象相似性的感知,这种方法具有一定直观合理性。同时该方法实施方便,调查中被访者负担较小,很容易得到理解接受。当然,该方法的不足之处是牺牲了个体距离矩阵,由于每个被访者个体的距离矩阵只包含1与0两种取值,相对较为粗糙,个体距离矩阵的分析显得比较勉强。但这一点是完全可以接受的,因为对大多数研究而言,我们并不需要知道每一个体的空间知觉图。
多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。在自然科学和社会科学的许多学科中,研究者都有可能需要分析处理有多个变量的数据的问题。能否从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论,不仅对所研究的专业领域要有很好的训练,而且要掌握必要的统计分析工具。对实际领域中的研究者和高等院校的研究生来说,要学习掌握多元统计分析的各种模型和方法,手头有一本好的、有长久价值的参考书是非常必要的。这样一本书应该满足以下条件:首先,它应该是“浅入深出”的,也就是说,既可供初学者入门,又能使有较深基础的人受益。其次,它应该是既侧重于应用,又兼顾必要的推理论证,使学习者既能学到“如何”做,而且在一定程度上了解“为什么”这样做。最后,它应该是内涵丰富、全面的,不仅要基本包括各种在实际中常用的多元统计分析方法,而且还要对现代统计学的最新思想和进展有所介绍、交代。
主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。
可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。
因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。
㈦ 距离判别与贝叶斯判别的区别是什么
如下:
贝叶斯判别的准则是使由误判带来的平均损失达到最小。距离判别采用的是马氏距离,马氏距离反映了分散程度,判别时计算样品到总体的马氏距离,把样品归类到马氏距离最小的类别中。
对于协方差矩阵相等的若干个正态总体,两者的不同之处在于临界值的选取;若是先验概率和损失函数相同的两个同协方差矩阵的总体,则贝叶斯和距离判别是相同的。
三大类主流的判别分析算法,分别为费希尔(Fisher)判别、贝叶斯(Bayes)判别和距离判别。
具体的,在费希尔判别中我们将主要讨论线性判别分析(Linear Discriminant Analysis,简称LDA)及其原理一般化后的衍生算法,即二次判别分析(Quadratic Discriminant Analysis,简称QDA)。
而在贝叶斯判别中将介绍朴素贝叶斯分类(Naive Bayesian Classification)算法;距离判别我们将介绍使用最为广泛的K最近邻(k-Nearest Neighbor,简称kNN)及有权重的K最近邻( Weighted k-Nearest Neighbor)算法。
1、费希尔判别
费希尔判别的基本思想就是“投影”,即将高维空间的点向低维空间投影,从而简化问题进行处理。
投影方法之所以有效,是因为在原坐标系下,空间中的点可能很难被划分开,如下图中,当类别Ⅰ和类别Ⅱ中的样本点都投影至图中的“原坐标轴”后,出现了部分样本点的“影子”重合的情况,这样就无法将分属于这两个类别的样本点区别开来。
而如果使用如图“投影轴”进行投影,所得到的“影子”就可以被“类别划分线”明显地区分开来,也就是得到了我们想要的判别结果。
我们可以发现,费希尔判别最重要的就是选择出适当的投影轴,对该投影轴方向上的要求是:保证投影后,使每一类之内的投影值所形成的类内离差尽可能小,而不同类之间的投影值所形成的类间离差尽可能大,即在该空间中有最佳的可分离性,以此获得较高的判别效果。
对于线性判别,一般来说,可以先将样本点投影到一维空间,即直线上,若效果不明显,则可以考虑增加一个维度,即投影至二维空间中,依次类推。而二次判别与线性判别的区别就在于投影面的形状不同,二次判别使用若干二次曲面,而非直线或平面来将样本划分至相应的类别中。
相比较来说,二次判别的适用面比线性判别函数要广。这是因为,在实际的模式识别问题中,各类别样本在特征空间中的分布往往比较复杂,因此往往无法用线性分类的方式得到令人满意的效果。
这就必须使用非线性的分类方法,而二次判别函数就是一种常用的非线性判别函数,尤其是类域的形状接近二次超曲面体时效果更优。
2、贝叶斯判别
朴素贝叶斯的算法思路简单且容易理解。
理论上来说,它就是根据已知的先验概率P(A|B),利用贝叶斯公式求后验概率P(B|A),即该样本属于某一类的概率,然后选择具有最大后验概率的类作为该样本所属的类。
通俗地说,就是对于给出的待分类样本,求出在此样本出现条件下各个类别出现的概率,哪个最大,就认为此样本属于哪个类别。
朴素贝叶斯的算法原理虽然“朴素”,但用起来却很有效,其优势在于不怕噪声和无关变量。而明显的不足之处则在于,它假设各特征属性之间是无关的。
当这个条件成立时,朴素贝叶斯的判别正确率很高,但不幸的是,在现实中各个特征属性间往往并非独立,而是具有较强相关性的,这样就限制了朴素贝叶斯分类的能力。
3、距离判别
距离判别的基本思想,就是根据待判定样本与已知类别样本之间的距离远近做出判别。具体的,即根据已知类别样本信息建立距离判别函数式,再将各待判定样本的属性数据逐一代入计算,得到距离值,根据距离值将样本判入距离值最小的类别的样本簇。
K最近邻算法则是距离判别中使用最为广泛的,即如果一个样本在特征空间中的K个最相似/最近邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。
K最近邻方法在进行判别时,由于其主要依靠周围有限邻近样本的信息,而不是靠判别类域的方法来确定所属类别,因此对于类域的交叉或重叠较多的待分样本集来说,该方法较其他方法要更为适合。