基于多元统计分析的水库移民后期扶持效果评价指标筛选及分级

华北电力大学可再生能源学院北京市102206

摘要：在充分的实地调查基础上，从经济水平情况、资源拥有情况、生活条件情况、基础设施情况及人口素质与社会保障情况五个方面筛选指标，构建水库移民后期扶持效果评价指标体系。在此基础上，运用K-均值聚类方法建立水库移民后期扶持效果评价指标分级标准，为规范和制定水库移民后期扶持效果评价指标标准值提供依据。

关键词：水库移民；多元统计；指标筛选；指标界限值；K-均值聚类

1引言

水库移民后期扶持效果评价指标是进行移民安置规划综合评价的基础之一。指标体系的科学性、全面性，直接关系到综合评价的正确与否，影响着决策者最终所获的信息是否科学、全面。科学、全面、合理的水库移民后期扶持评价指标体系可以指导地区社会经济持续、健康的发展，提高移民的生活水平，同时对推动社会稳定、持续、协调的发展起到非常重要的作用。水库移民涉及社会经济、政治、文化、习俗甚至宗教等诸多方面，因此后期扶持评价指标体系非常复杂，依据移民项目和评价侧重点的需要，可以选取不同的指标体系[1]。针对整个水库移民后期扶持评价系统的指标体系在不断的完善，而目前在对某地区水库移民后期扶持效果评价的指标选取，大都是在遵循科学性、可获取性原则的基础上主观决定评价指标，容易造成信息覆盖不全和指标间信息重叠等问题。

对某地区水库移民后期扶持效果开展评价，需确定各指标标准值。标准值的确定对水库移民后期扶持效果评价具有很大的影响，目前有关研究所采取的方法是结合该地区相关规划及统计年鉴分析确定评价标准，或是采用咨询专家对分值进行初步框定和修改。

综上所述，现有的水库移民后期扶持评价指标体系存在的主要问题：一是指标体系偏向于宏观层面的整个水库移民后期扶持工作效果的评价，未有建立对一国之内不同地区微观层面的评价指标筛选模型。二是现有的针对某地区的评价指标选取方法易导致存在鉴别能力小、反映信息冗余的指标。三是评价指标分级标准的确定方法主观性过强，难以做到客观地与搬迁前进行纵向比较，与其他水库的搬迁安置进行横向对比。因此结合某地区的实际情况，建立一个既能反映水库移民后期扶持现状，又可以为未来的后期扶持工作重点的确定提供方向的评价指标筛选及分级模型，则成为水库移民后期扶持效果评价的当务之急。

针对上述问题，本文在充分的实地调查的基础上，利用基尼系数-偏相关性分析相结合的方法对原始调查数据分析，定量筛选指标，构建了反映地区实际情况、影响显著的水库移民后期扶持效果评价指标体系；在筛选后的评价指标体系基础上利用K-均值聚类分析对指标进行等级划分，为水库移民后期扶持效果评价提供分级标准划分方法。

2构建评价指标体系

2.1初始指标体系

根据水库移民后期扶持评价内容、指导思想及其构建原则，初步建立了水库移民后期扶持评价指标体系。本文从经济水平情况、资源拥有情况、生活条件情况、基础设施情况及人口素质与社会保障情况五个准则层构建评价指标体系。通过人均可支配收入、人均生活消费支出等指标反映经济水平情况准则层，通过人均耕地面积、水浇地比例等指标反映资源拥有情况准则层，通过人均住房面积、汽车百户拥有量等指标反映生活条件情况准则层，通过饮水安全比例、通宽带网络比例等指标反映基础设施情况准则层，通过购买新农合比例、高中阶段入学率等指标反映人口素质与社会保障情况准则层。

本文整合现有的水库移民后期扶持评价文献中所选取的指标，结合《水利水电工程移民安置监督评估规程》，遴选出一套包括28个指标、5个准则层、1个目标层的初始指标体系，如图1所示。

图1水库移民后期扶持效果评价初始指标体系

2.2基于显著性差异的指标筛选方法

指标的基尼系数值反映了任意两个评价对象之间的差异，基尼系数越大，表明该指标评价对象之间的差异越大，该指标信息含量越大，越应该保留；反之，该指标信息含量越小，越应该删除。通过计算准则层指标基尼系数的均值，剔除小于基尼系数均值的指标，保留大于基尼系数均值的指标[2]。通过删除基尼系数小，即评价对象差异性较小的评价指标，保证筛选后的指标体系能够对移民后期扶持效果评价有显著的影响。

基尼系数是由意大利经济学家基尼提出的一个定量测定收入分配差异程度的指标，现是国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标。设Gk-第k个指标的基尼系数值，n-样本量，Yki,Ykj-分别表示第k个指标第i个评价对象标准化值、第k个指标第j个评价对象标准化值，μ-第k个指标的期望值。第k个指标的基尼系数Gk为：

分子越大，第k个指标中任意两个评价对象的差异越明显，说明该指标可以显著的区分不同的评价对象，即：该指标的鉴别能力越强，信息含量也越大，应该保留。反之，分子越小，说明该指标不能显著的区分不同的评价对象，鉴别能力越差，信息含量也越小，应该删除。

学者们在基尼系数的研究过程中逐渐引入了一些高等数学的计算方法，主要有基尼系数的协方差公式和矩阵计算方法。本文采用协方差公式（2）进行计算：

2.3剔除信息冗余的指标筛选方法

在多要素构成的系统中，当研究某一个要素对另一个要素的影响或相关程度时，把其他要素的影响视作常数，即暂时不考虑其他要素影响，单独研究两个要素之间的相互关系的密切程度，所得的数值为偏相关系数。偏相关性系数值越大，说明两个指标之间的相关程度越高[3]。通过计算两个评价指标之间的偏相关系数，在同一个准则层内偏相关系数大的一对指标中，删除基尼系数值较小、即信息含量较小的指标，消除评价指标所反映的信息重复对评价结果的影响，简化指标体系。

设rih-第i个指标和第h个指标的相关系数，xij-第i个指标的第j个值，xhj-第h个指标的第j个值；-分别表示第i个、第h个指标的平均值。

相关系数r的取值在-1~+1之间，r>0表示两变量存在正的线性相关关系，r<0表示两变量存在负的线性相关关系。｜r｜>0.8表示两变量之间具有较强的线性相关关系；｜r｜<0.3表示两变量之间具有较弱的线性相关关系。本文选取偏相关系列临界值为0.8，即：两个指标的相关系数的值大于0.8，说明两个指标反映信息重复，可以删除其中的一个指标。临界值选取的统计意义为：在显著性水平α=0.05时，相关系数绝对值大于0.8，说明两个指标的线性关系是显著的，反映信息重复。

2.4指标体系合理性的判断

本文设定指标体系构建合理的标准是：最终指标体系反映原始信息需在90%以上[4]。

根据指标数据方差反映指标信息含量的原理，用最终指标体系原始数据的方差比上原始指标体系原始数据的方差，判定构建的指标体系反映信息的含量[5]。设S-指标数据的协方差矩阵；trS-协方差矩阵的迹，表示协方差矩阵的主对角线上各指标方差之和；s-筛选后的指标个数；h-原始指标的个数。则筛选后的指标对原始指标的信息贡献率In为：

公式（7）的含义是筛选后的s个指标的方差之和trSs占原始的h个指标的方差之和trSh的比值，表示s个筛选后的指标反映的h个原始指标的信息。

3评价指标等级划分

3.1采用K-均值聚类法进行评价指标等级划分

K-均值聚类的原理是将数据看成k维空间上的点，以距离为测度个体“亲疏程度”的指标。在划分的过程中，首先需要创建一个初始的划分，这一划分可以是随机构建的，之后通过迭代的方式反复将样本重新分配到其更合适的划分当中，从而改善划分的整体质量，直至满足划分精度的要求。本文通过SPSS软件利用K-均值聚类分析的原理研究水库移民后期扶持效果评价指标等级划分标准[6]。

1、指定聚类数目K

按照习惯的5级评分制，将各层次的评定指标划分为优秀、良好、中等、较差、很差，选定聚类数目K=5。

2、确定K个初始类中心点

确定初始类中心的方式一般有两种：用户指定方式和系统指定方式。用户指定方式为用户事先准备一个存有K个样本观测的SPSS数据文件，这K个样本观测将作为K个类的初始类中心。系统指定方式为SPSS系统会根据样本数据的具体情况选择K个有一定代表性的样本作为初始类中心点。它们往往是彼此间距离最远者。在初始类中心的选择上，虽然用户的可选择性比较大，但也应根据实际工作的需要和以往经验，指定比较合理的初始类中心点，否则，就应增加迭代次数，以保证最终聚类结果的合理性和准确性。本文采用系统指定方式，经过多次迭代确定聚类中心。

3、按照距离最近原则进行分类

SPSS系统通过计算每个样本数据点到K类中心点的欧式距离，并按照K个类中心点距离最短的原则将所有样本分派到K个分类中。

4、指标分级标准确定

参考最终的凝聚中心和距离确定各指标分级标准。

3.2分级标准合理性检验

对各指标数据进行正态性检验，符合正态分布，采用独立样本t检验法对各指标各级数据进行统计分析，若p<0.01，即指标各级之间存在极显著性差异，划分依据合理。不符合正态分布，采用秩和检验法对各指标各级数据进行统计分析，若p<0.01，即指标各级之间存在极显著性差异，划分依据合理[7]。

4实证研究

4.1样本选取与数据来源

本文选取了广东省2017年15个水库移民后期扶持效果监测评估县59个乡镇的141个样本村3000户14973人的调查数据作为实证对象。

4.2评价指标体系的建立

（1）基于基尼系数的第一次筛选

将指标原始数据依次代入式（1），得到28个指标的基尼系数值，见表1第3列。表1第3列每个准则层内的指标基尼系数求平均值，可以得到5个基尼系数的平均值，列入表1第4列。在每个准则层内，剔除小于基尼系数均值的指标，保留大于基尼系数均值的指标。在基尼系数的第一次筛选中，共删除13个指标，保留了15个指标。

表1基尼系数筛选级结果

（2）基于偏相关分析的第二次筛选

将所有大于0.8的偏相关系数列入表2。对于反映信息重复的指标，保留基尼系数值最大的指标。在第一次筛选剩余的15个指标中，经过第二次筛选共删除3个指标，保留了12个指标，见表3。

表2偏相关分析的筛选结果

4.5指标等级划分合理性检验

运用Q-Q图对各指标数据进行正态分布检验，正态分布检验结果显示各指标数据不符合正态分布。采用秩和检验法对各指标各级进行统计分析，若p<0.01，即指标各级之间存在极显著性差异，划分依据合理。对12个指标各级之间进行秩和检验，原假设为各级之间分布相同，检验结果为p<0.01，拒绝原假设，说明各级之间存在极显著差异，等级划分合理。

5结语

（1）水库移民后期扶持效果评价指标种类增多、数目增大，在评价指标选取上大都依靠评价者的经验，存在较大的主观性，评价指标体系存在指标信息覆盖不全和指标间信息重叠，影响评价的科学性。任一系统不可能通过所有相关的指标进行评价，需要筛选具有代表性的指标，建立微观层面的指标体系。本文通过构建指标的基尼系数值，剔除基尼系数值较小，即评价对象差异较小的指标，保证筛选后的指标体系对对移民后期扶持效果评价有显著的影响；通过在相关性系数大于0.8的两个指标中，根据基尼系数值越大，这个指标鉴别能力越强的思路删除基尼系数值较小的指标，避免了指标反映信息重复。

（2）本文采用K-均值聚类法对各评价指标进行区间划分，确定指标标准值，在传统的仅采用主观经验与实际情况相结合的评价指标界限值确定方法的基础上有了新的突破，为规范和制定水库移民后期扶持效果评价指标标准值提供依据，以期实现评价的规范化。

参考文献

[1]单颖.水库移民安置后评价指标体系探讨[J].人民长江，2010，41（23）：26-27.

[2]孟斌，匡海波.基于显著性差异的经济社会发展评价指标筛选模型及应用[J].科研管理，2018，39(11)：19-21.

[3]陈希孺，倪国熙.数理统计学教程[M].安徽：中国科学技术大学出版社，2009.

[4]张昆，迟国泰.基于相关分析-粗糙集理论的生态评价指标体系构建[J].系统工程学报，2012（1）：119-128.

[5]MengBin，ChiGuotai.Evaluationindexsystemofgreenindustrybasedonmaximuminformationcontent[J].TheSingaporeEconomicReview，2018，63（2）：229-248.

[6]高钦，杨太新.王不留行种子质量分级标准研究[J].种子检验，2015，34（2）：107-109.

[7]张立伟.用数理统计的方法处理试验数据的异常值[J].电线电缆，2005（04）：46-48.

作者简介：冯湘萍（1994-06），女，汉族，籍贯：广西玉林，学历：硕士研究生，研究方向：水利水电工程（水库移民科学管理）

标签：指标论文; 指标体系论文; 系数论文;

基于多元统计分析的水库移民后期扶持效果评价指标筛选及分级

猜你喜欢