時間:2022-09-28 02:20:43
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇主成分分析論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
主成分分析法,又稱主分量分析法是指相關的經濟變量間通常存在著起主導作用的決定性因素,通過對原始變量的相關矩陣內部結構進行分析,找出幾個不相關的綜合指標來線性表示原來的變量,主成分之間既互不相關,又盡可能多的包含了原指標集合。這種方法首先由Hotelling提出,其主要思想是降維。Stone(1947)對美國1929-1938年間的17項國民經濟統計指標進行主成分分析,發現完全可以用三個經濟指標來概括原來的17項指標,大大簡化了數據分析。M.Scott(1961)對英國157個城鎮的發展水平進行主成分分析,發現原57個測度指標完全可以由5個綜合變量替代,既解決了原指標間的信息重疊問題,又簡化了原指標體系的指標結構,主成分分析由此推廣。邱東(1990)系統闡述了主成分分析法的定義、基本思想、基本步驟和特點,認為主成分分析法可以消除評價指標間的相關影響,并且伴隨數學變換過程生成信息量權數和系統效應權數,保證了客觀性。同時也指出了主城分析法在計算綜合評價值未充分考慮指標的重要程度等不足,主要適用于被評價對象較多的綜合評價。隨后,眾多學者對此提出了改進:孟生旺(1992)針對原始數據的標準化處理和主成分個數的選擇問題,認為標準化不如均值化的無量綱處理方法,提出了非標準化主成分分析法。陳述云等(1995)通過對原始數據作對數—中心化轉換,用原始變量的非線性組合表示主成分,同時重點分析樣本協方差矩陣而非相關系數矩陣,提出了非線性主成分法。朱泰英等(2004)提出了加權主成分分析法,認為可以將主成分分析法的客觀分析和層次分析法的主觀分析有機結合。王璐等(2006)在對主成分分析法的權數、降維等問題的研究上,提出了首先要按主成分分析法對指標體系進行分類,得到各方面的評價值后再進行主成分分析,最終得到綜合評價值的二重主成分分析法。段力誌等(2009)在傳統主成分分析法基礎上,首先對原始指標值進行預處理,再借助軟件,將原始數據轉化為少數幾個主成分的線性組合,并進行加權變換,得到改進的主成分綜合值。白雪梅等(1995)則分析了“均值化”、“標準化”、“極差正規化”三種方法的選擇條件是保證方差損失最小。陳衍泰等(2004)認為主成分分析法具有全面性、可比性和客觀合理性等優點,比較適合對評價對象進行分類,但需要大量數據,函數意義不夠明顯,不能反映客觀發展水平。蘇為華(2012)提出經典的R型主成分本質是單項指標標準化結果的加權算術平均值,比當量平均法復雜。趙利等(2013)通過主成分分析法對宏觀經濟中影響城鎮勞動就業因素分析時,提出主成分為宏觀經濟和技術進步,通過VAR模型對主成分進行分析,得出宏觀成分中對城鎮勞動就業影響最大的是消費、產業結構和城市化水平,而技術進步成分中影響最大的是技術進步的結論。黃利文(2013)針對主成分分析中存在的未考慮負向因子的影響,以及采用線性加權法時確定權重方法不統一,評價結果非唯一等缺陷,提出了逼近理想點的主成分分析法,更好地反映了原始數據信息,并較為客觀地給出了綜合評價結果。林海明等(2013)認為主成分分析因缺乏應用條件的考慮而導致評價結果不具合理性甚至錯誤,通過分析因子分析法因子載荷陣的簡單結構、加權算術平均數的合理性,得出主成分分析的應用條件是:指標是正向、標準化的;主成分載荷陣達到更好的簡單結構時,主成分正向,且主成分與變量顯著相關。
二、因子分析
法因子分析法是指從被評對象的觀察變量的相關度出發,利用降維的思想,把繁雜的變量盡可能歸納為幾個綜合因子進行分析的的一種多變量統計分析方法。其基本思想是:將觀察變量按相關度的高低或聯系的緊密程度進行分類,類別內部變量相關性高,聯系緊密,而類別之間的變量則相關度較低,聯系稀疏,每一類變量則代表一個公共因子。具體步驟為:
三、逼近理想解的排序法
關鍵詞 期刊評價;區間數據;主成分分析;相關分析
中圖分類號 文獻標識碼 A
Analyzing the Current Development of Periodicals
Based on Interval-Censored Data
LI Jing-bo
(Periodical Agency, Hunan University, Changsha, Hunan 410082, China)
Abstract The article uses all periodicals' data collected in CSSCI database to build a model by the ways of relative analysis and interval-censored data's principal component analysis. It analyzes all periodicals in the database objectively and systematically, and explores its characters, regularity and reasons, which provides some ways to manage academic journal better.
Key words periodicals' comment; interval-censored data; principal component analysis; relative analysis
1 引 言
學術期刊作為科學技術事業的重要組成部分,具有傳播知識、傳播思想、傳播信息的重要功能,與科技創新和進步有著密不可分的關系.另一方面,學術期刊作為衡量一個國家的科技發展水平的尺度,標志著該國家的生產力水平高低及科學文化事業的興旺發達程度,會產生巨大的社會影響和經濟效益.因此,辦好學術期刊是建立我國科學和技術創新體系的重要環節[1].
自20 世紀80 年代以來,中國的學術期刊出現了一個“黃金時代”,數量急劇增長,似乎呈現出一片繁榮的景象.據統計,目前,全世界共有近24萬種期刊,85%在發達國家出版發行;學術性期刊約10 萬種,其中重要科技期刊8 萬種,幾乎全為發達國家所擁有.與發達國家相比較而言,我國所擁有的學術期刊并不多,2008年全國共出版期刊95 49種,平均期印數16 767萬冊,總印數31.05億冊,總印張157.98億印張,其中,學術期刊有6 000余種(哲學、社會科學類2 339種),在整個期刊中所占比例在40%左右[2].
從數量上講,我國僅次于美國,成為世界學術期刊第二大國.雖然從學術期刊和學術論文的絕對數量上來看,我國算得上是一個學術期刊大國,但是我國學術期刊發展仍面臨著發展水平參差不齊、優秀稿源外流等諸多問題.因此,建立科學的評價模型,分析我國學術期刊的發展現狀和特點,以期對我國學術期刊的健康發展發揮有效的導向作用,并促進其管理的標準化、規范化.
期刊評價是文獻計量學研究的重要組成部分,它通過對學術期刊的發展規律和增長趨勢進行量化分析,揭示學科文獻數量在期刊中的分布規律.
評價學術期刊的文獻計量指標多種多樣,各有側重.在評價期刊時,單一使用任何一種指標都可能造成某些方面不同程度的片面性,而選擇許多個指標時,又常因個數太多而增加對問題分析的復雜性,且人為確定指標權重會產生主觀偏差,加上對于指標之間的相關性未給充分的考慮,造成所確定的權重并不是實際計算過程中所體現的真實權重[3].
隨著人們對期刊評價工作重要性認識的不斷加深,評價方法有了很大的進展,出現了諸如綜合評分、專家討論、費用效益分析、層次分析、模糊聚類、模糊評判、灰色統計、熵值法以及改進熵值法,灰色關聯分析、人工神經網絡方法、主成分分析方法等評價方法.這些方法在評價工作中展示了各自的優點,同時也暴露出各自的弱點和缺陷,在此不一一贅述.
現有期刊評價的研究大多聚焦于通過建立指標體系,對某一類學術期刊進行綜合排序,并且所使用的數據樣本規模較小.本文將采用CSSCI數據庫中收錄的全部期刊數據,通過相關分析、區間數據主成分分析等方法建立模型,實現數據降維和可視化,客觀地對整個數據庫中各學科期刊的整體特征進行全面、系統的分析,探尋其中的特征、規律以及原因.
2 數據描述與指標選擇
本文的數據來自于中文社會科學引文索引(Chinese Social Sciences Citation Index,簡稱CSSCI)是由南京大學中國社會科學研究評價中心開發研制的引文數據庫,用來檢索中文人文社會科學領域的論文收錄和被引用情況.CSSCI中收錄期刊均為學術性期刊,以反映我國社會科學研究和科研成果應用為主要方向,充分顯示我國的科研水平,因此利用其數據可以一定程度反映我國學術期刊的整體情況.
2007-2008年,CSSCI來源期刊共收錄528種期刊,CSSCI擴展版收錄期刊的數量為152種,CSSCI來源集刊共收錄86種期刊,共計收錄766種期刊.
CSSCI使用的指標分為兩類:(一類反映情況,包括發文量、基金論文數、發文機構數、篇均參考文獻量、自引率、引用半衰期等6個指標,
另一類屬于引證指標,包括影響因子、即年指標、總被引頻次、自被引率、被引半衰期等5個指標[4].
下面對上述11個指標的含義進行簡要介紹[5].
1)發文量.絕對數量指標,指某一期刊在一定時期內(一年)所刊登的全部論文數,反映了期刊的信息含量.發文量越高,說明期刊的信息含量就越大.
2)基金論文數.
絕對數量指標,指期刊在當年中受基金資助的論文數量可測度期刊在學術交流中的地位,表征論文產出性質的重要指標,可以衡量期刊論文學術質量.基金論文數越多,說明期刊論文的學術質量就越高.
3)發文機構數.絕對數量指標,指期刊當年所中所涉及的不同機構的數量,可測度期刊論文的機構分布情況,衡量期刊科學生產能力,機構分布越廣,說明期刊具有開放性和作者隊伍具有廣泛性.發文機構數越多,說明期刊的影響范圍就越廣.
4)篇均參考文獻量.相對數量指標,指在給定的時間內(一年),期刊中的平均參考文獻量,在數值上等于期刊參考文獻數/期刊論文總數,通??梢苑从称诳招畔⒌哪芰σ约翱茖W交流程度的高低.篇均參考文獻量越多,說明期刊吸收的信息越多.
5)自引率.相對數量指標,指該刊在當年的自引次數占該刊當年參考文獻總數的比例.自引率越高,說明期刊引用論文中的大部分是發表在自身期刊上的,學術交流程度則越低,且若自引率過高,往往說明該期刊有不良的非正常自引現象.
6)引用半衰期.絕對數量指標,指該期刊當年引用類型為期刊的參考文獻中較新的一半是在多長時間中發表的,可測度期刊文獻老化的速度[6].
一般來說,半衰期長的期刊比短的期刊影響更深遠一些.但該指標受學科的內容、性質等因素的制約,比如說發展穩定的學科比發展較快、較活躍的學科長,基礎理論學科的比技術學科的長,歷史悠久的比新興學科的長.因此該指標在判斷期刊學術質量時往往不易解釋和操作.
7)影響因子.相對數量指標,指期刊前2 年的被引次數占前2 年該刊所總數的比例.
表征論文被引強度的重要指標,反映學術影響力.影響因子可克服由于發文量不同所造成的對期刊被引率的偏差,使期刊總被引頻次這一絕對指標變成了相對指標,所以能較好地反映期刊被使用的真實客觀情況,從而可以對不同期刊的引用次數和質量進行比較,以說明其利用率在科學上的重要性.通常影響因子越大,可以認為期刊在科學發展和文獻交流過程中的作用和影響較大,其學術水平也較高.影響因子是期刊評價中最重要的指標之一.
8)即年指標.相對數量指標,指某刊當年的被引次數占該刊當年總數的比例,是表征論文被引速度的主要指標.即年指標越大,說明期刊論文被引的數量多且速度快.
9)總被引頻次.絕對數量指標,指某刊自創刊以來所刊登的全部論文在某一年被其他期刊(包括本刊)引用的總次數,可測度期刊自創刊以來的學術影響力,是從信息反饋的角度評價期刊的基本指標之一,表征期刊學術質量的重要指標[4].
體現了被引用過程的總體規模.總被引頻次也是期刊評價中最重要的指標之一.
10)自被引率.相對數量指標,指某期刊當年被本刊引用的次數占該刊當年被引用總次數的比例.與自引率類似,自被引率越高反而不好.
11)被引半衰期.絕對數量指標,指某期刊在某年被引用的全部論文中較新的一半是在多長時間中發表的.
與引用半衰期類似,被引半衰期在期刊評價中的受各種因素影響大且不易直接判斷好壞.
以上11個指標中,自引率和自被引率兩個指標屬于反映期刊水平的逆向指標,而引用半衰期和被引半衰期兩個指標不能簡單地用數值大小來解釋期刊水平的優劣,故只選取余下的7個指標(發文量、基金論文數、發文機構數、篇均參考文獻量、影響因子、即年指標、總被引頻次)進行以下的建模分析.
3 模型建立及結果分析
本節采用相關分析和區間數據主成分分析等方法建立模型,從期刊計量指標進行篩選和大規模期刊數據的“打包”處理兩方面,評價期刊的發展水平.
3.1 相關分析
相關分析是研究隨機變量之間是否存在某種依存關系,并對具體有依存關系的變量探討其相關方向以及線性相關程度的一種統計方法.
采用SPSS 15.0軟件對7個指標的原始數據進行相關分析,得到見表1.
表1顯示了7個指標之間的相關系數,可以看出,發文量與基金論文數、發文機構數的相關性很強,影響因子與即年指標、總被引頻次中度相關[4].
由于基金論文數、發文機構數和發文量的相關程度非常高,僅用其中一個指標就能夠代表三者所包含的絕大部分信息.而發文量的應用更具普遍性,這里篩掉基金論文數、發文機構數兩個指標,用余下的5個指標繼續對全部期刊進行數據分析.
3.2 區間數據主成分分析
區間數據是一種非常重要的數據概念.與傳統的分析方法不同,區間數據分析研究的數據表單元不再是一般意義下的定量和定性數值,而是一個實數域區間.經打包處理后的數據集合在幾何上表現為一個高維的超矩形,這種處理方式不僅能夠反映大規模數據的集中趨勢和離散程度,同時有助于從整體上把握數據集合的表現特征和內在規律[7].
設有一個N個樣本點和p個變量的數據表XN×p=xijN×p.根據數據系統中的某些重要屬性,將這N個樣本點劃分成n類子集合:S1,S2,…,Sn.如果用區間數據ek來概括Sk,常用的方法有:
ek=x-kj,kj=min i∈Sk(xij),max i∈Sk(xij),
j=1,2,…,p. (1)
在實際應用中,還可以采用適當的分位點作為每個區間的上下限.
一般地, n個數據集合Sk,k=1,…,n,可以被概括成一個n×p維的“樣本點×定量區間變量”類型的數據表,其形式為.
n×p=[x11,11][x12,x12]…[x1p,x1p][x21,x21][x22,x22]…[x2p,x2p]……
[xn1,xn1][xn2,xn2]…[xnp,xnp]
=(e1)′(e2)′(en)′.(2)
這里,ei=[xi1,xi1][xi2,xi2]…[xip,xip]′,被稱為區間數據表的樣本點.
由于區間數據的特殊性,在對以區間數據為單元的數據表進行主成分分析時,首先要按照一定的展平算法,將區間數據表展平為普通數據表.本文采用因素區間數據展平算法.該方法首先對每一個數據集合求主成分,然后分別用各個主成分的最大值和最小值來概括區間數據,并用高維超矩形的頂點作為樣本點生成普通數據表.該方法能夠以很高的精度代表原始數據的取值范圍,計算出的主軸誤差較小[8].
本文采用發文量、總被引頻次、篇均參考文獻量、影響因子、即年指標等5個文獻計量指標對CSSCI收錄的全部期刊進行區間數據的主成分分析.
采用Matlab軟件對區間數據進行主成分分析,得到結果見表2.
由表2的分析結果,前兩個主成分累計貢獻率接近70%,能夠較好地代表5個原始變量的大部分信息,因此模型提取第一和第二主成分對期刊進行綜合評價,其結果是合理和有效的.
表3的因子載荷矩陣反映了第一和第二主成分和5個原始變量的相關性.可以看到,第一主成分與5個原始變量均正相關,與影響因子、總被引頻次呈強正相關,說明第一主成分主要反映的是期刊被引用的情況,體現其學術影響力,以影響因子這一指標為代表.
第二主成分與發文量、總被引頻次正相關,特別是和發文量強正相關,與剩下其他三個變量負相關,說明第二主成分反映期刊的載文信息含量,以發文量這一指標為代表.
根據主成分分析的結果,可將符號對象在第一、第二主成分上的得分情況繪制成圖,觀察期刊的特征.如圖1所示,主平面圖的橫軸和縱軸的含義與主成分分析的第一主軸和第二主軸相同,描述期刊的區間數據在主平面上均以“十”字表示.其中,每一個“十”字的交叉點表示相應學科期刊的中心位置,而十字的長短則分別表示該類期刊在第一與第二主軸的離散范圍.通過觀察期刊在主平面圖上的位置,可以把握它們各自在兩方面指標上的表現特征,進而了解各學科期刊的整體特點.
圖1 因子載荷圖4 結論與建議
近年來,我國科技水平快速發展,學術論文的數量和質量也在不斷提高,然而相較而言,我國學術期刊與國際的差距卻非常明顯.因此必須正確認識我國學術期刊的發展現狀,采用客觀、科學、合理的手段評價學術期刊,指導學術期刊的管理工作和發展方向.
本文的研究對CSSCI數據庫中收錄的數百種學術期刊進行了全面、系統描述,并且通過建立模型,得出了一些有益的結論.
首先,學術期刊的發展差異很大,一方面反映在不同學科之間,另一方面反映在同一學科內水平參差不齊,因此在評價期刊時,不宜用同一套指標對全部期刊大排名,而用學科內排名.
其次,就評價指標而言,各種指標反映的信息主要集中在兩個維度.其一是體現被引用情況的一類指標,如影響因子、總被引頻次等,其次是反映信息含量的一類指標,如發文量等.在對學術期刊進行綜合評價時,要挖掘系統的內部特性,重點把握其主要差異所在,便于期刊的管理和遴選.
近年來,隨著經濟的發展和社會的變革,學術界的浮燥之風,也影響到學術期刊的質量.這一方面表現在有重大影響的社會科學成果和具有深遠意義的原創性成果比較匱乏,缺少創新,缺少健康和必要的學術探討,有水準的爭鳴和書評少之又少.另一方面則表現為低水平重復的社會科學成果大量剩余,大部分學術論文質量平平,甚至偏低[2].
學術期刊所面臨的問題已經引起了廣泛的重視.隨著科研體制的進一步完善,學術期刊也將與時俱進,順應時代和社會的發展,尋找自身的出路.
首先要提高期刊的綜合質量,引領學術創新.提高刊物的質量首先就是要爭取好的稿源,通過擴大交流,舉辦研討會等方式,主動爭取好的稿源.
其次提高編輯隊伍的專業素質.應由掌握除編輯學之外的某一領域的專業知識,且學有所長、有一定影響力的專家擔任學術期刊的領導,而其領導下的編輯工作者隊伍是由一批具備一定科研能力、在某一領域已有所成就或有較強科研潛力的中青年學者組成.學術期刊編輯自身的科研能力對于學術期刊發展具有十分重要的作用.
還有就是加快學術期刊國際化步伐.學術期刊承載著重要的社會責任,要努力推進合作中的學術交流,躋身于世界知名期刊行列.提高學術意識,反映我國學術研究的狀況,尤其是科技期刊要依托我國學術研究的專業優勢,真正在國際上代表這一領域的較高水平.學術期刊應與時俱進,打造亞洲一流乃至世界一流的學術期刊.參考文獻
[1] 杜玲.我國學術期刊數字化面臨的問題與對策[J].天水行政學院學報,2010,(6):114-117.
[2] 冷曉玲.學術期刊現狀和發展的思考[J]. 濰坊學院學報,2008,(5):119-122.
[3] 邱均平. 文獻計量學[M ]. 北京:科學技術文獻出版社,1988:2-34.
[4] 杜飛,房濤,葛學銘,等.1999~2008年中國應用生理學雜志載文統計分析[J].中國應用生理學雜志,2010,(2):252-255.
[5] 張建勇.中國科學計量指標:期刊引證報告[M].北京:中國科學院文獻情報中心出版社,2006.
[6] 譚果林.科技情報信息出版物有效性評價指標分析[J].太原科技,2009(10):42-44.
【關鍵詞】人臉識別 判別過程 歐氏距離 馬氏距離
隨著技術的不斷進步,人臉識別系統正在逐漸進入日常應用,在企業、住宅安全、刑偵、自助服務、信息安全等領域有著廣泛的市場前景。目前人臉識別方法主要有:幾何特征的人臉識別方法,基于主成分分析(PCA)的人臉識別方法等。
1 識別方法簡介
幾何特征的人臉識別方法研究開始于上世紀60年代末,通過考量眼、鼻、嘴等的形狀和它們之間的幾何關系實現人臉幾何特征的提取。此方法識別速度快,所占內存小,但識別率較低。
基于主成分分析的人臉識別方法主要是基于KL(Karhunen-Loeve)變換的識別方法,KL變換以矢量信號的協方差矩陣的歸一化正交特征矢量所構成的正交矩陣來對該矢量信號正交變換。在圖像處理中,高維的圖像空間經過KL變換后得到一組新的正交基,保留其中重要的正交基,由這些基可以張成低維線性空間。如果人臉在這些低維線性空間的投影具有可分性,將這些投影作為識別的特征矢量。PCA具有良好的去相關特性,KL變換后的矢量信號分量互不相關。同時KL變換是在均方誤差測度下,失真最小的一種變換。PCA也是目前人臉識別的主流方法。
PCA特征值提取時首先計算矩陣樣本的協方差矩陣,然后計算協方差矩陣的本征向量e1,e2,…,eN的本征值。通過PCA訓練多個樣本的特征值即可作為此人的特征,在識別過程中,用已有的特征值和提取出的本征值計算距離,作為人臉識別的判別依據。
2 主要算法分析
距離計算主流的方法有歐式距離和馬氏距離。
歐氏距離(Euclidean distance)可以描述為在n維空間內,最短的線的長度。歐氏距離可以表示為:
歐氏距離將臉部特征的之間的差別等同看待,并沒有對于主要特征重點考量,而馬氏距離可以解決此問題。
馬氏距離也可以定義為兩個服從同一分布并且其協方差矩陣為Σ的隨機變量與的差異程度。對于樣本集Xi,馬氏距離可以表示為:
其中為樣本平均值,S表示樣本的協方差。
馬氏距離不受量綱的影響,兩點之間的馬氏距離與原始數據的測量單位無關,馬氏距離還可以排除變量之間的相關性的干擾。
3 系統實現方法
在人臉識別系統的判別方法設計中,參考馬氏距離的加權思想,對特征值的歐氏距離進行加權。在提取人臉特征值時,取(樣本數-1)作為提取的特征值的數量。查看特征值所對應的圖片效果,以29個特征值為例,效果如下:
對于權值的選取,考慮到相近特征值所表示的特征之間差異性很小,并且其表示的實質性參量的不確定性,所以將一組固定數量且相鄰的特征值取同一權值。得到經過加權的距離后,計算置信度,置信度定義為:
其中 為訓練樣本值,aj為樣本權值。
如訓練樣本取30張人臉圖片,其特征值選30-1=29個,固定若干個特征值一組,每組用同一權值aj。特征值越靠前,表示其可參考性越大,所賦予的權值也應該越高。
對于非加權算法的歐氏距離,通常認為置信度高于0.5表示兩張圖片相似程度高,低于0.5表示相似程度低。但在人臉識別過程中發現,在訓練樣本不是特別多的情況下判決門限會隨著訓練樣本的增加而增加,而且判決門限值也會高于0.5,實驗中判決門限一般定在0.8以上,判決門限的設定也和前期圖片預處理的方法有關。
4 實驗結果分析
實驗訓練樣本數分別取30,40,50,60,70,綜合10個不同的人在同一位置分別計算加權算法置信度和非加權算法置信度來作對比。分析實驗結果,得到4條平均置信度隨訓練樣本數變化的曲線。訓練樣本數較小的時候置信度隨訓練樣本數的增加而增加比較明顯。但在訓練樣本數較大的情況下,置信度隨訓練樣本數變化不明顯。對于正確的樣本,加權算法所得到的置信度高于非加權算法得到的值,而對于錯誤的樣本,加權算法所得到的置信度低于非加權算法得到的值,所以采用加權算法可以加強判別過程的區分度,提高樣本的識別度。
參考文獻
[1]吳迪.基于特征臉改進算法的人臉識別技術的研究[D].哈爾濱:哈爾濱工業大學碩士論文,2007.
[2]李.基于主成分分析的人臉識別[D].濟南:山東大學碩士學位論文,2008.
[3]柯曉華.人臉識別算法研究及實現[D].哈爾濱:哈爾濱工程大學碩士學位論文,2008.
[4]孫偉,李曉飛.基于PCA的實時人臉識別系統[J].中國多媒體通信,2013(04).
[5]何振學,張貴倉,譙鈞,楊林英.對稱核主成分分析及其在人臉識別中的應用[J].計算機工程,2013(03).
[6]郭浩,王國宇.一種基于中值思想的改進人臉識別方法[J].現代電子技術,2013(02).
[7]李冠楠,李強.一種基于人臉核心特征的PCA人臉識別算法及應用[J].電子器件,2012(05).
關鍵詞:主成分分析 證券公司 競爭力
中圖分類號:F830.91 文獻標志碼:A文章編號:1673-291X(2011)28-0074-03
一、研究背景
隨著中國經濟持續穩定的發展,證券化程度的不斷提高,中國資本市場的規模不斷擴大,這為證券公司創新發展提供了良好的機遇,券商特別是已上市的證券公司的綜合競爭力也得到了長足的發展。在當前激烈的市場競爭中,如何對上市類證券公司的綜合競爭力進行衡量和分析,以達到科學比較,相互借鑒的良性市場機制,從而提升公司的競爭力,已成為證券監管部門、證券公司和投資者關注的問題。
關于證券公司綜合競爭力評價的研究,具有代表性的有單項指標評價法和綜合指標評價法。單項指標評價法以證券業協會公布的證券公司業績排名為代表,包括資產、利潤、承銷收入等單項指標排名,單項指標排名只能反映證券公司某一方面的能力,不能反映證券公司的綜合實力,具有一定的局限性。王曉芳、王學偉等(2008)選取中國50家證券公司為研究對象,選擇經營中的18個參考指標,運用因子分析法對證券公司2006年度的經營狀況做出了客觀全面的評價。運用綜合指標評價法對中國證券公司競爭力進行研究具有積極的意義,但是很少有學者運用綜合評價法對中國上市類證券公司股票競爭力進行評價和分析。
本文以15家上市證券公司為研究對象,選擇其2008―2010年度反映上市公司獲利能力和經營發展能力的六個指標,運用主成分分析法提取影響這些上市證券公司競爭力的綜合指標,并對這些公司的綜合競爭力進行了排名和分析,希望能夠給證券公司和投資者有所幫助。
二、主成分分析法的基本原理
主成分分析是在降低維度思想下產生的處理高維數據的統計方法,即用為數較少的、信息互不重疊的新變量來反映原變量提供的大部分信息,從而通過對為數較少的新變量的分析達到解決問題的目的。
主成分分析可廣泛的應用于經濟指標的評價,其具體的步驟如下:
首先,對原始指標數據矩陣進行標準化處理,并基于標準化的數據計算相關系數矩陣R。計算相關系數矩陣R的目的是通過其求出主成分。
其次,求出相關系數矩陣R的特征值λk(k=1,2,…n)以及各樣本主成分的方差貢獻率、累計方差貢獻率,并根據累計方差貢獻率選取主成分Zj(j=1,2,…r)。
最后,以每個主成分的方差貢獻率為權數,構造綜合評價函數F:
F=■αiZi,其中,αi=■,1≤i≤r。
并根據綜合評價函數對上市證券公司綜合競爭力進行排名。
三、實證結果與分析
1.樣本數據的選取及指標體系的構建。為了較為全面了解中國上市證券公司的綜合競爭力,特選取如下六個指標進行分析:X1:每股凈收益;X2:凈資產收益率;X3:主營業務收益率;X4:主營業務增長率;X5:凈資產增長率;X6:總資產增長率。其中前三個變量反映了上市證券公司的獲利能力,后三個變量反映了公司的經營發展能力。下頁表1給出了15家上市證券公司關于以上六個指標在2008―2010年三年取值的加權平均,權數分別取0.2、0.3和0.5。
由于廣發證券在2010年2月借殼巨虧的S延邊路上市,在2008―2010年度的相關財務指標異常,因此,本文選取其余14家上市證券公司為研究對象。
2.用統計數據進行主成分分析。首先,對原始指標數據矩陣進行標準化處理,并求出其相關系數矩陣:
RR=1 0.661-0.06-0.596 -0.152-0.361 0.661 1-0.591 -0.513 0.0700.013-0.06-0.5911 0.340 -0.309 -0.412-0.596-0.513 0.340 10.0290.343-0.1520.070 -0.309 0.029 1 0.742-0.3610.013-0.4120.343 0.742 1
其次,確定主成分分量。其特征值、方差貢獻率和方差累計貢獻率(如表2所示)。
表2各主成分特征值、方差貢獻率和累計方差貢獻率
由表2可知,前兩個主成分的累計貢獻率已達到76.033%(大于75%),這說明提取的兩個主成分能夠解釋這六個變量75%以上的信息。因此選取前兩個主成分做進一步分析,這兩個主成分分量的計算公式是:
Z1=-0.844X1-0.835X2+0.397X3+0.835X4+0.176X5+
0.381X6
Z2=-0.162X1+0.363X2-0.739X3-0.017X4+0.819X5+
0.864X6
分析上述數據和公式,發現:第一主成分Z1主要反映在X3,X4指標上,說明主營業務利潤高,主營業務增長快。第二主成分Z2主要反映在X5,X6指標上,說明凈資產和總資產增長快。在第一主成分和第二主成分中,X1指標的系數都是負數,表明每股凈收益指標在描述上市證券公司獲利能力上是不足的。上市證券公司獲利能力主要體現在反映主營業務指標的第一主成分上,經營發展能力主要反映在凈資產和總資產的增長速度上。
3.各主成分排序。基于上面提取的兩個主成分對14家上市證券公司排名,每個公司在各個主成分上的得分是按照主成分公式計算而得。然后根據提取的兩個主成分計算出綜合評價函數F,F=0.4067Z1+0.3536Z2。
該函數使用各主成分的貢獻率為權重。利用F函數對14家上市證券公司進行綜合排名。所有排名(如表3所示)。
四、結論與分析
從表3可以看出,在主成分Z1中,太平洋、西南證券和山西證券排名靠前,說明這三家公司獲利能力較強,在主成分Z2中,西南證券,山西證券和華泰證券排名靠前,說明這三家公司經營發展能力較強。在綜合評價函數F中,西南證券、山西證券和太平洋證券排名靠前,說明這三家上市證券公司的綜合競爭能力較強。在證券業協會的行業排名中居前的中信證券、東北證券在這里排名卻靠后,說明這幾家公司的綜合競爭力在證券類上市公司中不具優勢。無論是第一主成分、第二主成分還是綜合評價函數的得分比較接近,差距不大,說明中國的這些上市類證券公司處于平穩發展期,綜合競爭力差別不大。
上市類證券公司的排名情況與公司財務狀況有直接的關系,然而,選取不同的財務指標可能會產生不同的結果,并且主成分分析法對指標的選擇帶有一定的主觀性。同時,衡量公司競爭力的因素還有很多。
參考文獻:
[1]王曉芳,王學偉.基于因子分析的中國證券公司競爭力研究[J].現代商貿工業,2008,(1):139-141.
[2]哈達.基于主成分分析的上市公司核心競爭力評價研究[J].內蒙古科技與經濟,2009,(11):10-13.
[3]諸藝方,章亞男.制酒行業上市公司股票競爭力分析[J].經濟研究導刊,2010,(36):72-73.
關鍵詞:生態城市;主成分分析;綜合評價
“生態城市”是20世紀70年代聯合國教科文組織發起的“人與生物圈(MAB)”計劃首先提出了“生態城市”這一概念。隨著人口的迅速增長,工業化的深入發展,諸如城市的大氣污染、水污染、垃圾污染、地面沉降、噪音污染;城市的基礎設施落后、水資源短缺、能源緊張;城市的人口膨脹、交通擁擠、住宅短缺、土地緊張,以及城市的風景旅游資源被污染、名城特色被破壞等一系列問題日益突出。如何實現城市經濟社會發展與生態環境建設的協調統一,就成為國內外城市建設共同面臨的一個重大理論和實際問題。因此,建設生態城市已成為城市之間競爭的焦點,許多城市紛紛加快了城市轉型發展的步伐,把建設“生態城市”、“花園城市”、“山水城市”、“綠色城市”作為奮斗目標和發展模式。近年來,關于生態城市建設的研究成為國內外的熱點話題。曾芳芳介紹了國內外“生態城市”的研究背景以及中外學者對其內涵的認識,重點闡述了國內外學者對其的研究理論,并提出生態城市建設的理論研究在生態城市評估方面的不足,為后期的生態城市發展理論研究起著重要的作用;李文君等以西安市為例,對西安市生態城市建設進行分析,為以后具體的生態城市的建設研究提供了借鑒等。商洛作為國家“南水北調”中線工程的主要水源地之一,加強對商洛生態環境的保護,顯得尤為重要。本文以商洛市為研究對象,結合商洛市城市建設實際,構建商洛生態城市評價指標體系,運用主成分分析等方法,深入探討商洛市生態城市發展水平及其影響因素,為打造中國西部最美的山水園林城市規劃提供建設性的意見。
一、生態城市建設評價指標體系的構建與評價方法
(一)生態城市綜合評價指標的選取本文指標選取主要是通過頻度統計方法,參考關于生態城市評價的相關研究論文中的指標體系,結合商洛城市建設的實際,堅持科學合理、針對性強,反映生態城市發展本質的指標作為商洛市生態城市綜合評價指標體系進行科學評價,具體指標體系構建詳見表1。(二)數據來源及評價方法指標體系所用原始數據來源于《商洛市統計年鑒》(2007-2016),城市環境質量報告書、統計公報、政府部門的調研數據等資料和相關文獻資料、書籍、學術論文、研究報告等。本文擬采用主成分分析方法,通過對城市經濟、社會和環境3個子系統39個指標進行分析確定權重,綜合評價商洛市生態城市發展水平。
二、商洛市生態城市建設水平的實證分析
生態城市建設的主要目標就是實現可持續發展,是一項涉及到經濟、社會、人口、科技、資源與環境等子系統組成的時空尺度高度耦合的復雜動態開放巨系統的系統工程。因此,在生態城市建設過程當中,要以生態學理論為指導,充分考慮生態城市的自身特點,不僅關注生態城市的整體發展,還要關注城市社會、經濟、環境子系統在“關系”上的協調。文章從經濟、社會與環境三個子系統方面入手,通過SPSS19.0對這39個指標10年來的各具體數據進行主成分分析,提取影響生態城市發展的因子,更好地為商洛生態城市建設規劃提供參考。
(一)經濟子系統生態化建設水平的影響因素
對經濟子系統的12個指標通過主成分分析,確定兩個主成分F1、F2,由表2分析可以看出各指標與各主成分之間的相關程度。第一主成分與城鎮人均可支配收入、農村人均純收入、人均GDP、財政一般預算收入、固定資產投資占GDP比重等指標相關程度較高,均達75%以上,且都是衡量經濟發展水平的重要指標,主要反映了經濟發展的整體水平。F1中尤其是城鎮人均可支配收入、農村人均純收入、人均GDP、財政一般預算收入的相關程度高達97%以上,說明這幾個指標在反映商洛經濟發展水平上,對其影響更大。第二主成分主要與GDP增長率、一般財政預算收入增長率、旅游業增加值占GDP比重等指標有一定的相關性,這些指標相比第一主成分指標,相關程度所占百分比較低,但是對經濟發展的影響又不可忽視。經濟被視為一個城市、區域、乃至國家發展的“硬實力”,其發展水平的高低將直接決定社會發展的各個方面。因此,在建設生態城市的同時,要統籌好影響經濟發展的基礎指標和潛在影響力指標因子,才能為生態城市的建設提供更好的發展基礎和動力。
(二)社會子系統生態化建設水平的影響因素
通過對社會子系統15個指標進行主成分分析,確定三個主成分F1、F2、F3,由表3可以看出:第一主成分(F1)與人均保險費、在校大學生人數、城市化水平、衛生技術人員、醫院床位數等指標相關程度較高,其相關程度都在90%以上,這些指標既是對城市功能建設、社會保障、教育醫療等基礎設施方面的成績的反映,同時也是影響社會生態化發展的主要因素。因此,商洛市生態城市建設中社會子系統生態化的發展要對上述指標不斷優化和升級,有利于商洛生態城市的總體建設。與第二主成分(F2)相關程度較高的指標有:城鎮恩格爾系數、農村恩格爾系數、人均城市道路面積等指標,主要反映了商洛人民生活質量和城市社保障水平,這是對第一主成分的有力補充,其發展程度必然對社會生態化產生重要影響。第三主成分(F3)主要是常住人口、人均生活用水量、授權專利數指標,其中關于人口的發展又是對經濟、社會和生態發展等方面都起著巨大的影響。較多的人口可以為區域的發展提供充足的勞動力和消費市場;但是過多的人口也會對資源、環境保護等方面產生巨大的壓力。所以,可以將第三主成分解釋為人口質量與數量對商洛生態城市建設的影響因素。
(三)環境子系統生態化建設水平的影響因素
由表4可以看出,第一主成分(F1)與廢氣治理設施處置能力、城鎮人均公園綠地面積、工業廢水排放量、工業固體廢物綜合處置量、工業固體廢物排放量等指標其相關程度達到75%以上,這些指標主要說明工業三廢的處理水平及環境質量狀況。同時說明在生態城市的建設中對生態環境的改善應重點放在工業三廢的處理方面,不斷提高生態環境質量。第二主成分(F2)與污水處理率、工業固體廢物利用率、人均水資源量等指標有較大的相關性,說明商洛在生態城市建設過程中對水資源的保護及固體廢棄物的利用程度。第三主成分(F3)與全年城市空氣質量達標率等指標有關,主要反映了城市環境治理后的天氣狀況。通過分析說明,商洛生態化城市建設中對環境的保護不僅要注重工業三廢的處理,同時還要兼顧水環境污染和空氣污染保護防治,進而使商洛環境質量整體水平得到有效提高。
三、結論
生態城市建設的主要目標就是實現可持續發展,本文通過經濟、社會與環境系統的實證分析結果來看,生態城市建設涉及到各個方面,商洛市生態城市建設不僅要注重整體發展水平,還要重視經濟、社會、環境各子系統之間的協調發展,共同促進商洛市生態城市建設的步伐,促進商洛經濟又好又快發展。通過經濟子系統12個指標主成分分析得出:在生態城市建設過程中,經濟生態化要把重點放在與第一主成分相關程度較高的指標(城鎮人均可支配收入、農村人均純收入、人均GDP、財政一般預算收入、固定資產投資占GDP比重)方面,主要反映在經濟發展水平方面。但由于商洛地處秦嶺腹地,自然環境復雜,基礎薄弱,經濟發展水平低。因此在生態城市化建設中應不斷加強對外交流學習,借鑒成功經驗,大力發展特色區域經濟,不斷提高經濟發展水平,促進商洛經濟生態化建設步伐。但與第二主成分相關的指標也不容忽視。通過對社會子系統的15個指標主成分分析得出:在生態城市建設過程中,社會生態化的重點放在與第一主成分(F1)相關程度較高的指標(人均保險費、在校大學生人數、城市化水平、衛生技術人員、醫院床位數)等方面,不斷完善城市功能、社會保障、教育醫療等基礎設施的建設,促進商洛市社會生態化進程。通過對社會子系統的12個指標進行主成分分析得出:環境生態化重點要放在與第一主成分相關程度高的指標(廢氣治理設施處置能力、城鎮人均公園綠地面積、工業廢水排放量、工業固體廢物綜合處置量、工業固體廢物排放量)等方面。生態環境是經濟和社會協調發展的前提,隨著城市人口的不斷增多,工業化發展的不斷深入,商洛市環境生態化要不斷提高對工業三廢的處理及利用水平,合理開發利用各種資源,防治水污染和空氣污染,優化生態環境,不斷提高環境質量,確保經濟、社會和環境的協調發展,促進商洛市生態城市建設整體水平的提高。
作者:王高建 單位:商洛學院
參考文獻:
[1]曾芳芳.國內外生態城市建設的理論研究[J].科技廣場,2011(10)
[2]李文君;田巧娣.基于主成分分析法的生態城市建設綜合評價———以陜西省西安市為例.經濟視角(上旬刊),2015(1)
[3]周曉唯,王拓.陜西省生態城市建設評價指標體系[J].城市環境與城市生態,2009(6)
[4]趙維良,紀曉嵐,柳中權.主成分分析在城市生態安全評價中的應用——以上海為例[J].科技進步與對策,2009(3)
關鍵詞 PM2.5 線性插值 Box-Cox變換 主成分分析 預測分析
中圖分類號:X823 文獻標識碼:A DOI:10.16400/ki.kjdkz.2016.11.071
0 引言
從長春市2014年10、11、12月份月平均PM2.5濃度以及優良級天數監測結果(數據來自吉林省環境保護廳)可以看出:這三個月長春市優良級天數比例均小于50.0%,幾乎整個冬季都處于連續污染狀態,霧霾問題嚴重,再加上嚴寒的天氣,使得市民易于感染呼吸道疾病,甚至加重比如敏感、哮喘病等類患者的病情。因此準確預測并及時公布大氣環境狀況變得越來越重要。
近年來,專家學者開展了一些相關的研究工作。劉小生等①提出了一種基于基因表達式編程的PM2.5濃度預測研究;彭斯俊等②提出了一種基于ARIMA模型的PM2.5預測模型;陳俏等③提出了一種基于支持向量機和回歸法的大氣污染物濃度預測模型。這些文獻通過研究個別因素對大氣環境狀況提出了預測方法,但是氣象因素對PM2.5的影響是十分復雜的,實際情況中往往是不同氣象因素相互影響的結果。尤其是ARIMA模型只突出了時間因素在預測中的作用,沒有考慮到外界具體因素的影響,因而存在著預測誤差的缺陷,當遇到外界發生較大變化往往會有較大偏差。
本文旨在用與PM2.5濃度相關性強的因素,綜合考慮PM10、CO、NO2、SO2四項指標對PM2.5濃度的影響,并基于主成分分析理論提取幾個互不相關的主成分進行回歸分析,最終得到準確度較高的大氣環境預測模型。
1 材料與方法
1.1 數據預處理
1.1.1 補充缺失數據
本文數據來自天氣后報網,共研究PM2.5、PM10、CO、NO2、SO2五項指標,個別日期(共4天)的數據缺失。這時,我們使用SAS統計分析軟件,運用插值法補全缺失值。
1.1.2 Box-Cox非線性變換④⑤
將原始數據中PM2.5、PM10、CO、NO2、SO2等因子依次記為、、、、,因事先由散點圖分析可得,PM2.5與PM10、CO具有良好的線性關系,考慮到變換的簡便性最終選定對PM2.5、PM10和CO做變換%d的值為0,記變換后的PM2.5、PM10和CO為、和;對NO2和SO2進行Box-Cox變換的過程中,最優%d的取值是依據最大似然估計的方法原理來確定,由SAS統計軟件計算得到,最終選擇NO2和SO2的最優%d值依次為0.5、0,經過Box-Cox變換后的NO2和SO2依次用下列符號標記:和。
1.2 主成分分析原理
主成分分析⑥是將多指標化為少數幾個綜合指標的一種統計分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的線性組合,且各個主成分之間互不相關。這樣在研究復雜問題時就可以只考慮少數幾個主成分且不止于損失太多信息,從而更容易抓住主要矛盾,解釋事物內部變量之間的規律性,同時使問題得以簡化,提高分析效率。
2 結果
2.1 主成分分析
本過程主要通過SAS軟件⑦實現,詳細程序參照附件。輸出結果(表1)給出了各變量之間的相關系數矩陣。可以看出:與之間的相關系數為0.8341,呈現非常強的相關性;
與,與之間的相關系數均為0.6800以上,有較強的相關性,其他變量之間相關性則相對較弱。不滿足多元線性回歸的基本假定條件,這也是本文選擇主成分回歸的主要原因之一。
輸出結果(表2)給出了相關系數矩陣的特征值、上下特征值之差、各主成分的方差貢獻率以及累計貢獻率??梢钥闯?,第一主成分的方差貢獻率為71.34%,前兩個主成分的累計貢獻率已達87.69%,因此,只需前面兩個主成分就可以概括這組數據。根據相關系數矩陣的各個特征值的特征向量,可以寫出前三主成分得分:
2.2 主成分回歸
現在用對前兩個主成分和做普通最小二乘回歸,得到主成分回歸方程為:
=3.93932+0.36567Ha0.01363 (3)
但是斜率的t檢驗p值0.4123>0.05,未通過顯著性檢驗,即認為與之間的線性回歸關系不顯著,需對模型進一步的調整。
經過多次對u和主成分、、之間進行不同模型模擬對比分析,最終采用逐步回歸法選取與、做最小二乘回歸,輸出結果如表3。雖然信息量從原來的87.69%降到了79.78%,但截距和斜率的t檢驗p值
為了得到和、、、之間的關系,運用R軟件⑧編寫計算系數的函數代碼作變換,得到還原后的主成分回歸方程為:
3 結果分析
3.1 殘差分析
回歸方程通過了t檢驗,只是表明變量之間的線性關系是顯著的,但不能保證數據擬合得很好,也不能排除由于意外原因而導致的數據不完全可靠,比如異常值出現、周期性因素干擾等。借助SAS統計分析軟件以回歸預測值作橫軸,以殘差 =Ha作縱軸,將相應的殘差點畫在直角坐標系上,得到殘差圖如圖1。
從殘差圖上看出,殘差是圍繞隨機波動的,表明模型中不存在異方差、相關性問題,模型的基本假定是滿足的。
3.2 預測
為了更好地反映模型的擬合效果,我們對2015年1月2日到3月27日的PM2.5進行預測,并與實際值對比。預測曲線圖如圖2,除了少數幾天PM2.5預測值偏差較大外,其它模擬效果比較樂觀,而且相對誤差相對較小,很大程度上接近了PM2.5的實際觀測值。進一步地證明該模型能夠較準確地預測未來短期的PM2.5趨勢和水平。
4 結論
本文利用長春市2014年空氣質量歷史數據,基于主成分分析理論建立了大氣環境預測模型,并預測2015年1月至3月的污染物PM2.5濃度,通過將其與實際值檢測值進行對比分析,表明運用此模型在PM10、CO、NO2、SO2各項指標已知的情況下,能夠對PM2.5進行準確性預測。
模型的判定系數和修正分別為0.9225和0.9221,均方殘差平方根為0.1866。這說明回歸方程的擬合效果非常好,能夠很好地反映并及時公_大氣環境狀況,讓公眾更加精確地感知到本地空氣質量的真實情況,還可以有的放矢地治理大氣污染,通過數據分析找出污染源頭。
注釋
① 劉小生,李勝,趙相博.基于基因表達式編程的PM2.5濃度預測研究[J].江西理工大學學報,2013.34(5):1-5.
② 彭斯俊,沈加超,朱雪.基于ARIMA模型的PM2.5預測[J].安全與環境工程,2014.21(6):125-128.
③ 陳俏,曹根牛,陳柳.支持向量機應用于大氣污染濃度預測[J].計算機技術與發展,2010.20(1):250-252.
④ 張誠.基于Box-Cox變換的城市火災起數的模型研究[D].合肥工業大學碩士學位論文,2013.
⑤ 胡宏昌,樊獻花.廣義Box-Cox變換[J].周口師范學院學報,2006.23(5):17-19.
⑥ 何曉群.應用回歸分析(第三版)[M].北京:中國人民大學出版社,2011.
[論文摘要]根據相似性度量理論中的χ2統計量,在專家評級的基礎上,構造出定性指標的相關系數矩陣,利用主成分分析法選取主成分,并作因子分析,進而根據因子載荷矩陣,得到主成分與各原始指標間的相關系數,最后在一定閾值標準下,舍掉相關系數絕對值較小的指標,從而達到用客觀合理的方法對定性指標進行篩選的目的。該方法可被借鑒應用于物流領域中供應商定性評估指標的篩選。
一、引言
供應商評估和選擇是企業的一個重要決策,一個好的供應商是指供應商擁有制造高質量產品的加工技術,擁有足夠的生產能力,以及能夠在獲得利潤的同時提供有競爭力的產品。同一產品在市場上的供應商數目越來越多,供應商的多樣性更使得供應商的評估和選擇工作變得復雜,需要一個規范的標準來操作。供應商評估首先要解決的是供應商評估指標體系的確立問題。
一個具體的綜合評價問題,評價指標的選取是否合適,直接影響到綜合評價的結論[1]。指標并不是選得越多越好,太多重復性的指標會增加指標權重確定的難度。綜合各學者的觀點,對供應商評估的指標可以包括技術水平、產品質量、生產能力、供應能力、價格、地理位置、可靠性(信譽)、售后服務、柔性等[2],這些都是定性指標。對定性指標的篩選,以前用得較多的是模糊數學的方法[3],主觀性較強,最后得出的結果可能差異非常大。這兩年,有一些學者引進粗糙集理論對指標進行屬性約簡[4],該方法實用性強,不失為定性指標篩選的一個好方法。然而,需要事先知道各樣本對應的決策屬性的值,使得該方法在很多的綜合評價問題得不到應用。
對定量指標的篩選有一些統計的方法,如:條件廣義方差極小[5]、極大不相關[6]、灰關聯分析[7]等,這些方法客觀性較強,評價結果比較穩定。定性指標與定量指標區別的關鍵在于定量指標是可度量的而定性指標不可度量,如果把定性指標定量化,定量指標的篩選方法就可以為定性指標所用。然而,對定性指標的定量化研究多采用模糊數學的方法[8],該方法應用結果并不能讓人滿意。那么,是否可以考慮避開定性指標定量化這一問題,另辟蹊徑,嫁接定量指標篩選的統計分析方法對定性指標進行篩選呢?
在定量的指標分析中,相關系數是一個重要的量,它能相當好地反映變量之間的線性相關的程度。主成分分析法就是建立在相關系數矩陣基礎上的,在主成分分析法基礎上作因子分析,根據因子載荷矩陣中主成分與各原始指標的相關系數的絕對值大小,就可以實現對原始指標的取舍。因此,對于定性指標,如果能求出兩兩指標間的相關系數,而不必對指標一一進行定量化處理,也能對指標進行篩選?,F在問題的關鍵在于,對定性指標是否能找出較好地反映變量間線性相關程度的量?Pearson的χ2統計量為這一問題的解決帶來了曙光。
二、用Pearson的χ2統計量求定性指標的相關系數
設x,y都是離散的隨機變量,x可以是r個狀態x,x,…,x之一,x不一定是數,但可以用指定的數或字母等來表示這一狀態,這樣的離散變量是定性資料的一種概率性的描述方法。類似地,y可以處于y,y,…,y這c個狀態之一。如果觀察了(x,y)的n個樣本,就可以計算出x=x,y=y的頻數、x=x的頻數以及y=y的頻數i Pearson據此定義了χ2統計量[9]
三、供應商定性指標篩選模型的構建及其求解
作為x與y關聯性的度量值。文獻[1]指出,χ2有下列性質:0≤x≤n(min(r,c)-1)(2)由此,如果引入θ=x/n(min(r,c)-1)θ≥0(3)θ就在[0,1]之內,它與相關系數ρ的平方在[0,1]之內相仿,那么θ就可以作為x與y相關系數的近似值。
相關系數問題的解決,為定性指標篩選方法的尋找提供了一塊墊腳石。主成分分析是建立在相關系數矩陣基礎上的一種多元統計方法,對該方法的進一步分析可以達到對指標篩選的目的。因此,結合Pearson的χ2統計量和因子分析法,可以構造定性指標篩選模型及其求解步驟如下:
(一)利用χ2統計量求定性指標的相關系數為避免符號過多引起歧義,對定性指標仍用x和y來表示,只是對x和y的描述稍加改變即可。為簡明起見,下面列了一個r×c雙向列聯表。指標x有r個水平x,x,…,x,指標y有c個水平y,y,…,y。觀察了(x,y)的n個樣本,其中指標x處在水平x、指標y處在水平y的個體數為表中之
分別是x處在水平x的個體數和y處在水平四、計算示例y的個體數。于是,首先計算式(1),然后計算式(3),把得到的數開方并取非負值,即可求得x與y的相關系數。同理,可以求出其他兩兩指標的相關系數,并構造出關于所有指標的相關系數矩陣。
(二)在相關系數矩陣基礎上用主成分分析法確定主成分求相關系數矩陣的特征值和特征向量,對特征值按照從大到小的順序進行排序,并一一計算貢獻率和累積貢獻率,按照累積貢獻率的值對綜合指標進行取舍。一般的,取臨界值為85%。一旦累積貢獻率超過85%,剩下的特征值對應的綜合指標即被舍掉了,前面的幾個綜合指標被確定為主成分。
(三)在主成分分析基礎上作因子分析,求得因子載荷矩陣對主成分作因子分析,即用各主元對應的特征值的平方根乘以該特征值對應的特征向量各分量,組合而成的矩陣即為因子載荷矩陣,該矩陣的各分量反映的是各原始指標與主成分的相關系數。
(四)確定閾值,對定性指標進行篩選在綜合評價中,主成分是最后確定為對樣本進行綜合評價的量。因此,原始指標與主成分相關系數越小,對綜合評價的結果影響力也就越小。對原始指標與主成分的相關系數進行排序,按一定標準確定閾值,把小于該閾值的相關系數對應的原始指標篩選掉,就可以達到對定性指標篩選的目的。
某生產企業針對供應商的評估列出下列指標:技術水平(X1)、產品質量(X2)、生產能力(X3)、供應能力(X4)、價格(X5)、地理位置(X6)、可靠性(信譽)(X7)、信息共享和相互信任(X8)、類似的產品經驗(X9)、地理范圍和提供的服務范圍(X10)、客戶的兼容性(X11)、售后服務(X12)、供貨期(X13)、交貨準確率(X14)、柔性(X15)[10]。現在要對某供應商進行評估,首先需要對評價指標進行篩選??梢钥紤]在供應商評估和選擇小組評級的基礎上用上述模型實現對上述15個指標進行篩選。
供應商評估和選擇小組選擇A、B、C、D、E五個等級之一分別對被評價對象的上述15個指標進行評價,其中,A、B、C、D、E分別代表“很好”、“較好”、“一般”、“差”和“很差”。9份評級結果如下表2:
現在要根據前述理論、模型及求解方計算出這15個指標兩兩間的相關系數。以標X1和X2為例,X1和X2有同樣的5個水平AB、C、D、E,分別對應腳標1、2、3、4、5比如
如此類推,窮極X1和X2的5個水平的率,即可計算出(1)式,然后計算(3式,最后開方取非負值,就可以得到X1X2的相關系數約為0.14。類似地,可以求其他指標間的相關系數,進而可以構建出下的相關系數矩陣:
由R的特征值我們計算出第一主成分的差貢獻率為79.6%,于是,我們只用第一成分這一綜合評價指標就能較好地反映原數據的變換情況。對第一主成分的特征值方再與第一主成分對應的特征向量各分量法指乘,這樣得到的向量的每個分量分別對應第一主成分與各原始指標的相關系數,相關系數絕對值的大小反映了綜合評價指標(第一主成分)與各原始指標的關系密切程度,因此,對相關系數先取絕對值,再按照絕對值的大小從大到小進行排列。排列結果如下表3:
由表3可以看出,X4、X9、X11這三項指標與綜合評價指標的密切度明顯低于其他指標。經過分析發現,供貨能力(X4)與供貨期(X13)和交貨準確率(X14)內容重合度很高,用供貨期和交貨準確率這兩項指標就可以代表供貨能力,因此供貨能力屬重復指標,應該刪掉。同時,類似的產品經驗(X9)和客戶的兼容性(X11)與綜合評價指標的密切度低很可能是因為對這兩項指標的界定沒有一個很明確的標準,從表2也可以看出9位評價者對這兩項指標評級差異度非常大。因此,X9和X11對整個評價中干擾度較大,也應該考慮刪除。
五、結束語
本文根據相似性度量理論中的χ2統計量,在專家評級的基礎上,構造出相關系數矩陣,進而用主成分分析法和因子分析法,對一個評價對象的多評價因素指標進行篩選。而且,為提高計算的精度,可以采取增加樣本的方法,使頻率盡可能地接近于概率。從前面的示例可以看出,基于Pearson的χ2統計量的定性指標篩選方法能取得比較科學、合理的結果,因此可以為涉及主觀因素眾多的供應商評估和選擇問題所借鑒。
參考文獻
[1]胡永宏,賀思輝,綜合評價方法[M],北京:科學出版社,2000:21
[2]魏際剛,鄭志軍,企業物流管理基礎[M],深圳:海天出版社,2004:42-43