時間:2023-03-16 15:59:34
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇聚類分析論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
近年來,全國大學生數學建模競賽迅速發展,為國家培養了大批應用型人才。但由于各地區教育水平不同、相關部門對競賽的重視程度不同,導致各地區組織學生參加大學數學建模競賽的規模不同,在該項賽事中取得的成績差異比較顯著。2013年全國大學生數學建模競賽評選出的獎項有:賽區優秀組織工作獎9個,本科組高教社杯獎1個,??聘呓躺绫?個,本科組MATLAB創新獎1個,??平MMATLAB創新獎1個,本科組IBMSPSS創新獎1個,專科組IBMSPSS創新獎1個,本科組一等獎共273名,本科組二等獎共1292名,??平M一等獎共44名,??平M二等獎共211名[1],但成績相對于參賽區分布不太均勻。分析各地區在2013年全國大學生數學建模競賽中取得的成績,明確各地區數學建模發展狀況的差異和特點,將有利于相關部門從宏觀上了解我國大學生數學建模競賽的整體發展現狀,分類制定相關政策[2-3],從而充分發揮數學建模的重要作用。
1建立綜合評價指標體系
全國大學生數學建模競賽現狀的一個重要方面就是全國大學生數學建模競賽獲獎情況。依據全國大學生數學建模競賽設置的獎項,遵循可比性原則,參考文獻[4-5],選取x1-x7共七項評價指標,具體如下:x1:本科組高教社杯、MATLAB創新獎和IBMSPSS創新獎獲獎情況;x2:本科組一等獎獲獎數;x3:本科組二等獎獲獎數;x4:專科組高教社杯、MATLAB創新獎和IBMSPSS創新獎獲獎情況;x5:??平M一等獎獲獎數;x6:專科組二等獎獲獎數;x7:年度競賽優秀組織工作獎獲得情況。說明:鑒于本科組與??平M的高教社杯、MAT-LAB創新獎和IBMSPSS創新獎三類獎項每年只有一個隊獲獎,且基本不可重復獲得(參見歷年大學生數學建模競賽獲獎名單)故將其合并作為一類。
2數據資料依據
2013年全國大學生數學建模競賽獲獎名單,按指標對各個賽區的獲獎情況統計如表1所示。
3R型聚類分析定性分析
七項指標之間的相關性。編寫MAT-LAB程序如下:>>clc,clear>>symxy;>>x=xlsread(‘shuju.xls’);%將上表中的數據保存到MATLAB中WORK文件夾excel文件shu-ju.xls中,并將其賦于x>>y=corr(x)%輸出七項指標間的相關系數矩陣(如表2所示)>>d=pdist(y,’correlation’);%計算相關系數導出的距離>>z=linkage(d,’average’);%按類平均法聚類>>h=dendrogram(z);%畫聚類圖(如圖1所示)>>T=cluster(z,’maxclust',5);%把變量劃分為5類>>fori=1:5tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d類的有%s\n’,i,int2str(tm));>>end程序輸出:第1類的有4;第2類的有56;第3類的有7;第4類的有23;第5類的有1。即:若將指標分為5類,則指標1、4、7各為一類,指標2、3為一類,指標4、5為一類。
4Q型聚類分析
4.1選取5個指標的分類從R型聚類分析分出的5類指標中各選一個,即選取5個指標體系,對33個參賽地區進行聚類分析。首先對變量數據進行標準化處理,采用歐氏距離度量樣本間相似性,選用類平均法計算類間距離。在MATLAB命令窗口輸入下列程序:>>symsxy;>>x=xlsread(’shuju.xls’);%將上表中的數據保存到MATLAB中WORK文件夾excel文件shu-ju.xls中,并將其賦于x>>x(:,[3,5])=[];%刪除數據矩陣的3,5兩列,即使用變量1,2,4,6,7>>x=zscore(x);%將數據標準化>>s=pdist(x);%每一行是一個對象,求對象間的歐式距離>>z=linkage(s,’average’);%按類平均法聚類>>h=dendrogram(z);%畫聚類圖(如圖2所示)>>T=cluster(z,’maxclust’,3);%把樣本點劃分成3類>>fori=1:3;tm=find(T==i);%求i類的對象tm=reshape(tm,1,length(tm));%變成行向量>>fprintf(’第%d類的有%s\n’,i,int2str(tm));%現實分類結果>>end程序輸出:第1類的有11318第2類的有2345678910111216171920212224252627282930313233第3類的有141523即:第一類:北京,福建,湖南;第三類:江西,山東,四川;第二類:其它地區。
4.2選取7個指標的分類考慮到指標2與指標3,指標5與指標6具有一定的獨立性,若七個指標體系全部取用,將33個地區分為4類,程序輸入如下:>>symsxy;>>x=xlsread(’shuju.xls’);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%畫聚類圖(如圖3所示)>>T=cluster(z,’maxclust’,4);>>fori=1:4tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d類的有%s\n’,i,int2str(tm));>>end程序輸出:第1類的有116第2類的有6710151927第3類的有23489111213141718202223242528第4類的有521262930313233即:第一類:北京,河南;第二類:遼寧,吉林,江蘇,山東,廣東,陜西;第四類:內蒙古,海南,,青海,寧夏,新疆,香港,澳門。4.3選取本科層次指標的分類只考慮本科層次取得的成績,即選用指標1,2,3,對33個參賽地區進行聚類分析,從而明確掌握其本科階段的差異,則有:輸入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[4,5,6,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%畫聚類圖(如圖4所示)>>T=cluster(z,’maxclust’,3);>>fori=1:3;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d類的有%s\n’,i,int2str(tm));>>end程序輸出:第1類的有11318第2類的有101115161719222327第3類的有2345678912142021242526282930313233即:第一類:北京,福建,湖南;第二類:江蘇,浙江,山東,河南,湖北,廣東,重慶,四川,陜西;第三類:其它地區。4.4選取??茖哟沃笜说姆诸愔豢紤]??茖哟稳〉玫某煽儯催x用指標4,5,6,對33個參賽地區進行聚類分析,從而明確掌握其??齐A段的差異,則有:輸入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[1:3,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);%畫聚類圖(如圖5所示)>>h=dendrogram(z);>>T=cluster(z,’maxclust',4);>>fori=1:4;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d類的有%s\n’,i,int2str(tm));>>end程序輸出:第1類的有14第2類的有1523第3類的有41927第4類的有1235678910111213161718202122242526282930313233即:第一類:江西;第二類:山東,四川;第三類:山西,廣東,陜西;第四類:其余各地區。
5結束語
關鍵詞:聚類分析 人口區劃 數據挖掘
中圖分類號:C92 文獻標識碼:A 文章編號:1007-3973(2013)005-184-03
1 前言
隨著中國信息化進程的加速,各行各業每天都產生大量的數據,如何充分利用這些數據,更好地為人類生產和生活更好地服務?數據挖掘是一種不錯的方法,數據挖掘又稱數據庫中的知識發現,是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。知識發現過程由以下三個階段組成:(1)數據準備;(2)數據挖掘;(3)結果表達和解釋。
聚類分析(Cluster Analysis)是一種數據挖掘方法,是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法,它們討論的對象是大量的樣品或數據,要求能合理按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。目前在文獻中存在大量的聚類算法,算法的選擇取決于數據的類型、聚類的目的和應用。大體上聚類分析主要的算法可以分為:(1)劃分方法;(2)層次的方法;(3)基于密度的方法;(4)基于網格的方法;(5)基于模型的方法。如果聚類分析被用作描述或者探查的工具,可以對同樣的數據嘗試多種算法,以發現數據可能揭示的結果。聚類方法廣泛應用于各行各業。
人口是基礎數據,是制定各項政策的依據。人口區劃根據自然、經濟、人口特征及相應的指標體系,對全國人口分布狀況分區劃片,并提出各區人口發展合理目標及相應的人口政策和措施,為全國和分區人口發展規劃提供科學依據,并為國民經濟計劃和經濟區劃服務。20世紀80年代初,中國學者胡煥庸根據自然地理特征、人口密度、人口自然增長、人口遷移、耕地、糧食產量、勞動力等指標,將中國劃分為人口區,即:黃河下游區,遼吉黑區,長江中下游區,東南沿海區,晉陜甘寧區,川黔滇區,蒙新區,青藏區。隨著中國經濟的迅猛發展人口分布呈現出許多新的特征,為了適應新的趨勢,有必要重新定位和再研究。
2 數據與方法
2.1 數據來源與指標選擇
本研究的數據采用2011年全國31個省及直轄市的統計數據,人口數據來源于《中國人口統計年鑒》,各省人均可支配收入來源于經濟信息網。因研究的是各省的人口及經濟指標聚類,研究區域很大,信息粒度較大,因此選擇了有代表性的綜合性人口數據指標,人口(總量)、人口密度、人口自然增長率、第六次人口普查數據、人均可支配收入、人均GDP、遷移數據。其中人口自然增長率為(人口出生率-人口死亡率)/人口均值*1000%,遷移數據=第六次人口普查數據-人口(常住人口)。各省及直轄市的基礎數據如表1所示。
2.2 聚類分析原理
3.2 二維聚類
以人均GDP和人口自然增長率進行聚類,數據進行標準化處理后,得到的結果有五類,如表5如示。
從以上聚類結果看,第一類是沿海地區,經濟較為發達,人口增長正常;而第二類內陸地區,人均GDP較低,人口自然增長優率較為正常;第三類為東北三省,人均GDP中等,人口增長率低;第四類為人均GDP高,為三個直轄市;第五類為人均GDP低,而且人口增長快的區域。
3.3 多維聚類
多維聚類時,采用K均值法進行聚類,得到的聚類結果如表6。
根據多維數據聚類,共分為六類,其中第一類屬于人口少,但較為富裕的北京和上海,而第六類為天津,自成一類,主要是流動人口及可支配收入較第一類差一些;第四類為經濟發達的廣東、江蘇和浙江;第二類為經濟較好,人均收入中等,流動人口較少的地區;第五類為經濟欠發達,人口保持較高增長率的省份;第三類則是大部分的內陸地區。
4 結論與討論
本文通過采用聚類分析的手段分析全國31個省市人口的發展規律,揭示了不同省市在人口發展之間的相似性和差異性,研究得出合理聚類結果,為政府和各職能部門在制定人口及各項地方性經濟發展政策提供依據。
聚類分析結果表明,一維、二維和多維聚類分析方法有各自的典型特征有用途。一維聚類分析簡潔地表明各省人口自然分布規律,可為國家對不同各省份的人口政策提供科學依據;二維聚類分析直接反應了不同省份人口與經濟等指標的相互關系,如論文中對人均GDP和人口自然增長率的二維聚類分析,分類結果合理的體現了當前我國各省經濟發展與人口特征。多維聚類分析方法適用于對各省綜合分類,論文中采用了與人口有關的5個指標進行的多維聚類分析,分類結果有較強的綜合性,與當前各省公眾認識的綜合分類一致。
解決了傳統的經驗分類方法導致的客觀性缺乏等問題。為人口的分類管理實踐提供了理論依據和技術手段。
(本論文為院級大學生實踐創新訓練計劃項目2011XYCXXL14資助項目)
參考文獻:
[1] Jiawei Han,Micheline Kambe.數據挖掘概念與技術[M].北京:機械工業出版社,2012.
[2] 陳志泊.數據倉庫與數據挖[M].北京:清華大學出版社,2009.
[3] 陸學藝.可持續發展實驗區發展歷程回顧與建議[J].中國人口資源與環境,2007,17(3):1-2.
[4] 張文彤,董偉.SPSS統計分析高級教程[M].北京:高等教育出版社,2004:236-237.
[關鍵詞]專利引證 技術熱點 耦合 聚類分析
[分類號]G353.1
1 引言
新技術的產生可以導致一系列相關的新產品問世,對人們的生活、企業的發展乃至社會經濟產生巨大的推動作用。在某一新技術尚未完全成熟之際,必定會有很多企業圍繞這一技術不斷進行改進和完善,并申請相關專利技術進行保護。因此,未來主流市場中的主流技術在專利文獻中有量的征兆,可以通過對專利數據的定量分析來進行技術熱點的監測。
當前利用專利文獻進行技術熱點監測的方法主要有兩種:①通過對具有技術含義的專利著錄項,如專利IPC分類號的數量變化來監測技術熱點;②利用文本挖掘技術,從專利文獻中抽取技術關鍵詞進行詞頻統計、聚類分析來監測技術熱點。在學術領域,學者們基于專利分類號對某個時間點或時間段的技術熱點進行了探索。袁冰等指出,通過分析專利涉及的所有IPC分類號,以及這些IPC分類號下分別包括的專利數量,就能夠獲知整個區域的技術構成情況以及該區域內市場經營主體關注的技術熱點。王燕玲認為,將不同主體的1PC分類按時間分布并加以比較,可發現不同主體的IPC變化過程,是一個從創新主體角度研究技術領域熱點變化的主要方法。左鳳茹對水電行業中世界著名企業的專利申請量按IPC分類號進行統計后,指出目前水電沒備的研究熱點。欒春娟等認為,經過德溫特技術人員標引的“德溫特指南代碼”(Derwent Manual Codes),對研究專利的技術領域分布更具指導意義,她們利用德溫特指南代碼,陸續對基因工程、3G技術、生物技術、電動汽車領域進行了技術熱點分析。在技術實踐領域,主流的專利分析軟件如Thomson Data Analyzer(TDA)、Aureka、HIT-恒庫等正是基于上述原理,實現了從批量專利文獻中抽取專利分類號或技術特征詞匯進行統計、聚類分析的功能,并用可視化的方式展示分析結果,生成相應的專利地圖,進行技術熱點監測。以Aureka為例,它提供了ThemeSeape地形圖功能,以分析的專利樣本為基礎,對其中相關詞匯的詞頻應用聚類分析生成主題(詞匯)地形圖,以此來描述專利技術熱點的分布情況。
但是,由于IPC的分類原則是將同一技術主題歸在同一分類位置,使之具有相同的分類號,即側重于對單一技術主題進行分類,而且IPC將專利要求的技術主題作為一個整體來分類,而不是對其各個組成部分分別進行分類,因此分類不徹底,也造成分類不夠細,某個分類號下存在大量文獻。這樣一來,基于IPC分類號的技術熱點難免存在偏差,且比較宏觀,難以反映企業關注的微觀技術熱點變化,更難以揭示技術日新月異的變化和發展。而利用模式匹配、規則基礎和自然語言處理技術直接從專利文本中抽取詞和詞組進行統計或聚類分析,雖然相對比較精確和具體,但也存在著一些相關陛較高的詞組或短語,因為出現過于頻繁而容易被軟件分析系統自動剔除,造成分析的誤差。因此,如何提高基于專利文獻技術熱點監測的準確性,如何利用專利引文所承載的技術關聯信息進行獲取和關聯挖掘,如何對已有的宏觀技術熱點和微觀技術熱點監測進行補充,是本文研究的主要問題。
2 基于專利引證的技術熱點監測方法
2.1 專利引文的技術情報價值
專利對先有技術(prior art)和科學論文的引用是科學和技術發展規律的表現,它體現了科學和技術的累積性、連續性和繼承性,也體現了不同學科、不同研究層次之間的交叉、滲透。大多數發明不是“無中生有”的,一般發明人在進行發明創造活動時,會參考具有相同發明目的的先有技術的發明創造內容和發明人所熟知的先有技術。另外,專利審查員審查專利文件時常會將被審查的專利與主題相近的先有技術相比較,這兩種方式導致了專利引文的出現。Arehibugi和Pianta指出,專利引文數據廣泛地提供了具體技術領域某一技術發明的相關技術信息。
1965年,普賴斯創造性地研究了科學論文之間的施引與被引證關系,以及由此形成的所謂“引證網絡”。專利引證網絡是將文獻計量引證網絡的對象從科技論文到專利文獻的直接延伸,通過繪制專利引證關系圖來考察互相引證的專利的關聯程度和技術相互間的影響,尋找最早被引證的專利文獻,洞悉專利的繼承性和發展歷程。專利與其引證論文或引證專利密切相關,反映了相同或相近的技術創新,這種相關性是由技術本身的傳承和發展而形成的。據此,利用各種數學以及統計學的方法對專利與專利之間的施引和被引現象進行比較、歸納、抽象判斷,以探索其數量特征及內在價值,專利引文分析也具有重要的技術競爭情報價值。
2.2 基于專利引證進行技術熱點監測方面的實踐應用
借助專利與專利間的引用與被引用關系,不僅可以揭示出專利的理論、技術起源,而且可以對技術領域中的技術前沿和技術熱點進行追蹤。Mogee等利用專利同被引(patent co-cltation)對2808條Eli Lilly公司的專利數據進行聚類分析,識別該公司的核心專利技術和技術熱點群組,發現主要的技術熱點(teehnolo-gy fronts)。孫濤濤等基于專利耦合關系,指出同時引用相同基礎技術專利簇的另一個專利簇(base tech-nology)可以構成技術熱點。尹麗春等將文獻計量學中的共被引方法應用到專利文獻的研究中,對在我國申請的數字信息傳輸領域中的專利技術前沿問題進行探討。
目前市場上各種專業的商業化專利分析軟件(如法國IMCS的Matheo Analyzer、美國湯森路透旗下的Aureka、Innovation和Delphion、中國恒和頓的HIT-恒庫等)幾乎都有繪制引證網絡圖的功能,利于追溯目標技術的起源和發展。但是這些軟件工具無法利用專利文獻中的同被引或耦合技術,借助可視化關系揭示技術前沿或者技術熱點。
2.3 基于專利引證的技術熱點監測方法設計
研究首先通過基于“關鍵詞+專利引文”的檢索策略,從專利數據庫中檢索、下載研究主題范圍內的原始專利數據,構建本地專利專題數據庫;其次,按照分析需要對本地原始專利數據進行拙取,將專利號、題名、發明人等專利著錄項從專利文獻中抽取出來,完成數據預處理;再次,分別利用專利耦合聚類和具體概念詞聚類,實現由淺至深、由粗到細的技術熱點監測。具體實施流程如圖l所示:
值得注意的是,為了構建準確、有效的專題數據集-進行分析,專利數據檢索至關重要。在專利數據采集的過程中,首先采用關鍵詞試檢,從試檢結果中尋找相
應表達的同義或近義詞,擴充、調整檢索策略,力求保證關鍵詞的全面性與準確性,構建初始專利數據集。然后對初始專利數據集中的專利進行被引頻次排序,遴選25-50個高被引專利作為種子專利,并請領域專家對種子專利進行判讀。如果專家認為研究領域的種子專利不準確,則需要重新回到第一步,調整檢索策略進行數據檢索。
此外,在利用專利耦合進行技術監測的過程中,要注意設定合適的專利耦合閾值,閾值過大或過小都會影響耦合矩陣的構建,從而影響耦合技術熱點的聚類。同時,那些低于耦合閾值的專利內容相對分散,較難形成熱點,應該予以舍棄。
2.3.1 基于專利引證的技術領域數據集構建 利用專利引文和專利引文索引能識別那些用其他方式不能識別的專利之間的關系,而且這些關系往往可以使相關信息的檢索變得迅速。正如Garfield E所言,除了專利引文和專利引文索引,現在尚無一種更加有效的工具可以確定某一專利所透露的技術是如何被改動、完善和利用的。馬海群指出,引用檢索作為傳統專利情報檢索方式(如分類或主題檢索)的重要補充,可以有效地提高專利檢索的查準率和查全率。借助專利與專利間的引用與被引用關系,本文提出“關鍵詞+專利引文”的技術領域專利文獻數據集構建方法,獲得同一批技術專利技術起源的所有相關專利數據,提升檢索效率、增強資料的搜集性及準確性,具體步驟如下:①與領域專家討論,確定相關檢索技術關鍵詞,確定檢索式進行關鍵詞檢索;②根據初檢結果,構建與專題技術相關的初始專利數據集;③遴選TOP25-TOP50高被引專利作為該技術領域的種子專利;④檢索引證種子專利的專利(citing patent)及其被引專利(cited patent),構建專題技術數據集。
通過上述步驟,構建待分析的技術專題數據集,其專利引證關系如圖2所示:
2.3.2 技術熱點監測方法文獻中的間接關聯包括文獻耦合和同被引兩種,都能用來確定研究熱點(re-search fronts)。正如Persson和Morris。所言,耦合論文可以反映“研究熱點”的知識結構,同被引論文則提供了一種知識基礎(intellectual base)的知識結構。Glanzel指出論文從發表到被引用期問有一個明顯的時滯,用同被引來映射學科結構存在時差,而耦合分析則可以實時地反映學科最新的動態變化。Van denBesselaar P等也指出,耦合測度的是源文獻之間的關系,同被引測度的是被引文獻之間的關系。前者是基于有意識的行為,即著者有意地將兩篇文獻聯系起來,而后者僅是兩篇文獻出現之后的偶然關聯。因此,文獻耦合更適于最新研究主題的揭示。
為了在基于IPC分類號的宏觀技術熱點和基于詞的微觀技術熱點中找到一個較好的平衡點,本文首先利用專利之間的耦合關系獲得耦合專利簇,形成中觀層面上的技術熱點?技術熱點交由領域專家識別,為其命名。其次,引入時間軸的概念,對耦合聚類實現的技術熱點發展趨勢進行分析,幫助技術決策者了解每個技術熱點隨時間的發展變化情況。再次,利用自然語言處理技術,從技術熱點的專利文本中抽取詞和詞組進行統汁和聚類分析,獲得以概念詞為表征的技術熱點,輔助技術決策。
3 實證研究
3.1 數據集的構建
本文采川基于專利引證的方法構建技術領域專題數據集。研究以DVD領域激光頭技術為例,經與領域專家討論,將optical head、pickup和pick up確定為檢索關鍵詞,從美國專利商標局(USPTO)文摘庫中檢索1995-2004年1O年間的專利數據,檢索出1934個專利構建DVD激光頭技術領域初始專利數據集。從巾遴選TOP25高被引專利作為該技術領域的種子專利。從USPT0數據庫中檢索出種子專利的729個施引專利(citing patent),去重后得到515個。上述515個專利又引用了3397個(去重后)被引專利(cited patent)。分別將上述數據下載到本地,構建專題數據庫,作為本次研究的分析對象。
3.2 基于專利耦合的技術熱點分析
研究首先將515個專利和3397個被引專利的專利號(patent number)、題名(title)、授權日期(issuedate)、專利權人(assignee)、技術分類號(IPC)從數據集中抽取出來,為后續分析做準備。然后將研究的耦合閾值確定為4,對原始數據集中的515個專利進行篩選,舍棄專利耦合強度少于4的那部分專利,得到272個專利作進一步的分析。
其次,根據專利之間的引證關系,生成專利初始引證矩陣。這是個典型的二值矩陣,即矩陣中所有的元素取值均為0或者1,如果兩個專利之間存在著引證關系,即取值為1;如果兩個專利之間不存在引證關系,即取值為0。本例中的研究對象有272個專利,需要生成272×272的矩陣,由于文章篇幅限制,略去原始的272×272矩陣。專利初始引證矩陣是一個不對稱矩陣,根據初始引證矩陣轉換成對稱的專利耦合矩陣。
再次,采用層次聚類法對專利單元樣本進行聚類分析。聚類的過程是:先將n維專利耦合矩陣轉換成n維的相似矩陣,然后根據一定的聚類算法把分析對象分成類群。在選擇相似性(similarity)測度方法時,本文采用了Dice相關系數來對耦合距陣進行標準化處理,采用離差平方和法(ward’s method)計算類間距離。上述步驟用Matlab提供的statistics toolbox工具,選擇層次聚類方法實現,將耦合強度大于4的專利聚成了10個小類的專利簇,得到10個技術熱點,并通過領域專家幫助,給每個技術子主題命名。
最后,繪制各技術熱點的發展演變圖,考察技術熱點在10年間的發展變化。從DVD激光頭技術各個子技術主題在10年間(1995-2004年)的發展趨勢來看,大部分子技術主題在1997-2002年處于上升階段,隨后縮量發展,從一個側面說明激光頭技術整體而言已經相對成熟,自2003年始發明創新逐漸減少。其中,生命力最為旺盛的是技術熱點4――光記錄設備,從1997年至2004年不斷有新技術發明問世。DVD激光頭技術10個熱點的發展演變如圖3所示:
3.3 基于詞聚類的技術熱點分析
為了考察光記錄設備這一技術熱點的具體情況,隨后將光記錄設備的87條專利數據導入Patentics專利檢索分析平臺,進行概念聚類分析,得到10組概念索引詞,表征光記錄設備的詳細技術熱點,見表1。
其中,關于物鏡的專利占了該技術熱點的1/4,其次為光度頭和激光束。在這些子技術熱點中,日立、松下電工、富士施樂、日本電氣等日本企業在光度頭中表現突出,日立、富士施樂、希捷等企業在激光束中有較大的技術優勢。
4 研究結論
基于專利引證的技術熱點監測方法在技術領域數據集的構建和熱點監測過程中,有針對性地對專利引文所承載的技術關聯信息進行獲取和關聯挖掘,使得數據分析的目標更加明確,通過專利耦合尋找微觀技術熱點群獲得的技術熱點更為凝練、精確。此外,在凝練的微觀技術熱點群中利用技術特征詞匯進行聚類監測,詞或短語的專指度更高,能有效避免出現詞或短語的高峰區域內個別專利不屬于此技術領域的分析誤差現象。因此,無論在理論上還是實際操作中,基于技術特征詞匯的技術熱點監測更具有效性和可靠性,是對以往單純基于IPC分類號或基于詞處理技術獲得技術熱點的有效補充和參考。
關鍵詞:聚類分析;數據挖掘
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)12-20ppp-0c
Cluster Anlaysis Methods of Data Mining
HUANG Li-wen
(School of Science, Quanzhou Normal University, Quanzhou 362000, China)
Abstract: Cluster analysis is one of the important methods of multivariate statistical analysis, and this method has a wide range of applications in many fields. In this paper, the classification of the cluster is introduced briefly, and then gives some common methods of cluster analysis and the advantages and disadvantages of these methods,and these clustering method were compared and anslyzed so that people can chose suitable clustering methods according to the actual issues.
Key words: Cluster Analysis; Data Mining?
1 引言
聚類分析是數據挖掘中的重要方法之一,它把一個沒有類別標記的樣本集按某種準則劃分成若干個子類,使相似的樣品盡可能歸為一類,而不相似的樣品盡量劃分到不同的類中。目前,該方法已經被廣泛地應用于生物、氣候學、經濟學和遙感等許多領域,其目的在于區別不同事物并認識事物間的相似性。因此,聚類分析的研究具有重要的意義。
本文主要介紹常用的一些聚類方法,并從聚類的可伸縮性、類的形狀識別、抗“噪聲”能力、處理高維能力和算法效率五個方面對其進行比較分析,以便人們根據實際的問題選擇合適的聚類方法。
2 聚類的分類
聚類分析給人們提供了豐富多彩的分類方法,這些方法大致可歸納為以下幾種[1,2,3,4]:劃分方法、層次方法、基于密度的聚類方法、基于網格的聚類方法和基于模型的聚類方法。
2.1 劃分法(partitionging methods)
給定一個含有n個對象(或元組)的數據庫,采用一個劃分方法構建數據的k個劃分,每個劃分表示一個聚簇,且k≤n。在聚類的過程中,需預先給定劃分的數目k,并初始化k個劃分,然后采用迭代的方法進行改進劃分,使得在同一類中的對象之間盡可能地相似,而不同類的中的對象之間盡可能地相異。這種聚類方法適用于中小數據集,對大規模的數據集進行聚類時需要作進一步的改進。
2.2 層次法(hietarchical methods)
層次法對給定數據對象集合按層次進行分解,分解的結果形成一顆以數據子集為節點的聚類樹,它表明類與類之間的相互關系。根據層次分解是自低向上還是自頂向下,可分為凝聚聚類法和分解聚類法:凝聚聚類法的主要思想是將每個對象作為一個單獨的一個類,然后相繼地合并相近的對象和類,直到所有的類合并為一個,或者符合預先給定的終止條件;分裂聚類法的主要思想是將所有的對象置于一個簇中,在迭代的每一步中,一個簇被分裂為更小的簇,直到最終每個對象在單獨的一個簇中,或者符合預先給定的終止條件。在層次聚類法中,當數據對象集很大,且劃分的類別數較少時,其速度較快,但是,該方法常常有這樣的缺點:一個步驟(合并或分裂)完成,它就不能被取消,也就是說,開始錯分的對象,以后無法再改變,從而使錯分的對象不斷增加,影響聚類的精度,此外,其抗“噪聲”的能力也較弱,但是若把層次聚類和其他的聚類技術集成,形成多階段聚類,聚類的效果有很大的提高。
2.3 基于密度的方法(density-based methods)
該方法的主要思想是只要臨近區域的密度(對象或數據點的數目)超過某個閾值,就繼續聚類。也就是說,對于給定的每個數據點,在一個給定范圍的區域中必須至少包含某個數目的點。這樣的方法就可以用來濾處"噪聲"孤立點數據,發現任意形狀的簇。
2.4 基于網格的方法(grid-based methods)
這種方法是把對象空間量化為有限數目的單元,形成一個網格結構。所有的聚類操作都在這個網格結構上進行。用這種方法進行聚類處理速度很快,其處理時間獨立于數據對象的數目,只與量化空間中每一維的單元數目有關。
2.5 基于模型的方法(model-based method)
基于模型的方法為每個簇假定一個模型,尋找數據對給定模型的最佳擬合。該方法經常基于這樣的假設:數據是根據潛在的概率分布生成的。該方法主要有兩類:統計學方法和神經網絡方法。
3 常用的聚類算法
目前,已經提出的聚類算法很多,常用的聚類算法主要有以下幾種:系統聚類法、動態聚類法、CLARANS、CURE、DBSCAN、STING和模糊聚類法(FCM)。
3.1 系統聚類法
系統聚類法[5]是將n個樣品看成n類,即一類包含一個樣品;然后將性質最接近的兩類合并成一個新類,這樣就得到n-1類,再從這n-1類中找出性質最接近的兩類加以合并,成了n-2類;如此下去,最后所有的樣品均成一類;將上述類的合并過程畫成一張圖(這圖常稱為聚類圖),這樣便可決定分多少類,每類各有什么樣品。
系統聚類法的計算簡單,而且其聚類結果給出一個譜系圖,因此,可以根據該圖選擇所需要的聚類結果。但是,它也有不足之處,其主要表現在以下幾個方面:1)當樣品數量很多時,而且只需要劃分為較少的類別時,這種聚類方法的重復計算量很大;2)當某一樣品劃歸某一個類后,其屬性不變,若分類方法的選擇不當,對聚類的精度影響很大;3)對大數據量進行處理時,計算機內存開銷很大,有時,計算機受此限制而無法進行聚類分析,而且其速度很慢;4)抗干擾的能力很弱。
3.2 動態聚類算法
動態聚類法[5]就是在開始時先建立一批初始中心,而讓待分的各個樣品依據某種判別準則向初始中心凝聚,然后再逐步修改調整中心,重新分類;并根據各類離散性統計量(如均方差)和兩類間可分離性的統計量(如類間標準化距離、J-M距離等)再進行合并和分裂。此后在修改調整中心,這樣不斷繼續下去,直到分類比較合適為止。
動態聚類法使用隨機方式選擇 作為初始聚類中心,按照算法的迭代執行,整個算法的結束條件是類的重心(或凝聚點)不再改變,它的計算復雜性是O(nkt),其中,n為樣本數量,k為聚類數,t為迭代次數。與系統聚類法相比,動態聚類法明顯的優勢是運算量小,能用于處理龐大的樣本數據,也為實時處理提供了一定的可能性,但其也存在一些缺點,主要表現在以下幾個方面:(1)動態聚類法要求用戶必須事先給出聚類的數目,選擇初始劃分的最佳方向、更新分區和停止準則,且其結果與數據輸入順序有關,不同的初始值可能會導致不同的結果;(2)對于噪聲和孤立點敏感,很容易受例外情況的影響,適用于發現球狀類,但不適合發現非凸面狀的簇,不適合大小差別較大的簇;(3)一個對象只能屬于一個類中,不能多維揭示其多重屬性。
3.3 CLARANS算法
CLARANS[2,6,9]也叫隨機搜索聚類算法,是一種分割聚類方法。該算法是基于CLARA算法的改進,與CLARA算法不同的是:CLARA算法在每個階段都選取一個固定樣本,而CLARANS在搜索的每一步都帶一定的隨機性選取一個樣本,在替換了一個中心點后得到的聚類結果被稱為當前聚類結果的鄰居,搜索的鄰居點數目被用戶定義的一個參數加以限制。如果找到一個比它更好的鄰居,則把中心點移到該鄰居節點上,否則把該點作為局部最小量,然后再隨機選擇一個點來尋找另一個局部最小量。
該算法能夠探測孤立點,并適用于大型數據庫,但其計算復雜度復雜度較高,大約為O(n2);此外,該算法對數據輸入的順序敏感,適用于凸形或球形數據。
3.4 CURE算法
CURE[6,7,8]算法是一種使用代表點的聚類算法。該方法首先把每個數據點看成一簇,然后再以一個特定的收縮因子向中心“收縮”,即合并兩個距離最近的代表點的簇,直至達到預先給定的聚類個數為止。它回避了用所有點或單個質心來表示一個簇的傳統方法,將一個簇用多個代表點來表示,使CURE可以適應非球形的幾何形狀。另外,收縮因子降底了噪音對聚類的影響,從而使CURE對孤立點的處理更加健壯,而且能識別非球形和大小變化比較大的簇。
該算法采用隨機抽樣與分割相結合的方法來提高聚類效率,對于大型數據庫,它也具有良好的伸縮性,運行速度很快,而且有較好的聚類效果,其計算復雜度為O(n)。
3.5 DBSCAN算法
DBSCAN算法[6,7,8,9]是一種基于高密度連接區域密度的聚類算法。該方法將密度足夠高的區域劃分為簇,并可以在帶有“噪聲”的空間數據庫中發現任意形狀的聚類。其主要的思想是通過檢查數據庫中每個點的ε-鄰域來尋找聚類。如果第一個點p的ε-鄰域包含多于MinPts個點,則創建一個以P作為核心對象的新簇,否則先把它暫時標為噪聲點,跳到下一個點,并判斷它是否為核心點。然后反復地尋找從這些核心點直接密度可達的對象,當沒有新的點可以被添加到任何簇時,該過程結束。
該算法可以數據集中的所有簇和噪聲,但其不對數據集進行預處理而直接進行聚類操作,當數據集很大時,占用內存很大,而且I/O消耗也很大,如果采用空間索引,其計算復雜度為O(nlogn),否則,其計算復雜度為O(n2)。
3.6 STING算法
STING算法[2,3,8]是一種基于風格的多分辨率聚類技術,它將空間區域劃分為矩形單元。針對不同級別的分辨率,通常存在多個級別的矩形單元,這些單元形成了一個層次結構,高層的每個單元被劃分為多個低一層的單元,高層單元的統計參數可以很容易地從低層單元計算得到,而統計信息的查詢則采用自頂向下的基于網格的方法。這些參數包括:屬性無關的參數count;屬性相關的參數m(平均值)、s(標準偏差)、min(最小值)、max(最大值)以及該單元中屬性值遵循的分布(distribution)類型。該算法預先計算和存儲每個單元的統計信息,它不依賴于查詢的匯總信息。
該算法主要優點是效率高,有利于并行處理和增量更新;它通過掃描數據庫一次來計算單元的統計信息,因而其計算復雜度為O(n)。在層次結構建立后,其查詢處理的計算復雜度為O(m),其中m為最低層網格單元的數目。其缺點是聚類質量取決于網格結構最低層的粒度,粒度的大小會明顯影響處理代價,特別是當數據集的維數較高時,由于生成網格層次及每一層的單元數較多,算法的效率會降低。
3.7 模糊聚類算法(FCM)
傳統的聚類分析是一種硬劃分,它把每個待識別的對象嚴格地劃分到某類中,具有“非此即彼”的性質;而在實際中,大多數對象并沒有嚴格的屬性,它們在性態和類屬方面存在著中介性,具有“亦此亦彼”的性質;鑒于此,人們開始用模糊的方法來處理這類問題,從而產生了模糊聚類的方法,也就是說,模糊聚類法[5]是將模糊數學的思想觀點用到聚類分析中產生的方法,其關鍵是隸屬函數的確定。該方法多用于定性變量的分類。其主要算法如下:
(1)選擇一個初始模糊分類方案,將n個樣本分成k個模糊類,得到一個模糊隸屬度矩陣U={uij,i=1,2,…,n;j=1,2,…,k},其中uij表示樣本Xi對模糊集Cj的隸屬度,uij∈[0,1];
(2)利用矩陣 計算模糊評判函數的值,模糊評判函數通常是一個與對應的分類相聯系的加權平方誤差和
是第k個模糊集的中心,重新分配樣本到各模糊集以減少評判函數的值并重新計算U;
(3)重復(2),直到矩陣U不再有較大的變動。
模糊聚類解決了一些混合對象的歸類問題,同時,當樣本數較少的時候,應用該方法的優越性也比較明顯,另外,其抗干擾的能力也較強;但是,它對一些隱含類的提取能力還有待于進一步的改進,除此之外,預定的分類數目一般也是人為決定的,同動態聚類一樣,就可能出現人為預定的分類數與實際存在的類數不相符這種情況,從而影響分類的結果。
4 聚類的性能比較
基于上述的分析,現從可伸縮性、類的形狀識別、抗噪聲能力、處理高維能力和算法效率五個方面對常用聚類算法的性能進行了比較,結果如下表。通過這些比較,可以給聚類算法研究和應用的選擇提供參考。
5 結束語
目前,已經提出的聚類算法很多,每種方法都有其優缺點和不同的適用領域,可以根據上述的分析,選擇適合特定問題的聚類方法;但是,在實際應用中,由于數據的復雜性,往往用某種聚類算法進行聚類劃分得到的效果不佳,可能要綜合多種聚類方法才能得到較好的聚類效果。因此,在將來的研究中,需要做好對現有聚類算法的改進和融合,以便得到更好的聚類方法。
參考文獻:
[1] 孫孝萍.基于聚類分析的數據挖掘算法研究[D].碩士學位論文,2002.4.
[2] 覃擁軍,劉先鋒.數據挖掘中的聚類研究[J].科技咨詢導報,2007(16):28-30.
[3] 梁志榮.數據挖掘中聚類分析的技術方法[J]. 電腦開發與應用,2007,20(6):37-39.
[4] 谷淑化,呂維先,馬于濤.關于數據挖掘中聚類分析算法的比較[J].現代計算機,2005(3):26-29.
[5] 黃利文.基于幾何概率的聚類分析[D]. 碩士學位論文,2006(1).
[6] 張紅云,劉向東,段曉東等.數據挖掘中聚類算法比較[J].計算機應用與軟件,2003(2):5-6.
[7] 王勁波,翁偉,許華榮.數據挖掘中基于密度的聚類分析方法[J].統計與決策,2005(10):139-141.
[8] 劉泉鳳,陸蓓. 數據挖掘中聚類算法的比較研究[J].浙江水利水電??茖W校學報,2005,17(2):55-58.
[9] 丁學鈞,楊克儉,李虹等.數據挖掘中聚類算法的比較研究[J].河北建筑工程學院學報,2004,22(3):125-127.
收稿日期:2008-02-17
Space軟件對項目管理碩士學位論文數據進行科學計量,在較為深入地了解我國項目管理發
展現狀的基礎上,通過關鍵詞共現網絡和聚類分析,探究我國項目管理理論現有研究熱點領
域和新興領域的研究主題,并對我國項目管理理論研究特點進行總結,以推動我國項目管理
理論的進一步發展與完善?
〔關鍵詞〕項目管理;碩士學位論
文;科學計量;信息可視化
DOI:10.3969/j
.issn.1008-0821.2014.01.024
〔中圖分類號〕F062.4 〔文獻標識碼〕A 〔文章編號
〕1008-0821(2014)01-0110-05
Analysis of the Topics of Ch
ina Project Management Theory Research
——Based on the View of Scientometric Analysis of Master Degree
Thesis
Zhu Fangwei1 Song Haoyang1 Hou Jianhua2
(1.Faculty of Management and Economics,Dalian University of Technology,Dali
an 116024;
2.Humanities Department,Dalian University,Dalian 116024,China)HT〗
〔Abstract〕”BZ〗Use CiteSpace software to analyze the Master degree thesis of project ma
nagement in China in Scientometrics method.Based on an in-depth understanding of
the development of project management in China,this paper explored the themes o
f the existing hot and emerging field project management theory through keywords
co-occurrence network and cluster analysis.Then summarized the features of Chin
as project management researching and proposed some advises about the future d
evelopment of project management theory to promote the further development and i
mprovement of Chinas project management theory.
〔Key words〕project manageme
nt;master dissertation;scientometrics;information visualization
我國項目管理理論的學習與研究始于20世紀60年代?1960年,華羅庚最早將項目管理的
主要方法之一網絡計劃技術引進國內,并命名為“統籌法”,自此拉開了我國項目管理研究
與應用的序幕?1965年6月,《人民日報》發表了華羅庚的《統籌方法平話》,進一步促進
了網絡計劃技術在我國的推廣與應用[1]?這一時期,我國的項目管理主要處于理
論方法學習與推廣階段?
20世紀80年代末,現代項目管理理論在國內工程實踐領域得到廣泛的應用?其中,利用世界
銀行貸款所建設的云南魯布格水電站飲水導流工程,首次采用了國際招標和項目管理方法,
并取得了很好的效果[2]?隨后,一些大型工程建設項目如二灘水電站?三峽水利
樞紐建設相繼采用了項目管理的方法和模式?
進入90年代后,相關研究者開始著手我國項目管理理論體系的構建工作,并于1991年成立了
我國第一個項目管理專業學術性組織,中國項目管理研究委員會?截至2000年,委員會總共
開過3次學術年會和兩次國際研討會[3]?由該委員會組織構建的《中國項目管理
知識體系》?內部發行的《項目管理》刊物以及《國際項目管理專業資質認證標準》,對我
國項目管理理論的研究和人才的培養起到了積極的促進作用?
近年來,我國項目管理理論研究和人才培養得到了快速的發展和廣泛的應用,而國內高等院
校和機構則成了理論研究與人才培養的主力軍?20世紀90年代開始,相關高校開始設立項目
管理專業,將其作為管理科學與工程一級學科下的自主設置二級學科,培養碩士?博士等各
層次專業人才?截至2012年,全國具有項目管理專業學位授予權的院校和機構共有133所,
其中,具有博士學位授予權的院校和機構有97所?高層次人才的培養大大推動了我國項目管
理理論研究的發展,學位論文的研究成果在很大程度上體現了我國學者對項目管理前沿探索
的最新成就[4]?
目前,已有一些學者通過對我國項目管理的發展過程?特點以及未來的發展趨勢進行不同程
度的研究分析,以期指導該領域未來的發展[5-7]?但多數研究都是從個人的視
角出發,帶有較強的主觀性?相比之下,陸紹凱統計了《國際項目管理學報》和中國優秀博
碩士論文數據庫中有關項目管理的研究性論文,分析了從1999-2003年間我國項目管理研究
主題和應用行業領域情況,具有一定程度的客觀性?
本文使用CiteSpace軟件對項目管理碩士學位論文數據進行科學計量與可視化分析,并繪制
可視化網絡圖譜,在保證客觀性和有效性的基礎上,對項目管理理論研究熱點領域和新興領
域及其主要主題進行分析?較為客觀地反映了我國項目管理理論研究現狀及發展趨勢,借此
為未來項目管理理論研究提供一定的指導?
1 我國項目管理學位論文的基本情況
在中國博士學位論文全文數據庫(CDFD)?全國高校學位論文文摘數據庫(CALIS)?中國
國家圖書館和萬方學位論文等數據庫中,以“學科專業名稱=項目管理”?“時間=不限~
2012年”為條件進行數據檢索,經去重處理后共獲得博士論文37篇,碩士論文7 344篇
?
盡管存在數據庫數據不全的情況,但現有數據能夠代表項目管理研究學位論文整體數量分布
情況和研究方向?其中,項目管理專業博士學位論文數量較少,說明該專業博士人才的培養
工作尚處于起步階段,碩士學位論文對項目管理理論研究起到主要的推動作用?
從各年論文數量的分布狀況看,2005年的論文數量最少,2006-2009年間論文數量出現驟增
,于2009年達到最大量,隨后幾年論文數量出現小幅下降,具體數據如圖1所示?由此,可
以判斷,自2005年開始項目管理碩士研究生培養及理論研究得到快速發展,整體呈現上升態
勢?
按各院校論文總數對學位論文的產出單位進行統計排序,排名前20的高產院校論文數量共占
文獻數據總量的90.1%,具體數據如圖2所示?結合各院校背景和發展實際來看,論文產量
較高的院校通常開設了項目管理工程碩士學位,如北京郵電大學的項目管理教育
中心和中國海洋大學的在職研究生培養,這在一定程度上也反映了對專業項目管理人才的旺
盛需求?但需要注意的是項目管理碩士學位論文的數量并不能完全代表理論研究水平,學術
型項目管理碩士學位論文對于項目管理理論的發展與完善有著重要的作用?此外,在20所院
校中理工科院校占14所,其論文數量占20所院??偭康?5.9%,說明項目管理雖然屬于管理
科學,但與IT?科技?建筑等理工科項目實踐聯系緊密?
2 研究分析
學術論文中的關鍵詞,對于揭示論文主題有著重要的作用[8]?因此,本文以項目
管理專業碩士學位論文的關鍵詞為對象,使用CiteSpace軟件進行關鍵詞共現網絡和聚類分
析,在探究項目管理理論研究主要領域及其主要研究主題的基礎上,揭示我國項目管理理論
研究現狀及發展趨勢?
2.1 熱點領域概況分析
運用CiteSpace軟件構建項目管理碩士學位論文的關鍵詞共現網絡圖譜,共現頻次在100以上
的關鍵詞共有15個?其中“項目管理”的共現頻次雖然最高(1 431次),但對于揭示
本專業的研究主題作用較小,因此以下主要對其余14個關鍵詞進行分析,具體頻次如圖3所示?
14個關鍵詞共現頻次合計2 540次,占除“項目管理”以外關鍵詞總共現頻次(6 298
次)的40.33%,表明這14個關鍵詞所反映的研究領域可代表當前項目管理碩士學位論文
的主要熱點領域?對14個關鍵詞的研究主題及其相關性進行分析發現,在“項目管理”領域
中主要包括“項目質量管理”?“項目進度管理”?“項目成本管理”?“可行性研究”和
“項目風險管理”5個關鍵詞共現網絡群組,即5個熱點領域?其中,“項目風險管理”群組
的共現頻次及所含關鍵詞節點數量最多,這表明項目風險管理的相關研究受到了研究者的極
大關注?
在選定的閾值下,關鍵詞共現網絡圖及熱點領域分布,如圖4所示?對關鍵詞共現網絡各節
點的中心度指標進行分析,中心度數值在0.07以上的關鍵詞包括:“成本控制(0.1)”
?“可行性分析(0.09)”?“房地產項目(0.09)”?“項目管理(0.07)”?“風
險分析(0.07)”和“經濟評價(0.07)”?結合各群組間網絡關系分析發現,6個高中
心度共現關鍵詞相互聯結,形成以“風險分析——可行性分析——經濟評價——房地產項目
——成本控制——項目管理”依次排序的連接鏈,將“項目風險管理”?“可行性研究”?
“項目成本管理”和“項目管理”4個群組聯系在一起?而“項目質量管理”和“項目進度
管理”群組分別通過“可行性研究”和“項目成本管理”兩群組與其他群組聯結?這表明不
同熱點領域間存在著不同程度的聯系,而項目管理專業碩士學位論文的研究主題通常涵蓋了
項目管理中某幾個領域的問題,具有一定程度的綜合性?
2.2 項目管理研究主題分析
依據各共現節點研究主題的相關性,通過CiteSpace軟件構建關鍵詞聚類,以TF*IDF算法抽
取每個聚類的主題標識詞[9]?對各熱點主題進行初步分析整理,得到可反映論文
研究主題的聚類17個?其中,9個聚類的熱點主題包含于5個熱點領域中,另有8個聚類屬于
近年來新興的研究主題,反映了項目管理理論研究的新興領域,具體數據如表1所示?
2.2.1 熱點領域主題分析
關鍵詞聚類分析再次證實了關鍵詞共現網絡分析的結果,即“項目風險管理”?“項目質量
管理”?“項目成本管理”?“項目進度管理”和“可行性研究”是項目管理碩士學位論文
熱點研究領域?結合高頻共現關鍵詞和聚類結果,探究五個熱點領域的熱點主題,具體內容
如表1所示?
表1 基于聚類分析的熱點和新興領域及
①有關“項目風險管理”的高頻共現關鍵詞包括“風險分析”?“風險識別”?“風險
”以及“層次分析法”,共現頻次共計548次,這說明對風險的有效識別和分析成了項目風
險管理的熱點主題?同時,聚類結果顯示國際項目成為風險管理新的研究對象,這體現了項
目管理的國際化趨勢[10]?在經濟全球化的推動下,我國境內開展的國際項目逐
漸增加?這些國際項目通常面臨著更加復雜的環境,需要的技術更加多樣化,更多地采用國
際化標準和規范?項目實施者不僅要應對較為傳統的項目風險,還要考慮許多新的風險因素
,如政治?環境等,這給項目活動的開展造成了更大的困難?因此,對國際項目來說,項目
風險的有效識別?評估及應對等工作的重要性和必要性更加顯著;
②“質量控制”的共現頻次為173次,說明“項目質量管理”領域以質量的監控為研究熱點
?通過聚類分析發現,近年來,項目成果的可持續發展逐漸引起人們的重視,盡管項目是一
次性的任務,但項目的交付物通常會在未來的一定時間內持續創造經濟價值?項目成果質量
的可持續性對于之后的運營管理?成本控制?環境保護等方面都有著重要影響,尤其是在自
然資源開發與利用和生態發展的項目中,可持續性成為影響項目能否開展的關鍵因素?因此
,不僅要強調項目實施過程中的質量監控,更要關注項目的后評價問題?通過建立項目后評
價體系和方法,來衡量項目成果的可持續性,在確保項目成果質量的基礎上,實現項目的可
持續發展,成為項目質量管理的一個熱點主題;
③高頻共現關鍵詞統計顯示,項目進度的監控問題受到“項目進度管理”領域的重視?聚類
分析則發現,近年來建筑工程類項目的進度控制成為該領域的研究熱點?這一現象與我國經
濟發展有著緊密的聯系?2008年的世界金融危機后,為促進我國經濟的穩步發展,政府加大
了國內基礎建設投資,各地紛紛籌備并實施大中型建筑工程類項目?而在建筑工程類項目實
踐中,由于項目管理水平?施工條件,資源需求,設計變更,物資供應以及相關方協調等因
素的影響,普遍存在著進度失控問題[11],這對項目成本?質量?收益等方面都
產生了不利影響?因此,建立并完善建筑工程項目進度控制的理論?工具和方法有著重要的
實踐意義;
④“項目成本管理”領域以“成本控制”(共現頻次182)為熱點,尤其是有關項目成本控
制方法的改進與完善問題?在項目實踐過程中,傳統的成本控制方法面對復雜性不斷提高的
項目及環境,自身的局限性不斷暴露?單純的以目標利潤為導向,強調目標成本,往往無法
有效滿足項目的多方面需求?為了彌補傳統控制方法的不足,“項目成本管理”領域引入了
“價值工程”理念?價值工程能夠綜合考慮功能與經濟要求,在保證達成項目必要目標的同
時,實現成本的降低?如何將價值工程的理念和方法有效的應用于項目成本管理,以最低的
成本達成項目的必要目標,實現成本降低與功能最佳的統一,成為該領域的熱點問題;
⑤“可行性研究”領域以清潔能源項目的“可行性分析”,尤其是“經濟評價”為主要研究
主題?隨著我國經濟的快速發展,傳統以煤炭為主要來源的能源結構不僅無法滿足快速增長
的需求,更不利于環境的保護與有效利用?為了改變能源結構?改善環境狀態,清潔能源項
目在國家政策的扶持下得到快速發展?而此類項目通常具有規模和資金需求量大,建設周期
和投資回收期長等特征,在項目投產后能否獲得足夠的利潤以保證項目成果的持續運營成為
該類項目可行性研究的重要議題?
2.2.2 新興領域主題分析
關鍵詞聚類分析表明,近年來項目管理理論研究中出現了4個新興領域,即“項目團隊管理
”?“項目知識管理”?“多項目管理”和“項目管理模式”?由于這些理論的研究處于起
步階段,相關文獻數量少,所以在關鍵詞共現網絡圖譜中未能形成大的群組或領域,但新興
領域對我國項目管理理論發展與完善有著積極的促進作用?
①為應對競爭日益激烈的市場環境,現代企業廣泛采用團隊運作方式來靈活應對內外部變化
?項目活動的復雜性要求團隊成員能夠彼此協作,共同完成任務?而項目團隊成員通常是來
自不同領域的專業人員,具有成就動機強?自主性和創造性高?工作難以監控和評價等特征
,這給項目團隊的組建及管理帶來了新的挑戰,有關團隊建設?成員管理等“項目團隊管理
”問題受到了研究者的關注;
②“項目知識管理”是在項目管理與知識管理相互交叉融合的過程中產生的?在項目活動的
展開過程中,不僅需要輸入專業性的知識以支持項目,同時還會創造出大量新知識,這些知
識成為團隊競爭優勢的重要來源?然而,在項目知識管理實踐中還存在著大量問題,如對于
知識的積累轉化重視不足?知識在項目團隊中沒有進行完整的傳遞等[12],這阻
礙了員工工作效率的提升,同時也增加了知識流失的風險?因此,培養項目團隊學習?創新
和傳播知識的能力?構建知識管理系統,促進知識交流與共享等相關主題成為該領域的主要
研究內容;
③“多項目管理”領域主要涉及企業的項目群和項目組合管理?在企業實踐中,往往需要同
時開展多個項目?由于財力?人力等資源的有限性,為了滿足各項目不同的需求,需要對各
種資源進行合理的安排與利用?通過多個項目間資源的合理分配和有效協調,不僅能達成各
項目自身的目標,還有助于企業整體績效的最優?因此,多個項目間的協調問題成為該領域
的主要研究主題;
④“項目管理模式”領域主要探討項目管理模式的應用與優化問題?傳統的項目管理模式,
如設計——招標——建造?建造——運營——移交?項目承包和設計——采購——建造等,
通常被應用于大型復雜的工程建設項目,以期應對此類項目建設周期長,資金需求量大,風
險高等不利因素?但在實踐應用的過程中,傳統項目管理模式也暴露出自身的不足,如缺乏
敏捷性?過分強調技術性?對項目過程的割裂等?為了實現項目管理模式的優化,“動態聯
盟”的思想被引入項目管理領域?企業間的動態聯盟可以充分利用聯盟各方的核心競爭優勢
,共同應對環境變化,提升競爭力,抵御風險,實現資源的共享?因此,動態聯盟項目管理
模式的構建?管理與應用成為該領域的新興主題?
3 研究結論
通過對項目管理碩士學位論文數據的計量與可視化分析,本文探究了我國項目管理理論研究
的熱點和新興領域現狀,對目前我國項目管理理論研究的特征總結如下?
3.1 選題方向較為多元,研究內容豐富
關鍵詞共現網絡分析顯示,項目管理專業碩士學位論文主要以5個項目管理問題為熱點研究
領域,并通過融入新的視角和理念來促進各熱點領域發展與完善?從風險管理的國際化趨勢
,到質量管理的可持續發展,再到價值工程理念的引入,以及進度管理和可行性研究對象的
轉變,都表明了5個熱點領域研究主題的豐富與多樣性?
3.2 新興領域初步形成,有待進一步深入研究
通過關鍵詞聚類分析發現主要形成了4個新興領域?其中,在與其他研究領域的交叉融合過
程中,形成了“項目知識管理”;“項目團隊管理”則體現了項目管理從硬因素轉向對軟因
素的關注[13];傳統的單一項目管理擴展到多個項目之間的協調管理,項目管理
模式中也引入了新的理念?但總體來看,這些新興主題的研究還處于起步階段,相關理論成
果較少且缺少系統性,需要進一步的完善與發展?
3.3 與實踐的緊密結合是項目管理理論研究的重要特征
國際項目的風險管理?建筑工程項目的質量監控以及清潔能源項目的可行性研究等,都表明
項目管理專業碩士學位論文的選題及研究內容緊跟時展,具有很強的實踐性?
參考文獻
[1]蔚林巍.項目管理的最新進展[J].管理工程學報,2000,(3):65-69
.
[2]駱,馬紅霞.項目管理發展綜述[J].現代管理科學,2005,(5):28-29.
[3]李波.項目管理理論綜述與前沿問題研究[J].經濟研究導刊,2012,(31):212-21
4.
[4]陸紹凱.項目管理的研究前沿[J].技術經濟與管理研究,2005,(1):36-38.
[5]程鐵信,霍吉棟,劉源張.項目管理發展評述[J].管理評論,2004,(2):59-62.
[6]應尚軍,王炎.項目管理的研究現狀與研究前景[J].科技進步與對策,2005,(11)
:131-133.
[7]劉莉.論現代項目管理的四大轉變[J].深圳大學學報:人文社會科學版,2003,(1
).
[8]朱彩萍.學術論文中關鍵詞的規范[J].圖書與情報,2005,(4):51-53.
[9]Chen C,Ibekwe SanJuan F,Hou J.The structure and dynamics of cocitation clu
sters:A multiple-perspective cocitation analysis[J].Journal of the American S
ociety for Information Science and Technology,2010,61(7):1386-1409.
[10]劉鳳樓.我國的項目管理及其發展展望[J].商場現代化,2006,(5):59-60.
[11]倪祥如.新海發電公司2×330MW擴建工程進度控制研究[D].南京:南京理工大學,
2011.
[12]朱方偉,王昭.基于流程導向的創意服務企業知識管理個案研究[J].管理案例研
[關鍵詞] 環渤海區域 金融成長差異 因子分析 聚類分析
一、區域銀行業成長差異分析
1.研究方法
(1)因子分析
因子分析是利用降維的思想,由研究原始變量相關矩陣內部的依賴關系出發,把一些具有錯綜復雜關系的變量歸結為少數幾個綜合因子的一種多變量統計分析方法。它的基本思想是根據相關性大小把原始變量分組,使得同組內的變量之間相關性較高,而不同組的變量見的相關性較低。每組變量代表一個基本結構,并用一個不可觀測的綜合變量表示,這個基本結構稱為公共因子。于是,對于所研究的某一具體問題,原始變量就可以分解為兩個部分之和的形式,一部分上一少數幾個不可測的公共因子的線形函數,另一部分是與公共因子無關的特殊因子。
在進行因子分析時,首先要確保原始變量之間有較強的相關性,大多數變量間的相關系數應該大于0.3。在確保原始變量之間有較強的相關性之后要進行因子載荷,因子載荷主要通過主成分法來進行。載荷矩陣確定后要進行因子旋轉。建立因子分析模型的目的在于知道每個公因子的意義,但是剛才得到的初始因子解各主因子的典型代表變量不突出,因子意義含混,因此需要通過因子旋轉找到由于更明確,實際意義更明顯的公因子。當因子模型建立起來后,就需要對因子進行評分,從而用公因子的得分來描述原始變量的取值。
(2)聚類分析
這里的聚類分析主要用到的是K―均值法,它是一種特殊的非譜系過程,是麥克奎因(McQueen)于1967年提出的。它的基本思想是預先把樣品分類,之后進行修改,逐個分派樣品到其最近均值的類中去。
2.評價指標及原始數據
由于數據的可得性,本部分擬采用存款總量、存款增長率、貸款總量、貸款增長率、外資銀行數量、票據貼現余額、盈利額、優良貸款率 、銀行機構與人口數量比、銀行資產與國內生產總值比這十個指標對環渤海區域的銀行業進行評估。這十個指標中存貸款及票據貼現是銀行業務的基本反映,外資銀行數量在某種意義上體現了該區域的信用程度,盈利額體現了銀行的經營狀況,優良貸款率體現了該區域的金融風險,銀行機構與人口數量比和銀行資產與國內生產總值比則基本反映了該區域銀行業的結構和規模。
評價指標使用的數據年份為2005年,除存款增長率和貸款增長率外,所有數據均來自中國人民銀行公布的各區域2005年的《區域金融運行報告》,存款增長率和貸款增長率則根據2004年及2005年的數據計算得出。增長率=(本期平均余額/上期平均余額)-1。
3.因子及聚類分析
通過相關性的檢驗,大多數變量的相關系數大于0.3,因此可以作因子分析。表1給出了指標主成分的特征值及方差比重。
通過表1可以看出,當主成分的個數為3時,不僅特征根大于1,而且所選主成分保持信息總量的比重超過85%,達到98.607%。因此可以將前三個公因子作為評價區域銀行業競爭力的綜合指標。再通過Promax方法 (斜交旋轉)進行因子旋轉,得到因子載荷矩陣(表2)。通過表2可以看出,第一個因子主要集中了貸款總量、存款總量、票據貼現余額和實現盈利這四個指標,概括反映了區域銀行業的發展規模,因此可以稱為規模因子。第二個因子主要集中了銀行資產與國內生產總值比、外資銀行數量和銀行機構與人口數量比這三個指標,概括反映了區域銀行業的發展結構,可稱為結構因子。第三個因子主要集中了存款增長率、貸款增長率和優良貸款率這三個指標,概括反映了區域銀行業的發展潛力,可稱為潛力因子。通過統計軟件SPSS可以得出這三個公因子的各自得分。綜合得分為將各因子得分以其方差貢獻率占三個因子總方差貢獻率的比重作為權重進行加權之和。最終的結果表明,北京市銀行業發展的最好,而河北省在環渤海區域的銀行業中排名最后。從各個因子的得分看,北京市在規模因子和結構因子上的得分最高,而天津市在潛力因子上的得分最高,但因為其規模因子得分最后,所以最后總得分只排在中間。河北省在結構因子和潛力因子的得分最低,規模因子得分也很低,反映出河北省銀行業發展較為落后。
通過聚類分析,可以進一步認清環渤海區域銀行業發展現狀的格局。從聚類結果看,北京位于第一梯隊,處于絕對領先;山東為第二梯隊;天津、遼寧和河北則位于第三梯隊,表明銀行業的發展相對滯后。
二、區域證券市場成長差異分析
1.指標建立及研究方法
根據數據的可得性并且充分借鑒金融地理學的研究思想,本部分擬采用國內生產總值、人均國內生產總值、人均可支配收入、相對人均可支配收入、上市公司數量、證券營業部數量、證券市場總交易量、滬深兩市A股開戶數量、上市公司與證券營業部數量比、總交易量與國內生產總值比、人口與證券營業部數量比和開戶數量與人口比共十二個指標。這十二個指標可以分為六個絕對指標和六個相對指標,每個絕對指標都對應著一個相對指標。
2.數據來源
為減少單年度數據波動的影響,本部分采用2004年到2005年的平均數據進行分析,這些數據中,涉及上市公司數量、證券營業部數量、證券市場交易額以及開戶數量的數據來自《中國證券期貨統計年鑒2005》和《中國證券期貨統計年鑒2006》;人口數據、人均可支配收入數據以及國內生產總值數據來自《中國統計年鑒2005》和《中國統計年鑒2006》。
3.數據標準化結果及得分
從表3中我們可以看出,北京市證券業發展的最好,無論是絕對指標還是相對指標都領先于其他省份。河北省證券業發展的最為落后,無論是絕對指標還是相對指標都排名最后。山東省的絕對指標得分很高為404.76分,很接近于北京市的450.49分。天津市的相對指標得分很高,僅次于北京市,但由于它的絕對指標得分過低因此總得分靠后。
通過聚類分析,可以進一步認清環渤海區域證券業發展現狀的格局。從聚類結果看,北京位于第一梯隊,處于絕對領先;山東、遼寧省位于第二梯隊;天津市、河北省則位于第三梯隊,表明這兩個區域的證券業的發展相對滯后。
三、區域保險市場成長差異分析
在本部分對區域保險市場成長差異的研究中,將繼續延用分析銀行業成長差異時所用到的因子分析方法和聚類方法,研究方法的具體內容就不在贅述了。
1.評價指標及原始數據
考慮到數據的可得性,本部分擬采用居民儲蓄余額、固定資產投資額、實際利用外資額、人均地區生產總值、人均可支配收入、保費收入、保險市場主體數量及保險密度 這八個指標來對環渤海區域的保險市場發展現狀進行評估。這八個評價指標既考慮到了保險市場所涉及的一些常見指標如保費收入等,又考慮到了實體經濟的一些重要的且會對保險市場帶來重要影響的指標如人均可支配收入等,因此這八個評價指標的選取是合理的。
為減少單年度數據波動的影響,本部分采用2003年~2005年共三年指標數據的平均值來進行分析。這些數據中,除保險市場主體數量及保險密度這兩個指標外,其余指標數據來自于2003年~2005年的各地區的國民經濟和社會發展統計公報,保險市場主體數量的數據來自于2003年~2005年的各地區的保險統計年鑒,保險密度則是根據保費收入和人口計算得出。
2.因子及聚類分析
通過相關性的檢驗,大多數變量的相關系數大于0.3,因此可以作因子分析。表4給出了指標主成分的特征值及方差比重。
通過表4可以看出,當主成分的個數為2時,不僅特征根大于1,而且所選主成分保持信息總量的比重超過85%,達到90.799%。因此可以將前兩個公因子作為評價區域保險業發展現狀的綜合指標。再通過Promax方法進行因子旋轉,得到因子載荷矩陣(表5)。通過表5我們可以看出,第一個因子主要集中了保險密度、人均可支配收入、保險市場主體數量以及人均GDP這四個變量,概括的反映了保險業發展情況及潛力,因此可以稱為發展因子;第二個因子主要集中了居民儲蓄、固定資產投資額、實際利用外資額以及保費收入這四個變量,概括的反映了該區域的經濟規模,因此可以稱為規模因子。通過統計軟件SPSS,可以分別得到這兩個因子的得分情況,之后,將各因子得分以其方差貢獻率占兩個因子總方差貢獻率的比重作為權重將兩個因子各自得分進行加權之和從而得到總得分。
總得分的結果表明,北京市保險業發展的最好,而天津市在環渤海區域的保險業中排名最后。從各個因子的得分看,北京市在發展因子上的得分最高,而山東省在規模因子上的得分最高。天津市在兩個因子中的得分均為負數,尤其是因子2的得分在所有城市中排名最后,直接影響了最后的總分數,這反映出天津市保險業發展較為落后。
通過聚類分析,可以進一步認清環渤海區域保險業發展現狀的格局。從聚類看,北京位于第一梯隊,處于絕對領先;山東、遼寧為第二梯隊;河北、天津則位于第三梯隊,表明這兩個區域的保險業的發展相對滯后。
四、小結
通過對環渤海區域各金融行業的統計分析,我們能夠看到,北京市無論在銀行業、證券業還是保險業都處于絕對領先地位,表明其在這一區域的金融發展是最好的;山東省和遼寧省基本上在各金融行業的排名和聚類中位居中游,而山東省的發展情況還要相對更好一些,成為在這一區域僅次于北京市的金融發展強??;天津市和河北省基本上在各金融行業的排名和聚類中位居下游,尤其是河北省的發展最為滯后,在金融業的三大領域中,有兩個領域的排名都是最后,充分說明河北省在環渤海區域金融業的發展中已落在其他省市的后面。
參考文獻:
[1]金學軍田霖:《金融地理學視角下的區域金融成長差異研究》,浙江大學博士論文,2004
[2]盧丹:《我國經濟體制轉軌過程中的區域金融差異化》,浙江大學碩士論文,2004
[3]張杰:《經濟的區域差異與金融成長》,金融與經濟,1994(6)
[4]金學軍田霖:《我國區域金融成長差異的態勢:1978-2003年》,經濟理論與經濟管理,2004(8)
[5]陳志福:《中國區域金融發展差異及對策》,商業時代學術評論,2006(6)
李國霞畢業于鄭州大學物理系半導體專業,畢業留校后一直在鄭州大學任教,她長期工作在教學第一線,分別主講過9門研究生、本科生和成教生的基礎課和專業課。1993年前,她主要參加物理系原副系主任寧振環教授的項目組,從事智能儀器系統軟件設計方面的研究工作,該系列項目分別于1991年和1997年通過河南省科委組織的成果鑒定,分別被專家鑒定為國內首創和國內領先。
1996年后,李國霞參加物理系原系主任高正耀教授的項目組,根據高正耀教授的要求和項目研究的需要,主持設計了《古陶瓷動態模糊聚類分析系統》,系統采用信息視窗自動識別,智能數據接口、智能圖形處理等新技術和手段。系統人機界面集成環境清晰直觀,使用方便。數據輸入部分為用戶提供三種方式:一、電子表格人工錄入;二、從Excel數據文件導入;三、從vlsuaI BASIC數據文件轉換。
數據處理部分設置8種模糊聚類分析方法,用戶可根據需要選擇其中一種方法進行數據處理,數據處理速度快,精度高。繪圖部分采用多級鏈表方法記錄樣品分類情況,自動生成動態模糊聚類分析圖和位圖文件。系統還提供了甄別指紋元素,統計著色元素含量比,合并數據文件,并支持多文檔、多視圖,分頁打印等操作。該系統于2002年通過河南省科技廳組織的成果鑒定,專家認為系統設計合理,模糊聚類分析功能較齊全,技術上處于古陶瓷研究的國內領先和國際先進水平,該系統在古陶瓷研究中發揮了良好的作用。
陜西銅川的耀州窯是我國古代北方名窯,唐朝至明朝期間制出了很多精美的陶瓷。為了解不同時期古耀州瓷的原料來源和分類情況,高正耀教授多次赴耀州窯采集不同時期生產的古瓷片,李國霞和項目組同志通過多種統計分析得出結論,歷代古耀州瓷胎樣品有著長期穩定、集中的原料產地。不同時代的胎料產地關系密切,相距較近,但彼此間也有相對的獨立性。汝窯和鈞窯是中國古代的著名窯口,其藝術水平極高,科學內涵豐富,在中國和世界陶瓷史上占有重要位置。李國霞和項目組同志選取了汝窯、鈞窯、兵馬俑等不同窯口、不同時期的古陶瓷樣品,用多種現代分析技術和統計方法對這些樣品分析,獲得了很多重要的信息,研究成果在國際會議和全國科技考古學術討論會上交流后,引起與會代表的關注和好評。