首頁 > 精品范文 > 數據挖掘技術分析論文
時間:2022-12-21 17:52:27
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇數據挖掘技術分析論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
數據挖掘技術是近些年發展起來的一門新興學科,它涉及到數據庫和人工智能等多個領域。隨著計算機技術的普及數據庫產生大量數據,能夠從這些大量數據中抽取出有價值信息的技術稱之為數據挖掘技術。數據挖掘方法有統計學方法、關聯規則挖掘、決策樹方法、聚類方法等八種方法,關聯規則是其中最常用的研究方法。關聯規則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數據中挖掘出有價值的能夠揭示實體和數據項間某些隱藏的聯系的有關知識,其中描述關聯規則的兩個重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當Support和Confidence兩者都較高的關聯規則才是有效的、需要進一步進行分析和應用的規則。
二、使用Weka進行關聯挖掘
Weka的全名是懷卡托智能分析環境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業化的、基于JAVA環境下開源的機器學習以及數據挖掘軟件[2]。它包含了許多數據挖掘的算法,是目前最完備的數據挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數據環境的,Experimenter是對各種實驗計劃進行數據測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創建實驗方案,Simple-CLI為簡單的命令行界面。以下數據挖掘任務主要用Ex-plorer模塊來進行。
(一)數據預處理
數據挖掘所需要的所有數據可以由系統排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數據挖掘計算,在這里我們將以上得分分別確定分類屬性值。
(二)數據載入
點擊Explorer進入后有四種載入數據的方式,這里采用第一種Openfile形式。由于Weka所支持的標準數據格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個文件并重新保存為arff文件格式來實現數據的載入。由于所載入的數據噪聲比較多,這里應根據數據挖掘任務對數據表中與本次數據任務不相關的屬性進行移除,只將學歷、職稱、論文等級、學術著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。
(三)關聯挖掘與結果分析
WeakExplorer界面中提供了數據挖掘多種算法,在這里我們選擇“Associate”標簽下的Apriori算法。之后將“lowerBoundMinSupprot”(最小支持度)參數值設為0.1,將“upperBoundMinSupprot”(最大支持度)參數值設為1,在“metiricType”的參數值選項中選擇lift選項,將“minMetric”參數值設為1.1,將“numRules”(數據集數)參數值設為10,其它選項保存默認值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關聯規則。其挖掘參數信息和關聯挖掘的部分結果。
三、挖掘結果與應用
以上是針對教師基本情況和科研各項總分進行的反復的數據挖掘工作,從挖掘結果中找到最佳模式進行匯總。以下列出了幾項作為參考的關聯數據挖掘結果。
1、科研立項得分與論文、科研總得分關聯度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是國家級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有國家級論文或者省級論文進行發表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結果,在今后的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質上的幫助,這樣在很大程度上能夠帶動整個學??蒲泄ぷ鞯倪M展。
2、副教授類的教師科研立項得分很高,而講師類教師和助教類教師的科研立項得分很低,這樣符合實際情況。因為副教授類的教師有一定的教學經驗,并且很多副教授類的教師還想晉職稱,所以大多數副教授類教師都會申請一些課題。而對于講師類和助教類的教師,由于教學經驗不足很少能進行省級以上的課題研究,因此這兩類教師的科研立項分數不高。針對這樣的結果,在今后的科研工作中,科研處可以采用一幫一、結對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學能力。
關鍵詞:中醫證侯;研究概況;進展
【中圖分類號】R255.2 【文獻標識碼】A 【文章編號】1672-3783(2012)05-0093-01
1 引言
辨證是中醫學的特點與優勢之一,也是中醫藥取得療效的前提。中醫是以傳承性為主的實踐醫學,受生產技術水平的影響,前人在辨證的時候主要靠個人的臨診經驗,摻雜了許多主觀因素與模糊概念,加上眾多的醫學流派推崇不同的思辨方式,使證侯的外延與內涵愈加復雜而不可確定。隨著計算機、生物技術的進步以及交叉學科的發展,中醫證侯的研究開始了新局面,能否從病、證、癥、生物學基礎等不同層次中挖掘出其固有的規律性的聯系,以確定不同證侯的概念范疇、使辨證更具重復性和臨床可操作性,這成為大家所探求的方向。眾多學者為此開展了不少研究工作,筆者就中醫證侯近十年的研究概況進行論述并分析如下。
2 中醫證侯近十年的研究概況
2.1 證侯研究成果檢索結果與分析:利用“中醫”、“證或證侯”、“文獻”、“臨床” 及“動物(實驗)”等主題詞檢索CNKI數據庫從2000-2008年所收錄的論文,其中文獻研究相關論文272篇,臨床研究相關論文5323篇,動物實驗相關論文238篇。統計結果如圖1所示。從圖中可以看出以下特點:1)臨床研究是證侯研究的主要方式,這是由中醫的臨證性所決定的。2)中醫古籍資源有限、研究成果轉換周期較長,是導致文獻研究數量低的主要原因。
2.2 證侯研究主要切入方向的研究成果檢索結果與分析:在檢索“證”或“證侯”研究論文的基礎上,以“四診規范”、“生物學”、“數據挖掘”等關鍵詞結合手工進一步檢索,獲得近十年發表的論文中,與四診規范研究相關的論文227篇,與生物學研究相關論文436篇,與數據挖掘相關論文220篇。其研究態勢如圖2所示。從圖2中可以看出,相關研究論文均有逐年上升的趨勢。就近十年而言,證侯生物學研究相關論文最多,數據挖掘類論文數量增長迅速。
2.3 證侯的具體研究概況
2.3.1 四診的定性與定量研究:通過四診收集到的癥狀(主要由患者自己敘述出來)、體征(由患者表現出來,通過望、聞、切可知的,包括舌象、脈象、面色、神志狀況)等信息是證侯的構成基礎。舌、脈和面色雖客觀存在,但易受周圍環境、自然光線及醫者主觀判斷的影響,因此利用物理儀器、高分辨率的數碼相機結合色彩、圖譜分析軟件力求量化已成為趨勢。就舌象客觀化而言,不少學者對舌色、苔色、舌苔的厚度與濕度、齒痕、紋理特征,甚至對舌體的胖瘦、歪斜,舌下絡脈的長度、寬度、顏色進行了量化分析[2-5],具有一定的臨床符合率。
此外,通過問診所獲取的信息在中醫證候分類中起著重要的作用。如何控制和把握這些“軟指標”,近年來不少學者也做了很多工作。有學者把社會學中的定性研究引入中醫問診領域[12],建議與患者進行深入交談,對患者的語氣、語言表達方式、神態、言語內容等進行綜合分析,以期獲取盡可能多的與病癥相關的信息,這些信息可能容易被醫生所忽視,但對證侯的判別起重要作用,能彌補定量研究的缺憾。
2.3.2 證侯生物學基礎的研究:中醫證侯的確立是依據表現型組資料得來的,對于現代生命科學而言,一個證候表現型的產生必然有從基因組層次到器官組層次的不同范圍的功能異常[13]。從文獻檢索的結果來看,涉及細胞、基因層面的研究論文較多,技術相對成熟;蛋白、代謝組學層面的論文較少,研究技術有待完善。
就細胞層面而言,研究較多的是細胞因子、細胞外基質及細胞表面標志物在不同證侯下的特異表達。細胞因子的相關性研究趨于熱化主要是因為:其介導細胞間相互影響、作用而形成復雜的人體調節網絡,這可能是證的實質所在[14];其種類眾多,功能各異,如白細胞介素、腫瘤壞死因子、趨化性細胞因子及其細胞膜受體和可溶性受體等,這些指標常見于諸多論文中;檢測方法較為便利,且敏感性強。
2.3.3 利用數據挖掘方法的證侯研究:中醫辨證的過程是醫者憑借個人經驗從患者的一系列癥狀、體征或生物學指征、外界環境等復雜的非線性現象[15]中提取出相互關聯的、有內在規律的、特異的組合信息。數據挖掘[16]則是從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。可以說兩者在獲取信息的方式與過程上有契合之處。
研究者常依據不同的研究目的及數據的特點選擇不同的多元統計方式。如探討飲食習慣、居住環境、體質因素等不同的致病因素或生物學檢測指標或某一疾病下各證型的癥狀、體征與該證型之間的關聯性多采用回歸法,如進一步分析哪些癥狀、體征和生物學指標對區分不同的證侯有較高的貢獻度,多通過逐步判別分析。
3 結語
就近年主要的研究成果來看,將宏觀與微觀、定性與定量的研究方式相結合是證侯研究的可行路徑和發展趨勢。然而如何將有一定組合規則和重疊涵蓋關系的證侯要素進行合理的分解,四診宏觀信息如何定量,生物學微觀指標如何定性,二者怎樣結合,采用什么樣的方式結合才能真正提示或反應、甚而揭示證侯的內涵,這是目前研究的困惑與癥結所在,借鑒現代計算機信息處理技術、生物學技術和多學科交叉的優勢互補,可能會有所突破。
參考文獻
[1] 郭蕾,王永炎,張志斌.關于證候概念的詮釋.北京中醫藥大學學報,2002; 26(2): 5-7
[2] 衛保國,沈蘭蓀.舌體胖瘦的自動分析.計算機工程,2004; 30(11):25-58
[3] 衛保國,沈蘭蓀,蔡軼珩.舌體歪斜的自動分析.計算機工程與應用,2003; 25(10): 22-26
[4] 沙洪,趙舒,王妍,任超世. 中醫脈象多信息采集系統的研制.中華中醫藥雜志,2007; 22(1): 21-24
關鍵詞: 居民出行特征; 數據挖掘; GPS軌跡數據; DBSCAN
中圖分類號:TP29 文獻標志碼:A 文章編號:1006-8228(2017)05-37-03
Research on the characteristics of resident travel based on the taxi
GPS trajectory data mining
Lin Jiyan, Zhang Yaqiong, Zhang Hui
(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)
Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.
Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN
0 引言
在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因為出行的居民是交通量的主要來源[1]。一個城市的交通系統狀況跟城市居民的出行行為息息相關,居民的出行行為會對城市交通體系產生影響[2]。對居民出行特征進行研究是城市和交通規劃、城市公共基礎設施建設管理中的一個基礎性任務,不僅可以用來對目前的交通出行情況進行評估,也可以用來對居民的出行需求進行預測,對實施合理有效的城市交通規劃起著至關重要的作用[3]。
出租車因其靈活性和便利性,已日漸成為城市交通系統的重要組成部分,同時,因為它的起點和終點由乘客決定,且24小時不間斷服務,所以,出租車的運營規律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設備以一定的頻率向城市交通客運管理中心傳送出租車的實時經緯度、運營狀態、行駛方向、速度等信息,因此,管理中心會積累大量的出租車GPS軌跡數據[5],利用DBSCAN對這些進行數據進行聚類分析,可以在一定程度上挖掘乘客出行的時空特征,也能為出租車尋找最佳的載客區域提供依據,有效的降低出租車的空駛率。
1 GPS軌跡數據挖掘設計
1.1 數據預處理
本文選取榆陽區(地理坐標為東經108?58'-110?24',北緯37?49'-38?58'之間)作為研究區域,GPS軌跡數據使用榆陽區1100多輛出租車五天的運營數據,對數據進行預處理后,出租車軌跡數據由車牌ID tID、、當前位置loc、GPS時間ct、營運狀態tsta、行駛方向tdir、GPS速度dspe等六個屬性組成,部分屬性值如表1所示。
表1中,營運狀態的取值為0-3,其中0表示空載,1表示載客,2表示駐車,3表示停運;GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車輛的行駛方向。
1.2 利用DBSCAN算法進行聚類挖掘
居民的作息和社會活動有明顯的時間規律,比如上下班高峰期的載客點分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數據根據時間特征分類,再進行密度聚類分析,如此便可充分挖掘在不同時間段上居民出行特征的空間密度分布情況,給出租車提供更加合理的時空載客區域分布數據,有效地提高其巡游過程中的載客成功率。基于此,論文引入了DBBSCAN算法,該算法需要3個輸入參數:歷史軌跡數據對象D,空間半徑ε,以及密度閾值MinPts;輸出參數為聚類簇C,部分MATLAB代碼如下:
data=importdata('data.xlsx');
data=data.data.Sheet1;
……
num=size(data,1);
k=floor(log(num))+1;
k=round(num/25)+1;
k_dist=zeros(num,1);
for i=1:num
temp=repmat(data(i,:),num,1);
gx0=temp(:,1); gy0=temp(:,2);
gx1=data(:,1);gy1=data(:,2);
dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);
dist_s=sort(dist0);
k_dist(i)=dist_s(k);
end
x=1:num;
figure;plot(x,k_dist,'r-');
xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');
……
x=[(1:m)' data];
[m,n]=size(x);
types=zeros(1,m);
dealed=zeros(m,1);
dis=calDistance(x(:,2:n));
number=1;
……
img=imread('map.jpg');
[Ny,Nx]=size(img);
……
figure;imagesc(x00,y00,img); colormap(gray); hold on;
for i=1:m
if class(i)==-1
plot(data(i,1),data(i,2),'.r');
else if class(i)==1
if types(i)==1
plot(data(i,1),data(i,2),'+b');
else
plot(data(i,1),data(i,2),'.b');
end
elseif class(i)==2
if types(i)==1
plot(data(i,1),data(i,2),'+g');
else
plot(data(i,1),data(i,2),'.g');
end
……
plot(x1,y1,'r*');
xlabel('度'); ylabel('緯度');
2 實驗結果
聚類結果如圖1和圖2所示,出行熱點區域在圖中用圓圈標出。
以上的聚類結果顯示,榆陽區的居民出行呈現一定空間和時間特征。工作日和非工作日出租車熱點區域不同,且工作日的不同時間居民出行的特征不同;在工作日,出租車的載客熱點數比非工作日多;而載客熱點分布,工作日比非工作日分散。該聚類結果也可以給出租車司機提供歷史載客熱點序列,從一定程度上解決巡游方式的出租車空載率高的問題。
3 結束語
本文利用DBSCAN算法對出租車的歷史GPS軌跡數據進行挖掘,從挖掘結果可以分析出居民出行的時空特征,從而用來對目前的交通出行情況進行評估,同時也可以用來對居民的出行需求進行預測;再者,可以根據挖掘結果給出租車司機提供歷史載客熱點序列,幫助出租車司機降低空駛率。本文僅針對工作日和周末特定時刻給出了聚類分析,沒有詳細地分析一天中不同時刻的居民出行特征,以后的工作中會繼續研究和改進。
參考文獻(References):
[1] 衛龍,高紅梅.基于軌跡數據挖掘的居民出行特征研究進展[J].西部交通科技,2016.10:87-92
[2] 馮琦森.基于出租車軌跡的居民出行熱點路徑和區域挖掘[D].重慶大學,2016.
[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語義信息的城市功能區識別――廣州市浮動車GPS時空數據挖掘[J].地理學報,2016.3:471-483
[4] 張俊濤,武芳,張浩.利用出租車軌跡數據挖掘城市居民出行特征[J].地理與地理信息科學,2015.6:104-108
[5] 張薇,林龍.基于數據挖掘的增城居民出行特征分析[J].科技和產業,2015.7:61-64
[6] 趙苗苗.基于出租車軌跡數據挖掘的推薦模型研究[D].首都經濟貿易大學碩士學位論文,2015.
[7] 童曉君.基于出租車GPS數據的居民出行行為分析[D].中南大學碩士學位論文,2012.
長久以來信息的不完備是影響管理者進行理性判斷和決策的直接原因之一,而現有的數據庫系統雖然可以高效地實現數據的錄入、查詢和部分統計等功能,但是無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。因此,杭州市西湖區院為了在檢察業務信息、隊伍建設情況和綜合行政事務方面輔助領導決策,建設應用行政決策輔助系統,將各科室以往分散的數據資源進行整合,并充分發揮電子政務平臺的優勢,通過系統提供的多種分析功能進行多角度、多層次的分析,將各類數據轉化為院領導決策所需要的信息。它的實施使得行政決策者可以在廣泛了解決策所需信息的前提下進行決策,避免了靠經驗決策和決策信息不完備導致的決策的盲目性現象,從而提高了行政決策的科學性和合理性,支持與強化行政決策過程。
一、系統架構及技術分析
系統架構主要由數據倉庫系統、模型庫系統、知識庫系統及可視化接口4部分構成。采用的關鍵技術是數據倉庫技術(DW)、數據挖掘技術(DM)、在線分析處理技術(OLAP)。
(一)數據倉庫的作用
電子政務的決策過程是一個從非結構化數據中抽取結構化信息,再提供非結構化決策分析結果的過程。因此,為了營造良好的電子政務決策數據環境,獲得高質量的數據分析結果,建立適合政府決策的數據倉庫系統是電子政務決策支持系統的關鍵環節,以確保政務系統中的數據能夠更好地發揮分析、決策的作用。這種數據倉庫系統的功能要能向兩個不同方向拓展,一是廣度計算,二是深度計算。廣度計算是使數據倉庫系統的應用范圍盡量擴大,能基本涵蓋市級政府決策、服務的領域;深度計算使數據倉庫系統克服了以往數據庫簡單數據操作處理(即事務處理)的缺點,對數據處理提出了更高的要求,使其能更多地參與政府對數據分析和決策的制定等工作。
(二)模型庫系統的功能
模型庫系統包括模型庫及其管理系統,模型庫是一個包含有財務、統計、運籌和其他定量模型的軟件包,存放解決行政管理問題的經驗模型,是為決策提供分析能力的部件,給予決策者通過推理、比較、選擇來分析、預測和解答整個問題的能力。因此,研究一些決策支持模型,建立一個政府決策的模型庫系統是完成系統的關鍵環節之一。這種模型庫系統應具有以下兩個特點,一是能實現多目標決策;二是能實現多領域、多部門、多用途的決策,即按經濟內容來看應具有預測類模型、綜合平衡模型、結構優化模型、經濟控制類模型等,按決策活動來看應有規劃模型、推理模型、分析模型、預測模型、評估模型等。
(三)知識庫系統的功能
知識庫系統包括知識庫及知識庫管理系統,其功能是對知識進行系統化組織與管理,存儲、增加、刪除、修改和查詢知識,以及對知識進行一致性和完整性校驗。知識庫與數據庫既有區別又有聯系,從知識的邏輯表示觀點來看,關系數據庫是一種簡單的知識庫,數據庫中的每一個關系是一個原子公式,即一個謂詞,關系中的元組即是知識中的事實,因此利用關系數據庫來建造知識庫,就可以充分利用關系數據庫管理系統的功能,便于知識庫管理系統的設計與實現。
(四)可視化接口
可視化接口包括預測、分析、查詢和維護等4個子系統。通過數據分析和預測工具對數據倉庫中的數據進行多維分析、匯總,結果可以用二維表、餅圖、折線圖和直方圖表示。
二、數據挖掘的技術工具和基本過程
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘常用的技術有神經網絡、決策樹、遺傳算法、近鄰算法和規則推導等。數據挖掘常用的工具有:
第一,基于神經網絡的工具。由于對非線性數據具有快速建模能力,神經網絡很適合非線性數據和含噪聲數據,所以在政府數據庫的分析和建模方面可以應用。
第二,基于關聯規則和決策樹的工具。大部分數據挖掘工具采用規則發現或決策樹分類技術來發現數據模式和規則,其核心是某種歸納算法。
第三,基于模糊邏輯的工具。其發現方法是應用模糊邏輯進行數據查詢、排序等。
第四,綜合多方法工具。不少數據挖掘工具采用了多種開采方法,這類工具一般規模較大,適用于大型數據庫或者并行數據庫。數據挖掘的基本過程包括數據準備、模型搜索、結果分析和生成報告。
數據準備:收集和凈化來自數據源的信息并加以存儲,將其放入數據倉庫中。
模型搜索:利用數據挖掘工具在數據中查找模型,搜索過程可以由系統自動執行,也可以由用戶參與執行。對于一個主題的搜索,可用神經網絡、專家系統、統計方法等。
結果分析:一般地說,數據挖掘的搜索過程需要反復多次,因為當分析人員評價輸出結果后,他們可能會發現一些偏差或一些新的問題,要求對某一方面做更精細的查詢。
摘要:本文闡述了電子表格在投資分析中的應用,并以某只股票價格數據為例(華夏銀行600015),作為數據挖掘的對象,得出股票買賣的定價模型。并通過實證,說明電子表格在數據挖掘和財務管理方面是可以帶來經濟效益的。
關鍵詞 :電子表格;股票價格;買賣定價模型;案例分析
在現實的生產與生活中,有許多事物我們還沒有掌握其規律,讓我們做起來很容易失敗,甚至造成很大的損失。但我們又想利用它,就必須研究其規律。例如,氣象學中的天氣預報,我們人類已經研究的比較準確了。但在地震、洪澇災害等面前,人類就還遠沒有研究明白。也就是說,數據挖掘活動仍有廣闊的研究空間和大有用武之地,人類還需要做出大量的數據挖掘才能發現新的或更多的事物的規律性。
一、數據挖掘的作用
1.數據挖掘有助于領導者提高決策質量
決策是在兩個以上方案或諸多方案中選擇一個比較正確的方案的過程。使用數據挖掘技術來揭示事物發展變化的規律,然后制定出一種符合規律的行為模式,這樣取得成功的概率才比較大。在企業,領導層經常要進行各種決策。如果沒有一些有利數據的支持,全憑借你“拍腦門”決策,就容易事與愿違,欲速則不達。利用數據挖掘技術可以幫助企業改善決策,它能及時和更好地幫助領導者做好決策。
2.數據挖掘在市場營銷的應用
數據挖掘技術在企業市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎,其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體的消費行為,以此為基礎,對所識別出來的消費群體進行特定內容的定向營銷,這與傳統的營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而為企業贏得更多的利潤。
3.數據挖掘在投資領域的應用
投資活動的目的是為了盈利,但是有些投資者(機構、個人)卻事與愿違,不但未能盈利,反倒是虧損了。股市上歷來有:“七賠兩平一虧”的說法。這說明,那些在投資活動的贏家肯定是有一套成功的方法,而成功的方法依然是離不開數據挖掘的結果。可以斷言,在公平的游戲規則下,長期來看,任何成功者都是成功的數據挖掘者,都是在掌握了大量經驗或有關數據,進行符合規律性的操作的結果;而違背規律的操作就必然造成投資失敗。當前,在投資領域,有股票、期貨、黃金、外匯、白銀、比特幣等。這些領域就是很值得數據挖掘。做好了,就是可以實現盈利的。所以,如果你建立了一個有效的數據模型進行有關投資的買賣,就等于你有了一個金礦的挖掘機,從市場中可以挖掘出許多超額利潤來。
二、股票數據挖掘的案例分析
1.數據挖掘的目標、思路、依據和任務
股票數據挖掘,目的是為了在炒股中盈利。在這里,我主要說明一下我利用電子表格進行股票數據挖掘的做法,并進行實證檢驗。
只有通過低買高賣才能賺取差價而獲利。股票價格是高低波動著的。在股票價格運行在低點區域時買入,運行到高點區域時賣出就掙錢了。所以,股票價格低到什么程度買,高到什么區域賣,最重要的是需要計算股票的買賣價格系數。
任何事物都是有著自身變化規律的,股票價格的運動也必定是按照某種規律變化著的。股票價格的變動規律可以通過對大量歷史價格資料進行統計觀察而被發現。利用計算機電子表格進行股票數據挖掘的主要任務是:對股票價格開展對比計算、平均值計算和標準差的計算,從而得出制定股票買賣價格的重要參數,解決了人工計算的速度太慢的問題。
2.研究的過程
(1)搜集數據資料,應用電子表格對股票價格數據的處理搜集數據。從網上搜索到華夏銀行股票2013 年之前的價格資料做樣本,導入到電子表格,以便于快速計算。這里取2004年5月21日至2012年12月28日的共424個交易周的價格資料,限于篇幅,為說明該股票實際價格構成情況,這里只列示了首尾少數幾周的數據(見表1)。
(2)買賣價格系數的計算與買賣定價公式的建立這里僅以股票的周線資料做研究對象,讀者也可以類推到日線、月線和季度線等的研究。步驟如下:
①抽取某股票的n 周(n>30)歷史價格資料,并利用
這樣定價的道理是為了低買高賣,賺得股票價差利得。
式中,為概率度,根據概率論原理,t=1時,盈利的可靠性為68.27%左右;t=1.5時股票贏利的可靠性為0.8664;
t=2 時,盈利的可靠性為0.9545 左右;t=3 時,盈利的可靠性為0.9973左右。
②股票買賣價格的制定,即股票買賣定價模型為:
買價=上周收盤價×股票買價系數(R)
賣價=上日收盤價×股票賣價系數(S)
股票華夏銀行每周的買賣定價模型和操作批量如下:
本周買價=上周收盤價×0.8974
這個盈利水平還是不錯的,和一般企業的年收益率大體相近。如果再結合趨勢分析來做,盈利程度將更高。從投資管理的麻煩程度來看,比企業管理要輕松得多。所以,按這種方法來炒股,是可以帶來穩定收益的。
四、結論
數據挖掘技術具有廣泛的應用空間。只要明確研究目的和任務,設計出合理的研究方案,就能找到事物內在的規律。本論文只是研究了一只股票的買賣定價方法,可見還是很有優勢的。在證券投資領域如此,在其他各個領域也都是如此,只不過研究的內容不同罷了。上述研究方法也可以推廣到炒股指期貨、炒黃金、炒外匯、炒白銀、炒各種貴金屬、炒原油和農產品等價格波動型投資對象中的買賣價格定價模式的研究上。因為在大量數據面前,事物的規律性才能暴露出來,而基于計算機高速計算能力的現代數據挖掘技術的廣泛應用,必將給研究成果的利用者帶來豐厚的回報。
參考文獻:
[1]楊云生.數據挖掘技術在客戶關系管理中的應用[J].價值工程,2004年03期.
[2]王崢,王彥慶.客戶知識管理的數據挖掘方法研究[J].哈爾濱工業大學學報(社會科學版),2009年05期.
關鍵詞:數據挖掘;客戶價值分析;K-Means聚類分析
DOI:10.16640/ki.37-1222/t.2017.04.248
1 緒論
體驗經濟時代消費趨勢主要有以下六個方面:體驗化、情感化、個性化、主動化、休閑化和求美化。[1]第三次工業革命以來,現代信息技術得到迅猛發展,各行各業意識到數據的重要性,建立了無數的數據庫,面對數以億計的數據,傳統的統計方法的弊端日益顯現。人們面對海量的數據,卻不能挖掘出有用的信息,隨著“數據爆炸”困惑的增加,人們迫切需要新的數據處理技術,因而數據挖掘技術應運而生。法國著名雕塑家羅丹說,生活中從不缺少美,而是缺少發現美的眼睛。如今,企業從不缺少數據,而是缺少挖掘數據價值的能力。通過對現有數據的挖掘,發現隱藏在數據里的模式,有用信息,指導航空公司作出決策,增加顧客的滿意度,是航空公司必須解決的問題。自從1989年舉行的第十一屆國際聯合公認學術會上首次提出數據庫中發現知識(KDD),到目前為止,美國人工智能協會曾經舉辦了9次KDD全球研討會。規模從原來的專題討論會到策略和技術的集成以及多學科跨領域融合。數據挖掘技術迅速在航空電子領域,航空安全領域,航空維修等等航空領域得到較好的應用與發展。我國在上世紀90年代的時候就已經開始的對數據挖掘的研究,經過多年的研究,我國已經形成數據挖掘基礎理論的框架,并且越來越多的學者投入數據挖掘的研究之中。不過相對于國外來說,我國的數據挖掘應用并沒有得到較高的發展,依然面臨著嚴重的挑戰,仍舊有很多問題等待著研究人員去探索和發現。
2 數據挖掘技術
數據挖掘有三大步驟:第一數據籌備,第二數據挖掘,第三結果表達和解釋[5]。
數據籌備包含數據集成,數據選擇,目標數據預處理。
數據挖掘主要是對預處理后的數據進行挖掘。
結果表達和解釋即我們所說的結果可視化。
3 航空公司客戶價值分析
3.1 傳統客戶價值分析方法
傳統的客戶價值分析使用RFM方法(Recency--最近購買日期, Frequency--各時期購買頻率, Monetary一段時間內消費總和)在多數領域中的多數情況下能有效地預測老顧客今后可能的消費行為和費用,之后對銷售毛利率、關系營銷費用進行預測,就能按不同時間段分析出今后短期內的客戶價值。[6]說明, 在這種分析方法中,客戶價值是指CRM毛利。CRM毛利 = 購買金額 - 產品成本 - 關系營銷費用。[7]
RFM模型以Recency為X軸,Frequency為Y軸,Monetary為Z軸做一個三維立體模型,可以把客戶價值分為八種:重要發展客戶、重要價值客戶、一般發展客戶、一般價值客戶、一般保持客戶、一般挽留客戶、重要保護客戶、重要挽留客戶。
由于航空公司客戶的獨特性,RFM方法分析航空公司客戶價值存在多種弊端和不足,造成分析結果的不準確和實用性降低。
(1)在RFM模型中,消費金額是一段時間內客戶消費總和,由于航空票價受到運輸距離,艙位等級,閑忙時,天氣等眾多因素的影響,同樣消費金額的客戶對于航空公司的價值是不同的。所以用這個指標分析航空公司客戶價值存在不妥。
(2)RFM是使用屬性分箱法分析客戶價值的,這種方法細分客戶群較多,需要逐個識別客戶特征和行為,大大提高的針對性營銷的成本。
(3)RFM方法在處理大量數據時由于模型的限制需要的成本較高。
3.2 航空公司客戶數據分析方法與步驟
航空客戶信息,包含會員檔案信息和其他乘坐航班記錄信息等
(1)因為消費金額總和這一指標在航空公司客戶價值分析過程中不太實用,所以我們可以選擇航空客戶在一段時間內積累的乘坐距離M和乘坐艙位折扣系數平均值C來替代消費金額總和。同時,因為航空公司會員的加入時間一定程度上可以影響客戶價值,所以我們在航空公司客戶價值分析模型中添加客戶關系長度L,當做區分客戶價值的另一個指標,所以我們構建出LRFMC模型。
(2)使用聚類分析的方法把客戶進行分類,并且分析客戶群的特征,分析客戶價值。
第1步數據抽取。
(1)以2014年3月31為結束日期,選取寬度為兩年的時間段作為分析觀測窗口,抽取觀測窗口內有乘機記錄的所有顧客的詳細資料形成歷史數據。對于后來新增客戶信息利用數據中最大的某個時間作為結束時間,采用同樣的方法進行抽取,形成增量數據。
(2)根據末次飛行日期從航空公司系統內抽取2012年4月1日至2014年3月31日內所有所有乘客的詳細數據,共62988條記錄。
第2步數據探索分析。
在原始數據中存在票價為空的情況,票價為空值的數據有可能是航空客戶未有乘機記錄造成的。票價最小值為0,折扣率最小值為0,總飛行里程不為0的數據有可能是顧客使用0折機票或者是使用積分兌換的機票造成的。
第3步數據預處理。
(1)數據清洗:從航空公司業務和數據挖掘建模需要考慮篩選出需要的數據。
A)不需要票價為空的數據。
B)不需要票r為0,平均折扣率不為0,總飛行里程不為0的數據。
(2)屬性規約。在原始數據中數據屬性太多,我們只需要與LRFMC模型相關的6個數據屬性,所以我們需要刪除不相關,弱相關和冗余的數據屬性。
(3)數據變換。A)數據屬性構造 B)數據標準化
第4步建構模型。
構建航空公司客戶價值分析LRFMC模型
A)客戶K-Means聚類分析 B)客戶價值分析 C)應用模型
A客戶K-Means聚類分析。
采用K-Means辦法對所有客戶數據進行聚類分析,將客戶數據聚為5類。(具體情況具體分析,必須依據實際狀況決定分幾類)
B客戶價值分析。
對聚類結果進行屬性分析:顧客群1在L、M屬性上最??;顧客群2在R屬性上最大,在F、M上最??;客戶群3在屬性F、M上最大,在R上最??;客戶群4在屬性L上最大;客戶群5在屬性C上最大。
根據航空公司業務定義為五個等級的客戶類別:重要保持客戶,重要發展客戶,重要挽留客戶,普通價值客戶,低價值客戶。
根據每種客戶群類型的特征對客戶群M行客戶價值排名,以便獲得高價值客戶的信息。
C模型應用:根據每種客戶群的特征,可以采取更多個性化服務和營銷策略。
由于各種行業面臨的具體問題不同,數據挖掘技術的發展受到不同的挑戰,不過總大趨勢來說,數據挖掘技術必將會得到更好發展和更加普遍的運用。隨著數據量爆炸式的激增,分析決策難度的增加,傳統分析方法弊端的顯現,人們對分析決策智能化和自動化的迫切需求,數據挖掘技術與工具將得到更廣泛的使用和發展。在數據爆炸時代,航空公司面臨的新挑戰為數據挖掘技術提供了發展背景,個性化服務的發展為數據挖掘技術提供了很好的基礎和發展平臺。
數據挖掘未來會吸引越來越多的研究人員,會涌現出越來越多的研究成果。從目前來看,數據挖掘在中國的研究與應用還有很多務實的問題沒有解決。本文僅僅是數據挖掘技術在航空公司客戶價值分析中的初步嘗試,展望未來數據挖掘的發展,有以下幾點需要注意的地方:要充分考慮是否有必要進行數據挖掘。傳統的數據分析辦法的確有很多弊病,但是相對于傳統的方法數據挖掘需要成本較高。在傳統數據分析技術可以滿足要求的情況下,沒有必要必須進行數據挖掘,這樣能更加節省成本。數據挖掘需要較大的成本,須要大量的人力,物力和財力用于數據籌備,數據搜集,問題建模,生成模型和數據分析等等。
參考文獻:
[1]吳釗.體驗經濟時代六大消費趨勢[J].商業研究,2003(24).[2]Jiaweihan,Miche line kan ber.Data ming:Concepts and techniques.Diane Cerra Publisher.20063
[3]劉浩,韓晶.MATLAB R2014a一本通[J].電子工業出版社.
[4]李定遠.CIO時代網.2012,09(29).
[5]耿向華.數據挖掘在旅游商務系統中的應用研究[J].魅力中國,2013,5(27).
[6]郭良.基于數據挖掘技術的客戶信息分析[J].華東師范大學碩士論文,2015.
關鍵詞:大數據;Hadoop;分布式;k-means
中圖分類號:TP393.02
“大數據”時代已經降臨,在商業、經濟及其他領域中,決策將日益基于數據和分析而作出,而并非基于經驗和直覺[1]。隨著互聯網和信息行業的發展,在日常運營中生成、累積的用戶網絡行為數據的規模是非常龐大的,以至于不能用G或T來衡量。我們希望從這些結構化或半結構化的數據中學習到有趣的知識,但這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。因此,并行化數據挖掘成為了當下的一個熱門研究課題,其主要編程模式包括:數據并行模式,消息傳遞模式,共享內存模式以及后兩種模式同時使用的混合模式[2][3]。
1 國內研究現狀
當前中國的云計算的發展正進入成長期,國內很多研究者正進入分布式的數據挖掘領域,利用國外的成熟平臺,例如Hadoop來實現大數據的聚類等算法。但是數據的多樣性,文本多格式,造成對數據的操作有很大的難度,而如今大多數論文都利用了標準化的mapreduce方法來進行代碼的編寫,具有一定的通用性,但是Hadoop下還有許多的工具,能夠簡化m/r過程,同樣對一定結構的數據具有很好的并行效果,但是這方面的研究比較少,因此本文引入了HIVE的運用,簡化了數據的操作過程,利用類似標準的SQL語句對數據集進行運算,在一定程度上提高了并行化計算的效率。
2 Hadoop并行化基礎
數據挖掘(Data Mining)是對海量數據進行分析和總結,得到有用信息的知識發現的過程[4]。其中的聚類是一個重要的研究課題,在面對如此的海量數據,現有的單機模式的挖掘算法在時間與空間上遇到了很大的限制,而并行化處理是一種比較好的解決模式。Hadoop是當下比較熱門的一個分布式計算的平臺,其中的一個數據倉庫工具HIVE簡單快捷地實現MapReduce方法,適用于結構化數據的存儲模式。
Hadoop是一個分布式系統的基礎架構,其平臺由兩部分組成,Hadoop分布式文件存儲系統(HDFS)和MapReduce計算模型[5]。
HDFS的架構是基于一組特定的節點構建的(參見圖1),這是由它自身的特點決定的。這些節點包括NameNode(僅一個),它在HDFS內部提供元數據服務;DataNode,它為HDFS提供存儲塊。由于僅存在一個NameNode,因此這是HDFS的一個缺點(單點失?。4鎯υ贖DFS中的文件被分成塊,然后將這些塊復制到多個計算機中(DataNode)。這與傳統的RAID架構大不相同。塊的大?。ㄍǔ?4MB)和復制的塊數量在創建文件時由客戶機決定。NameNode可以控制所有文件操作。HDFS內部的所有通信都基于標準的TCP/IP協議。
MapReduce是一種高效的分布式編程模型,用于海量數據(大于1TB)的并行運算[6],它的主要思想就是映射(Map)和化簡(Reduce)。一個任務(Job)需要實現基本的MapReduce過程主要包括三個部分:(1)輸入數據;(2)實現Map函數與Reduce函數;(3)實現此任務的配置項(JobConf)[7],圖1描述了實現MapReduce的基本原理:
圖1 MapReduce原理圖
3 基于HIVE的并行k-means聚類算法設計
3.1 Hive簡介
Hive是基于Hadoop的一個數據倉庫工具,是建立在Hadoop上的數據倉庫基礎構架,可以將結構化的數據文件映射為一張數據庫表,并提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優點是可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
3.2 Hive體系結構
圖2 HIVE體系結構圖
圖2顯示了HIVE的主要組件以及它和Hadoop的相互作用[8],其主要組件說明如下:
外部接口,Hive同時提供了用戶界面的命令行(CLI)和Web UI,以及應用程序編程接口(API),如JDBC和ODBC。
Hive Thrift服務器公開了一個簡單的客戶端API來執行HiveQL語句。Thrift[9]是一個用于跨語言服務的框架,框架內用一種語言(如Java)編寫,服務器也可以支持其他的語言的客戶端。Thrift Hive客戶端用不同語言生成用于構建常用的驅動程序,如JDBC(java),ODBC(c++),以及用php,perl,python等編寫的腳本驅動程序。
元數據存儲(metastore)是系統目錄。所有其他的Hive組件都和metastore有交互。
3.3 K-means算法介紹
k-means算法是最為經典的基于劃分的聚類方法,它的基本思想是:以空間中k個點作為中心進行聚類,對最靠近它們的對象進行分類。通過迭代的方法,逐次更新各聚類中心的值,直到有良好的收斂[10]。假設要把樣本集分為m個類別,算法描述如下:
(1)適當選擇m個類的初始中心;
(2)在第k次迭代中,對任意一個樣本,求其到m個中心的距離,將該樣本歸到距離最短的中心所在的類;
(3)利用歐式距離等方法更新每一個新類的中心值;
(4)對于所有的m個聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變或者變化在可允許范圍內,則迭代結束,否則重復(2)(3)步驟。
參考文獻:
[1]杜鵑,沈銘思.大數據時代,讓子彈飛[J].中國制衣,2013-02-05:12.
[2]胡善杰.數據挖掘算法并行化研究[J].電子世界,2012(12):67-68.
[3]都志輝.高性能計算之并行編程技術——MPI并行程序設計[M].北京:清華大學出版社,2006.
[4]王超鵬.基于云計算分布式數據挖掘算法研究[J].技術研發,2012:92-104.
[5]Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[C].Proceedings of Operating Systems Design and Implementation. San Francisco,CA,2004:137-150.
[6]付東華.基于HDFS的海量分布式文件系統研究與優化[J].北京:北京郵電大學軟件工程,2012-05.
[7]江小平,李成華,向文,張新訪,顏海濤.k-means聚類算法的MapReduce并行化實現[J].華東科技大學學報,2011-06(39):120-124.
[8]葉文宸.基于HIVE性能優化方法的研究與實踐[J].南京:南京大學軟件工程學院,2011.
[9]劉書楠.Thrift入門簡介[J].YOUNG青年與社會,2013(1):228.
[10]崔丹丹.K-means聚類算法研究及改進[M].安徽:安徽大學計算機學院,2012-04.
[11]Xu X W,Jager J, Kriegel H P. A fast parallel clustering algorithm for large spaial databases[J].Data Mining aand knowledeg Discovery,1999,3(3):263-290.