時間:2022-07-17 22:06:00
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇數據挖掘技術研究范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
1 空間數據挖掘研究概述
空間數據挖掘(spatial Data Mining,簡稱SDM),是指從空間數據庫中提取用戶感興趣的空間模式、普遍關系、數據特征的過程??臻g數據挖掘技術綜合數據挖掘技術與空間數據庫技術,可用于對空間數據的理解、空間關系和空間與非空間關系的發現、空間知識庫的構造以及空間數據庫的重組和查詢的優化等,其根本目標是把大量的原始數據轉換成有價值的知識,發現大量的地學信息中所隱含的規則。
空間數據挖掘是計算機技術、數據庫應用技術和管理決策支持技術等多學科交叉發展的新興邊緣學科,一般來說,空間數據挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關聯規則四類??臻g分類的目的是在空間數據庫對象的空間屬性和非空間屬性之間發現分類規則,是近年來空間數據挖掘領域中比較活躍的一個方向,常用的方法是決策樹。空間聚類是在一個比較大的多維數據集中根據距離的度量找出簇或稠密區域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法。空間趨勢分析指離開一個給定的起始對象時非空間屬性的變化情況,例如,當離城市中心越來越遠時經濟形勢的變化趨勢,空間趨勢分析需要使用回歸和相關的分析方法??臻g關聯規則是指空間鄰接圖中對象之間的關聯,空間關聯挖掘多采用逐步求精的優化思想,即首先用一種快速的算法粗略地對初始空間數據庫進行一次挖掘,然后再在裁剪過的數據庫上用代價高的算法進行進一步精化挖掘。
空間數據挖掘過程一般可分為數據篩選(消除原始數據的噪聲或不一致數據)、數據集成(將多種數據源組合在一起)、數據選擇(根據用戶的要求從空間數據庫中提取與空間數據挖掘相關的數據)、數據變換(將數據統一成適合挖掘的形式)、空間數據挖掘(運用選定的知識發現算法,從數據中提取用戶所需的知識)、模式評估(根據某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術和知識表示技術,向用戶提供挖掘的知識)等階段(見圖1)。空間數據挖掘實際上是一個“人引導機器,機器幫助人”的交互理解數據的過程。
2 空間數據挖掘在GIS中的應用
空間數據挖掘技術與地理信息系統(GIS)的結合具有非常廣泛的應用空間。數據挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數據挖掘模式,這種模式基本上將GIS當作一個空間數據庫看待,在G IS環境外部借助其它軟件或計算機語言進行空間數據挖掘,與GIS之間采用數據通訊的方式聯系。其二為嵌入式,又稱內部空間數據挖掘模式,即在GIs中將空間數據挖掘技術融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發的工作量和難度,又可以保持外部空間數據挖掘模式的靈活性。
利用空間數據挖掘技術可以從空間數據庫中發現如下幾種主要類型的知識:普遍的幾何知識、空間分布規律、空間關聯規律、空間聚類規則、空間特征規則、空間區分規則,空間演變規則、面向對象的知識。目前,這些知識已比較成熟地應用于軍事、土地、電力、電信、石油和天然氣、城市規劃、交通運輸、環境監測和保護、110和1 20快速反應系統等資源管理和城市管理領域。在市場分析、企業客戶關系管理、銀行保險、人口統計、房地產開發、個人位置服務等領域也正得到廣泛關注與應用,實際上,它正在深入到人們工作和生活的各個方面。
3 空間數據挖掘面臨的問題
(1) 多數空間數據挖掘算法是由一般的數據挖掘算法移植而來,并沒有考慮空間數據存儲、處理及空間數據本身的特點??臻g數據不同于關系數據庫中的數據,它有其特有的空間數據訪問方法,因而傳統的數據挖掘技術往往不能很好地分析復雜的空間現象和空間對象。
(2) 空間數據挖掘算法的效率不高,發現模式不精練。面對海量的數據庫系統,在空間數據挖掘過程中出現不確定性、錯誤模式的可能性和待解決問題的維數都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領域知識發現、去除與任務無關的數據,有效地降低問題的維數,設計出更有效的知識發現算法。
(3) 沒有公認的標準化空間數據挖掘查詢語言。數據庫技術飛速發展的原因之一就是數據庫查詢語言的不斷完善和發展,因此,要不斷完善和發展空間數據挖掘就必須發展空間數據挖掘查詢語言。為高效的空間數據挖掘奠定基礎。
(4) 空間數據挖掘知識發現系統交互性不強,在知識發現過程中很難充分有效地利用領域專家知識,用戶不能很好掌控空間數據挖掘過程。
(5) 空間數據挖掘方法和任務單一,基本上都是針對某個特定的問題,因而能夠發現的知識有限。
(6) 空間數據挖掘與其他系統的集成不夠,忽視了GIS在空間知識發現過程中的作用。一個方法和功能單一的空間數據挖掘系統的適用范圍必然受到很多限制,目前開發的知識系統僅局限于數據庫領域,如果要在更廣闊的領域發現知識,知識發現系統就應該是數據庫、知識庫、專家系統、決策支持系統、可視化工具、網絡等多項技術集成的系統。
上述問題使得從空間數據庫中提取知識比從傳統的關系數據庫中提取知識更為困難,這給空間數據挖掘研究帶來了挑戰。因此,空間數據挖掘在未來的發展中,還有很多理論和方法有待深入研究。
4 空間數據挖掘的發展趨勢
(1)空間數據挖掘算法和技術的研究??臻g關聯規則挖掘算法、時間序列挖掘技術、空間同位算法、空間分類技術、空間離群算法等是空間數據挖掘研究的熱點,同時提高空間數據挖掘算法的效率也很重要。
(2) 多源空間數據的預處理??臻g數據內容包括數字線劃數據、影像數據、數字高程模型和地物的屬性數據,由于其本身的復雜性與數據采集的困難,空間數據中不可避免地存在著空缺值、噪聲數據及不一致數據,多源空間數據的預處理就顯得格外重要。
(3)其他各種空間數據挖掘及其相關技術研究。如網絡環境下的空間數據挖掘、可視化數據挖掘、柵格矢量-體化空間數據挖掘、背景知識概念樹的自動生成、基于空間不確定性(位置、屬性、時問等) 的數據挖掘、遞增式數據挖掘、多分辨率及多層次數據挖掘、并行數據挖掘、遙感圖像數據庫的數據挖掘、多媒體空間數據庫的知識發現等。
【關鍵詞】數據挖掘 數據分類算法
在當前的時代背景下,很多的行業都引入了大數據挖掘的理念,這既給計算機產業帶來了發展機遇,也帶來了挑戰。因為想要做好大數據挖掘的相關工作,就一定要掌握數據分類算法,而數據分類算法可稱得上是數據挖掘中的一道難關。隨著數據分析的研究不斷深入,人們開發了多種多樣的分類算法,用以不斷減輕其難度。通常都是以數據分類器為基準,進行相應的數據分類,包括決策樹類、Bayes類、基于關聯規則類以及利用數據庫技術類,本文將對它們進行簡單的闡述。
1 決策樹分類算法
1.1 傳統算法
C4.5算法作為傳統的數據分類算法,有著很明顯的優點,如規則簡單易懂,實際操作易于上手。但是隨著計算機的不斷普及,數據的規模變的越來越龐大,其復雜程度也是日漸增長。C4.5已經逐漸無法滿足新時期的數據分類處理工作了。并且由于決策樹分類算法的規則,決定了在數據分類的過程中,要對數據進行多次重復的掃描和排序。特別是在構造樹的時候,這種缺點更加明顯。這不僅會影響數據分析的速度,也浪費了更多的系統資源。對于大數據挖掘來說,C4.5更加無法勝任,因為C4.5算法的適用范圍十分有限,只能夠處理小于系統內存數量的數據,對于內存無法保留的過于龐大的數據集,C4.5甚至會出現無法運行的情況。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而來,在其基礎上做了一些技術性的完善,例如增強了數據的排序技術,并采取了廣度優先的處理策略。這使得SLIQ算法能夠很好地記錄數據處理的個數,并具有相當優秀的可擴展性,為處理大數據提供了基礎條件。但是SLIQ算法也存在一些缺點,由于它是以C4.5算法為基礎的,因此在進行數據處理時,仍需要將數據集保留在內存中,這就導致SLIQ算法的可處理數據集的大小受到了限制。即數據記錄的長度一旦超過了排序的預定長度,SLIQ算法就很難完成數據處理和排序的工作。
(2)SPRINT 算法是為了解決SLIQ算法中數據集大小受到內存限制的問題而開發出來的。SPRINT 算法重新定義了決策樹算法的數據分析結構,改變了傳統算法將數據集停留在內存中的做法。值得一提的是,它沒有像SLIQ 算法那樣講數據列表存儲在內存當中,而是將其融合到了每個數據集的屬性列表中,這樣既避免了數據查詢時重復掃描造成的速度緩慢,又釋放了內存的壓力。特別是在進行大數據挖掘時,由于數據的基數過大,在每個數據集的屬性列表內尋找所需數據能夠大大節省分析的時間,對數據進行分類的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點,對于不具有可分裂屬性的數據列表,由于它只能在數據集內進行分析,結果可能不是十分準確,導致其拓展性受到了限制。
2 其他分類算法
2.1 Bayes分類算法
Bayes分類算法是利用概率統計學而開發出來的一種算法,在目前數據分類中應用比較廣泛。但是其缺點也比較明顯,由于Bayes分類算法需要在分析之前對數據的特性做出一定的假設,而這種假設往往缺少實際數據的理論支持,因此在數據分析過程中就很難做到準確有效。在此之上,TAN算法又被開發出來,它是為了提高Bayes分類算法的假設命題的準確率,也就是降低了NB任意屬性之間獨立的假設。
2.2 CBA分類數據算法
基于關聯規則的分類算法就是CBA分類數據算法。這種算法一般需要用到數據構造分類器,在數據分析的過程中,先搜索到所有的右部為類別的類別關聯規則,這被稱為CAR;然后再從CAR中選擇合適的數據集。CBA算法中主要用到的是Apriori算法技術,它能夠使潛在的數據關聯規則呈現到表面,方便進行歸納整理。但是由于其在進行數據分類時容易出現疏漏,因此經常采用設置最小支持度為0的辦法來減少遺漏的數據,這就造成了算法的優化作用不能完全發揮,降低了運行效率。
2.3 MIND和GAC-RDB算法分類算法
在大數據挖掘的背景下,未來數據分類算法的發展方向應當是以數據庫技術為基礎的的分類算法。盡管很久之前就已經有一些專門研究數據庫的人員發現并提出了基于數據庫技術的分類算法,但是并沒有得到實際運用。因為在進行數據挖掘和數據分析的時候,很難將其與數據庫的系統集成,目前來說,MIND和GAC-RDB算法還能夠較好地解決這個問題。
2.3.1 MIND算法
MIND算法與決策樹算法有些相似,都是通過構造數據分類器來進行數據分析。但是MIND算法采用了UDF方法和SQL語句來與數據庫系統實現關聯。在進行數據分析時,UDF方法能夠大大縮短對每個節點的數據特性進行分析的時間,這樣就在為數據庫的集成提供了理論基礎。SQL語句是通過對數據集的屬性進行分析,以便從中選擇出最合適的分裂屬性,然后給數據排序,這樣就節省了數據分類的時間。但是MIND算法還不能直接在數據庫系統中實現查詢功能,更重要的是,該算法的維護成本過高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基礎上進行了更多的改進,能夠充分利用數據庫系統進行聚集運算,也就是實現了數據庫系統的集成。該算法擁有分類準確,分析迅速,執行更快的優點,同時可拓展性也比較出色。更重要的是,它可以充分利用數據庫提供的查詢功能,從而避免了重復掃描數據集的現象,縮短了分析的時間,節約了系統資源。只要在自動確定參數取值的技術上進行一些改進,該算法就能很好地勝任大數據挖掘的數據處理工作。
3 總結
大數據挖掘是時展的潮流,因此數據分類算法的重要性也將隨著顯現。通過分析幾種不同的算法,能夠在數據分析速度、可擴展性和結果的準確性上進行比較,從而選擇最適合的數據分類算法。它們都在不同程度上有著各自的優缺點,因此要繼續深入研究以開發出更好的分類算法。
參考文獻
[1]錢雙艷.關于數據挖掘中的數據分類算法的綜述,2014(13).
[2]劉紅巖.數據挖掘中的數據分類算法綜述,2002(06).
關鍵詞:Web數據挖掘;電子商務;XML應用
中圖分類號:TP311.13文獻標識碼:A文章編號:1007-9599 (2010) 10-0000-01
Web-based Data Mining Technology
Wang Wanchen
(Tianjin Polytechnic University,Tianjin300160,China)
Abstract:Web data mining referred to as Web mining,development from the data mining technology,also a new area of Web information.It help people intelligently and automatically get valuable knowledge from the mass information,reveal the objective world and the law of internal relations from these data,to solve practical problems in social development and for macro supporting decision-making.
Keywords:Web data mining;E-commerce;XML applications
一、引言
在20世紀60年代末,為了有效地管理和存取大量的數據資源,因此產生了數據庫技術。到了9O年代,人類的數據量可以用海洋來形容,同時也出現了一個問題,那就是“數據豐富,但信息貧乏”,為了解決這一問題,數據挖掘技術應運而生。
二、基于web的數據挖掘需要解決的幾個問題
(一)異構數據庫環境
Web上的每一個站點就是一個數據源。每個數據源都是異構的,因而每一站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環境。如果想要利用這些數據進行數據挖掘,首先,必須要研究站點之間異構數據的集成問題。其次,還要解決Web上的數據查詢問題。
(二)半結構化的數據結構
Web上的數據非常復雜,沒有特定的模型描述,每一站點的數據都各自獨立設計,并且數據本身具有自述性和動態可變性。因而。Web上的數據具有一定的結構性,但因自述層次的存在。從而是一種非完全結構化的數據,這也被稱之為半結構化數據。半結構化是Web上數據的最大特點。
(三)解決半結構化的數據源問題
針對Web上的數據半結構化的特點,尋找一個半結構化的數據模型是解決問題的關鍵所在。除了要定義一個半結構化數據模型外.還需要一種半結構化模型抽取技術,即自動地從現有數據中抽取半結構化模型的技術。
三、Web數據挖掘的主要過程
Web數據的特點決定了對其進行有效數據挖掘具有極大的挑戰性。根據Web數據的特點。結合數據挖掘的一般過程,可以將Web數據挖掘流程描述如圖所示的數據采集、數據預處理、數據挖掘、分析與評估和知識表述5個功能模塊。
圖1 面向Web數據挖掘功能模塊
(一)數據采集
按照主題相關的原則,數據采集模塊完成從外部的Web環境中有選擇地獲取數據,為后面的數據挖掘提供素材和資源。Web環境所提供的數據源包括Web頁面數據、超鏈接數據和記錄用戶訪問情況的數據等。根據數據源形式的不同可以將Web數據挖掘分為基于內容的挖掘、基于結構的挖掘和基于用戶使用的挖掘等3種。每一種數據挖掘類型在數據采集過程中會使用不同的方法和技術,但它們都有共同的基本過程。通常,數據采集由數據搜索、數據選擇和數據收集等3個相對獨立的過程組成。
(二)數據預處理
數據預處理模塊主要對數據采集所獲得的源數據進行加工處理和組織重構.構建相關主題的數據倉庫.為下一步的數據挖掘過程創建基礎平臺。數據預處理是為數據挖掘所做的前期準備,它主要包括數據清理、數據集成、數據變換、數據約簡等。
1.數據清理。
數據清理主要是去除源數據中的噪聲和無關數據。處理遺漏數據和清洗臟數據,包括重復數據處理和缺值數據處理等.并且完成一些數據類型的轉換。例如將不同來源中的同類信息轉換成統一的存儲方式。
2.數據集成。
數據集成主要是將來自多個運動環境中的異構數據進行合并處理,解決語義的模糊性問題。其并非是數據的簡單合并,而是對異構數據進行統一化和規范化處理的復雜過程。數據約簡是在對挖掘任務和數據內容充分理解的基礎上,通過尋找數據的有用特征。在盡可能保持數據信息原貌的前提下,最大限度地精減數據量,提高數據挖掘的算法效率。
(三)數據挖掘
數據挖掘模塊是數據挖掘系統的核心部分,它的主要功能是運用各種數據挖掘技術。從海量的經過預處理的數據中提取出潛在的、有效且能被人理解的知識模式。概括地講。數據挖掘的最終目標只有描述和預測兩個,所謂描述就是用可理解的模式表達數據所包含的屬性和特征信息:而預測則是指根據屬性的現有數據值找出其規律性,進而推測出其在未來可能出現的屬性值。數據挖掘過程一般由數據準備、挖掘操作、結果表達和解釋3階段組成。數據挖掘算法對數據有一定的要求,如數據冗余性小、數據屬性之間的相關性小、數據出錯率小等。而現實世界所采集到的數據通常具有雜亂性、冗余性、不完整性等特點,為此數據采掘必須經過數據準備階段以提高數據挖掘質量。挖掘操作包括選擇合適的算法,進行挖掘知識的操作,最后證實發現的知識;表達和解釋階段是對結果進行分析,提取出最有價值的信息。如果獲得的信息不能使決策者滿意,則需要重復以上數據挖掘階段。
(四)分析與評估
分析與評估模塊是對數據挖掘所得到的知識模式進行可信度和有效性分析,并對其做出評估結論。為用戶的經營決策提供信息支持。
(五)知識表述
知識表述模塊是指將利用數據挖掘工具從Web數據中挖掘出來的知識模式.用適當的形式表現出來,以利于用戶接受和相互交流。
五、數據挖掘工具的評價標準
評價一個數據挖掘工具,需要從以下幾個方面來考慮:產生的模式種類的多少;解決復雜問題的能力;易操作性;數據存取能力;與其他產品的接口?;赪eb的數據挖掘技術在處理極大量的數據時,如何提高算法效率的問題;對于挖掘迅速更新的數據的挖掘算法的進一步研究;在挖掘的過程中,提供一種與用戶進行交互的方法,將用戶的領域知識結合在其中;對于數值型字段在關聯規則中的處理問題;生成結果的可視化方面等等有待于進一步的研究。
六、結論
面向Web的數據挖掘是一項復雜的技術,由于Web數據挖掘比單個數據倉庫的挖掘要復雜的多,因而面向Web的數據挖掘成了一個難以解決的問題。Web數據挖掘是目前信息技術中的研究熱點,它是現代科學技術相互滲透與融合的必然結果。Web挖掘的分類及其所涉及的關鍵技術都處于初級階段,互聯網在技術和應用上的不斷發展將會極大地促進數據庫技術和數據挖掘技術的發展,研究數據挖掘在電子商務的應用具有建設性的意義,對電子商務網站的設計、客戶關系管理、網絡營銷等方面起著重要的作用。
參考文獻:
[1]陳京民.數據倉庫與數據挖掘技術.北京:電子工業出版社,2002
[2]謝丹夏.Web上的數據挖掘技術和工具設計.計算機工程與應用,2001,6
[3]孫穎,毛波.基于數據挖掘技術的虛擬社區成員行為研究.計算機應用,2003.1
[4]康曉東.基于數據倉庫的數據挖掘技術.機械工業出版社,2004.1
[5]Jaideep Srivastava,Robert Cooley,Mukund Deshpande.Web Usage Mining:Discovery and Applications of Usage Patterns from Web Data.Sigkdd Explorations,2000(2):325-338
關鍵詞:數據挖掘;信息系統集成;K均值算法;聚類算法;BOM系統
中圖分類號:TP391
文獻標識碼:A
文章編號:16727800(2017)004018503
0引言
充分利用企I信息系統集成中所產生的生產業務信息數據成為企業的關鍵技術,數據挖掘技術則是企業系統中使用的技術之一。數據挖掘指對數據庫中的海量數據進行過程復雜的數據分析,從而獲得其中隱含信息的過程。根據用戶需求,選擇比較切合的數據挖掘算法,成為挖掘技術成功的關鍵。通過研究各種數據挖掘算法,筆者在眾多算法中選擇了K均值算法作為本文數據挖掘的基礎算法。
1K均值算法概述
1.1K均值算法概念
聚類問題是將給定的數據集合D劃分成一組聚類:{C1,C2,…},Ci∈D,使不同種類中的數據盡可能不相似(或距離較遠),同一種類中的數據盡可能相似(或距離較近)。聚類是一種無監督的學習,所謂無監督學習指事先并不知道要找的內容,即沒有目標變量,它將相似的對象歸到同一個簇中[13]。K均值(Kmeans)算法在聚類算法中使用最為廣泛。首先根據分類的個數k,隨機地選取k個初始的聚類中心,當然這個k值是難以確定的,并把每個對象分配給離它最近的中心,分別得到起始的聚類點。然后,將當前每個聚類的中心作為新的聚類中心,并把每個對象重新分配到最近的中心。不斷地循環迭代,直到目標函數的最小值,即最終的聚類中心點沒有移動。其中,目標函數通常采用平方誤差準則,即:其中,E表示所有聚類對象的平方誤差和,S是聚類對象,Mi是類Ci的各聚類對象的平均值,即:
其中,|Ci|表示類Ci的聚類對象數目。每一次迭代時,每一個點都要計算一遍它和各聚類中心的距離,并取最短距離的類作為該點所屬的類。直到E獲取最小值,最終表現為最后的聚類中心無法移動。一般k的典型取值為2~10。
1.2K均值算法計算模型
假設在一片小區域中有若干數據點,如圖1所示。先假設k=2,即最終這些數據點會聚類成兩個類。K均值算法具體解釋如下: (1)由于k=2,任意的兩個數據點被選作初始類的聚類中心(圖中用點F、G表示),如圖1(a)所示。 (2)將其余的各個點分配到距離最近的聚類中心點(本例中為F點、G點)所代表的類中,即求圖中所有點到各個聚類中心的距離。如果Si距離Ci近, 則Si屬于Ci聚類。如圖1(b)所示,A、B點與F點的距離相對G點更近,所以屬于F點聚類,C、D、E點與G點相對F點距離更近,所以屬于G點聚類。 (3)將聚類中心點F點、G點移動到“自己”的聚類中心,如圖1(c)、圖1(d)所示。 (4)重復步驟(2)、(3),直到每個類中的聚類對象(如圖1(e)中的點)不再重新分布為止,第一個點聚合了A、B、C,第二個點聚合了D、E,此時重復循環的迭代過程結束。
2.1系統概述
通過對K均值算法的介紹及其算法處理模型,筆者結合某制造型企業的信息化系統平臺用戶實際需求建立數據倉庫,在數據倉庫的基礎上使用數據挖掘中的K均值算法對大量數據進行潛在信息的挖掘,并開發出基于K均值算法的挖掘器,輔助決策者進行決策。假如數據庫中的數據關于產品信息生成了k個聚類中心,即k個中心點point,將其余的各個點分配到距離最近的聚類中心點所代表的類中,距離為distance,并獲取距聚類中心距離最小的距離min2,將該元素歸類于距離聚類中心點最近的那個聚類中,核心代碼如下:
private void clusterSet() { float[] distance = new float[m]; for (int l = 0; l < length; l++) { for (int e = 0; e < m; e++) { distance[e] = distance(data.get(l), point.get(e)); } int min2 = min1(distance); cluster.get(min2).add(data.get(l)); } } //將聚類中心點移動到自己的聚類中心,求兩點誤差平方 private float result(float[] point1, float[] point) { float x = point1[0] - point[0]; float y = point1[1] - point[1]; float result1 = x * x + y * y; return result1; } //利用上述“求兩點誤差平方”的方法,計算誤差平方和準則 private void result2() { float a1 = 0; for (int r = 0; r < cluster.size(); r++) { for (int j = 0; j < cluster.get(r).size(); j++) { a1 += result(cluster.get(r).get(j), point.get(r)); } } sum.add(a1); } //設置新的聚類中心 private void setNewPoint() { for (int h = 0; h < m; h++) { int n = cluster.get(h).size(); if (n != 0) { float[] newpoint = { 0, 0 }; for (int k = 0; k < n; k++) { newpoint[0] += cluster.get(h).get(k)[0]; newpoint[1] += cluster.get(h).get(k)[1]; } newpoint[0] = newpoint[0] / n; newpoint[1] = newpoint[1] / n; point.set(h, newpoint); } } } //對第2、3步進行重復迭代,直至得到算法最終結果 private void kmeans() { init(); while (true) { clusterSet(); result2(); if (n != 0) { if (sum.get(n) - sum.get(n - 1) == 0) { break; } } setNewPoint(); n++; cluster.clear(); cluster = cluster1(); } }
2.2零部件市場需求分析
在銷售系統“零部件市場需求分析”模塊,主要針對銷售信息以及產品信息所建立的數據倉庫中的信息進行數據挖掘。合同中記載了所銷售的產品圖號、數量、客戶相關信息等,同時根據產品圖號可以得到產品BOM信息。 產品BOM信息即該產品的設計信息,包括零件信息、物料進貨方式及加工作業方式、工藝信息、圖紙信息、層次碼、總數量等。其中零件信息主要有:零件圖號、零件名稱、材料、牌號、外形尺寸等;物料進貨方式及加工作業方式主要包括:物料類別(如:配套件、緊固件)、物料進場狀態(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工內容(如:金工、電工);工藝信息即零部件加工的工藝信息;圖紙信息包括圖紙幅面等;層次碼主要用來標注該零部件在產品中的所處位置;總數量即表明該零部件在產品中該層次碼下的個數。 相同產品可能會有處于不同層次的相同零部件,不同產品可能會有相同零部件。因此,在所建立的數據倉庫基礎上,使用數據挖掘技術挖掘出查詢條件,從銷售的產品中具體細化到銷售需求較多的零部件,從而在企業決策時察覺出該情況。通過針對性地制定預投生產計劃、增加庫存,能夠幫助企業提高生產效率,對于市場快速反應,以提高市場占有率。 對于該部分功能,首先可以進行條件查詢。查詢屬性有:產品圖號、產品型號、代號、名稱、規格尺寸、長度寬度、材料、牌號、年份和客戶編號。 從查詢屬性看,這是多種搜索條件的組合;從數據挖掘角度看,這是在K-均值聚類算法設計的數據倉庫基礎上開發出來的一個數據挖掘工具。此項功能設計時是從月份出發,將每年的銷量按照月份呈現,因此“年份”是必選項,其余條件用戶可以自由組合。例如:選擇“2012年”,查詢結果如圖2所示。
該圖表示在2012年的銷售產品里對零部件數量進行匯總的結果。通過該數據挖掘器,提出了銷量最領先的4個零部件。曲線代表其在各月的銷售總數及市場需求總數,單位以“百”計。每條曲線代表的零部件圖號在圖右側進行了說明。該表示方法直觀、清晰,可以給決策者提供明確的零部件市場需求變化曲線圖。通過聚類結果可知,“零件圖號”為“8UE.016.0211”的零件,從八月開始銷量減少,并且其它3種零件在六月開始需求量變大,從而可使決策者在來年制定更合理的方案,以提高企業競爭力。
2.3廢料統計情況分析
廢料統計情況分析主要是針對生產中由于工人誤操作、材料劣質、機器故障等各種原因造成所領物料報廢,需要重新領料進行加工的情況進行統計分析。 物料是一個統稱,它包括可以直接領的成品、需要再加工的半成品,以及需要加工的原材料。因此,對于物料有一個物料編碼,專門對所有可領的成品、半成品、原材料進行唯一標示。物料編碼根據零件圖號、零件名稱、材料、牌號、外形尺寸、物料進場狀態、物料類別、加工方式8個字段進行唯一性區分。根據編碼方式,產生唯一的物料碼,例如“A00B021”。該企業的物料有“定額”和“非定額”兩種情況。“定額”即可以用個數來統計的零部件物料;“非定額”指無法用個數來統計的物料,如:5米長的銅線等。具體而言,本文主要研究針對某個工作令從生產開始到生產結束,所有定額物料的生產料廢情況。在工作令系統和領料單系統的基礎數據庫上建立數據倉庫。工作令系統的數據庫中存有工作令號、起始生產日期、結束生產日期及其它工作令的基本信息。領料單系統數據庫中的廢料表中存有料廢的物料編碼、材料、數量等信息。查詢屬性有:工作令號、合同號、起始時間和終止時間。 填入工作令號“2B7-1D044205”,點擊“查詢”按鈕,會通過數據挖掘方法統計該工作令下的所有零件材料料廢情況,如表1所示。
表1清晰表明了該工作令號“2B7-1D044205”中各個物料損失的比重。從表中可以看出,以廢料“A03B004”、
“D03E334”和“E17B231”為聚類中心的廢料占多數,從而可以使企業決策者從這些材料損失中發現問題,分析物料損耗原因,如:采購質量問題、工人操作失誤,還是其它可避免的各類原因。因此,該基于數據倉庫的數掘挖掘器,有利于輔助企業決策者從實際生產中找出各類潛在問題,從而制定合理的政策,降低生產損失,提高企業競爭力。
3結語
本文采用數據挖掘技術對數據庫中積累的大量數據進行了分析處理,系統雖然實現了將基于K均值算法的數據挖掘技術應用于信息化系統集成平臺中,但也只是實現了部分輔助決策功能。根據企業的具體使用情況,決策者肯定不會滿足于系統中已經提供的決策支持功能,如何更近一步地發揮系統集成能力,開發更多決策支持功能,提高數據倉庫查詢速度,以滿足企業決策者更多需求,是下一階段研究的主要方向。
參考文獻:
[1]王欣,徐騰飛,唐連章,等.SQL Server2005數據挖掘實例分析[M].北京:中國水利水電出版社,2008:15.
[2]李銳,,曲亞東,等.機器學習實踐[M].北京:人民郵電出社,2013:184199.
[3]彭木根.數據倉庫技術與實現[M].北京:電子工業出版社,2002:321.
[4]陳文偉.數據倉庫與數據挖掘教程[M].第2版.北京:清華大學出版社,2011:190.
[5]孫水華,趙釗林,劉建華.數據倉庫與數據挖掘技術[M].北京:清華大學出版社,2012:122.
[6]李晶,陳驥.數據挖掘技術對ERP實施的重要性[J].福建電腦,2008(8):6061.
>> Web數據挖掘中XML技術應用研究 XML在Web數據挖掘中的應用 XML 在Web 數據挖掘中的應用探討 基于XML的Web挖掘技術在電子商務中的應用研究 基于XML數據庫的Web應用研究 數據挖掘在Web中的應用研究 XML語言在Web開發中的應用研究 基于XML的Web數據挖掘模型的設計研究 基于XML+Web Service的異構數據交換技術應用研究 Web數據挖掘在智能選課系統中的應用研究 Web數據挖掘技術在數字圖書館中的應用研究 數據挖掘技術在Web預取中的應用研究 Web數據挖掘及其在微博話題檢測中的應用研究 Web數據挖掘技術在個性化網絡教學中的應用研究 WEB數據挖掘技術及應用研究 基于XML技術的電子政務WEB數據挖掘研究 基于XML的Web分布式數據挖掘系統研究 基于xml的web數據挖掘技術研究與實現 Web數據挖掘在校園網搜索引擎系統中的應用研究 電子商務中Web數據挖掘與應用研究 常見問題解答 當前所在位置:L,XHTML and CSS Bible[M].4版.北京:人民郵電出版社,2009
[3] Bing Liu.Web DATA MINING[M].北京:清華大學出版社,2009(4).
[4] 孟小峰.XML數據管理概念技術[M].北京:清華大學出版社.2009(10).
[5] 王建麗,丁振國.一種基于XML的Web數據挖掘技術[J].西安科技學院學報,2002,33(3).
[6] 沈潔,薛貴榮.一種基于XML的WEB數據挖掘模型[J].系統工程理論與實踐,2002(9).
>> 基于云計算的大數據挖掘平臺 云計算技術在醫療大數據挖掘平臺設計中的應用 大數據+云計算 SAP倡導構建實時云 基于云計算及大數據的移動數字教育平臺建設研究 Web數據挖掘在云計算平臺的實際運用 基于云計算平臺的物聯網數據挖掘研究 Web數據挖掘在云計算平臺的實現 基于云計算和大數據的智慧農業平臺 試論大數據和云計算平臺應用 大數據和云計算平臺與應用研究 大數據和云計算平臺應用研究 云計算物聯網數據挖掘模式的構建方式 云計算時代的出國留學大數據構建策略 大數據和云計算 基于云計算的數據挖掘平臺架構及其關鍵技術研究 基于云計算的數據挖掘平臺架構及其關鍵技術探討 一種基于云計算的數據挖掘平臺架構設計與實現 協同云計算下的差異區域數據挖掘平臺設計與實現 一種基于云計算數據挖掘平臺架構的設計與實現 基于分布式思維的云計算數據挖掘平臺設計 常見問題解答 當前所在位置:.
[5]康莉.“云計算”環境下電子商務安全問題及對策研究[J].信息技術,2012(8):283284.
[6]李衛,李濟漢,張云勇,等.電信運營商云業務發展現狀分析與建議[J].互聯網天地, 2013(3):715.
[7]曲悅.淺談云計算在圖書館建設中的價值及問題[J].價值工程,2012(9):203204.
[8]馬錫坤,于京杰.醫院數據中心存在的問題及對策[J].中國醫學教育技術,2013,4(27):215217.
[9]鄔賀銓.大數據時代的機遇與挑戰[J].信息化參考,2013(2):16.
[10]趙金明.大數據時代的高清視頻監控存儲[J].中國鐵路,2013(4):8182.
[關鍵詞] 并行數據挖掘 體系結構 商業智能 模式庫
引言
企業為迎接市場的挑戰,必須對市場運作有準確的分析。商業流通領域積累的大量交易數據中隱含著許多對商業決策有益的知識,傳統的分析方法很難從中提取出這些知識,利用數據挖掘技術可以得到準確、及時的信息,決策人員以企業的數據倉庫為基礎,通過聯機分析處理(OLAP)、數據挖掘和決策規劃人員的專業知識,借助商務智能的核心技術,利用企業中長期積累的海量數據可以實現四方面的應用:客戶分類和特征分析、市場營銷策略分析、經營成本與收入分析、欺詐行為分析和預防,數據挖掘技術可以發現這些隱藏的模式和關系。
并行數據挖掘體系結構是并行數據挖掘技術研究的重要內容,是實現并行數據挖掘的基礎,選擇適當的、高效的、具有較高性價比的商用并行體系結構是整個研究工作的基礎。
一、通用數據挖掘系統結構
特定領域的數據挖掘工具主要針對某個特定領域的問題提供解決方案。在進行數據挖掘算法設計時,設計者需要充分考慮特定領域的數據特點和挖掘需求等特殊性,并有針對性地對數據挖掘算法進行優化。
通用的數據挖掘應用系統大都以數據倉庫或大型關系數據庫為基礎,且具有查詢、分析、表示等功能,它是企業決策支持系統的核心組成部分,可以將這些現有數據挖掘系統的共同特點抽象成圖1所示的結構。
二、通用的數據挖掘系統結構的不足及改進思路
通用的數據挖掘系統己經在一定程度上滿足用戶的需要,但是在應用實施過程中也存在著一些問題和不足。主要有以下幾點:數據挖掘的效率有待進一步提高;歷史模式不能得到有效利用;不同系統之間的互操作性差;面向不同應用對象的針對性不強。
數據挖掘往往面對的是巨大的數據集,即GB甚至TB數量級的數據集,數據挖掘技術研究的核心問題之一就是如何提高數據挖掘的效率,提高數據挖掘效率的途徑主要有以下幾個方面:
1.對數據集進行預處理,去除噪音數據,按照挖掘要求對數據進行清理和遷移,盡可能減少挖掘的數據量。
2.針對各種數據挖掘和數據分析要求,研究、設計效率更高的各類數據挖掘算法。
3.提高數據挖掘系統應用的硬件性能或者采用并行處理技術提高數據挖掘的速度。
4.借用緩存的概念,對挖掘結果進行存儲再利用,以提高用戶挖掘請求的響應速度。
針對一般商業智能應用領域的實際情況和需要,以提高數據挖掘應用的效率為目標,本文將主要從并行處理技術和體系結構方面對現有數據挖掘系統進行改進和提高。
三、并行數據挖掘體系結構設計及特點
為解決通用數據挖掘系統中存在的一些問題和針對商業智能的特點,面向商業智能應用的并行數據挖掘體系結構如圖2所示,由6部分組成:
1.高性能并行計算環境:并行數據挖掘體系結構中采用了高性價比的并行體系結構COW(Cluster of Workstations)、數據挖掘算法由串行算法改為并行算法以及采用“緩存”概念將數據挖掘結果保存在模式庫中。并行處理技術的運用無疑對于數據挖掘效率的提高具有重要意義和實用價值,為數據挖掘效率的提高奠定了堅實的基礎,對于商業智能應用的推廣也具有重要作用。
2.數據源:數據倉庫和其他數據源是數據挖掘的基礎,商業智能應用系統應具有多種數據來源的處理能力,例如普通文件(電子郵件等)、關系數據庫、數據倉庫、數據集市等。
3.模式庫:為了提高數據挖掘的效率以及商業邏輯的處理速度,借助硬件內存的“緩存”概念,將最近數據挖掘或者數據分析的結果(模式也許只是一個簡單的規則描述)保存在模式庫中,以便再次發生類似或者相同操作請求時能先在模式庫中查找挖掘結果,從而盡量避免每次都從海量數據中進行挖掘操作,這樣可以較大幅度提高處理速度。因此,模式庫的建立為歷史模式的有效利用提供了可能和基礎
另外,由于模式庫中存儲的是歷次挖掘出來的模式,可以從分析模式的變化來進行趨勢預測,從而為決策支持提供了更多的分析手段。
4.學習和推薦Agent:增加了一個用戶興趣分析檔案庫,由學習Agent進行更新維護,供推薦Agent分析使用。學習Agent將根據權值的計算方法對用戶興趣檔案中沒有出現過的關鍵字進行加權操作。推薦Agent根據已有的用戶興趣檔案,分析用戶可能感興趣的模式,并推薦給用戶。
5.并行數據挖掘工具/多維分析工具:數據挖掘是商業智能的核心,并行數據挖掘算法對于提高數據挖掘效率具有重要意義。為了適應商業智能應用的需要,僅提供多維分析工具是遠遠不夠的,應盡可能多的提供對多種模式的支持。商業智能涉及關聯、分類、聚類、時序等模式,并行數據挖掘工具盡能包含對這些模式的支持,這也是衡量并行數據挖掘工具好壞的標準之一。
6.可視化工具:為用戶提供數據挖掘結果的自觀表示方法。
除上述特點外,通過對并行數據挖掘體系結構的設計與改進在以下兩個方面取得了較好的效果:
(1)提高了系統之間的互操作性:現有的數據挖掘產品,對挖掘結果都有各自特殊的存儲格式,不同挖掘工具之間要共享挖掘的結果非常困難。然而,對模式的集中存儲就可以有效地解決上述問題,即設計類似SQL的查詢語言,或設計通用的模式庫接口。不同的挖掘工具通過使用模式查詢語言或調用模式庫接口的功能函數就可以共享模式庫中存儲的模式。
(2)并行處理能力強、可擴展性好、可用性高:改進后的并行數據挖掘體系結構建立在可擴展機群之上,除了具有較高的.可伸縮的并行處理能力之外,系統的可擴展性也非常好,可以通過增加或者減少處理結點數調整系統的處理能力,從而適應不同數據規模的處理需要,除此之外,系統的可用性高也是其顯著特點,一般情況下COW的可用性指標都在99.9%以上,為商業智能應用系統的穩定運行提供了可靠保證。
四、結束語
并行數據挖掘體系結構具有較高的并行處理能力和性價比,以及方便靈活的并行程序設計環境,對于實施商業智能應用的客戶和應用領域來講,具有可操作性。大多商業智能應用客戶已經或者容易獲得本文給出的并行處理環境,不需要投入大量的經費購置專用的并行處理系統。
模式庫的提出是一種新的有益的探索。由于模式庫中存儲了歷史挖掘模式,如果其中的模式接近挖掘請求的時間,則可用這些模式自接作為挖掘的結果,不用再進行新的數據挖掘,在模式庫中進行查詢操作的響應會明顯加快,大大提高了數據挖掘的效率。
參考文獻:
[1]熊忠陽:面向商業智能的并行數據挖掘技術及應用研究[學位論文].重慶大學,2004