時間:2023-03-17 18:06:50
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇數據挖掘技術論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
數據挖掘技術是一種新型的技術,在現代數據存儲以及測量技術的迅猛發展過程中,人們可以進行信息的大量測量并進行存儲。但是,在大量的信息背后卻沒有一種有效的手段和技術進行直觀的表達和分析。而數據挖掘技術的出現,是對目前大數據時代的一種應急手段,使得有關計算機數據處理技術得到加快發展。數據挖掘技術最早是從機器學習的概念中而產生的,在對機器的學習過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機械的操作辦法。而沒有指導性學習的辦法一般不從這些環境得出反饋,而是通過沒有干預的情況下進行歸納和學習,并建立一種理論模型。數據挖掘技術是屬于例子歸納學習的一種方式,這種從例子中進行歸納學習的方式是介于上述無指導性學習以及較少使用歸納學習這兩種方式之間的一種方式。因此,可以說,數據挖掘技術的特征在出自于機器學習的背景下,與其相比機器主要關心的是如何才能有效提高機器的學習能力,但數據挖掘技術主要關心如何才能找到有用、有價值的信息。其第二個特征是,與機器學習特點相比較而言,機器關心的是小數據,而數據挖掘技術所面臨的對象則是現實中海量規模的數據庫,其作用主要是用來處理一些異常現象,特別是處理殘缺的、有噪音以及維數很高的數據項,甚至是一些不同類型數據。以往的數據處理方法和現代的數據挖掘技術相比較而言,其不同點是以往的傳統數據處理方法前提是把理論作為一種指導數據來進行處理,在現代數據挖掘技術的出發角度不同,主要運用啟發式的歸納學習進行理論以及假設來處理的。
2、數據挖掘技術主要步驟
數據挖掘技術首先要建立數據倉庫,要根據實際情況而定,在易出現問題的有關領域建立有效的數據庫。主要是用來把數據庫中的所有的存儲數據進行分析,而目前的一些數據庫雖然可以進行大量的存儲數據,同時也進行了一系列的技術發展。比如,系統中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結果的分析能力,而查詢的結果仍舊由人工進行操作,依賴于對手工方式進行數據測試并建模。其次,在數據庫中存儲的數據選一數據集,作為對數據挖掘算法原始輸入。此數據集所涉及到數據的時變性以及統一性等情況。然后,再進行數據的預處理,在處理中主要對一些缺損數據進行補齊,并消除噪聲,此外還應對數據進行標準化的處理。隨后,再對數據進行降維和變換。如果數據的維數比較高,還應找出維分量高的數據,對高維數數據空間能夠容易轉化為檢點的低維數數據空間進行處理。下一步驟就是確定任務,要根據現實的需要,對數據挖掘目標進行確定,并建立預測性的模型、數據的摘要等。隨后再決定數據挖掘的算法,這一步驟中,主要是對當前的數據類型選擇有效的處理方法,此過程非常重要,在所有數據挖掘技術中起到較大作用。隨后再對數據挖掘進行具體的處理和結果檢驗,在處理過程中,要按照不同的目的,選擇不同的算法,是運用決策樹還是分類等的算法,是運用聚類算法還是使用回歸算法,都要認真處理,得出科學的結論。在數據挖掘結果檢驗時,要注意幾個問題,要充分利用結論對照其他的信息進行校核,可對圖表等一些直觀的信息和手段進行輔助分析,使結論能夠更加科學合理。需要注意的是要根據用戶來決定結論有用的程度。最后一項步驟是把所得出的結論進行應用到實際,要對數據挖掘的結果進行仔細的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結論和原先看法的矛盾有效解除。
3、數據挖掘技術的方法以及在電力營銷系統中的應用和發展
數控挖掘技術得到了非常廣泛的應用,按照技術本身的發展出現了較多方法。例如,建立預測性建模方法,也就是對歷史數據進行分析并歸納總結,從而建立成預測性模型。根據此模型以及當前的其他數據進行推斷相關聯的數據。如果推斷的對象屬于連續型的變量,那么此類的推斷問題可屬回歸問題。根據歷史數據來進行分析和檢測,再做出科學的架設和推定。在常用的回歸算法以及非線性變換進行有效的結合,能夠使許多問題得到解決。電力營銷系統中的數據挖掘技術應用中關聯規則是最為關鍵的技術應用之一。這種應用可以有效地幫助決策人員進行當前有關數據以及歷史數據的規律分析,最后預測出未來情況。把關聯規則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關數據進行關聯規則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關聯信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統的應用中,時間序列挖掘以及序列挖掘非常經典、系統,是應用最為廣泛的一種預測方法。這種方法的應用中,對神經網絡的研究非常之多。因此,在現實中應用主要把時間序列挖掘以及神經網絡兩者進行有效地結合,然后再分析有關電力營銷數據。此外,有關專家還提出應用一種時間窗的序列挖掘算法,這種方式可以進行有效地報警處理,使電力系統中的故障能夠準確的定位并診斷事故。此算法對電力系統的分析和挖掘能力的提高非常有效,還可判定電力系統的運行是否穩定,對錯誤模型的分析精度達到一定的精確度。
4、結語
(1)確定業務對象:做好業務對象的明確是數據域挖掘的首要步驟,挖掘的最后結構是不可預測的,但是探索的問題必須是有預見的,明確業務對象可以避免數據挖掘的盲目性,從而大大提高成功率。
(2)數據準備:首先,對于業務目標相關的內部和外部數據信息進行查找,從中找出可以用于數據挖掘的信息;其次,要對數據信息的內容進行全面細致分析,確定需要進行挖掘操作的類型;然后,結合相應的挖掘算法,將數據轉化稱為相應的分析模型,以保證數據挖掘的順利進行。
(3)數據挖掘:在對數據進行轉化后,就可以結合相應的挖掘算法,自動完成相應的數據分析工作。
(4)結果分析:對得到的數據分析結果進行評價,結合數據挖掘操作明確分析方法,一般情況下,會用到可視化技術。
(5)知識同化:對分析得到的數據信息進行整理,統一到業務信息系統的組成結構中。這個步驟不一定能夠一次完成,而且其中部分步驟可能需要重復進行。
二、數據挖掘技術在水利工程管理中的實施要點
水利工程在經濟和社會發展中是非常重要的基礎設施,做好水利工程管理工作,確保其功能的有效發揮,是相關管理人員需要重點考慮的問題。最近幾年,隨著社會經濟的飛速發展,水利工程項目的數量和規模不斷擴大,產生的水利科學數據也在不斷增加,這些數據雖然繁瑣,但是在許多科研生產活動和日常生活中都是不可或缺的。例如,在對洪澇、干旱的預防以及對生態環境問題的處理方面,獲取完整的水利科學數據是首要任務。那么,針對日益繁雜的海量水利科學數據,如何對有用的信息知識進行提取呢?數據挖掘技術的應用有效的解決了這個問題,可以從海量的數據信息中,挖掘出潛在的、有利用價值的知識,為相關決策提供必要的支持。
1.強化數據庫建設
要想對各類數據進行科學有效的收集和整理,就必須建立合理完善的數據庫。對于水利工程而言,應該建立分類數據庫,如水文、河道河情、水量調度、防洪、汛情等,確保數據的合理性、全面性和準確性,選擇合適的方法,對有用數據進行挖掘。
2.合理選擇數據挖掘算法
(1)關聯規則挖掘算法:關聯規則挖掘問題最早提出于1993年,在當前數據挖掘領域,從事務數據庫中發現關聯規則,已經成為一個極其重要的研究課題。關聯規則挖掘的主要目的,是尋找和挖掘隱藏在各種數據之間的相互關系,通過量化的數據,來描述事務A的出現對于事務B出現可能產生的影響,關聯規則挖掘就是給定一組Item以及相應的記錄組合,通過對記錄組合的分析,推導出Item間存在的相關性。當前對于關聯規則的描述,一般是利用支持度和置信度,支出度是指產品集A、B同時出現的概率,置信度則是在事務集A出現的前提下,B出現的概率。通過相應的關聯分析,可以得出事務A、B同時出現的簡單規則,以及每一條規則的支持度和置信度,支持度高則表明規則被經常使用,置信度高則表明規則相對可靠,通過關聯分析,可以明確事務A、B的關聯程度,決定兩種事務同時出現的情況。
(2)自頂而下頻繁項挖掘算法:對于長頻繁項,如果采用關聯規則挖掘算法,需要進行大量的計算分析,不僅耗時耗力,而且影響計算的精準度,這時,就可以采用自頂而下頻繁項挖掘算法,這種算法是一種相對優秀的長頻繁項挖掘算法,利用了事務項目關聯信息表、項目約簡、關鍵項目以及投影數據庫等新概念與投影、約簡等新方法,在對候選集進行生成的過程中,應該對重復分支進行及時修剪,提升算法的實際效率,從而有效解決了長頻繁項的挖掘問題。結合計算機實驗以及算法分析,可以看出,這種方法是相對完善的,同時也是十分有效的。不過需要注意的是,當支持度較大、頻繁項相對較短時,利用關聯規則挖掘中典型的Apriori方法,可以起到更好的效果。
(3)頻繁項雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長頻繁項以及段頻繁項的挖掘問題,主挖掘方向是利用自頂向下挖掘策略,但是結合自底向上方法生成的非頻繁項集,可以對候選集進行及時修剪,提升算法的實際效率。
三、結語
[參考文獻]
[1]董西明.客戶關系管理及其應用[J].學術交流,2004(8)
[2]王光玲.CRM—企業管理理念新發展[J].經濟論壇,2003(9)
[3]崔京波,陳穎.論CRM及應用[J].科學與管理,2005(6)
[4]田丹.淺析供應鏈環境下的客戶關系管理(CRM)[J].商情(教育經濟研究),2008(3)
[5]左臻.淺談客戶關系管理[J].科技情報開發與經濟,2005(5)
[6]徐輝.淺析客戶關系管理[J].商業經濟,2008(10)
[7]姚德全,于冬梅.客戶關系管理在企業發展中的重要性[J].科技創新與應用,2013(8)
參考文獻
[1]郭愈強,樊瑋.數據挖掘技術在民航CRM中的應用[J],計算機工程,2005(31):169-171.
[2]劉彬,白萬民.淺析數據挖掘技術在CRM中的應用[J].電子世界,2014,01(17):16-17.
[3]楊虎猛,朱汝岳.金融業分型CRM系統探索與應用[J].計算機應用與軟件,2013,07(30):259-261.
[4]徐國慶,段春梅.數據挖掘技術在CRM中的應用研究[J].網絡安全技術與應用,2012,02(12):38-40.
[5]王一鴻.體檢中心CRM構建及數據挖掘的應用研究[D].華東理工大學,2011.
[6]潘光強.基于數據挖掘的CRM設計與應用研究[D].安徽工業大學,2011.
參考文獻:
[1]廖雯.基于客戶生命周期的CRM策略研究[J].商,2015(17):15-15.
[2]陳杭.電子商務的營銷資源在CRM策略中有效分配探討[J].現代商業,2015(11):42-43.
[3]金子琦.紛享銷客中國式CRM商業邏輯大復盤[J].創業邦,2015(10):90-91.
[關鍵詞]數據挖掘 風險評估 集裝箱
一、引言
隨著我國對外貿易的快速發展,進境箱量顯著增長?!笆晃濉逼陂g,檢出攜帶疫情及有毒有害物質箱數呈持續增長趨勢。僅2010年度,共受理進境集裝箱申報3699.06萬箱,同比增長14.04%,檢出攜帶疫情或有毒有害物質的43.66萬箱,比去年同期提高了28.20%。進境檢出疫情箱數占查驗箱數的比例(即查驗檢出率)為3.26%,同比提高0.43個百分點。這反映出進境集裝箱攜帶疫情及有毒有害物質情況十分普遍,進境集裝箱檢疫面臨形勢十分嚴峻。
目前,在進境集裝箱檢疫工作中主要采用以人工判斷為主的經驗式方法,效率比較低,工作量繁重,經驗知識傳承性差。但是在多年來的實踐過程中,我們已經積累了大量的經驗和數據。通過數據挖掘技術在已有的數據中發現未知的模式和知識可以為入境集裝箱風險進行評估,并為檢疫業務決策提供輔助支持。
二、數據挖掘技術
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。簡而言之,數據挖掘其實是一類深層次的數據分析方法。數據挖掘已廣泛應用于生物醫學、金融、零售業、電信業、海關監管等領域,并產生了巨大的效益。數據挖掘技術同樣能夠將大量的檢疫數據提煉、轉化為可以理解和應用的模式和知識來指導檢疫業務。
數據分類(DataClassification)是數據挖掘技術的一個重要分支。從根本上說,數據分類就是通過對源數據的特點進行歸納和描述。要進行數據分類,必須使用特定的分類工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。數據分類是數據挖掘的基本功能、重要功能,目前在商業、工業、軍事、生活、海關監管上應用最多,具有非常高的使用價值。
三、數據概念模型
根據從進境集裝箱中檢出疫情及有毒有害物質情況的不同,將檢出問題分為7類,分別是:①人類傳染病和動物傳染病病原體;②植物危性病、蟲、雜草以及其它有害生物;③嚙齒動物、蚊、蠅、蟑螂等病媒生物;④土壤、動物尸體等禁止進境物;⑤動植物殘留物;⑥生活垃圾及其他有毒有害物質;⑦其他問題——7類問題,對應每一類問題需要建立一個可用于數據挖掘的數據概念模型,其主要包括:
(1)7大類問題集裝箱同諸如:①來源地;②箱主公司;③承運人;④貨運方式等特征數據存在哪些未知的、潛在有用的模式和知識,明確對每類問題集裝箱產生影響的特征數據,建立一套對應各類問題集裝箱的風險數據字典;
(2)CIQ數據庫中并不包含所有的特征數據,一些重要的特征數據需要通過與場站、貨運公司的比對才能獲得。同時,要對數據進行采集、清洗、轉換等步驟,建立可以用于數據挖掘的數據概念模型。
四、風險評估模型
對進境集裝箱進行風險評估主要用到數據挖掘中的重要分支——分類技術,建立和完善風險評估模型關系到風險評估系統研究的成敗,主要研究內容如下:
(1)分類技術有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,結合檢疫工作實際選擇合適的算法進行數據挖掘,并在實踐中對模型進行修正和完善;
(2)選擇和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模塊化分析工具對7類問題集裝箱進行逐類數據挖掘、建模。
五、典型系統應用開發
基于上述的研究成果,設計實現一個基于數據挖掘技術的進境集裝箱風險評估管理系統,重點關注下面系統,如圖1所示:
(1)面向檢疫查驗人員設計并實現一個基于Web技術的軟件系統,通過此軟件,檢疫管理人員可以將已有風險評估模型軟件化,系統接收進境集裝箱特征數據,自動對風險進行預評估。同時,將用于風險評估的數據獨立于CIQ數據庫存在,為以后進一步完善風險評估模型提供數據庫支持。
(2)面向檢疫查驗人員設計并實現一個軟件終端,考慮到檢疫查驗一線人員工作環境分散、移動的特點,重點面向主流嵌入式系統(Apple、Angel、Symban、Windows-Mobile等)和移動終端(如手機、PDA、iPOD等)展開研發。
圖 基于數據挖掘技術的風險評估系統
六、結論
針對出入境檢驗檢疫部門在對進境集裝箱檢疫查驗中盲目性大、工作效率低等客觀實際,研究一個基于數據挖掘技術的進境集裝箱風險評估模型,并將其軟件化、實用化,通過軟件自動對進境集裝箱進行風險等級評估,指導日常檢疫查驗工作,降低檢驗查驗的盲目性,提升檢疫查驗人員的工作效率,提高把關成效。
參考文獻:
[1]舒軍生.數據挖掘技術在企業信用分類管理系統中的應用.安徽:安徽大學碩士論文.2010
[2]高燕. 基于數據挖掘技術的海關執法評估系統的研究與開發.武漢:武漢理工大學碩士論文.2002
論文摘要:隨著數據庫技術和人工智能技術的不斷進步,數據挖掘技術逐步發展起來,作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數理統計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數據中來發現和挖掘一些隱含的有價值的知識,從大型的數據庫數據中挖掘一些人們比較感興趣的知識,本文主要講了數據挖掘技術的概念、數據挖掘技術在保護設備故障信息中的實現方法以及數據挖掘技術保護設備故障信息管理的基本功能等問題。
數據挖掘技術作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數理統計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數據中來發現和挖掘一些隱含的有價值的知識,也就是從大型的數據庫數據中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現為模式、規律、規則和概念,將數據挖掘的所有對象定義成數據庫或者是文件系統以及其他的一些組織在一起的數據集合,數據挖掘技術也是現在智能理論系統的重要研究內容,已經開始被應用于行政管理、醫學、金融、商業、工業等不同的領域當中,在保護設備故障信息管理方面發揮出了積極的作用。
一、數據挖掘技術的概念
隨著數據庫技術和人工智能技術的不斷進步,數據挖掘技術逐步發展起來,主要是指從大量的數據中發現和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現為模式、規律、規則和概念,將數據挖掘的所有對象定義成數據庫或者是文件系統以及其他的一些組織在一起的數據集合,當前數據挖掘技術已經逐漸被應用于了醫藥業、保險業、制造業、電信業、銀行業、市場營銷等不同的領域,隨著計算技術、網絡技術以及信息技術的不斷進步,在故障診斷過程中所采集到的數據可以被廣泛地存儲在不同的數據庫當中,如果依然采用傳統的數據處理方法來對這些海量的信息數據進行分析處理,不僅會浪費大量的實踐而且也很難挖掘到有效的信息數據,同時,盡管智能診斷以及專家系統等方式在故障的診斷過程中已經被得到了廣泛的應用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數據挖掘技術就可以比較有效地來解決這些難題,在故障診斷的過程中發揮其獨特的優勢。從不同的角度進行分析,數據挖掘技術可以分為不同的方法,就目前的發展現狀來看,常用的數據挖掘技術方法主要有遺傳算法、粗集方法、神經網絡方法以及決策樹方法等。
二、數據挖掘技術在保護設備故障信息中的實現方法
1.基本原理。在設備出現故障時采用數據挖掘技術對設備進行一系列的故障診斷,也就是說根據這一設備的運行記錄,對其運行的趨勢進行預測,并對其可能存在的運行狀態進行分類,故障診斷的實質就是一種模式識別方式,對機器設備的故障進行診斷的過程也就是該模式匹配和獲取的過程。
2.對故障診斷的數據挖掘方法建模。針對機械故障的診斷來說,首先就應當獲取一些關于本機組的一些運行參數,既要包括機器在正常運行以及平穩工作時的信息數據,也應當包括機器在出現故障時的一些信息數據,在現場的監控系統中往往就會存在著相應的正常工作狀態下以及出現故障時的不同運行參數,而數據挖掘的任務就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內在規律,并且從中提取各自故障的不同特征,在對故障的模式進行劃分時,我們通??梢越柚怕式y計的方式,在對故障模式進行識別時可以采用較為成熟的關聯規則理論,實現變量之間的關聯關系,并最終得到分類所需要用到的一些規則,從而最終達到分類的目的,依據這些規則,就可以對一些新來的數據進行判斷,而且可以準確地對故障進行分類,找出故障所產生的原因和解決故障的正確方法。
三、數據挖掘技術保護設備故障信息管理的基本功能
1.數據傳輸功能。數據挖掘技術保護設備故障信息管理與分析系統的主要數據來源就是故障信息的分站系統,而分站系統中的數據是各個子站的一個數據匯總,而保護設備故障信息管理與分析系統所采用的獲取數據的主要方式就是一些專門的通信程序構建起系統與分站之間的聯系,將分站上的一些匯總數據傳輸到故障信息系統的數據庫中,分析系統所具有的數據傳輸功能,在進行數據的處理時又能做到不影響原先分站數據庫的正常運行,并且具備抗干擾能力強、計算效率高的優點。
2.數據的分析功能。系統在正常運行時,會從故障信息子站或者是分站采集相關的數據并且對這些采集到的數據進行分析整理,最終得到有用的數據信息,利用數據挖掘技術對龐大的故障數據進行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進行有效地存儲和分類。另外,數據挖掘技術還具有信息查詢的功能,可以進行不同條件下的查詢,例如按時間段、報告類型、設備型號以及單位等進行查詢,實現查詢后的備份轉存等,根據故障信息系統所提供高的數據信息以及本系統庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產繼電保護動作的分析報告,主要包括對故障過程的簡述、故障切除情況以及保護動作情況等,可以便于繼電保護人員直觀的對保護裝置的動作情況進行分析。
四、結語
隨著企業自動化程度的不斷提高以及數據庫技術的迅速發展,很多企業在一些重要的設備方面都安裝了監測系統,對設備運行過程中的一些重要參數和數據進行采集,采用數據挖掘技術可以有效地解決設備故障診斷中的一些知識獲取瓶頸,將數據挖掘系統充分應用到監控系統中,有效解決故障診斷中的一些困難,事實證明,將數據挖掘技術應用到故障診斷中是非常有效的,也是值得研究和學習的新型技術手段。
參考文獻:
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數據挖掘技術的保護設備故障信息管理與分析系統[j].電力自動化設備,2011,9
[2]李建業,劉志遠,蔡乾,趙洪波.基于web的故障信息系統[j].電力信息化,2007,s1
>> 基于網絡數據挖掘的個性化電子商務推薦系統研究 基于大數據的社團個性化推薦系統 基于swarm平臺和社交網絡的電子商務個性化推薦系統仿真模型的理論構建 網絡數據挖掘在圖書館個性化推薦中的應用研究 基于個性化推薦的網絡營銷 基于數據挖掘的電子政務個性化推薦服務框架研究 基于數據挖掘的個性化智能推薦系統應用研究 基于社交網絡的個性化知識服務模型研究 基于免疫進化的網絡教學資源個性化推薦系統研究 移動社會網絡中基于位置的個性化餐館推薦建模研究 基于IPTV的個性化推薦技術的研究 個性化好友推薦系統在社交網站上的應用研究 基于社交網絡的社會化推薦算法研究 基于個性化混合推薦算法的網絡推薦系統 基于數據挖掘的個性化推薦在SNS中的應用 基于Web使用數據挖掘的個性化推薦系統設計 基于小數據的高校圖書館個性化推薦 基于個性化推薦學習的網絡培訓教學課程平臺的設計與實現 基于網絡學習行為的個性化評價研究 社會化標簽系統中基于本體的個性化推薦方法研究 常見問題解答 當前所在位置:l
[2]張婷婷. 社會化網絡中人際關系與人際傳播研究[D].長沙:湖南大學,碩士學位論文,2012
[3]王萍. 社會化網絡的信息擴散研究[J]. 情報雜志,2009,28(10):39-42
南京大學的周志華教授曾專門撰文論述了數據挖掘和機器學習以及數據庫之間的關系,他提出:數據挖掘可以視為機器學習和數據庫的交叉,主要利用機器學習界提供的技術來分析海量數據,利用數據庫界提供的技術來管理海量數據。
組成數據挖掘的三大支柱包括統計學、機器學習和數據庫領域內的研究成果,其他還包含了可視化、信息科學等內容。不同的教材從不同的方面結合其基礎學科知識講述數據挖掘技術,不同專業和技術背景的學生或數據挖掘研究人員和應用人員可以根據自身的專業方向選擇不同的數據挖掘切入點。下面簡單歸納目前比較主流的數據挖掘和機器學習方面的教材。
數據挖掘:概念與技術
原書名:Data Mining:Concepts and techniques
作者:Jiawei Han
本書主要從數據庫的角度(數據管理和數據計算的角度)講解數據挖掘,作者Jiawei Han現任UIUC CS Dept.教授。本書第2版在豐富和全面的第1版基礎上進行了更新和改進,并增添了新的重要課題,例如挖掘流數據、挖掘社會網絡和挖掘空間、多媒體和其他復雜數據。本書對數據挖掘基本概念、算法及其相關技術有比較全面的闡述,是國內大多數高校指定教材,它不要求太高的數學基礎,非常適合數學功底一般的學生使用。
數據挖掘:實用機器學習技術(原書第2版)
原書名:Data Mining: Practical Machine Learning Tools and Techniques
作者:Ian H. Witten, Eibe Frank
本書主要從機器學習的角度,也有稱從數據挖掘的應用實現角度來講解數據挖掘,描述了各種算法、模型及其Java實現,重點是以應用的觀點利用案例來說明數據挖掘的算法模型,對于具體算法的原理介紹不是非常詳細。它對數據挖掘的Java軟件包Weka有比較深的介紹。該書作者都是Weka項目組主要成員。圖靈獎獲得者Jim Gray如此評價:假如你需要對數據進行分析和應用,本書以及相關的Weka工具包是一個絕佳的起步。
數據挖掘原理
原書名:Principles of Data Mining
作者:David J. Hand
很多學科都面臨著一個普遍問題,即如何存儲、訪問異常龐大的數據集,并用模型來描述和理解它們。這些問題使得人們對數據挖掘技術的興趣不斷增強。長期以來,很多相互獨立的不同學科分別致力于數據挖掘的各個方面。本書把信息科學、計算科學和統計學在數據挖掘方面的應用融合在一起,是第一本真正跨學科的教材。主要從統計學的角度來解析數據挖掘以及其與統計的關系。其中如建模、測量、評分函數、模型等術語都是從統計者的角度出發。書中并沒有具體說明KDD與DM之間的關系,比較適于統計系和數學系的學生采用。
機器學習
原書名:Machine Learning
作者:Tom Mitchell
本書是CMU等許多國際知名大學機器學習課程的教材。目前發表的各種機器學習專著或論文基本都會引用這本書的內容。作者Tom Mitchell是CMU的教授,美國人工智能協會的主席,《機器學習》雜志和“國際機器學習”年度會議的創始人,他在ML領域久負盛名。本書也是最經典和采用率最高的機器學習教材。本書需要的數學基礎也很少,但對必要的背景介紹相當豐富,非常適合初學者。
模式分類(原書第2版)
原書名:Pattern classification