時間:2023-05-30 14:35:51
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇數據分析的方法范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
企業數據分析的編寫,核心在于對數據的科學分析。數據分析除了要以檔案為基礎,遵循“全面、真實、客觀、有效”的原則外,關鍵是要掌握和應用科學的分析方法,使數據分析應盡可能做到深入、準確,從而使我們對數據背后所隱含的問題、原因、趨勢和規律的認識能更接近于真理。
企業數據分析編寫過程中,常用的分析方法有對比分析法、趨勢分析法、結構分析法和綜合分析法等。本文結合工作實際,對如何運用這四種基本分析方法談點想法。
對比分析法
所謂對比分析法,是指將兩個或兩組以上的數據進行比較,分析它們的差異性,從而揭示這些數據所代表的事物的發展變化情況和規律性。對比分析法是比較研究的一種方法,在企業數據分析中的應用十分普遍。它的特點是,通過比較分析,可以非常直觀地看出企業某方面工作的變化或差距,并且可以準確、量化地表示出這種變化或差距是多少。
在實際應用中,企業數據的對比分析,一般有以下幾種具體情況:
一是將企業當年的數據與歷年(去年或前幾年)的數據進行對比分析,目的是為了搞清楚與去年或前幾年相比,企業某一方面或某些方面的發展變化情況。比如,某公司2006年利潤100萬元,2007年利潤115萬元,年增長率為15%。通過這種對比,我們就可以公司利潤的變化情況有一個更直觀、更清楚的認識。當然,在許多時候,這種對比分析不會局限在某一個數據,而是一組數據。比如,在對企業當年的利潤與去年利潤進行對比分析的同時,還可以將產量、銷售量、銷售額、成本、稅金、市場占有量、占有率等指標進行對比分析,從而更全面了解掌握企業的發展現狀。
二是將本單位數據與同行業(外單位、同行業平均水平)的數據進行對比分析,目的是為了搞清楚與外單位、同行業平均水平,本單位某一方面或各方面的發展水平處于什么樣的位置,明確哪些指標是領先的,哪些指標是落后的,進而找出下一步發展的方向和目標。比如,2005年,某發電廠供電煤耗為340克/千瓦時,當年全國火電行業平均煤耗指標為310克/千瓦時,該發電廠的實際煤耗指標比全國火電行業平均煤耗多了30克/千瓦時。通過這樣的對比分析,我們可以看出,該發電廠在能耗方面存在著比較突出問題,如何節能降耗應該成為企業下一步重點關注的一個工作內容,也是提高企業經濟效益的一條重要途徑。
為了一目了然地看出數據對比的直觀效果,對比分析一般可用柱式圖表表示。
趨勢分析法
所謂趨勢分析法,是指通過對某一個或幾個數據在一定階段的變化情況進行分析,從而發現該數據所代表事物的發展趨勢和規律,并可進一步分析形成這種趨勢的原因,為企業領導決策提供依據和參考。趨勢分析法實際上是一種歷史研究的方法,在企業數據分析的編寫中,主要用來表示企業某一方面或某些方面的工作在一定時期內的發展趨勢和規律。其特點是對某一時期的某一數據進行持續性考察,進而得出趨勢性的結論。
一般說來,對數據進行趨勢分析的結果不外乎以下四種情況:
一是某項數據的變化呈逐年加大的趨勢,稱為上升趨勢。比如某企業利潤額:2001年為150萬元、2002年173萬元、2003年220萬元、2004年360萬元、2005年500萬元。從對這組數據的分析中可以得出結論:該企業的利潤呈逐年上升的趨勢。
二是某項數據的變化呈逐年減小的趨勢,稱為下降趨勢。例某企業產品的市場占有率:2001年為30%、2002年24%、2003年15%、2004年9%、2005年6%。從對這組數據的分析中可以得出結論:該企業產品的市場占有率呈逐年下降的趨勢,說明該產品的市場競爭力正在下降,企業應該對該產品進行升級換代,或者開發生產新的產品。
三是某項數據或上升或下降,每年都有較大變化,稱為震蕩趨勢。比如某企業的經營成本:2001年為50萬元、2002年83萬元、2003年61萬元、2004年46萬元、2005年103萬元。從對這組數據的分析中可以得出結論:該企業每年的經營成本變化較大,呈震蕩趨勢,說明企業在控制經營成本方面還要進一步采取措施。
四是某項數據幾年來基本不變,或變化很小,稱為穩定趨勢。例如某企業的人均產值:2001年為60萬元、2002年63萬元、2003年61萬元、2004年62萬元、2005年63萬元。從對這組數據的分析中可以得出結論:該企業的人均產值每年變化不大,呈穩定趨勢。
為了更形象地看出數據在一定時期內的變化軌跡,對數據的趨勢分析一般可以用曲線圖表表示。
結構分析法
所謂結構分析法,就是通過分析數據的構成情況,即分析構成某一數據的各子數據的情況和權重,從而揭示構成某一事物的各方面因素在其中的作用大小和變化情況。結構分析法也是常用的企業數據分析方法,通過這一分析方法,有利于我們發現和把握事物的主要矛盾和矛盾的主要方面,對企業而言,可以據此確定工作重點或經營的主攻方向。
在實際工作中,當我們需要對企業的某一數據作深入分析時,常常需要用到結構分析法。例如我們分析某供電局利潤的結構情況:2007年,企業利潤為1000萬元,其中主業占80%、三產占20%。這就是結構分析的方法,從中我們就可以清楚地知道,主業和三產對企業利潤的貢獻比例。在這個基礎上,我們還可以作進一步的分析,在200萬元的三產利潤中:火電建設公司占35%、電力設計院占30%、電纜廠占15%、電表廠占10%、電桿廠占5%、賓館占5%。從而我們可以看出火電建設公司和電力設計院兩家對三產利潤的貢獻率達到了65%,是發展三產的主力軍。從供電局的角度而言,抓好三產工作,重點是要抓好火電建設公司和電力設計院的工作。
為了直觀地反映某一數據的構成情況,結構分析法一般采用圓餅圖表來表示分析的結果。
綜合分析法
在編寫企業數據分析時,往往不是單一地使用一種數據分析方法,為了使數據分析更透徹、更深入,更多時候我們都需要采用綜合分析的方法。所謂綜合分析法,就是將以上兩種或兩種以上的分析方法結合起來使用,從而多角度、多層次地分析揭示數據的變化、趨勢和結構情況,以增加數據分析的深度。
綜合分析法在具體應用中,有以下幾種情況:
一是對比分析與趨勢分析相結合的方法。就是通過對兩個或兩組以上的數據在一定階段的變化情況進行比較分析,從而發現數據所代表事物的發展趨勢、差別和關系,并可進一步分析原因,為企業領導決策提供依據和參考。比如,我們可以使用這一方法來分析一定階段企業利潤和成本的變化和相互關系。再如,我們將“十五”期間本企業的利潤指標與其他企業的利潤指標進行比較分析,所應用的也就是對比分析與趨勢分析相結合的方法。
二是對比分析與結構分析相結合的方法。就是對兩個或兩組以上的數據的構成情況進行分析比較,從而可以看出構成這兩個或兩組以上的數據的各種因素的差異性,以此剖析產生這種差異的原因,并提出相應的對策措施。比如,2006年,A供電局利潤500萬元,B供電局利潤700萬元。如果只采取對比分析的方法,我們獲得的結論就是:“B供電局利潤比A供電局多200萬元”。結合結構分析:A供電局利潤500萬元中,主業為450萬元,三產為50萬元;B供電局利潤700萬元中,主業為560萬元,三產為140萬元。由此看出,A、B供電局在主業利潤差距并不大,差距主要在三產上。因此,發展三產應成為A供電局利潤增長的主要著力點。
三是趨勢分析與結構分析相結合的方法。就是通過對構成某一數據的子數據在一定階段的變化情況進行分析,從而揭示構成某一事物的各方面因素在其中的作用大小和變化趨勢。比如,我們分析某企業一定階段銷售額及各種產品銷售額的構成和變化情況,就可以使用這一方法。這樣的分析既可以了解銷售額的變化趨勢,也可以全面掌握各種產品在銷售額中的權重比例和變化趨勢,從而知道哪些產品需要擴大生產,哪些產品需要減產或停產,什么時候需要開發新的產品。
[關鍵詞]財政收入;GDP;面板數據
中圖分類號:F01 文獻標識碼:A 文章編號:1006-0278(2013)02-024-01
在計量經濟學中,我們一般應用的最多的數據分析是截面數據回歸分析和時間序列分析,但截面數據分析和時間序列分析都有著一定的局限性。在實際經濟研究當中,截面數據回歸分析會遺漏掉數據的時間序列特征,例如在分析某年中國各省的GDP增長數據時,單純的截面數據回歸分析無法找出各省GDP隨時間變化的特征,使得分析結果沒有深度。而如果只用時間序列分析,則會遺漏掉不同截面間的聯系與區別,例如在分析中國單個省市的GDP隨時間增長的數據時,無法找出各個省市之間經濟增長的聯系與區別,因而同樣無法滿足我們的需要。而面板數據,是一種既包括了時間序列數據,也包括了相關截面數據的復合數據,是近年來用得較多的一種數據類型。
下面我們將基于2000-2009年中國各省GDP和財政收入的面板數據的實例來詳細闡述面板數據的分析方法。
一、GDP與財政收入關系的經濟學模型
財政收入是保證國家有效運轉的經濟基礎,在一國經濟建設中發揮著重要作用。隨著中國經濟發展速度的日益加快,財政收入不斷擴大,而擴大的財政收入又以政府支出來調節和推動國民經濟發展。正確認識財政收入與經濟增長之間的長期關系,把握財政收入與經濟增長之間的相互影響,發揮財政收入對經濟發展的調節和促進功能,對于完善財稅政策,深化財稅體制改革,實現財政與經濟之間的良性互動,具有重要的現實意義。文章就將從中國各省的面板數據出發研究,中國不同地域間財政收入和GDP之間的關系。
二、實證分析
(一)單位根檢驗
Eviews有兩種單位根檢驗方法,一種在相同根的假設下的檢驗,包括LLC、Breintung、Hadri。另一種則是在不同根下的假設前提下,包括IPS,ADF-Fisher和PP-Fisher5。檢驗結果表明所有檢驗都拒絕原假設,因此序列GDP和CZSR均為一個2階單整序列。
(二)協整檢驗
如果基于單位根檢驗的結果發現變量之間是同階單整的,那么我們可以進行協整檢驗。協整檢驗是考察變量間長期均衡關系的方法。所謂的協整是指若兩個或多個非平穩的變量序列,其某個線性組合后的序列呈平穩性。此時我們稱這些變量序列間有協整關系存在。
在最終的結果中,Pedroni方法中除了rho-Statistic、PP-Statistic項目外都拒絕GDP和CZSR不存在協整關系的原假設,同樣Kao和Johansen檢驗方法也都拒絕原假設,因此,上述檢驗結果表明,我國各省2000-20009年的GDP和財政收入面板數據間存在著協整關系。既然通過了協整檢驗,說明變量之間存在著長期穩定的均衡關系,其方程回歸殘差是平穩的,因此可以在此基礎上直接對進行回歸分析,此時假設方程的回歸結果是較精確的。
三、建立模型
混合模型:如果從時間上看,不同個體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那么就可以直接把面板數據混合在一起用普通最小二乘法(OLS)估計參數。
我們根據混合模型的回歸結果,得到財政收入和GDP之間的回歸方程為:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
顯然從模型的回歸結構來看,R2的值達到了0.81,有了比較好的回歸解釋力,同時,GDP的回歸系數為0.103224,表明各省的財政收入平均占到了國民收入的10.3%左右。
變系數模型:顯然,在中國各省之間由于處在不同的地區,因而擁有不同的區位優勢,那么各省的發展水平顯然就不一樣。正是由于這種不同的地方政策、管理水平、文化差異等會導致經濟變量間出現一些關聯性的變化,此時在進行模型回歸的時候,我們就有必要考慮變系數模型。
在回歸結果中,R2的值達到了0.97,比混合模型擁有更好的回歸解釋力,而在變系數模型回歸結果中,GDP的回歸系數大于0.5的只有、青海、寧夏三個省份,也就是說這三個省份的財政收入占到了GDP的50%以上,他們同處于經濟并不是很發達的西部地區,由此可以看出,處在經濟發達地區的財政收入占GDP的比重要低,而不發達地區則要高。
四、結論
通過以上的分析檢驗,我們發現針對于中國財政收入和GDP的面板數據,我們應建立起變系數模型,并通過模型分析,我們可以得出這樣的結論,中國各省間由于存在著地域經濟發展水平不同、管理水平不同以及國家的相關政策等諸多不同,造成了各省之間在財政收入以及國民收入上面存在著一定的差異。而回歸結果也告訴我們,我國西部地區的財政收入占GDP的比例要明顯高于東部地區,地區發展落后地區的財政收入占GDP的比例也要明顯高于東部地區。因此,這為我們改善我國落后地區的經濟發展提供了一定的新思路,就是對一地區的稅收征收可以適當放緩,而將GDP中以前政府占用的部分歸還于民眾和企業,因為,按照發達地區的經驗表明,財政收入所占比重過高,經濟發展的活力或者就不會很高,對于進一步刺激財政收入的增加也沒有任何幫助。因此,我們應該適度降低財政收入占GDP的比重,從而增加經濟活力,使西部地區以及落后地區及早的跟上東部發達地區的發展步伐,從而消除我國經濟發展的地域不平衡。
參考文獻:
[1]謝識予,朱洪鑫.高級計量經濟學[M].復旦大學出版社,2005.
[2]張曉峒.Eviews使用指南(第二版)[M].南開大學出版社,2004.
關鍵詞:大數據 大數據分析方法 情報研究 適用性
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2014)05-0013-07
Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies
Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.
Key words big data; big data analytics; intelligence studies; adaptability
大數據分析(Big Data Analytics,BDA)是以“深度的發現分析、引領行動”作為目標的工作[1-2],它包括由多個任務組成的高度重復執行的步驟[3-4]。BDA通常要集成多種分析技術與軟件工具,以便讓海量數據的處理及分析變得更加容易,從數據中提取有用信息并形成結論,用來驗證、指導及規范組織或個人的決策行動;BDA的執行過程一般包括問題需求及假設提出、數據獲取及記錄、信息抽取及清洗、數據整合及表示、選擇建模及分析方法、結果詮釋、評測結果有效性及監控等幾個階段。從以上BDA的定義及過程來看,BDA與情報學領域中的情報研究(也稱情報分析)在本質上是一致的,兩者至少在方法與技術(以下簡稱方法)上可以相互借鑒或補充。本文基于情報學的視角,關注哪些BDA方法可以為情報研究提供借鑒,并解決情報研究的相關問題。因此,本文首先概略總結BDA的方法體系,然后探討BDA方法在情報研究中的適用性。
1 大數據分析的方法分類
到目前為止,尚沒有公認的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認識。本文首先綜述現有的相關研究,并以此為基礎提出我們的分類體系。
1.1 相關研究
不同學者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數據視角的分類、面向流程視角的分類以及面向信息技術視角的分類。
(1)面向數據視角的BDA方法分類。這類研究主要是以BDA處理的對象“數據”作為分類依據,從數據的類型、數據量、數據能夠解決的問題、處理數據的方式等角度對BDA方法進行分類。
Power[5]依據分析需求將數值型數據的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數據及定量工具進行“回顧性數據分析”;②若要進行前瞻及預測分析,可采取歷史數據及仿真模型進行“預測性數據分析”;③若要觸發事件,可采取實時數據及定量工具進行“規范性數據分析”。美國國家研究委員會在2013年公布的《海量數據分析前沿》研究報告中提出了七種基本統計數據分析方法[6],包括:①基本統計(如一般統計及多維數分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數計算(Linear Algebraic Computations);⑤優化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數據匹配(如隱馬爾可夫模型等)。
針對非純粹的數值型數據,Li、Han[7]梳理了面向“時空數據”(Spatiotemporal Data)的BDA方法,通過對動態數據挖掘出主體的預測性,如運用物理工程領域的傅立葉變換(Fourier Transform)及自相關匹配(Autocorrelation)偵查某一時間區段的信號、發生的事件或生物基因中的周期性節律,也可運用時間序列方法預測地點位置的變化;魏順平[8]以教育領域為例,梳理了面向學生與學習環境的“學習分析方法”(Learning Analytics),此方法集成了內容分析、話語分析、社會網絡分析、統計分析、數據挖掘等多種方法,從中挖掘學習的各種語義關系,并回答“誰在學、學什么、怎么學、學的結果如何”等問題,為教學與優化學習提供參考。
Mohanty等人[3]從數據獲?。―ata Ingestion)角度,依照處理的數據量從小至大的順序,區分出八種分析方法:①流分析(Streaming Analytics),以預定模式及時處理數據流;②高速的數據采集(High Velocity Data Ingestion),不轉換任何格式,可稍晚處理; ③鏈結分析(Linkage Analysis),構建不同數據源的關系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數據集中尋找特定模式;⑤數據聚合(Data Mash-Ups),需要對數據屬性發展故事線或鏈接關系進行分析;⑥文本分析(Text Analytics),如觀點挖掘或社會網絡分析等;⑦時間序列分析(Time-Series Analysis),通過模式偵測及事件發生概率來處理時空數據;⑧數據辯論(Data Forensic),用于數據科學家探索大規模數據集。
Chen等人[9]認為,在商業智能分析發展的過程中,商業智能分析經歷了從處理結構化程度較高的數據、到處理網絡上半結構化數據、再到處理移動數據的發展,涵蓋了五類核心的分析方法:①數據分析,涉及數據倉儲、ETL、聯機分析及數據挖掘等分析技術,可應用在時間序列挖掘、網站挖掘、空間數據挖掘等;②文本分析,涉及信息檢索、查詢處理、相關反饋等分析技術,可應用在QA系統、觀點挖掘、多語義分析、可視化分析等;③網站分析,涉及信息檢索、網絡爬蟲、日志分析等分析技術,可應用在云計算、社會網絡分析、網站可視化等;④網絡分析,涉及信息計量、引用網絡、數學網絡模式等分析技術,可應用在鏈結分析、社區發現、社會影響力及擴散模式等;⑤移動分析,可應用在移動通訊服務、個性化分析、游戲營銷分析等。
(2)面向流程視角的BDA方法分類。這類研究主要是依據BDA的步驟和階段對BDA方法進行分類。
美國計算社區協會出版的《大數據的機會與挑戰》白皮書指出BDA是一個多階段任務循環執行過程[4],從整體看,其分析的過程包括了五個階段,每一個階段都包含該階段需要使用的方法:①數據獲取及記錄,從各種感知工具中獲取的數據通常與空間時空相關,需要及時分析技術處理數據并過濾無用數據;②信息抽取及清洗,從異構數據源抽取有用信息,并轉換為結構化的格式;③數據整合及表示,將數據結構與語義關系轉換為機器可讀取、自動解析的格式;④數據建模及分析,從數據中挖掘出潛在規律及知識,涉及可擴展的挖掘算法或知識發現等方法;⑤詮釋,為了讓用戶容易解讀分析結果,可視化分析技術變得十分重要。此外,嚴霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數據的關鍵技術,包括:遺傳算法、神經網絡、數據挖掘、回歸分析、分類、聚類、關聯規則、數據融合、機器學習、自然語言處理、情感分析、網絡分析、空間分析、時間序列分析等多種方法。
(3)面向信息技術視角的BDA方法分類。這類研究強調大數據技術本身涉及到的新型信息技術,將大數據處理架構、大數據計算模式、大數據系統等作為BDA方法分類的依據。
孟小峰、慈祥[11]著眼于大數據處理框架,梳理了數據抽取與集成、數據分析及數據解釋所使用的分析方法,在數據抽取與集成方面,可區分為基于物化(Materialization)或ETL的方法、基于聯邦數據庫或中間件的方法、基于數據流的方法以及基于搜索引擎的方法等四類;在數據分析方面,傳統的數據挖掘、機器學習或統計分析面臨數據規模、算法調整等困難,需進一步發展;在數據解釋方面,引入可視化技術或交互式的數據分析過程,有助于用戶理解分析結果。覃雄派等人[12]認為,非關系數據管理(如MapReduce)擴展了數據分析的多維視角,使數據分析的生態系統從“大量數據的移動”轉向“直接對數據進行分析”。
2012~2013年在印度召開了兩次BDA國際研討會[13-14],會上分別就BDA中的機器學習面臨數據規模與多維度問題、可擴展的機器學習算法(如隨機映射、隨機梯度下降等)、機器學習在MapReduce的應用、社交媒體數據挖掘(如話題檢測與跟蹤、地點推理、語義連接等)、高維數據降維分析(如主成分分析、因子分析、經典相關分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進行了探討。2013年IEEE計算機協會在美國召開大數據國際研討會,BDA結合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。
1.2 BDA方法的分類――面向層次的BDA方法框架
上述三種視角的BDA分類各有特點,都有一定的道理。從面向數據的視角來看,BDA方法正從統計(Statistics)轉向挖掘(Mining),并提升到發現(Discovery)和預測(Prediction)?;诹鞒痰腂DA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項分析任務時,需要綜合使用多種方法。從面向信息技術的BDA分類中可以看出,這種分類方式強調使用新技術對傳統數據處理方法進行改進和創新,同時更重視新型系統架構與分析方法的集成,例如,各種數據挖掘算法的MapReduce化,就是這方面的典型實例。
本文認為,如果綜合上述三種分類體系中體現的層次性,將可以更準確描述BDA方法。在此,本文提出一個面向層次的BDA分類框架,將BDA方法分為統計、挖掘、發現、預測及集成五個層次,并初步歸納出17種BDA相關方法(見表1)。
2 BDA方法在情報研究中的適用性探討
如前所述,BDA與情報研究在本質上有共同之處,BDA方法可為情報研究提供借鑒,因此,探討BDA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性[15]等因素,對本文所列舉的17種面向層次的BDA方法在情報研究中的適用性進行分析。
2.1 可直接移植的方法
可直接移植方法是指這些方法的原理、流程、算法等可以直接應用于情報研究,用來對情報研究的數據源(如科技文獻、網絡資源等)進行處理,解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向層次的BDA方法中,數據挖掘、文本挖掘、知識發現、觀點挖掘、話題演化分析、多元統計分析、時間序列分析、海量數據的基本統計方法、高維數據降維分析方法、多源數據融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報研究中已經有多年的應用歷史。
(1)數據挖掘與文本挖掘。數據挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發現技術,文本挖掘屬于基于計算機語言學及統計方法的發現技術,用來揭示文本中的詞與句法特征;數據挖掘以數據庫中的大量結構化的數據挖掘為基礎,用來揭示數據中潛在的、可能的數據模式及關聯規律[16]。在情報學領域的實踐應用中,數據挖掘多應用在圖書館自動化技術與服務方面,例如,館藏采購決策、個性化服務、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學專門分析方法對科技文獻內在知識挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內容這個問題,提出引文內容分析,先建立基于規則的引文內容抽取來識別引用句,再通過基于C-value多詞術語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻之間的語義關系。
(2)知識發現。情報研究中所說的知識發現,主要是指基于文獻的知識發現,例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎上,提出了“基于文獻的知識發現”,包括:基于相關文獻、基于非相關文獻及基于全文獻三種條件下的知識發現,完整揭示文獻的知識結構與演化情況。在網絡環境下,李楠、張學福[19]認為關聯數據的RDF數據模型、數據訪問機制、URIs及自描述數據等規范所形成的數據共享環境,為知識發現提供了新的研究潛力,包括知識發現的范圍被擴展成全球數據空間、高效率理解及處理數據間的語義關系等。簡言之,知識發現從不同數據源之間的復雜關系中獲得隱含的知識或規律,甚至可對未來進行預測。
(3)觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數據挖掘及文本挖掘的具體及深化應用。觀點挖掘主要有三種挖掘任務:情感分類、基于特征的觀點挖掘、比較語句和關系挖掘[20],例如,黃曉斌、趙超[21]通過對網絡輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態度及觀點,再通過關聯分析找出網絡輿情信息的各種關聯性。趙潔、溫潤[22]認為微博情感分析的關鍵是觀點句識別,并根據文本特征的差異性,提出了基于新詞擴充和特征選擇的觀點句識別方法,即先擴充情感詞典來提高分詞準確率,再結合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點,借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時間信息模擬該話題隨著時間推移所表現的受關注程度及關注點的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻中的話題(即主題詞),再計算話題的強度與內容演化,從而區分熱門與冷門話題及其歷年特征詞的演化趨勢。
(4)多元統計分析與時間序列分析。多元統計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法[25],前者研究客觀事物中多個變量(或多個因素)之間相互依賴的統計規律,后者則是基于隨機過程理論和數理統計學方法,研究動態數據序列的規律性。這兩種分析方法的一個重要特點在于能基于歷史數據的變化,評價事物現狀或預測事物未來的發展。
(5)海量數據的基本統計分析方法。海量數據的七種基本統計分析方法適用于情報研究的原因是,專家們普遍認為,在現有硬件技術條件下要開發一個海量數據分析系統的難度過高,且高性能計算領域也面臨許多困難,因而轉向尋找共通的基礎性計算方法來幫助運算[6],同時這些統計方法也經常應用于數據挖掘或文本挖掘。對情報研究來說,處理的數據量不及高性能計算領域的海量數據,因此可以容易地應用這些基本統計分析方法。盡管如此,隨著情報研究處理的文本量增加,包括文獻計量或信息計量方法在內的定量分析方法,仍然要經常借鑒基礎性的計算方法,并進行公式改進。
(6)高維數據降維分析方法。高維數據降維分析方法反映了海量的數值型數據在數據縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關分析、獨立成分分析、投影尋蹤等[26]。高維數據經常存在大量的弱相關內容或噪音,通過線性(如主成分分析、典型相關分析等)或非線性(如投影尋蹤、核方法等)映射可以將數據樣本從高維空間映射到低維空間,從而提高機器學習的效率[27-28]。情報研究在處理文本語料時,廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機器學習的效果產生很大影響,通過特征選擇(如特征頻率、互信息等)進行特征抽?。ㄈ鏟CA、LSI、NMF等),轉換成一個低維的特征集來提高訓練效果,是非常必要的[29]。
(7)多源數據融合方法。多源數據融合方法是解決大數據環境下異構數據整合而提出的方法,例如,為了解決不同研究階段產生的各類科學數據集成問題,白如江、冷伏海[30]認為解決關鍵在于中間件構建,例如,通過基于XML模型將異構數據源的元數據映射到全局視圖,解決了不同數據源的關系描述問題,并提供用戶可靈活訂制查詢規則;但基于XML模型只能提供語法層次的整合,為了提供數據在語義層次的整合,可通過基于語義模型對XML的對象進行分類,在對象模型的基礎上生成邏輯規則,揭示隱含在科學數據中的語義信息。此外,也可以通過基于物化或ETL方法、基于數據流方法或其他方法對異構數據源中的數據抽取出實體與關系,再進行數據集成或數據清洗[11]。多源數據融合方法是進入數據分析之前的重要任務,對情報研究來說,需要多種來源支持情報分析工作,包括同型異源信息、異質異構信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權等進行融合分析[31]。
2.2 調整后移植的方法
調整后移植的方法是指其在原本的領域已經成功應用,但由于該方法最早或成功應用的領域在任務需求、數據處理、分析過程有自身的特點,若移植到情報研究時,需要根據情報研究自身的特征進行調整。數據可用處理及分析方法、時空數據分析等兩種分析方法就屬于這類情況。
(1)數據可用處理及分析方法。大數據環境中容易產生許多劣質數據來降低數據可用性,為了提高數據可用性及數據質量,李建中及劉顯敏[32]梳理了數種數據可用性的相關方法,包括高質量數據獲取與整合、數據錯誤自動檢測與修復、弱可用數據處理與分析等,分別解決了大規模數據集預處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說,情報素材、產品形式及工作任務分解的質量控制是情報工作的核心[33],其中,情報素材的質量對后續的情報分析成敗存在著至關重要的作用,當數據或信息是錯誤或不完整時,提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質量控制取決于人,如果能引入數據可用處理及分析方法解決數據或信息源可能存在的不一致、不精確、遺漏、滯后或重復等問題,有助于提高情報分析素材的可用性與正確性。
(2)時空數據分析。時空數據分析是地球信息科學相關領域的研究熱點,其中最常使用“周期”(Periodic Behavior)分析,例如天氣預報、環境監控、地理信息系統、城市交通網絡管理等都是常見的應用實例[7]?,F有研究的多數做法是采取基于時間序列的方法進行周期建模,但建模過程容易出現對象可能沒有周期、時間點分布不一定呈現周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人[35]提出多粒度時間文本下的周期模式挖掘算法解決時態文本數據挖掘問題。對情報研究來說,時間是文本中一個重要的屬性,如文獻發表規律、輿情監控、科研人員的研究主題周期等。在原有數據基礎上增加時間維度進行長時段分析是多數研究的常見做法,但并沒有呈現出其中的周期性規律,特別是文本中的規律特征較難發現,如果能引入此類方法,將有助于找出情報演化的周期模式。
2.3 不適用的方法
考慮學科領域差異,本文認為 “翻譯生物信息學分析”及“學習分析方法”兩種專門研究方法不適合情報研究。
(1)翻譯生物信息學分析。翻譯生物信息學分析是生物信息學的專門分析方法,這種方法是依據特定目的整合多數據源及促進領域知識的有效利用,其結果可應用在生物醫學研究、產生支持醫療人員在治療點中的“可操作的決策”(Actionable Decision),同時能對人類與疾病的關聯關系提供更好的理解。生物信息學為了找出更多基因與疾病的關系,通過翻譯生物信息學分析,可以將分析方法與工具開發從系統層面橫跨到分子、個人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉向新基因或遺傳性狀組合與預測研究[36]。從分析方法的操作過程來說,考慮到數據源的特殊性(如DNA編碼數據、蛋白質結構等)、分析視角、工具構建及使用等因素,并不符合情報學的學科研究特色。
(2)學習分析方法。學習分析方法是搜集、分析及評測學習者及其學習語境的分析方法,目的在于理解與優化學習及其學習環境[8]。從UNESCO IITE機構在2012年11月出版的學習分析方法政策簡報可知,學習分析方法的數據分析功能是基于數據挖掘從而開展相關分析內容,包括行為分析、學習資源瀏覽分析、各種關聯分析與影響因素分析等。雖然數據挖掘是情報研究的常見方法,但學習分析方法的結果意義在于解釋學習者的學習語境,為教師或管理者提供決策支持,從而改善學習者的學習習慣及促進學習效果。由于這種方法有其特定的含義和應用環境,離開了學習語境,方法的內涵和外延可能就會產生變化,因此,難以移植到情報研究。
2.4 需要繼續關注的方法
基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務智能分析,是近年研究探討較多的方法,但目前尚未形成一個成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續發展中,本身也存在不斷的改進空間,它們與各種分析方法的集成缺乏公認的標準和規范,同樣地,對于關注圖像與事物之間關聯的圖模型分析與挖掘也尚沒有發展出固定的技術,又例如,商務智能分析被定義為由數據倉庫、ETL、聯機分析、數據挖掘、客戶關系管理、知識管理等多種技術融合的一組系統,通過BI系統管理組織內部及個人相關的商業數據、專家信息及知識,涉及數據的融合、取用及分析等方法與工具[37-38],目前也沒有標準化的體系架構。
因此,本文還無法明確回答上述三種方法將如何應用于情報研究、在應用過程中需要做哪些調整、這些方法與現有的情報研究方法的關系如何等相關問題,但可以肯定的是,這些方法對未來的情報研究具有借鑒價值,例如,一旦情報研究的處理對象(即數據)積累到了一定程度,成為傳統關系數據庫處理不了的大數據,那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補充情報研究在圖像分析的不足,而商務智能分析可理解為一套集成系統,可應用在情報機構的知識庫或機構典藏,找出組織的知識缺口等方面。
3 結語
大數據時代就是一個數據分析的時代,學界和業界提出了很多大數據分析的方法與技術,這些方法與技術對情報研究產生了積極的借鑒作用,本文總結了大數據分析的方法,提出面向層次的BDA方法框架,歸納總結了其中的17種BDA方法,并從可直接移植、將調整后移植、不適用于情報研究以及需要繼續關注等四個方面對這些方法在情報研究中的適用性進行了分析,以期為情報研究借鑒或移植BDA相關方法提供參考,促進情報研究的理論與實踐發展。
參考文獻:
[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.
[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.
[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.
[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.
[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.
[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.
[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.
[8]魏順平. 學習分析技術:挖掘大數據時代下教育數據的價值[J]. 現代教育技術,2013, 23(2): 5-11.
[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.
[10]嚴霄鳳,張德馨. 大數據研究[J].計算機技術與發展, 2013, 23(4): 168-172.
[11]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013, 50(1): 146-169.
[12]覃雄派,王會舉,杜小勇,等. 大數據分析――RDBMS與MapReduce的競爭與共生[J].軟件學報,2012, 23(1): 32-45.
[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.
[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.
[15]王煉,武夷山. 方法移植對科學計量學研究的方法論啟示[J]. 科學學研究,2006, 24(4): 503-507.
[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.
[17]祝清松,冷伏海. 基于引文內容分析的高被引論文主題識別研究[J]. 中國圖書館學報,2014,(1):39-49.
[18]張樹良,冷伏海. 基于文獻的知識發現的應用進展研究[J]. 情報學報,2006, 25(6): 700-712.
[19]李楠,張學福. 基于關聯數據的知識發現應用體系研究[J]. 圖書情報工作,2013,(6):127-133.
[20]王輝,王暉昱,左萬利. 觀點挖掘綜述[J]. 計算機應用研究,2009,26(1):25-29.
[21]黃曉斌,趙超. 文本挖掘在網絡輿情信息分析中的應用[J]. 情報科學,2009:(1): 94-99.
[22]趙潔,溫潤. 基于新詞擴充和特征選擇的微博觀點句識別方法[J]. 情報學報,2013,32(9): 945-951.
[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學報,2010, 24(6): 43-49.
[24]賀亮,李芳. 科技文獻話題演化研究[J]. 現代圖書情報技術,2012,(4): 61-67.
[25]查先進.信息分析[M].武漢:武漢大學出版社,2011.
[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.
[27]胡潔. 高維數據特征降維研究綜述[J]. 計算機應用研究,2008,(9): 2601-2606.
[28]吳曉婷,閆德勤. 數據降維方法分析與研究[J]. 計算機應用研究,2009,(8):2832-2835.
[29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報學報,2005,24(6): 690-695.
[30]白如江,冷伏海. “大數據”時代科學數據整合研究[J]. 情報理論與實踐,2014, 37(1): 94-99.
[31]化柏林. 多源信息融合方法研究[J]. 情報理論與實踐,2013,(11): 16-19.
[32]李建中,劉顯敏. 大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(6):1147-1162.
[33]王延飛,王林蘭. 論情報研究質量[J].圖書情報工作,2010,54(10):35-39.
[34]王閱,高學東,武森,等. 時間序列周期模式挖掘的周期檢測方法[J]. 計算機工程,2009, 35(22): 32-34.
[35]孟志青,樓婷淵,胡強.多粒度時間文本數據的周期模式挖掘算法[J]. 計算機科學,2013,(S2): 251-254.
[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.
[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.
【關鍵詞】教師 大數據 數學模型 matlab 最小二乘法
【中圖分類號】G64 【文獻標識碼】A 【文章編號】2095-3089(2015)06-0155-02
大數據,或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產[2]。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對那些含有意義的數據進行專業化處理。本文將以東北地區數學專業教師大數據為基礎,通過“加工”實現數據的“增值”,使其為決策與預測服務。
一、東北地區數學專業教師大數據來源及準備
通過查閱資料與調查,收集到東北三省各高校數學教師相關大數據,包括教師教齡(?S年)、收入(?S元)、稅收(?S元)和職業病情況等方面的實際數據。由于得到的數據信息量大,輕重各異,所以首先需要進行數據預處理,即清除異常數據、錯誤糾正、格式標準化等,再通過數據挖掘技術,利用一系列相關算法和數據處理技術從大量的數據中提取人們所需要的重要信息,也就是上面所提到的實現信息的“增值”,同時大大提高數據處理效率,下面具體介紹本項目所采用的模型和計算方法。
二、東北地區數學專業教師大數據分析與結果
收集并處理好教師教齡、收入、稅收和職業病情況等方面的數據后,本文主要針對三個方面進行了詳細的分析:
1.教師收入隨年份的變化
(1)數據范圍:1994年-2014年東三省各高校數學教師收入(單位:元);
(2)計算條件:matlab軟件,最小二乘回歸分析,高性能計算工作站;
(3)求解過程:年份作為自變量x,收入為因變量y,從總體上看,二者統計關系大致符合一元線性的正態誤差模型[3],即對給定xi的有最小二乘一元線性回歸公式yi=b0+b1xi+εi,其中:
b■=■, ■=■■x■b0=■-b■■, ■ =■■y■
其中εi是由變量可能的內在隨機性、未知影響因素等隨機擾動造成的誤差??傊?,它可看成是眾多細小影響因素的綜合代表。最后,由Matlab提供polyfit函數實現回歸函數擬合[4];
(4)結果分析:計算結果表明,隨著年份的增加,教師收入也在不斷增加。估計的因變量的系數b1約為191,也就是說,每過一年,教師收入大致可增加近191元。
2.教師職業病情況與教齡的關系
(1)數據范圍:1994年―2014年東三省各高校數學教師教齡(單位:年)、職業病情況;
(2)結果分析:首先利用matlab軟件,以橫軸為某年東三省數學教師教齡,縱軸反映相應教齡的平均職業病情況(為方便,規定越接近縱軸正方向,職業病越嚴重)利用matlab軟件繪制圖形[5],發現教師教齡越長,職業病也愈加嚴重。每一年的教師職業病情況均可繪制一張圖表,通過將這11張圖表的最高值(即每一年職業病的最高值)做比較,發現其趨勢是先逐年下降,最后趨于穩定。
3.對教師專業發展階段的研究
(1)數據范圍:2014年東三省各高校數學教師收入、教齡、稅收和職業病大數據;
(2)計算條件:IBM處理器、大數據挖掘分類算法;
(3)求解過程:用神經網絡研究方法(即模擬生物上神經元工作的方法)。圖中每個橢圓形節點接受輸入數據,將數據處理后輸出,輸入層節點接受教師信息的輸入,然后將數據傳遞給隱藏層,隱藏層將數據傳給輸出層,輸出層輸出教師專業發展處于哪一專業成熟階段;
(4)結果分析:若將教師專業成熟過程分為三個階段:形成期、發展期和成熟期。那么利用IBM處理器和以上算法,在所調查的教師中,約70%處于發展時期,是其基本適應教育教學工作的時期;約20%處于形成期,是形成良好心理素質和正確教育思想的關鍵時期;約10%處于成熟期,是掌握教學主動權,成為學校教學骨干的時期;
(5)研究意義:研究東三省高校數學教師專業發展成熟階段,可以基本掌握教師資源結構,從而能夠遵循不同發展階段的不同特征、觀念、心理、發展需求,制定相應教研活動、政策和制度,促進教師全面持續發展[6]。
三、結果討論
1.數據呈現以上結果的原因
(1)隨著國家科教興國戰略的深入實施,教師的工資和待遇將被逐步納入國家工作人員統一管理,教師的收入將得到很大的提高。另一方面,數學能力的培養是學習各專業、走入各行業的基礎,國家將加大數學知識的教育力度,進而數學專業教師所付出的辛苦也更加不可小覷,綜合以上幾個重要原因,教師收入隨年份增加而增加也是符合經濟理論的。
(2)教齡越長,職業病也越嚴重的依存關系,我們容易理解。但隨著時間的推移,職業病的嚴重性呈現下降趨勢正是反映了我國科技的革新:環境的改變、教學設備和教學技術的更新使得教師的課堂教學更加高效和輕松便捷,如多媒體、電子白板使得課堂不再“塵土飛揚”。
(3)在對教師專業發展階段的研究中,處于專業發展時期的教師所占比例最高,達到近70%。實際上,他們多數處于青壯年的人生階段,是社會的中堅力量,又曾在高等教育多樣化與綜合化的背景下受到過良好的教育,并具有較豐富的教學經驗和緊跟新時代的創新思想,自然在專業發展的角度也占有較大比例。
2.合理的相關預測
大數據最有價值的特點就是其“預見性”。上述數值結果表明,在經濟平穩發展和社會穩定的前提下,東三省數學專業教師的收入在未來的幾十年依舊處于增長趨勢,教師職業病總體減輕,專業發展越來越成熟,使得教師隊伍整體素質越來越高,而未來教師的考核獎勵制度也會變得更加嚴格和全面。
3.建議
(1)無論是對教師行業還是其他行業感興趣,都要關注其變化,分析其形勢及趨勢,以便對此行業的認知更加科學合理。
(2)本文采用的大數據處理所用模型和方法,可以進一步推廣到其它相關領域,使之成為研究大數據的更通用的工具。
本文利用matlab軟件、最小二乘法模型及IBM處理器分析了東北地區數學專業教師大數據,得出的結果對于掌握該地區數學教師基本情況并預測其發展趨勢有著重要的作用,還為熱心同類問題的研究者提供高效的方法和技術。當我們不能有效處理所獲取的大數據,它們就是一些平凡的數字和符號。如果我們能夠很好地駕馭大數據,它們必定會為我們帶來諸多的方便。
最小二乘法模型在處理大數據時有一定的優勢[7],統計分析,神經網絡算法和遺傳算法都是處理大數據的有效方法,如果能將這些方法有機的結合起來,將更能獲得許多滿意的數值分析結果。當大數據超過計算條件的時空允許時,不僅耗時費力,甚至使得計算成為不可能,通常需要采用并行算法等高效計算手段。在高性能計算方面,我們并沒有用到并行算法,如果能利用并行算法,所處理的數值結果容量會更大更有參考價值。
參考文獻:
[1]蔡鎖章主編.數學建模:原理與方法.北京:海洋出版社,2000.
[2]維克托邁爾舍恩伯格.大數據時代.浙江:浙江人民出版社,2012.
[3]吳翊,吳孟達,成禮智編著.數學建模的理論與實踐.長沙:國防科技大學出版社,1999.
[4]張德豐編著.Matlab數值分析與仿真案例.北京:清華大學出版社,2011.10(21世紀高等學校規劃教材計算機應用)IBSN 978―7―302―26254―1.
[5]楊德平等編著.Matlab基礎教程.北京:機械工業出版社,2013.221世紀高等院校計算機輔助設計規劃教材 ISBN 978―7―111―41023―2.
關鍵詞:數據分析;觀念;統計
數據分析是統計的核心,數據分析觀念是統計思想的重要組成部分。在小學數學統計教學中,教師要培養和發展學生的數據分析觀念,以有效解決生活中的一些實際問題。教學中主要從以下三個方面進行實踐:
一、激發興趣,引導學生主動參與數據分析
數據分析面對的是枯燥無味的數據,這就要想辦法激發學生學習動機。一是要選擇合適的素材。選擇與學生日常生活密切相關的活動或內容。如從學生說一說喜歡穿什么顏色的衣服,喜歡看什么樣的動畫片入手。引導學生粗略統計喜歡的幾種顏色和喜歡看的動畫片,讓學生做成簡單的統計表。二是要讓學生感受到數據統計與分析的現實意義。在生活中選取一些話題展開有關數據分析,讓學生喜歡分析并樂于分析。比如讓學生記錄自己家庭每天的生活開銷,引導學生在搜集、整理、分析數據的過程中,能夠對家庭的每周開銷及物價變化做出合理的分析,從而讓學生對統計感興趣。
二、啟發思考,引導學生掌握數據分析方法
數據分析是一個復雜的思維過程。在教學中要鼓勵學生從多角度分析數據,掌握數據分析的方法,通過數據的統計與分析,提取信息,選擇方法,培養思維的靈活性和多向性。如,在教學中出示“某商場一年12個月A、B型兩種彩電銷售情況折線統計圖”,統計圖上呈現了兩種彩電的銷售情況和月份,然后讓學生完成作業,根據銷售情況說說隨著月份的變化兩種彩電的銷售情況有何變化,A型彩電銷售量為什么呈下降趨勢?為什么在1~3月份銷售量最多?B型彩電為什么在10~12月份銷售量最多且呈現上升趨勢?如果你是經銷商將會有什么打算?讓學生統計圖表中獲取信息并聯系生活實際進行思考,很快就能得出答案:B型彩電得到了消費者的認可,經銷商要及時調整進貨源頭,多進B型彩電就會獲得更多的利潤。
三、加強訓練,培養學生形成數據分析能力
數據分析能力培養絕不能只靠課堂教學來完成,教學時,教師要精心設計多樣性實踐操練活動,注重分類與比較能力訓練,將課內外有機結合起來,激發學生參與統計與分析的興趣,指導學生通過調查、科學實驗、查閱資料等,把所學的知識進行系統化的收集、整理、分類、描述和分析,讓學生形成數據分析觀念和數據分析能力。
【關鍵詞】:數據分析;數據管理
數據管理:收集及管理企業內所有類型的數據。包括設計開發的數模圖紙,零件清單,數據的審批過程、歷史記錄等。有目的記錄收集數據,是確保數據分析過程有效的基礎。
1 定義
數據分析:數據分析的目的是把隱沒在一大批看來雜亂無章的數據中的信息集中、萃取和提煉出來,以找出所研究對象的內在規律。在實用中,數據分析可幫助人們作出判斷,以便采取適當行動。數據分析是組織有目的地收集數據、分析數據,使之成為信息的過程。在產品的整個壽命周期,包括從市場調研到售后服務和最終處置的各個過程都需要適當運用數據分析過程,以提升有效性。
2 現狀
隨著時代的進步,企業已經從傳統的人工管理及文件系統管理,發展到數據庫管理的階段。數據庫管理的基礎提供了數據的完整性,正確性。并且企業已經對數據的安全性有所管理,包括權限控制,文件加密系統的等。數據分析的的工作目前仍比較初級的階段,當數據分析的水平跟上數據管理發展的水平時,將會大大加快企業發展和進步。
3 意義
數據分析是判斷、趨勢、多角度發現問題的成熟解決方案,傳統企業的大部分業務情況,通過業務經驗,有了數據分析即可改善業務。數據的核心是發現價值,而駕馭數據的核心是分析。通過對企業數據的梳理分析,結合業務的理解,找出一些突出問題的關鍵點,預測未來的趨勢,幫助企業更好地進行決策。
4 數據分析的過程
4.1 收集數據
收集數據是數據分析的來源,同時也是數據管理的日常工作。數據收集分為人工輸入以及數據庫系統的輸入。這里提到的人工輸入可以是人為判斷評價的記錄,例如:個人評價/評論/反饋;數據系統的輸入可以是企業內部擁有的軟件數據庫收集的信息,例如:BOM,PDM,PORTAL等。
4.2數據預處理
數據預處理即是去除不必要的信息及明顯的錯誤信息并進行數據轉換。不同的數據來源通常會產生不同的格式,這里我們普遍常用的數據分析工具是EXCEL,所以需要將輸入的不同格式轉化為EXCEL可以方便讀取的形式。
4.3 數據分析的方法
數據分析的方法有很多種。這里只是提出比較常用的一些經驗方法。
聚類分析、預測建模、關聯分析、異常檢測。
4.3.1 聚類分析
發現緊密相關的觀測值族群,使得同組的相似性越大,不同組的差別越大,已達到較好的聚類效果。根據聚類得到的不同觀測值組,做出決策樹,為業務部門提供決策支持。
聚類分析簡單、直觀。
聚類分析主要應用于探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續的分析;不管實際數據中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解;聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產生實質性的影響。研究者在使用聚類分析時應特別注意可能影響結果的各個因素。異常值和特殊的變量對聚類有較大影響。
聚類分析是細分產品市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。在企業內部數據管理中可以用于用戶調研、反饋,進而更好地為企業員工提供適合的服務及幫助。
4.3.2 預測建模
以自變量函數的方式為目標建立模型,預測離散的目標變量;預測連續的目標變量。
根據CAD軟件的應用狀態判斷下一年的需求:
根據圖標分析可以預測,明年的軟件需求應該和今年差不多,CAD軟件保證在400左右基本可以滿足需求,CAD軟件保證在50左右可以滿足需求
4.3.3 關聯分析
關聯分析就是從大量數據中發現項集之間有趣的關聯和相關聯系。關聯分析的一個典型例子是購物籃分析。該過程通過發現顧客放人其購物籃中的不同商品之間的聯系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基于購買模式的顧客劃分。關聯分析是一種簡單、實用的分析技術,就是發現存在于大量數據集中的關聯性或相關性,從而描述了一個事物中某些屬性同時出現的規律和模式。
例如在零件的數據管理過程中可能發現一些關聯零件的規律。
例如:從VDS中找出配置選項的關聯,例如配置了前排乘客安全氣囊,必定會配置駕駛員安全氣囊。
4.3.4 異常分析
顧名思義,當一些較為穩定的數據,發生異?;蛘咭唤M數據中個別數據異于其他數據時,發現它們,并從中找到原因或者規律。
或者當發現某部門指標長期低于平均值,則需要關注其產生原因,是不是因為開發人員不足造成
4.3.5 對比分析
根據類似數據進行對比分析。在數據管理的工作中找到類似數據,嘗試對其對比分析,找出差異點。
4.4 數據分析經驗數據庫的創建
由于企業的數據分析方法是初步形成的,需要累積和實踐驗證。在找到合適的數據分析方法時,可以將有效的數據分析成果或者過程記錄存檔,方便后人的學習和改進。企業的數據管理和數據分析是密不可分的,鼓勵更多的人參與數據分析將會提高數據分析經驗庫的含金量。
5 結語
數據分析在數據管理工作中的應用將直接支持整車研發企業的開發工作,以及產品數據的管理水平的提高。數據分析經驗數據庫的創建培養和累積足夠的。在將面對大數據盛行的時代,企業內部的數據累積是必不可少的,數據分析有助于提高企業管理和運營系統運行的效率。數據的管理與交流往往是檢驗公司管理決策和經營策略是否正常運作的標志。所以企業管理中可以利用數據分析發現一些問題,及時跟進改善,從而提高公司整體的運營效率,為公司更快更好的發展打下良好基礎。
參考文獻
[1] 覃雄派, 大數據分析――RDBMS與MapReduce的競爭與共生,軟件學報,2012(1)
關鍵詞:數據分析;統計學;課程體系;大數據
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2014)49-0248-02
隨著社交網絡的逐漸成熟,移動帶寬迅速提升,云計算、互聯網應用的豐富,更多的傳感設備、移動終端接入到網絡,由此產生的數據及增長速度將比歷史上的任何時期都要多,都要快?!按髷祿睍r代已經來臨,它對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。大數據是指海量數據集,其來源包括動漫數據、企業IT應用帶來的數據、博客、點擊流數據、社交媒體、機器和傳感數據等。它是互聯網、電子商務的又一次重大革命,對數據處理、數據挖掘、數據分析提出了新的挑戰。如今互聯網行業、電子商務行業中的數據應用及分析已經相當普遍,為了應對大數據時代的要求,同時要具備較強的統計學功底和嫻熟的計算機軟件運用能力,而今完全具備這些能力的數據分析專業人才是極其匱乏的。數據分析師便應運而生,不僅互聯網行業、電子商務行業需要大量的數據分析師,近年來項目數據分析事務所不斷涌現,而項目數據分析師因其專業技能及量化的數據分析為客戶以及所在單位控制決策風險、保證利益最大化而備受各界青睞,以待遇優厚和地位尊崇而聞名國際,也被視為我國21世紀的黃金職業?!度A商報》將項目數據分析師納入了新七十二行,《HR管理世界》將項目數據分析師評為七大賺錢職業。本文就如何在統計學專業開展數據分析方向進行了闡述,首先論述了數據分析的重要意義,其次討論了數據分析方向的課程構建,最后分析了如何加強理論與實踐環節的結合。
一、數據分析的重要意義
大數據預測美國總統:美國時代周刊報道稱,數據驅動的競選決策才是奧巴馬競選獲勝的關鍵。數據分析團隊在籌集競選經費、鎖定目標選民、督促選民投票等各個環節的決策中都發揮了重要作用。這意味著華盛頓競選專家的作用極具下降,能夠分析大數據的量化分析家和程序員的地位卻大幅提升。如今從事專業數據分析工作的企業如項目數據分析師事務所、數據挖掘公司等都應市場需求而大力發展,并且受到風險投資的青睞。如美國社交數據挖掘公司Datasift于2012年宣布,獲得1500萬美元風險投資。2013年,DataSift成為Twitter的“認證合作伙伴”,主要負責海量微博社交數據分析。這是該公司今年第二筆融資,五月份其曾融資720萬美元。又如面向開發者的大數據應用軟件平臺服務提供商Continuity最近獲得1000萬美元的融資,目前融資總額已經達到1250萬美元。
數據分析的應用無處不在,那什么是數據分析呢?數據分析就是用適當的統計方法對數據進行分析,以求最大化地開發數據的功能,發揮數據的作用。是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。數據分析技術不僅能通過對真實數據的分析去發現問題,還能夠通過經濟學原理建立數學模型,對投資或其他決策是否可行進行分析,預測未來的收益及風險情況,為做出科學合理的決策提供依據。在提高工作效率的基礎上,也增強企業管理的科學性。無論是在國家政府部門,還是企事業單位中,數據分析工作都是進行決策和做出工作決定之前至關重要的一個環節。因此,針對項目可行性、風險承載力、投資回報率以及相關經濟效益指標等方面的分析工作顯得格外重要。在這個工作過程中,專業的數據分析人員扮演著無比重要的角色,數據分析成果的質量高低直接決定著項目投資、企業經營決策計劃最終的方向。所以,各個行業對數據分析人員的需求之多是不言而喻的。傳統行業,如政府機構:一類是計委、經委、統計局等一些經濟綜合管理部門所設有的調研處、研究室和情報所。第二類是商業、糧食、物資、銀行等經濟主管業務部門會設有信息中心或調研室,從本系統、本部門的業務出發進行專業性調研,提供支持本部門的市場信息。而伴隨著數據分析應用的擴大,其在新興行業中也得到了發展,如計算機軟硬件及IT行業、電子商務與網絡游戲、金融保險、消費品、咨詢業與廣告媒體、大型設備與重工業以及房地產行業等對數據分析師的需求量很大,尤其是電子商務,由于利用互聯網,能夠比傳統零售業具有更好的數據收集和管理能力,能積累海量的數據,因此更看重從海量數據中挖掘出用戶偏好和市場機會。研究機構:比如市場研究公司、咨詢公司、證券公司、研究院。自主創業:取得注冊項目數據分析師(CPDA)資格證可以自主創建或就業于項目數據分析師事務所等。所以,數據分析的行業應用是極其廣泛的,并且隨著大數據時代的到來,數據分析尤其是數據挖掘將借助互聯網的發展,逐步形成人們依靠的重點,并可能成為未來發展與競爭的重點之一。由此我們可以看到數據分析師的就業前景是非常廣泛而樂觀的,無論是數學專業、統計專業,還是計算機專業的學生,都可以通過系統的學習數據分析課程來適應對數據分析人才的要求。
二、課程體系構建
1.主干課程。主干課程包含高代、數分、概率論、數理統計、多元統計分析、時間序列分析、市場調查與分析、統計預測與決策、數據結構、C語言、數據分析、數據挖掘、大數據分析與展示。理論課程的學習可以使學生了解數據分析的基本內容,學會如何對已獲取的數據進行加工處理,如何對實際問題進行定量分析,以及如何解釋分析的結果。掌握幾種常用數據分析方法的統計思想及基本步驟,并具備一定的分析論證能力。
2.實驗課程。數據分析的操作離不開計算機。目前數據分析行業常用的一些統計軟件有SAS、SPSS和R軟件。SAS軟件是一個模塊化、集成化的大型應用統計系統。它的功能包括數據訪問、數據儲存及管理、應用開發、圖形處理、數據分析、報告編制、運籌學方法、計量經濟學與預測等。SPSS軟件是一個社會科學統計軟件包,是采用圖形菜單驅動界面的統計軟件,SPSS的基本功能包括數據管理、統計分析、圖表分析、輸出管理等。R軟件是一套完整的數據處理、計算和制圖軟件系統,包括:數據存儲和處理系統、完整連貫的統計分析工具、優秀的統計制圖功能、可操縱數據的輸入和輸入等功能。這三個軟件在數據分析中針對不同行業的需求有不同方向的應用。
3.專業課程。從數據分析的行業需求出發,好的數據分析人員不僅要有較強的數據分析能力,還要有該行業的背景及相關知識的儲備,這樣才能將數據分析與行業特性聯系起來,發揮數據分析的最大功能,即所謂的“因地制宜”。同時要兼顧學生的興趣與學習的聯系,需提供多領域的課程選擇,如:經濟學、金融學、保險學、管理學、會計學等。而在軟件學習方面也要拓寬渠道,除了實驗課程安排學習的軟件,學生可根據自身發展意向再多掌握一些軟件如:SQL數據庫,熟悉office常用功能,尤其熟練運用Word和PowerPoint、Excel圖表及數據分析等。同時還應該結合對數據分析師的要求設置一些相關課程:投資數據分析、市場調研與預測、預測技術分析、現金流量表編制、風險投資項目篩選、不確定性分析、編制數據分析報告等。
三、實踐環節
培養數據分析的專業型人才目的就是為了學以致用。數據分析本身就是為了從數據中發現問題、建立模型、預測收益風險企業決策進而做出合理正確的決策判斷。因此,學習了基本的知識和技能就要運用到實際操作中。學校可以和本地的數據分析事務所,或者大量需求數據分析人員的互聯網行業建立實訓基地,進行合作式教學,使得學生在實習的過程中能夠理論聯系實際,切身體會數據分析的商業操作體系,這樣就能夠促進學生有目的、有取舍地針對自身情況學習鉆研,繼而就能夠培養出適應經濟發展,滿足市場需求的應用型人才。
四、結語
在大數據時代到來之時,數據分析在互聯網中的應用將會空前廣泛,與此同時對數據分析師的需求也將會井噴,無論是在軍事、工業、企業還是在政治上,大數據分析都將會十分緊缺。因此,目前對數據分析師的培養刻不容緩。本文從分析數據分析行業發展及其重要意義、數據分析專業課程設置以及教學實踐環節方面對構建數據分析課程體系進行了探討。不僅從教學課程的內容上予以安排,而且更加注重引導學生自主學習,特別強調理論結合實踐的合作式教學。希望能夠結合行業需求合理地構建課程,培養出專門從事數據分析的項目數據分析師,從而能夠滿足市場需求和自身發展。
參考文獻:
[1]范金城.數據分析[M].科學出版社,2010.
[2]http:///jrt/120922/70953.shtml