時間:2022-05-21 11:09:17
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了一篇統計學數據分析論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
摘 要:隨著信息化時代的發展,數據的形式多樣化,數據結構具有復雜性特征。這標志著大數據時代的到來,這一時代的數據具有處理速度快、數據量大、樣本復雜但價值密度低的特點。大數據時代的到來,高校應對其產生新的認識,并根據實際狀況及時調整統計學專業的建設策略,使統計人才的培養能夠適應時代的需求。
關鍵詞:大數據時代;統計學;影響
隨著大數據時代的到來,各企業采用了新的策略,獲得了更多的利潤。對于統計專業來說,改變發展策略,使培養出來的專業人才能夠適應大數據背景的需求是其主要任務。目前,高校統計學專業逐漸認識到大數據時代綜合性人才培養的重要性,并對專業建設進行了相關改革。
一、大數據時代對統計學的影響
大數據時代的到來對現代統計專業的發展造成了新的沖擊,要確保培養出來的人才能夠起到應有的作用,首先要了解大數據時代對統計專業所造成的影響。
(一)大數據時代使數據結構和數據性質發生變化
網絡技術以及基于網絡技術的電子商務等新的數據記錄模式標志著大數據時代的到來。大數據時代,不再依賴于抽樣調查的記錄模式,網站瀏覽、視頻監控都將形成大量數據。傳統的數據結構甚至是數據性質發生了變化。大量的數據信息對于需求者來說,如何甄別其可用價值成為關鍵。傳統的數據可以二維表格顯示和整理。但大數據時代所產生的數據具有多樣化和復雜化特征,往往包含了大量的音頻、視頻、HTML等。這要求大數據的收集具有較強的目的性,才能實現其價值。
(二)大數據時代要求統計分析方法和統計思維更新
大數據時代的主要特征為數據多且復雜,數據分析要求分析者對總體進行分析。在這一背景下,參數統計不再具有意義,假設檢驗法也隨著總體分析而失去價值。數據的復雜化對傳統大數據統計思維造成了巨大的沖擊,要求統計者具有活躍的思維。只有對傳統數據的改變進行分析,并且樹立新的統計方法。
二、大數據時代下的統計學發展新策略
為適應大數據時代的需求,統計學專業的發展勢必要對傳統模式進行改革。目前,多數高校統計學專業已經認識到大數據對于其發展帶來的沖擊。為此,本文提出了以下策略,以及能夠幫助統計學取得更好發展。
(一)加強統計應用性教學
根據大數據時代數據的總體分析特征,數據分析人員應掌握全面的分析方法。在人才培養過程中,應致力于培養實踐分析能力,提高數據和資料收集能力,并且培養其強烈的數據價值觀,使其能夠從眾多數據中找到所需的。另外,對傳統模式進行改革,增加大數據統計內容,以適應時代的需求。基于大數據的結構特點,實施資料透視化教學,提高分析者對復雜數據的分析能力。
(二)培養大數據統計思維
在人才培養過程中,新的統計思維的培養具有重要意義,即強調數據分析實踐能力的提高。統計思維的培養有助于數據分析者對復雜的數據進行區分,從而整理有效信息。在大數據時代,不僅要以傳統的平均思維、動態思維和變異思維為基礎,還要注重基于整體分析的大數據思維。另外,還要培養數據分者的復雜性思維,以應對復雜的數據庫??傊?,大數據時代需要數據分析者具有全面的、創新性的思維。
(三)強化基礎性統計知識
統計學自身具有復雜性,其改變多且抽象?;A的統計知識是進一步掌握大數據分析思維的基礎,可見學習基礎性統計知識的重要性是不言而喻的。為此,應該采取深入淺出的方法,利用多媒體等方式使復雜的數據統計清晰化、簡單化。結合具體的案例使數據分析者正確認識統計概念、掌握統計原理和方法。此外大數據分析不再是一種專業,而是更傾向于一種技術,這要求我們將大數據分析與統計學以外的相關知識相互聯系。注重真實相關與偽相關的講解,強調商務智能的開發和分析。只有具有堅實的基礎,才能確保數據分析者大數據分析思維的養成,適應現代社會的需求。
(四)加強復合型人才培養
為適應大數據時代的需求,復合型人才的培養是關鍵。所謂復合型人才,是指其不但要具有專業的數據分析能力,還要相應的具備管理以及其從事專業的技術。大數據時代,高校應建立全面的人才培養模式,注重培養人才的數據分析能力、編程能力等,使其真正了解大數據,懂得如何利用大數據對其所處的行業起到積極作用才是關鍵。總之,大數據時代對綜合性人才具有更高的需求,大數據時代不僅培養的是一種能力,而且是一種思維,是對全新模式下的數據的分析和利用。高校作為人才培養的重要基地,其教學模式的改革、對大數據時代所需教學模式的認識是高校的主要任務。
三、總結
統計學是經濟學的基礎課程,傳統的統計人才培養具有定向性。而隨著大數據時代的到來,數據產生的形式多樣,且具有復雜性。大數據分析不僅是作為一種專業存在,而是應以一項必備的技術而存在。大數據時代,傳統的統計思維和統計方法發生了改變,統計人才培養方式的改革也就勢在必行。(作者單位:海南師范大學)
【摘要】大數據給統計學帶來了機遇、挑戰和緊迫感。本文描述大數據的環境,利用大數據的目的和大數據帶來的變革;介紹國內外有關大數據的研究動向;探討大數據包含的信息,大數據的預處理、抽樣和分析方法。
【關鍵詞】大數據 抽樣 數據分析方法論
當今時代,一方面人們在主動地獲取數據。各個科學領域都在大量地獲取數據,自然科學領域收集著從宏觀的天文數據到微觀的基因數據,經濟、金融和人文社會科學收集著大量的觀察和調查數據。另一方面人們在被動地囤積數據。隨著計算機互聯網、搜索引擎、電子商務、多種傳感器和多媒體技術的發展和廣泛使用,各種形式的數據如江河流水般地涌來。當今數據的獲取和規模發生了根本的變化,統計學面臨著新的機遇和挑戰,需要在方法論上有所突破。
一、大數據及其目的
狹義地講,大數據是一個大樣本和高維變量的數據集合。針對樣本大的問題,統計學可以采用抽樣減少樣本量,達到需要的精度。目前大數據的環境包括了:數據流環境:數據快速不斷涌來,現有存儲設備和計算能力難以應付這種洪水般的數據流;磁盤存儲環境:數據已不能完全存儲在內存中,需要硬盤存儲;分布存儲環境:數據分布存儲在多個計算機中;多線條環境:數據存儲在一個計算機中,多個處理器共享內存。
大數據的目的是將數據轉化為知識,探索數據的產生機制,進行預測和制定政策。把信息轉變為有用的知識還需漫長的時間?!邦A測”不同于“制定政策”。一個兒童的鞋子越大,可以預測他掌握的詞匯量越多;但是,制定政策強制他穿大鞋子并不能提高他的詞匯量。
二、大數據帶來的變革
大數據給我們的時代帶來了變革。目前,人們習慣于根據“研究問題”來驅動“收集數據”。今后,大數據到處可得,人們將會用“數據”驅動“研究問題”。就像我們出遠門前常常查詢目的地的天氣、交通和賓館那樣,未來人們在研究和決策前將會通過查詢數據做決定。目前已經有科學家開始使用軟件搜索和匯總已中的成果。大數據中包含有各種不同目的的數據集,綜合利用它們可以做出原來目的之外的意外成果。例如,將醫院病歷數據與信用卡消費數據結合,我們能發現食品與健康的相關關系,指導人們進行健康飲食。假若再加上手機和GPS等數據,還能隨時對人們進行體檢,指導健身,減少猝死,幫助醫生診斷疾病等,應用大數據可以設想的用途不計其數。
三、大數據的處理、抽樣與分析
(一)數據的預處理
大數據的預處理包括數據清洗、不完全數據填補、數據糾偏與矯正。利用隨機抽樣數據矯正雜亂的、非標準的數據源。統計機構的數據是經過嚴格抽樣設計獲取的,具有總體的代表性和系統誤差小的優勢,但是數據獲取和更新的周期長,盡管調查項目有代表性,但難以無所不包。而互聯網數據的獲取速度快、量大、項目繁細,但是難以避免數據獲取的偏倚性。將統計機構的數據作為金標準和框架對互聯網數據進行矯正,將互聯網數據作為補充資源對統計機構的數據進行實時更新,也許是解決問題的一個思路。
(二)大數據環境的抽樣
大數據的抽樣方法有待研究?!皹颖尽辈槐厥褂盟小皵祿保还苠佊卸啻?,只要充分攪勻,品嘗一小勺就知道其滋味。針對大數據流環境,需要探索從源源不斷的數據流中抽取足以滿足統計目的和精度的樣本。需要研究新的適應性、序貫性和動態的抽樣方法。根據已獲得的樣本逐步調整感興趣的調查項目和抽樣對象,使得最近頻繁出現的熱門數據,也是感興趣的數據進入樣本。建立數據流的緩沖區,記錄新發生數據的頻數,動態調整不在樣本中的數據進入樣本的概率。
(三)大數據的分析與整合
針對大數據的高維問題,需要研究降維和分解的方法。探討壓縮大數據的方法,直接對壓縮的數據核進行傳輸、運算和操作。除了常規的統計分析方法,包括高維矩陣、降維方法、變量選擇之外,需要研究大數據的實時分析、數據流算法。不用保存數據,僅掃描一遍數據的數據流算法,考慮計算機內存和外存的數據傳送問題、分布數據和并行計算的方法。如何無信息損失或無統計信息損失地分解大數據集,獨立并行地在分布計算機環境進行推斷,各個計算機的中間計算結果能相互聯系溝通,構造全局統計結果。研究多個數據資源的融合算法。研究利用數據流尋找模型變化時間點的動態變化模型。
在大數據環境,很多數據集不再有標識個體的關鍵字,傳統的關系數據庫連接方法不再適用,需要探討利用數據庫之間的重疊項目來結合不同的數據庫,利用變量間的條件獨立性整合多個不同變量集的數據為一個完整變量集的大數據庫的方法。探索不必經過整合多數據庫,直接利用局部數據進行推斷和各推斷結果傳播的方法。另一方面,利用統計性質無信息損失地分解和壓縮大數據。
四、結束語
一個新生事物的出現將必定導致傳統觀念和技術的革命。數碼照相機的出現導致傳統相片膠卷和影像業的已近消亡。如果大數據包含了所有父親和兒子的身高數據,只要計算給定的父親身高下所有兒子的平均身高就可以預測其兒子身高了。模型不再重要,當年統計學最得意的回歸預測方法將被淘汰。大數據的到來將對傳統的統計方法進行考驗。統計學會不會象科學哲學那樣,只佩戴著歷史的光環,而不再主導和引領人們分析和利用大數據資源。現在其他學科和行業涌入大數據的熱潮,如果統計學不抓緊參與的話,將面臨著被邊緣化的危險?,F今統計學的目標是通過獲取數據和分析數據發現真理(總體的參數和性質),統計方法和理論對數據有過高的要求。而大數據充滿了各種隨機的、非隨機的誤差和偏倚,不能滿足這些苛刻的要求。按照波普的科學劃界準則,只要我們能從大數據中提煉出具有可證偽的結論,那么這個結論還是科學的,可以用于知識積累。這些可證偽的大數據結論可作為進一步科學研究的假說,以數據驅動研究。我們在看到大數據給統計學帶來了機遇的同時,也應該看到現在的統計方法普遍只適用于全部數據放在單個計算機內存的環境,分布式大數據和數據流的環境給統計學帶來了挑戰。統計學家不應該固守傳統數據的環境,必須積極學習新生事物,適應新的大數據環境,擴展統計學的應用領域,創造出迎合大數據的新統計方法,“機遇”與“挑戰”并存。
[摘 要]以股票當中基本的股票價格計算數據著手,重點研究統計學在股票價格計算數據整理運算進程中有關的運用。全面地說明了如何計算股票價格的三種平均數和計算的公式;股票價格統計數據整理運算進程當中的取樣研究以及股票價格統計數據的四個計算方法;依次列出在各個國家之間具有比較高影響力的幾個股票價格統計數據在運算進程中統計學的有關運用。
[關鍵詞]統計學;股票的價格;股票的價格統計數據
隨著社會進步,股票已深入人們的生活當中,只有正確地對待股票與統計學之間的聯系,這樣能更全面利用統計學知識掌握股票交易市場的變動規律,從而促進個人與團體的利益一致性。
在平時常見的文章中我們能經常碰到的是統計學的取樣數據分析、回歸分析、標準差等在股票技術分析、投資收益、風險預測中的常見實際運用,在其實際運用中股票價格統計數據也是統計學里的一個,統計學在實際運用中有著廣泛的作用,本篇文章是從股票中最基本的股票價格統計數據開始,側重以統計學在股票價格統計數據整理運算過程中的實際運用進行分析、談論。
1 統計學在股票中的定義
統計學通過收集相關的資料,剖析資料和數據得到的結果的一組概論,準則與辦法。統計分析數據有描寫和推測統計兩種方法。
(1)看大盤:匯集股票的相關材料,即調查統計。從頭到尾,即全方位的去調查;有重點的看,即重點的調查;隨機的查看,即采樣調查;查找各種各樣的有象征性的個人股票,也是典型的調查。
(2)股票板塊:以某一標志將股票進行分類,也就是分組統計。例如鋼鐵板塊等。
(3)陰陽燭:交易成功量與交易成功價格的高低決定其趨勢,即是頻數分布。
(4)牛市:股價呈飆升趨勢,即是正J型分布。
(5)熊市:股票呈下跌趨勢,即反J型分布。
(6)摸高,回落:股票飆升,至某一點時受到阻力后呈下跌趨勢,即是偏態分布。
(7)探底,反彈:股票價格下跌,到某一地方撐持后上升,也就U型的分布。
(8)股票指數:加權平均數的運算,是質量指標指數。股票的價格是質量指標,成交的數量或發行量是數量指標。
(9)黑股:存在感過低,易失諸交臂。
(10)均線:股價算術的平均數。一般為加權平均。
(11)震蕩空間:股票價格的波動曲線的均值偏差,也就是標準偏差。
2 股票的價格統計數據
2.1 股票的價格均值
股票價格的均數是反饋不同股票價格上下浮動的基準。股票價格均數是由證券交易場所、金融類服務公司、銀行或新聞媒體整理而成的。為了能時刻了解各種股票而聯合形成的行情市場整體的價格水平和完整市場總和的變化方向。
2.2 簡易的算術股票價錢均值
1981年6月,查爾斯?亨利?道在《客戶午后通訊》首次了一組之后被稱作“道?瓊斯工業股的股票價格平均數值”,也是全球上最早股票價格平均數值。
2.3 加權指數
加權指數是依據各種樣本股票的銷售數量或者是交易成交的數量依照權術來進行加權指數運算的股票交易價格的均值。因此銷售的數量是權數的加權均值的股票交易價格,即是抽樣股票的市場價值總和除以抽樣股票的銷售數量;以成交數量作為權數的加權均值股票價格,就相當于是抽樣股票的全部金額除以抽樣股票的成交數量。
2.4 修正股票交易價格的均值
修正股票交易價格均值是通過簡便的數字運算的基本上,如果有分割股票、增加投資、發行新股的時候,經過改動除數,讓股票的交易價格的均值沒有任何影響。做法是以新的股票交易價格的全部金額除以舊的股票交易價格的平均數值,因此得出新的除數,然后再以運算期的股票交易價格總金額去除以新的除數,就可以得出修正的股票交易價格的平均數值。
2.5 股票價格的波動情形
股票的價格指標是本期股票的交易價格和某個前期之間相對比的相對數變化,是因為證券交易的場所或者是金融中介機構經過對股票交易場所里有一些具有象征性的企業所發出的股票交易價格,進行平均運算和發展變化情況相比后整理出一個可以提供了解股票出價、發價或者是價格的指示數字。整理過程包括五個方面:①挑選一些具有象征性的股票,當作整理過程中指示數字的樣品股票。②按照規定的時間去股票交易場所上去收集樣品股票的交易價格,俗稱采樣。③選擇一個基礎期,基礎期的股價交易價格水準是100或者是1000。④要運用科學的方法以及高科技的手段運算出股票的指數數值。⑤要對外公布。
3 股票交易價格的運算
3.1 算術平均數
簡易的算術平均數是在運算出抽樣股票單個價格指數的基本上,加上總和算出平均值的一種運算方式。現在運用這個方法計算的有算術平均股價指數、英國的《金融時報》精算股價指數等。
3.2 綜合平均法
綜合平均法是各自把前期和本期的股票交易價格實行求和,之后把本期的股票交易價格和前期的股票交易價格的總金額相對比,從而得出股票交易價格指標的一個運算方式?,F在運用這個辦法的有美國的紐約證券所整理的股票交易價格指標,等等。
3.3 幾何平均法
幾何平均法是各自把本期和前期的股票交易價格互相乘后開方,之后再用本期和前期的相比較從而得出指標的一個運算方法。
4 綜合加權法
(1)以樣品股票前期的成交量或者是銷售量為權數?,F在應用這個方法運算有上海綜合股票交易價格指數等。
(2)以樣品股票本期的成交量為權數?,F在應用這個方法運算的有我國滬深300指數等。
(3)以樣品本期銷售量為權數。現在應用這個方法運算的有標準普爾股票交易價格指數、深圳綜合指數等。
(4)加權幾何平均法。在股票交易價格指標的運算當中,大家為了能夠知道交易在本期與前期中區別,提議出了加權幾何平均法?,F在使用這個方法運算的僅有英國倫敦《金融日報》工業普通的股票指數和美國價值線工業指數。
5 結 論
成功創立一種模型可以取得金融領域的頂尖榮譽,表現出了金融與數學的統計是有著不可分割聯系。統計學和其他有關的學術在證券交易場所起著非常重要的作用,人們在以前運用簡易的計算和算術方式已然無法去滿足逐漸困難的金融領域的進展。近這幾年,許多學院也都創立了金融系和管理系;北方工業學院的統計學學科創立了許多證券期貨的模擬工作間;設立有關學科的就特別多了。
摘要:大數據時代的到來,給與之密切相關的統計學專業帶來了前所未有的機遇與挑戰。本文針對統計學專業的自身特點,分析了專業中存在的問題,并從人才培養目標的定位,課程的調整與設置,教學手段創新和完善教學評估體系等幾個方面提出了一些合理化的建議。
關鍵詞:大數據;統計學;教學改革
一、引言
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。大數據具有以下的鮮明特點:第一個特征是數據量大。第二個特征是數據類型繁多,多類型的數據對數據的處理能力提出了更高的要求。第三個特征是數據價值密度相對較低,如何通過強大的機器算法更迅速地完成數據的價值“提純”,是大數據時代亟待解決的難題。第四個特征是處理速度快,時效性要求高,這是大數據區分于傳統數據挖掘最顯著的特征。
統計學專業是與數據分析處理聯系最為緊密的學科之一。大數據時代的到來不僅為統計學專業的發展帶來的前所未有的機遇,同時也帶來了巨大挑戰。傳統的統計學專業已不再適應大數據時代的信息爆發式增長的要求,這就要求我們應該對統計學專業進行重新定位,并在此基礎上調整相關課程,改革傳統的教學手段以及完善教學評價體系,以適應大數據時代的到來。
二、統計學專業改革的建議
(一)人才培養目標的重新定位
如果說以往的統計學專業是以培養簡單的“應用型”人才為目標,那么隨著大數據時代的到來,社會不僅僅需要會應用基礎統計知識處理相關領域的問題的單一的應用型人才,而是對人才提出了更高的要求:大數據時代下的統計學專業的人才除了應該具備基礎的數據收集,處理和分析的能力之外,還應該了解相關應用領域的背景知識,而且應具備很強的自我學習能力,以適應大數據時代數據量大,總類繁多,時效性高等發展特點。因此,統計學人才培養目標應該重新作出調整,應該以培養全新的“復合型”統計人才為新的目標。
(二)課程設置的調整
隨著人才培養目標的重新定位,隨之而來的就是應該對不再適應時展要求的課程進行必要的調整。
首先,大數據的分析和處理與以往的經典分析方法有很大不同,以往的統計分析方法主要是建立在抽樣基礎之上,而大數據時代信息處理迅速,信息獲得途徑廣泛,而且信息價值密度低,這就要求數據處理時,可以以全體作為樣本,而不是進行抽樣;分析時必須考慮所有數據而不是剔除所謂的異常數據。因此,以往的經典統計分析方法已不再適應大數據的處理和分析,必須適當的調整經典分析方法的課程設置,增加新的適用于大數據分析的課程。
其次,隨著數據量的爆發式增長,所有的統計工作對計算機的依賴程度越來越高,這就要求統計學專業的學生不僅掌握統計學專業的基礎知識,同時應該熟練掌握計算機專業知識相關知識,因此,在課程安排時,應注意計算機相關課程的適當增加。
基于上述原因,可以考慮增加如下課程:機器學習,模擬算法,數據挖掘,R語言軟件分析等課程,同時適當降低傳統分析方法課程的學時比重。此外,為了使學生能夠對相關應用領域的背景知識有所了解,可適當增設與應用領域相關的通識課程。
(三)教學模式與手段的創新
以往的教學模式,通常是以課堂教學,掌握書本經典理論為主。雖然,傳統教學手段有著學生理論基礎扎實等諸多優點,但是同時也存才學生過于偏重理論知識的掌握,動手能力不足,理論與實踐脫節等缺點。隨著社會的發展,尤其統計學專業自身具有鮮明的應用專業特點。只采用傳統的教學模式和手段顯然不再適合大數據時代的需要;同時,隨著大數據時代的到來,多媒體手段日益豐富多彩,為傳統教學的創新提供了必要的支持。因此,為了適應大數據時代人才的要求,必須改革傳統的教學手段和模式,在傳統教學基礎上,加大實驗教學的比重,在傳統教學外,增加社會實踐環節,引入微課慕課,翻轉課堂等全新教學模式,以提高學生的學習興趣,鍛煉學生理論應用于實踐的能力,從而為以后使用大數據時代的工作打下堅實的基礎。
(四)教學評價體系的完善
傳統的教學評價體系,通常是采用書面考核的方式對學生的學習進行評價,隨著時代的發著,單純的筆試評價不足以衡量學生的全面能力,最后導致出現高分低能的情況的出現。
為了適應大數據時代對人才多方面能力的需求,必須對傳統的考核評價體系做出適當的調整,以評價學生的多方面能力,尤其是動手能力,學習能力和應用相關理論處理實際問題的能力。具體可以采用多種考核方法相結合的方式。如:增加平時的考核力度,增加實踐項目的考核,通過布置適當的項目論文,采用答辯的形式,以鍛煉學生適應以后工作,獨立分析解決問題的能力。
此外,傳統教學評價體系通常是單方面的,只有對學生成績的評價,為了適應大數據時代的到來,全面提高教學質量,可采取雙向教學評價體系,如:增加學生對教學環節的評價體系。以及教師間同行間的評價體系等。
三、啟示
通過以上分析表明,為適應大數據時代數據分析處理的要求,對統計學專業必然要進行必要的全面的改革,如:需要重新對專業驚醒合理的定位,重新制定人才培養目標,調整專業課程設置,改革傳統的教學模式和手段等等。但是,統計學專業改革是循序漸進的過程,不可能一蹴而就,不是一朝一夕就能實現的,因此,必須制定長期改革方案,以及有效的檢驗機制,避免在改革項目太多而適得其反。可以采用先試點,再推廣的方式,或者先局部進行改革試驗,再進行多方面的改革。例如可以先重新制定合理的人才培養方案,只進行適當的課程調整。穩定后,在進行考核方式,評價體系等其他方面的改革。
摘要:大數據時代的到來對統計學提出了新的要求。本文從統計學專業發展的新特點出發,剖析了現有教學體系中存在的問題,提出了明確專業培養目標,重新設計主干課程內容;轉變固有思維方式,推進統計學教學改革;創新實踐教學模式,加強實踐教學開展等統計學專業教學體系改革的發展方向。
關鍵詞:大數據;統計學;教學體系改革
一、大數據時代統計學專業發展的新特點
(一)數據化的信息收集
傳統的統計研究主要是對已收集的數據進行各種技術分析,包括描述性分析、推斷性分析、截面分析、時間序列分析等,側重點在于技術分析手段的使用上。然而大數據時代,關注的是信息本身?,F代信息系統的使用使大數據成為可能,文字、地理方位、溝通等,任何事物都可以量化,一切現象都可以用數據或表格來詮釋。因此,大數據背景下世界是由各種信息和數據所構成的。
(二)全數據模式的研究對象
在信息處理能力受限制的過去,人們缺少用來分析所收集數據的工具,因此產生了隨機抽樣。隨機抽樣法的目的是用最少的數據獲得最多的關于總體的信息,從而使用樣本對總體進行推斷。然而,在大數據時代,數據處理的方式和技術發生了巨大的改變,人們可以通過互聯網、數據庫以及各種通訊工具獲得海量數據,這時隨機抽樣就失去了它原來的意義。簡單廉價的數據收集方法,足夠的數據處理和存儲能力,使得全數據模式成為可能。因此,大數據背景下樣本即為總體。放棄隨機抽樣分析的捷徑,采用所有數據的方法,可以發現一些隱藏在海量數據下的細節。
(三)混雜性的數據處理思維
傳統的統計學處理數據的步驟是首先對數據進行整理和清洗,剔除不完整的或者異常值,然后再利用樣本信息,在允許的誤差范圍內對總體進行推斷和分析,即通過調整精確度的大小來對總體進行研究和分析。然而,在大數據背景下,來自各個時間和空間的數據來源紛雜,格式廣泛,在萃取或處理數據的時候,很難做到把所有的數據都進行仔細地清洗。這種情況下,必須接受數據的混亂和不確定性,因為數據多比少好,因此更多的數據信息比更加智能、更加精確的算法系統還重要。當擁有大量數據的時候,可以忽略一部分精確性,但并不是說不需要精確性,而是數據規模不斷擴大時,確切的數量已經不再那么重要了,可以通過大規模的數據來發現事物背后的規律。
(四)相關關系的基礎分析方法
傳統的統計中,大部分相關關系分析僅限于尋求線性關系,或是在建立假設的基礎上揭示數據相互之間的因果關系,例如Granger檢驗就是依據時間序列數據對變量之間的因果關系進行的判斷,但往往會產生一些虛假的因果關系。這是因為統計關系并沒有蘊含多少真實的因果關系。在大數據背景下,數據點以數量級方式增長,用數據驅動的相關關系分析不再需要建立在假設的基礎上,所以相關關系分析不容易受偏見的影響而發生錯誤。大數據時代相關關系通過回答“是什么”的問題,為人們認識世界提供了一種新的視角。因此,相關關系統計分析是大數據預測的基礎。
二、統計學專業教學體系中存在的問題
大數據背景下傳統的統計學專業教學體系存在的問題凸顯,具體體現在以下幾個方面。
(一)培養目標無法適應大數據時代的社會需求
傳統的統計學專業教學體系的培養目標是通過統計專業核心課程內容的介紹,鍛煉學生收集、整理和分析數據的能力,培養“應用型”統計專業人才。然而,大數據的出現,使得通過數據分析獲得知識、商機和社會服務的能力,從以往局限于少數的學術精英圈子擴大到了普通的社會機構、企業和政府部門,各行各業對統計數據、統計分析的需要使得統計學專業受到了前所未有的關注。大數據背景下,要求統計學作為一種分析工具,能夠與其他專業相互銜接,相互服務,培養“復合型”專業人才。因此,傳統的統計學專業教學體系培養目標存在兩個方面的挑戰:第一,如何協調統計與其他專業之間的關系;第二,如何從“應用型”向“復合型”人才進行轉變。
(二)忽視數據的收集和創新
傳統的統計學專業教學體系重視數據的分析技術,更多的課程設置是圍繞著數據分析方法和技術展開的,例如多元統計分析、時間序列分析、統計預測與決策分析等?;A的數據收集部分只在統計學原理中有一章的內容介紹,而且是作為非重點一帶而過的。大數據以海量的數據為分析研究的對象,將一切社會經濟現象進行量化,重視的是信息的收集和數據的創新,包括數據的再利用,數據的重組,數據的擴展,數據的折舊以及數據的開放等各個方面。這些內容在原有的教學體系中是沒有體現的。
(三)與大數據時代脫節的教學內容
傳統的統計學專業教學體系仍然固守著原有的教學內容,在近二十年內變化不大。專業的主干課程有統計學原理、國民經濟核算、計量經濟學、抽樣技術與方法等。而在大數據背景下,教學內容以全數據模式為研究對象,強調對所有的數據進行分析,而不是開展隨機抽樣;允許不精確的存在,而不是在給定的精確程度下對總體進行推斷和分析;關注海量數據之間的相關關系,而不是強調數據之間的因果聯系。這些內容都無法在現有的教學體系中體現,因此,傳統的專業教學體系與大數據時代是脫節的。
(四)實踐教學環節薄弱
隨著“應用型”統計專業人才培養目標的提出,學校對實踐教學的重視增強,與過去相比,現有的專業教學體系中已經增加了實踐教學環節。但是,在大數據背景下,實踐教學仍然是統計學專業教學體系中的薄弱環節。主要表現在兩個方面:(1)以模型驅動為主的實踐教學模式已不適應大數據時代的要求。現有的實踐教學內容并不是從數據出發,而是通過尋求一些適合模型的數據來“證明”這個模型的確有意義。這種思維方式與大數據時代的要求是不適應的,因為創造模型的目的是適應現實數據,而不是由模型驅動。(2)以SPSS、Eviews為主的軟件教學已無法處理大數據?,F有的實踐教學中,主要講授的是傳統的統計分析軟件SPSS和Eviews,因為這兩種軟件發展成熟,操作簡單,可以處理一般的計量模型和時間序列。但是,大數據時代數據是海量的、復雜的,用簡單的軟件已無法處理和實施。
三、統計學專業教學體系改革的方向
根據以上分析,時代的發展對統計學專業提出了更高的要求,現有的教學體系中存在的各種問題即為統計學專業教學體系改革的方向。
(一)準確定位統計學專業的人才培養目標,重新設計主干課程的教學內容
大數據時代要求培養“復合型”統計專業人才,因此教學體系的培養目標要從簡單的“應用型”向“復合型”轉變?!皬秃闲汀苯y計專業人才要求學生除了具備數據收集、處理和分析的能力外,還要對統計學應用領域的背景知識有一定的了解。因此,按這個培養目標,需要對現有教學體系中的主干課程重新進行調整和設計。專業主干課程分為方法和應用兩個方面。方法類的課程除了原有的計量經濟學、時間序列分析、多元統計分析等外,又增加了機器學習、模擬算法、數據挖掘、R軟件分析(或SAS軟件分析)等處理復雜大數據的方法的課程。應用類課程在保留原有的國民經濟核算,金融統計,證券投資,會計學基礎外,增加一些統計學應用領域的基礎知識課程,例如商業統計、生物統計、保險與精算統計等。此外,適當調整各專業主干課程的課時,一些課程可以增加課時,如軟件分析、數據挖掘等,一些課程可以縮減課時,僅作一些簡單的介紹,如抽樣技術等。
(二)轉變固有的思維方式,在大數據背景下積極推進教學改革
大數據時代,數據更多、更雜,傳統統計學思維方式受到了極大的挑戰。因此,以大數據為背景,轉變固有的思維方式,從以統計技術方法為中心轉換到以信息數據為中心,推進統計學專業教學改革十分重要。具體來說,可以弱化傳統的推理論證的教學模式,強化數據收集、數據處理和數據分析的能力培養;強調數據本身的價值,讓數據說話,用簡單的方法了解數據背后所隱藏的信息和規律;使用項目式訓練,讓學生從項目中真正體驗數據化處理的整個過程,達到理論和方法的結合;加強課堂教學與實驗教學的統一和貫通,如在傳統的教學過程中,將統計學原理、多元統計分析結合SPSS軟件介紹,而時間序列分析又采用Eviews進行介紹,造成學生疲于學習各種軟件,實際上SAS、R等統計軟件可以實現所有的功能,用一種軟件與課堂教學融合貫通能幫助學生更好更深地掌握軟件的使用。
(三)創新實踐教學模式,加強實踐教學的開展
從以模型驅動的實踐教學模式轉變為以數據驅動的教學模式,構造課堂案例教學、實驗教學、課后項目式訓練、校外實習基地鍛煉四位一體的創新型實踐教學模式。計算機快速發展的今天使得大數據成為現實,在處理數據的時候,根據數據的特征創造出新的計算方法來滿足實際需要,這就是數據驅動模式。在實踐教學的過程中,要強調統計數據、計算機編程以及統計分析軟件的結合。目前,R軟件和SAS軟件顯示出了強大的數據處理和數據分析功能,實踐教學環節中可以把這兩種中的一種融入到專業課程中去,將計算機軟件與課堂教學結合起來。此外,課后的項目式訓練和校外實習可以帶動學生了解和掌握整個數據分析實踐的流程,激發學生學習的興趣,在實踐教學的過程中要多鼓勵、多開展。
摘 要:大數據對于統計學的影響日趨加深,促使負擔著培育數據采集的統計學教育也面臨著嚴峻的挑戰,為了和新的外部趨勢相適應,統計教育應該主動進行改革。然而,對于大數據會給統計學帶來什么挑戰,統計學在新形勢下怎樣變革,卻很少有人給予關注,文章從大數據和統計學的聯系和差異、大數據對統計學的挑戰和新形勢下統計學的改革三個方面來討論這一問題。
關鍵詞:大數據;統計學;新形勢
大數據是互聯網時代的新型產物,這一理念是在一九八零年由美國的未來學家埃爾夫托夫勒提出的。到了二十一世紀,隨著互聯網技術的普及和運用,全世界的數據量大概每2年翻一倍,這說明人類在最近兩年產生的數據量等同于以往產生數據量的總和。大數據雖然在我國發展較晚,但是從起步之后就一直蓬勃發展,尤其是最近幾年,新的大數據采集、發掘、儲存、探析類企業和組織逐漸建成,大數據在我國各行各業的使用日趨廣泛,遍及信息、金融、商品銷售等行業。
一、大數據和統計學之間的聯系和差異
統計教育是以統計學理論和統計學在相應領域的使用為主的教育內容,所以想要分析大數據時代統計學教育所面對的挑戰和改革,首先應該搞清大數據和統計學二者的概念,明白兩者之間的聯系和差異。
大數據和統計學之間是有密切聯系的。首先,大數據雖然是通過巨型數據采集構成,構成主要涵蓋非結構化數據和半結構化數據,和通常結構化數據不一樣,但是它的根本依然沒有離開數據的屬性,統計學依然可以把大數據看做探究的主要方面。第二,大數據對于數據的通常處理過程是:搜集―統計解析―發掘―找到需要的信息,而統計活動的主要順序則是:統計設計―數據采集―數據整理―數據解析―發現數量聯系和規律,二者對于數據的處理方式在某些方面雖然有部分差異,但是基本過程也有很多相似的地方。第三,一方面統計學為大數據的研究提供基本方式,比如大量的觀察、數據分組、相關解析等也是分析大數據的主要方式,另一方面因為在大數據探究和處理過程中應該借助新的信息技術,所以大數據的發展在很大范圍里提升了統計學探究設施和方式,使現代信息設備和互聯網技術在統計學的使用更加廣泛。
大數據和統計學的主要差別體現在探究目標、數據處理對象和解析技藝上。大數據通過發現數據機遇和數據價值,尋求數據回報為最終目標,數據所觸及的范圍比較寬泛,運用遍布互聯網、經濟分析、財產管理、商業投資和醫療器械等方面,處理的數據主要是海量、全面性的非架構化數據和半結構化數據。然而統計學以發現數據后映射物體的自身關聯和規律為目的,處理的數據主要為數量不大的結構化數據,使用概率論、非全面調查、抽樣推斷和相應回歸解析等數理統計理論為探究方式。所以,相對于統計學,大數據不但在技術和工具的運用里更為全面和智能,和互聯網技術的聯結的也變的十分緊密,而且在所處理的數據種類和探究目標上都和統計學有所區別。
二、大數據時代給統計學帶來的挑戰
大數據和統計學雖然密切相關,但是兩者在探究目標、數據處理和解析設備方面卻有著很大的不同,人類步入信息時代之后,隨著非結構化、半結構化的大數據的比例急速上漲,互聯網技術在數據采集和處理中的運用日漸寬泛,大家對數據價值和數據回報的追求更加猛烈。怎樣汲取大數據探究里的價值理論,使受教育者把握良好、先進、適用的數據搜集、解析和處理的技術。在大數據時代統計教育將會面對的挑戰主要表現為以下幾點。
(一)對教育內容的挑戰
當下統計學專業教育內容主要是概率論和數理統計、抽樣抽查、統計形式和有關的統計運用學科,基本以結構化數據為主要的處理對象,而對非結構化和半結構化數據的解析和設備的運用則觸及很少。然而,依據大數據時代對數據處理高端人士素養和技術的需求,目前統計學的內容已經不可以滿足非結構和半結構的海量數據探究和商業運用對人才培育的需求。所以,統計學的教育應該看清形勢,以對統計專業人士的現實需要為核心,不停地提升原來的科目內容,開設新的課程,才可以確保教育內容跟上大數據時代前行的步伐。
(二)對教育方法的挑戰
目前統計學教育模式以課堂教育為中心,主要以老師講解為主,注重理論,忽略應用,注重方式講解,忽略技能培育,并且教育方式單調,教育方法陳舊,教育組織的合作觀念較弱。所以現在的統計學教育方法已經不適合大數據時代對全面性數據處理和分析人才的素養需求,應該在教學方法上展開調適和改革。
(三)對人才培育方式的挑戰
目前統計學教育方式以給予學生知識,培育政府、企業、事業單位需求的統計任務人才和學校、科研組織需求的統計教育和研究人員為主要內容和目的,另外大多高校老師綜合素養不夠,本專業之外的知之甚少,實驗室的建成和設施的更新速度落后,形成培育出的學生偏重于公式推導、運算和數學模型解析,知識構架以數理認知為主,在經濟學、管理學、計算機學等領域的認知較少,知識探究和觀察的目光短淺,解決現實困難的能力不足。大數據時代雖然需要統計人才擁有數據處理和解析所需求的基礎素養和技術,但是更加側重它從海量的數據里掌控市場機遇,發現和發掘商業價值,為所處行業制造利益的內在潛力、奮發精神和探究欲望。
三、新形勢下統計學的改革
信息時代對于統計人員的素質提出了更高的需求,統計學的教育方式也需要進行部分改革。
首先,統計人員應該提升對于新技術的敏感性。因為信息技術的不斷發展、不斷更新,這就需要統計人員具備職業敏感性,及時學習和理解新技能,能在大數據的環境下熟練運用專業技能。其次,統計人員應該提升團隊合作意識。作為統計人員不僅要做好本職工作,還要及時了解團隊內部各成員的工作進展狀況,相互學習、互相共享信息資源。最后,統計人員應該具備自主創新能力。信息化社會的知識更新十分迅速,統計人員唯有不斷學習、不斷革新,才能夠適應大數據時代的需求。
結語
大數據和統計學兩者在本質、探究目標、數據處理對象和技能工具等部分,有聯系也有差異。大數據時代的到來不但對統計學的固定探究方式和價值觀念帶來一定的沖擊,并且致使統計學教育面對在教師知識結構、教育內容、教育方式和人才培育方式等方面的眾多挑戰。所以,為了適應大數據時代的發展潮流和培育更加有效、素養更高、適應能力更強的統計專業人才,統計學教師和統計教育都需要跟上時代,積極做出對應的調整和改革。(作者單位:太原市統計局調查監測中心)
摘 要:隨著我國經濟發展水平的不斷提高,各行各業得到了顯著發展,數據統計學方法也變得日趨多樣,數據挖掘是建立在數據庫與人工智能基礎上發展起來的一種高新技術,其功能是從眾多的數據當中挖掘到最有價值的信息,進而實現對數據資源的高效利用。聚類分析能夠被當成一種數據分析工具,能真實反映出數據分布情況,本文主要對統計學在數據挖掘中的應用進行了探討,從而表現統計學在數據挖掘應用中的重要性。
關鍵詞:統計學方法;數據挖掘;應用分析
數據挖掘就是指從眾多實際應用數據中獲取批量大、有噪聲、且隨機性強的數據,將潛在的信息與數據提取出來,就是從數據中挖掘有價值的知識,而大多數原始數據具有一定的結構化特征,比如,關系數據庫中的數據;也可以通過文本、圖形、圖像等半結構化發掘有用知識,這些知識可以是數學的也可以是非數學形式的;數據挖掘能以歸納形式存在,能夠被廣泛應用到信息查詢、信息管理、信息決策控制中,方便數據的維護與管理。由此可見,數據挖掘是一門交叉性強的學科,加強對其的研究非常有意義,下面將對統計方法在數據挖掘中的具體應用進行分析。
一、數據挖掘與統計學的關系
(一)數據挖掘的內涵
通常來說,數據挖掘的定義較為模糊,沒有明確界定,大部分對其的定義只是停留在其背景與觀點的內容上。通過對不同觀點的統一整理,人們最終將其描述為:從大量多樣化的信息中發現隱晦性、規律性等潛在信息,并對這些信息進行創造、加工的過程。數據挖掘作為一門重要的交叉學科,能夠將數據庫、人工智能、機器學習、統計學等眾多的科學融入到一起,從而實現技術與理論的創新與發展[1]。其中,數據庫、人工智能與統計學是數據挖掘當中的三大支柱理論。數據挖掘的目的是從數據庫當中發掘各種隱含的知識與信息,此過程的方法非常多,有統計學知識、遺傳算法、粗集方法、決策法、模糊邏輯法等,還可以應用向鄰近的可視技術、模式識別技術等,在以上所有技術的支持上能夠使數據挖掘更為科學、有序。
(二)數據挖掘與統計學間的關系
通常來說,統計學的主要功能是對統計原理與統計方法進行研究的科學。具體來說就是指對數字資料進行的收集、整理、排序、分析、利用的過程,數字資料是各種信息的歸納與總結,可以將其作為特性原理的認知、推理方法[2]。而統計學則表示的是使用專業的統計學、概率理論原理等對各種屬性關系的統計與分析過程,通過分析成功找到屬性間的關聯與發展的規律。在此過程中,統計分析方法是數據挖掘最為重要的手段之一。
在數據挖掘這一課題被提出來之前,統計分析技術對于人們來說更熟悉,也是人們日常開展工作、尋找數據間規律最常使用的方法。但是不能簡單的將數據挖掘作為統計學的延伸與替代工具,而是要將兩者的區別認識到位,再結合兩者間的不同特點分析其應用特點[3]。大部分的統計學分析技術都是建立在數學理論與技巧上的,預測通常較為準確,效果能夠讓大部分人滿意。數據挖掘能夠充分借鑒并吸收統計學技術,在融入到自身特點以后成為一種數據挖掘技術。
統計學與數據挖掘存在的目標都是一致的,就是不斷對數據結構進行發掘。鑒于統計學與數據挖掘在目標上的一致性,致使很多研究學者與專家將數據挖掘作為了統計學的一個分支機構[4]。但是這種認知非常不正確,因為數據挖掘不僅體現在與統計學的關系上還體現在思想、工具與方法上,尤其是在計算機科學領域對數據挖掘起到的作用非常大。比如,通過借助數據庫技術與人工智能的學習,能夠關注到更多統計學與數據挖掘上的共通點,但是兩者存在的差異依然非常大。數據挖掘就是指對大量的數據信息不斷挖掘的過程,DM能夠對數據模式內的數據關系進行充分挖掘,并對觀測到的數據庫處理有著極高的關注度。
二、數據挖掘的主要過程
從數據本身出發探討數據挖掘過程,數據挖掘的過程分為信息的收集、數據集成、數據處理、數據變換、數據挖掘實施等過程。
首先,要將業務對象確定下來,明確不同業務定義,并認清數據挖掘的目的,這是做好數據挖掘最關鍵的一步,也是最重要的一步,雖然挖掘的結果不能被準確預測到,但卻需要對問題的可預見性進行探索[5]。其次,還要做好數據準備工作,包含數據清理、數據變換等工作,數據清理的實際意義是將噪聲與空缺值補全,針對這一問題,可以使用平滑技術,而空缺值的處理則是屬性中最常見的,可以將統計中最可能出現的值作為一個空缺值[6]。
信息收集指的是按照特定的數據分析對象,可以將分析中需要的特征信息抽象出來,并在此基礎上選擇出較為科學、適合的信息收集方法,將全部的信息全部錄入到特定的數據庫中。如果數據量較大,則可以選擇一個專門的管理數據的倉庫,實現對信息的有效保護與管理;數據集成就是指將來源不同、格式不同、性質不同、特點不同的數據集成到一起,進而為企業提供更為全面、系統的數據共享平臺;數據變換就是通過聚集、概化、規范化等方式對數據進行挖掘,對于一些實用數據,則可以通過分層與分離方式實現對數據的轉換;數據挖掘就是結合數據倉庫中的數據信息點,并選擇正確的分析方法實現對有價值數據的挖掘,事例推理、規則推理、遺傳算法等都是應用較多的方法[7]。
三、統計學方法中的聚類分析
在統計學聚類方法基礎上能夠構建出潛在的概率分布假設,可以使用試圖優化的方法構建數據與統計模型的擬合效果?;诮y計學聚類方法當中,Cobweb方法是在1987年由Fisher提出的,能夠以分類樹作為層次聚類創建的方法,在分類樹上,每一個節點都能代表著一個概念,該方法就是對節點概率描述的過程。Cobweb方法還使用了啟發式估算方式,使用分類效用對分類樹的構建進行指導,從而實現對最高分類的劃分目的,能夠將不同分類對象全部歸類到一個類別中,并依據這些內容創建出一個新的類別。但是這種方法也存在一定局限性,局限性在于假設的屬性概率分布都是獨立的,并不能始終處于成立狀態中。
只有在掌握了Cobweb算法以后才能對概念聚類算法的特點進行探究。Cobweb算法能夠以分類樹方式創建層次聚類,可以將概率表現為p(Ai=Vii/Ck)條件概率,其中,Ai=Vij是一個類別下的,同屬于一個值對,Ck是概念類中的一種。在給出一個特定的對象以后,Cobweb能夠將全部對象整合到一個節點上,從而計算出分類效應,分數最高的效用就是對象所在的節點位置[8]。如果對象構建失去節點,則Cobweb能夠給出一個新的節點,并對其進行分類使用,這種節點計算方法起步較晚,能夠對現有的節點與計算相互對比,從而劃分出最高的分類指標,將全部對象統一到已有的分類中,從而構建出一個新的類別。
Classitci是Cobw eb方法的一種延伸與發展,能夠使用其完成聚類數據的處理,在該方法下,節點中的每一個存儲屬性都是處于連續分布狀態中,能夠將其作為分類效果修正的方法,并以度量的形式表現出來,這種度量基礎上能夠實現連續性的積分,從而降低分散發生率,該方法是積分過程而不是對屬性的求和過程。
Auto Class方法也是一種應用較為普遍的聚類方法,該方法主要采用統計分析對結果類的數目進行估算,還可以通過模型搜索方式分析空間中各種分類的可能性,還能夠自動對模型數量與模型形態進行描述。在一定類別空間中,不同的類別內屬性存在關聯性,不同的類別間具有相互繼承性,在層次結構當中,共享模型參數是非常重要的。
還有一種使用較為普遍的模型是混合模型,混合模型在統計學聚類方法上使用也非常普遍。該方法最為基本的思想就是概率分布決定著每一種聚類狀態,并且模型中的每一個數據都是由多個概率在分布狀態下產生的?;旌夏P瓦€能夠作為一種半參數密度評估方法,其能夠將參數估計與非參數估計的優點全部集中到一起,并將參數估計法與非參數估價法的諸多優點融合到一起,因為模型具有一定復雜性,為此,不能將其限制在概率密度函數表達形式上,這種復雜性決定了模型與求解存在關聯,與樣本集合的聯系非常少。通過以上的研究可以了解到,數據發掘中應用聚類方法非常有效,并且較為常見。比如,構建出Cobweb模型與混合模型,采用Clara與Clarans方法中的抽樣技術,將Denclue方法用在概率密度函數中。
結束語
統計學方法自產生開始已經有非常久遠的歷史,將嚴謹的數學邏輯作為基礎,將分類算法假定作為獨立條件,屬性值之前能夠相互保持獨立,對假定進行計算,當假定成立時,可以再與其他分類算法進行對比,這種分類算法準確性非常高。為此,其不僅能夠對連續值進行預測,還可以通過線性回歸方程對系數進行比較,從而歸納出結果。
摘 要:大數據已經承成為助力互聯網+發展的重要手段,成為創客實現夢想星天地的必要途徑,其已經成為我們生活中不可缺少的一部分,大數據正在以一種前所未有的態勢推動著各行各業的發展,其蓬勃發展態勢也標志大數據時代的襲來。
關鍵詞:大數據;統計學
大數據時代以迅雷不及掩耳之勢席卷世界,在全球范圍內掀起了前所未有的數據革命浪潮。相對于政府單位的統計數據來說,大數據主要利用的是多層次、多樣化的數據采集方式,整合了多種數據的開發優勢,并且利用現代科學技術手段和高速處理以及信息架構數據等資源,兼具極高的使用價值和判斷決策能力。一方面,統計調查數據的多樣化發展趨勢和電子商務產業的不斷發展,為統計數據的使用方式和生產方式制造了不小的麻煩,不斷地挑戰者政府部門數據管理系統和統計數據的概念。另一方面,信息技術、網絡發展以及空間信息技術的不斷進步,為統計生產力的升級發展提供了廣闊的視角和空間。數據量急劇增長的電子化、信息化和產業化數據,都成為了統計數據發展的重要來源。種類不斷增多的“大數據”資源,正在成為政府統計部門利用研究的重要領域。
一、大數據與統計學的區別
統計知識在大數據的利用研究中有多樣化的應用形式,主要是對“大數據”進行肢解,對爆炸增長的數據信息進行搜索、分類以及整合主要依賴于統計學。因此,大數據的相關研究在一定程度上運用了統計學的知識。但是,大數據的使用尚未被統計學這門學科充分利用,這主要是因為大數據的運用方式,使用模式和統計學之間存在著重要差異。統計學主要利用的是樣本統計資源,樣本主要在根據既定的概率標準從總體中抽樣調查,但是隨機抽樣調查是帶有成本屬性的,例如消耗時間、資本投入的成本等。在樣本數量逐漸增加的情況下,樣本估計的誤差范圍是伴隨著總體樣本數量的增大而逐漸增加的,這是樣本統計學不能忽視的缺點。大數據時代最具代表性的就是海量的信息數據化以及即時電子商務信息,大數據在整體上呈現出“總體樣本數據化”的趨勢,這樣的特征恰好可以補充樣本統計的弊端。大數據環境下的整體樣本統計即使可以囊括全部的樣本容量,但是因為很多情況下數據具有非結構性和半數據化的特征,而且大量的數據資源呈現的是重視尾部分布的狀態,方差、標準差等標準化的方法變得毫無意義,整體依靠性和不穩定性經常會超越經典時間內的時間序列的整體假設性,所以概率論的應用范圍呈現狹窄化的發展趨勢。因此,統計學在利用大數據進行樣本統計的過程中,可以對整體上的數據資源進行融合和選擇,這和樣本統計中的數據化處理技術存在異曲同工之妙。
二、大數據時代統計學教育的發展
1.全面培養人才素質
統計學專業的學生需要具備良好與人交往能力。統計學的學生很多都是理科出身的學生,不善于交際。但是在日常的工作中,有數據經驗的科學家應該經常和每個部門的工作人員交流,協同工作。怎么樣才能讓頗具專業性的數據分析結果讓普通的老百姓也可以讀懂,讓每個部門的工作人員都能無障礙地理解,這是不容易做到的。要訓練自己的交往能力和溝通技能,主動地參加演講活動是不錯的渠道,演講活動鍛煉了演講者的自信,在整個演講的過程中,能否清晰地表達自己的思想以及給人以信服力是至關重要的。需要培養數據常識,廣其見聞。數據科學家經常面對各種各樣的海量數據,并需要從這些數據中挖掘出有價值的信息,這就需要數據科學家具有強烈的數據敏感性。對數據的敏感程度的訓練不是一蹴而就的,要經過長時間的積累和數據分析工作的磨練,同時也可以根據閱讀數據分析材料積累閱歷,提升對數據資源的敏感程度。
2.培養應用型人才
大數據時代培養的數據科學家需要兩方面的基本素質,第一是概念性,也就前面所說的數據科學家需要掌握的基本素養和專業知識;第二是實踐性,也就是本文中我們提及的應用型人才,也就是實際操作中處理數據的能力。在高校開展大數據分析研究生學科,最大的問題是沒有可用的數據,這就需要高效與大數據企業合作,進行研究生的聯合培養,注重學生的實際操作能力,這里面涉及到我們的應用統計學專業碩士的雙導師培養制度,一名校內導師一名校外導師,校內導師注重學生的概念性,校外導師注重學生的實踐性,學生通過在校外導師單位的實習,從而熟悉并且掌握實際工作中所需要的技能。
3.促進統計與數學、計算機學科合作
“大數據”時代需要的海量數據分析資源僅僅憑借統計學科單一學科的發展是不能滿足發展需求的,大數據的數據結構性特征已經拋棄了傳統意義上的數據分析模式的非智能化框架,而且數據分析需要利用新型的數據運算方式以及計算機技能分析,這也是進行數據分析工作的攔路虎。所以,數據科學家的成長僅僅依靠單一的統計學科知識的學習是遠遠不夠的,其需要的是數學、計算機和統計學三門學科融合發展,緊密結合。三門學科之間交叉發展,融會貫通,這樣既可以發揮學科的優勢資源,同時也能彌補其他學科的弊端。
三、結語
數據信息的爆炸式增長使我們在使用統計數據處理信息時需要更多的數據資源,更有甚者,在很多情況下可以利用全面化的數據,數據資源不再是制約統計分析的唯一因素,大數據前提下的統計學效用和粘合度預測的準確程度不斷提升,而且可以發現諸多在樣本統計基礎上未能顯現的細節。統計學關鍵優勢就是“見微知著”,也是統計學在數據環境下的約束性妥協。在海量數據洶涌襲來的年代,充分發揮統計學的優勢,和大數據資源整合發展,實現“以小見大”和“由繁入簡”的有效結合。
摘 要:文章通過闡述大數據及其目的,分析大數據與統計學的對比,對大數據對統計學的挑戰與機遇展開探討研究,旨在為相關人員基于大數據及其目的、大數據與統計學的對比的大數據對統計學的挑戰和機遇研究適用提供一些思路。
關鍵詞:大數據;統計學;挑戰;機遇;營銷
引言
國際數據公司的相關研究指出,2011年全球數據生產量達1.8ZB,且全球信息總量每隔兩年增長一倍[1]。在大數據時代下,對于統計學發展而言,挑戰與機遇并存,挑戰指的是現階段傳統統計學相關方法難以適用大數據,機遇指的是基于統計學,大數據展開數據處理、分析,促使大數據具備可視化特性。由此可見,研究大數據對統計學的挑戰和機遇有著十分重要的現實意義。
1.大數據及其目的
現階段,關于大數據仍舊沒有一個十分明確的界定,大數據起初是源自于技術領域。在信息量不斷擴大的情況下,使得常規電腦原有存儲空間已不能對新處理數據進行承載,新興數據處理技術得以產生,好比雅虎的Hadoop平臺、谷歌的MapReduce等。此類技術能夠對僵化層次結構、一致性予以消除,促進數據無需通過常規數據庫表格進行排列,極大程度地提升了人們可處理的數據量[1]。
2.大數據與統計學的對比
2.1樣本統計與全樣本統計的區別
樣本統計屬于統計學不可或缺的依賴,樣本指的是結合相應的概率自總體中隨機篩選并視作總體代表的集合內容,值得一提的是隨機抽樣是需要成本的,包括社會關系、資金成本或者時間成本等?;跇颖緮盗刻嵘邢耷疤嵯?,樣本估計誤差會隨著總體數量增多而增大,這亦是樣本統計無法避免的不足。大數據時代下,龐大的數據信息應運而生,數據信息發展表現出總體即是樣本的態勢,該屬性很好的消除了樣本統計這一不足。大數據時代下的全樣本統計,通常情況下可對完全總體進行覆蓋,然而受大部分數據屬于半結構、半結構數據影響,使得概率論應用遭受一定的制約[2]。鑒于此,將全樣本統計應用到統計學中,應當就總體數據展開相應的歸納、篩選,即好比在樣本統計中展開數據預處理。
2.2預測分析與非預測分析的區別
統計學的創立,是為了對變量相互相關關系展開分析,因此獲取數據是發生于變量確定之后的,數據分析價值是能夠被預測的。相較于統計學的預測分析,龐大數據將互聯網、傳感器作為載體,存在于分析需求之前,因此構建于大數據上的分析多為非預測性分析。在統計學中,出現大數據無法有效應用局面,這是由于不具備非預測分析所需的龐大數據,龐大數據產生與數據中心、存儲系統存在緊密的聯系,并非短期產生。也就是說,統計學中大數據的應用發展,說明了非預測分析正逐步取代傳統統計學預測分析,數據多次利用正逐步取代傳統數據一次性利用的。
3.大數據對統計學的挑戰與機遇
3.1數據生產、處理與應用的轉變
相關統計部門經開展嚴格的統計設計工作,獲得相關的統計數據,數據的預處理分別有數據清洗、非全面數據填補以及數據矯正等。大數據時代下的統計手段尚不十分明確,自大數據流環境而言,要不斷探索新型抽樣方法,并確保抽樣方法的實時、連貫及可行性。除去傳統的統計分析方法,還應當開發大數據動態分析、數據流算法等[3]。
3.2大數據時代對市場營銷的機遇
3.2.1大數據營銷的特點與價值
大數據營銷的特點:I.數據采集多平臺化特點,即大數據時代下,大數據的數據大多來源于不同的領域、不同的渠道。II.時效性特點,隨著信息技術的急速發展,互聯網用戶消費、購物行為方式往往會瞬間出現轉變。國際先進大數據營銷企業AdTime基于此大數據營銷特點,采取了時間營銷措施,即采取相應的技術方式全面獲悉用戶所需,于第一時間對用戶當下的需求進行回應,以使用戶在下決心購買的最佳時間及時看到對應的產品廣告。III.個性化特點,在大數據時代下,廣告商傳統媒體導向的營銷理念逐步由受眾導向取代,現如今,廣告商可應用大數據了解用戶的地理方位,需求內容等信息,達到對用戶個性化營銷的目的。
大數據營銷的價值:I.升級營銷與用戶的匹配度,大數據營銷不僅可提供給企業了解用戶有效的途徑,還能夠于網絡環境下,選取相關技術方法達到對用戶精確定位的目的,從而開展好營銷工作,升級營銷與用戶的匹配度。II.改善用戶體驗,大數據營銷促使企業真正意義上認識到用戶及其所使用企業產品情況,以給予用戶最人性化的提醒。
3.2.2大數據營銷的應用
(1)與消費者建立緊密關系
現如今,我國一些企業營銷行為仍舊處于個性化定位信息、創意設計階段,而無法對不同消費者展開個性化的營銷活動。大數據時代下,經采用相關數據分析技術方法,基于對消費群體喜好、傳媒接觸習慣等展開有效的分析,達到特定營銷活動明確開展的目的,實現企業精心開展的營銷活動精準的輻射至目標消費群體處,與消費者建立緊密關系,極大的改善營銷效率、質量[4]。
(2)掌握競爭對手數據
企業通過對競爭對手數據的有效掌握,獲悉競爭對手發展狀況,基于此幫助企業制定科學合理的產品價格,提升企業產品市場競爭優勢。與此同時,企業務必要全面實施以事實為前提的決策手段,廣泛地應用數據分析方式對企業每一個發展運營步驟進行優化,經對企業一系列數據的充分優化、對接,促使業務環節中潛在的價值得以被有效挖掘,降低生產成本,知己知彼,促使企業在日趨白熱化的市場競爭中占據有利位置。
(3)挖掘企業內部數據
“市場未動,數據先行”儼然轉變為國際上企業有效運營發展的一致認識,為了提升企業管理效率,要求企業要充分挖掘企業內部數據,并展開有效的整合、分析,以為企業相關人員做決策提供有利的參考依據,提升決策準確性,促進企業可持續發展。
3.2.4 企業的應用案例――以亞馬遜為例
在應用大數據開展市場營銷方面,美國亞馬遜公司一直處于領先地位。亞馬遜研發出“用戶未下單,先發貨”功能,即結合用戶的購物需求數據信息,分析用戶想要購買的產品,達到用戶未下單,提前發貨的目的。此外,亞馬遜通過對用戶檢索信息的分析,評估流感的傳播,但這僅僅為海量檢索數據中的一項用途,相同的數據能夠應用于預測大選結果、預測某類產品市場行情等等,極大地降低了統計成本[5]。
3.3大數據時代對市場營銷的挑戰
3.3.1信息收集
大數據并非就是對數據信息展開盲目的收集,即便收集了再多的數據,倘若這些數據并非是市場營銷所需要的,如此便會導致前期收集來的數據信息,變成一堆“數據垃圾”。鑒于此,為了避免這一情況發生,務必要充分分析業務需求,再對自身存在價值的數據展開收集、歸納,如此方可實現大數據的有效收集應用。
3.3.2經驗與數據
數據采集完畢后,面對參差不齊的數據,還應當做好數據評估工作,評估對何種目標受眾開展市場營銷工作。鑒于此,要求采取科學合理的手段,將這些參差不齊的數據整合成可被市場營銷實踐應用的,經結合過去的經驗,與采集數據進行有機融合,實現對目標受眾的有效分析確定。
3.3.3分析與優化
數據分析,一方面是實現數據優化,一方面是進行決策層面上的調整、轉變。此環節對于專業人才的需求提出了嚴苛的挑戰。數據分析、數據優化對于專業人才的知識框架要求大不相同,這要求相關企業不僅要培養專業的數據分析人才,還要打造數據優化人才隊伍。
3.4大數據營銷的未來發展趨勢
信息技術不斷發展,單一媒體導向的“消費者碎片化”儼然無法達到企業對于數據多樣性的需求。大數據時代下,媒體的跨界融合實現對“碎片化”受眾的充分聚合。在科學技術技術不斷進步的背景下,跨媒介、跨平臺、跨終端的多途徑將不斷被開拓,將使龐大的數據信息獲取多維度的整合,并且在多樣化網絡環境下,消費者主觀信息與客觀數據有機融合,構筑全面用戶數據庫環節,將成為未來大數據營銷發展的必然趨勢[6]。
4.結束語
總而言之,大數據為傳統統計學帶來了嚴峻的考驗,也為傳統統計學有效發展創造了良好的契機。在大數據時展潮流中,我們應當充分的認識到大數據對于傳統統計學而言,是補充而不是更替,構建于樣本統計、預測分析內容上的傳統統計學,仍舊于社會統計、經濟分析中占據著主導位置。大數據時代下,為了實現企業市場營銷的有效開展,相關人員務必要不斷專研研究、總結經驗,全面分析大數據與統計學的對比,充分認識大數據對統計學的挑戰和機遇,“與消費者建立緊密關系”、“掌握競爭對手數據”、“挖掘企業內部數據”等,積極促進企業市場營銷的科學合理化。
摘要:
基于理念分析和比較研究方法,對大數據的分析方法和傳統統計學分析方法的關聯性和差異進行了對比分析,從方法的基本思想、量化形式、數據來源、分析范式、分析方法、分析視角等角度揭示了兩種社會科學分析方法存在的聯系與差異。
關鍵詞:
大數據;統計學;研究方法
隨著信息技術的日益發展與普及,信息以及數據在社會經濟發展過程中發揮的作用越來越重要。現如今,“大數據”時代已經來臨,于是如何更有效地利用數據快速做出科學決策也已成為眾多企業甚至是國家所共同關注的焦點問題。在數據處理和分析方法方面,《統計學》以及在其基礎上發展而來的實證統計方法是當前的主流,這些方法可以幫助數據持有者從大量的數據中挖掘有價值的信息,并為其相關決策提供理論支撐和方法支持。然而,傳統的實證統計方法在最新出現的大數據情境下,卻呈現出了諸多缺陷,例如傳統數據收集方法無法實現大規模(甚至是總體)數據的收集,傳統統計方法和分析軟件無法處理大規模數據,等等。于是,在將傳統統計學方法應用于最新的大數據情境和問題之前,需要首先明確大數據所要求的處理方法與傳統的統計學處理方法存在哪些關聯和區別,然后才能夠決定是否可以應用既有統計學理論和方法來處理某些大數據問題。
1大數據的界定
根據一位美國學者的研究,大數據可以被定義為:it means data that’s too big, too fast, or too hard for existing tools to process。也就是說,該學者認為:在關于大數據的所有定義中,他傾向于將之定義為那類“太大”、“太快”,或現存工具“太難”處理的數據。一般而言,大數據的特征可以概括為四個V:一是量大(Volume);二是流動性大(Velocity),典型的如微博;三是種類多(Variety),多樣性,有結構化數據,也有半結構化和非結構化數據;四是價值大(Value),這些大規模數據可以為持有企業或者組織創造出巨大的商業或社會價值。
Victor在其最新著作《大數據時代――生活、工作與思維的大變革》中指出,大數據時代,思維方式要發生3個變革:第一,要分析與事物相關的所有數據,而不是依靠分析少量數據樣本;要總體,不要樣本。第二,要樂于接受數據的紛繁復雜,而不再追求精確性。第三,不再探求難以捉摸的因果關系,應該更加注重相關關系。這些變革反映出了大數據處理方式與傳統統計學分析方法的很多關聯以及主要不同。因此,下面我們分別針對兩者的聯系和區別進行討論。
2大數據與統計學分析方法的聯系
從18世紀中葉至今,統計學已經經歷了兩百多年的發展歷程,不論是基礎理論還是社會應用都極其堅實而豐富。大數據作為一種新興的事物規律認知和挖掘思維,也將會對人類的價值體系、知識體系和生活方式產生重要影響,甚至引發重大改變。作為兩種認知世界和事物規律的基本方法,它們在以下兩個方面存在緊密關聯。
(1)挖掘事物規律的基本思想一致。統計學(statistics)探索事物規律的基本方法是:通過利用概率論建立數學模型,收集所觀察系統的數據,進行量化分析和總結,做出推斷和預測,為相關決策提供依據和參考。對于大數據,維克托指出,大數據思維的來臨使人類第一次有機會和條件,在非常多的領域和非常深入的層次獲得和使用全面數據、完整數據和系統數據,深入探索現實世界的規律,獲取過去不可能獲取的知識。通過這兩個定義可以看出,不論是傳統的統計學方法還是新興的大數據分析方法,都是以數據為基礎來揭示事物特征以及發展趨勢的。
(2)均采用量化分析方式。大數據分析的基礎是數據化,也就是一種把各種各樣現象轉變為可制表分析的量化形式的過程。不論是傳統統計學中所應用的數據(定性和定量數據),還是大數據時代即將被轉化和采用其他形式數據(如文字、圖像等),最終都是通過量化分析方法來揭示數據中所蘊含的事物特征與發展趨勢。
3大數據與統計學分析方法的區別
(1)基礎數據不同。在大數據時代,我們可以獲得和分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機抽樣。這意味著,與傳統統計學數據相比,大數據不僅規模大,變化速度快,而且數據來源、類型、收集方法都有根本性變化。
①在數據來源方面,在大數據背景下,我們需要的紛繁多樣的數據可以分布于全球多個服務器上,因此我們可以獲得體量巨大的數據,甚至是關于總體的所有數據。而統計學中的數據多是經由抽樣調查而獲得的局部數據,因此我們能夠掌握的事“小數據量”。這種情況下,因為需要分析的數據很少,所以必須盡可能精確的量化我們的數據。綜上,大數據情況下,分析人員可以擁有大量數據,因而不需要對一個現象刨根問底,只需要掌握事物大體的發展方向即可;然而傳統的小數據情況下則需要十分注意所獲得數據的精確度。
②在數據類型與收集方面,在既往模式下,數據的收集是耗時且耗力的,大數據時代所提出的“數據化”方式,將使得對所需數據的收集變得更加容易和高效。除了傳統的數字化數據,就連圖像、方位、文本的字、詞、句、段落等等,世間萬物都可以成為大數據范疇下的數據。屆時,一切自然或者社會現象的事件都可以被轉化為數據,我們會意識到本質上整個世界都是由信息構成的。
(2)分析范式不同。在小數據時代,我們往往是假想世界是如何運行的,然后通過收集和分析數據來驗證這種假想。也就是說,傳統統計實證分析的基本范式為:(基于文獻)提出理論假設-收集相關數據并進行統計分析-驗證理論假設的真偽。然而,在不久的將來,我們將會在大數據背景下探索世界,不再受限制于傳統的思維模式和特定領域里隱含的固有偏見,我們對事物的研究始于數據,并可以發現以前不曾發現的聯系。換言之,大數據背景下,探索事物規律的范式可以概括為:數據觀察與收集――數據分析――描述事物特征/關系。
(3)數據分析方法不同。傳統統計學主要是基于樣本的“推斷分析”,而大數據情境下則是基于總體數據的“實際分析”,即直接得出總體特征,并可以分析出這些特征出現的概率。
(4)分析視角不同。傳統的實證統計意在弄清事物之間的內在聯系和作用機制,但大數據思維模式認為因果關系是沒有辦法驗證的,因此需要關注的是事物之間的相關關系。大數據并沒有改變因果關系,但使因果關系變得意義不大,因而大數據的思維是告訴我們“是什么”而不是“為什么”。換言之,大數據思維認為相關關系盡管不能準確地告知我們某事件為何會發生,但是它會提醒我們這件事情正在發生,因此相關關系的發現就可以產生經濟和社會價值了。
4結語
綜上,相對于傳統而言,大數據思維主要包括三個重大轉變。首先,要分析與某事物相關的所有數據,而不是依靠分析捎來能夠的數據樣本;其次,研究人員應樂于接受數據的紛繁復雜,而不再追求精確性;最后,認知世界的思想發生了轉變,不再探求難以捉摸的因果關系,轉而關注事物的相關關系。以上三個轉變構成了大數據思維的核心。在統計學的進一步應用和發展完善過程中,需要結合以上轉變所產生的挑戰,思考有效的統計學發展對策。
摘 要:21世紀,隨著互聯網和信息技術的飛快發展,數據正在成為巨大的經濟資產,成為新世紀的礦產和資源,為企業帶來全新的創業方向、商業模式和投資機會。21世紀的學科不是經濟學,也不是醫學,是統計學在大數據時代的崛起。
關鍵詞:統計學;大數據;利用;發展
統計學是通過搜索、整理、分析數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。其中用到了大量的數學及其它學科的專業知識,它的使用范圍幾乎覆蓋了社會科學和自然科學的各個領域。隨著統計學發展的同時,一個大規模生產、分享和應用數據的時代正在開啟:大數據的真實價值就像漂浮在海洋中的冰山,絕大部分的數據都隱藏在表面下等著人類去探索。
1 利用所有的數據
在傳統的統計學中,由于記錄,存儲,分析數據的工具不夠好,所以總是傾向于從總體中抽取樣本來分析,因為統計學的一個目的就是用盡可能少的數據來證實可能重大的發現。統計學家證明:采樣分析的準確性隨著采樣隨機性的增大而大幅度提高,但是與樣本數量的增大關系不大。當樣本數量達到了某個值的時候,從新個體身上得到的信息會越來越少,就同經濟學中的邊際遞減效應一樣。
在大數據時代,不使用隨機分析的方法,而是采用所有的數據。即“樣本=總體”。統計抽樣其實只是為了在技術受限的特定時期,解決當時存在的一些特定問題而產生的。慢慢的,就會拋棄樣本分析。
2 接受不精確
對小數據而已,統計學已經可以把數據處理的很好了,但是在大數據時代,太多的數據使原始統計方法捉襟見肘,因為數據量的大增會使得結果不太精確。執迷于精確性是信息缺乏時代和模擬時代的產物,只有接受不精確性才能進入我們從未涉足的鄰域。接受不精確是從“小數據”到“大數據”的重要轉變之一。因為擁有更大的數據量所帶來的利益遠遠超過增加一點精確性,所以也就能夠接受不精確的存在了。要想得到大規模數據帶來的好處,混亂應該是一種標準途徑,而不應該是盡量避免。
3 追求相關關系而不是確定因果
在小數據時代,相關關系也是有的。統計分析的目的在于如何根據統計數據確定變量之間的關系形態及其關聯的程度,并探索其內在的數量規律。人們在實踐中發現,變量之間的關系分為兩種:函數關系和相關關系。相關與回歸是處理變量之間的一種統計方法。變量之間存在的不確定的數量關系,稱為相關關系。一般來說,可以用散點圖和相關系數來描述和測度相關關系。
相關關系的核心是量化兩個數據之間的數理關系,它沒有絕對,只有可能性。大數據的相關分析法更準確,更快,而且不易受偏見的影響。知道是什么就夠了,沒必要知道是什么。通過探求“是什么”而不是“為什么”,相關關系幫我們更好的了解這個世界。如果凡事皆有因果的話,那么我們就沒有決定任何事的自由了。
4 數據的來源并非那么簡單
在一般看來,要想得到一些你所需要的數據是需要通過各種不同方法測量或是記錄才能得到,而有時候,數據會從你意想不到的地方得到。也許你精心地設計了你的實驗或是探究,但是到了真正操作才會發現事情并不像你想象的那么簡單。
首先,由于在大數據時代,數據不是那么的有規律,所以才要考慮數據的一系列問題。這些數據或是資料是不是一定要自己去得到,或是可以參考別人已經有過的結果,這樣可以節省精力和時間。如果是參考別人的數據要考慮時效性和使用范圍。也許不是專門為你的設想而準備的數據。大的數據庫有著小數據庫所沒有的價值,大數據的核心就是挖掘出大的數據庫所擁有的獨特的價值。
5 數據的利用方式
在統計學中,對數據的利用不僅包括對數據求平均值,方差,分位點,可以的話還要得到數據中的某種關系或是聯系,如父母的身高會不會對下一代產生影響,不僅要分析父母的身高,還要分析孩子的身高,從中發現有沒有相關關系,得出自己的結論。
在大數據時代,數據沒這么簡單的讓你下手,所以對數據的利用方法也隨著情況的不同而不同。數據的用途已經從基本的用途移動到了二級用途,使得數據隨著時間的推移而變得更有價值。明白了隱藏在冰山下面的絕大部分數據的價值后,創新型企業就能夠提取其潛在價值并獲得潛在的巨大收益。盡管如此,數據再利用的重要性還沒有被充分認識到。要解鎖這些數據,就必須通過新一代統計人員的不懈努力并借助新一代的方法和工具。
隨著大數據的出現,數據的總和比部分更有價值。將數據的總體組合在一起,重組組合本身的價值也比單個更大。如果決定使用有生產價值的數據,就需要不斷的更新數據庫并淘汰無用的信息。即使數據基于基本用途的價值會減少,但潛在價值卻仍然強大。潛在的數據價值需要通過創新的分析來釋放。不出意外,給數據的潛在價值貼上價格標簽會帶來無限商機。
6 小結
個人認為統計學和數據挖掘一起可以更好的利用數據。一個可以對數據進行有效合理的分析,一個可以用多種多樣的算法來更好地處理數據。在大數據時代,重要的是數據自身和大數據的思維觀念。如果能做到數據,技能和思維三者具備,就能更好地服務于大數據時代,就能在大數據時代有非常大的競爭優勢。
摘 要:廣泛使用電算化處理統計數據的今天,學習統計學而不會使用統計學軟件,在實際工作應用中寸步難行,本文從教材的選用;強化理論基礎,重視實踐技能;培養學生職業能力,激發學生學習興趣等方面對大數據背景下高職院校統計學運用SPSS軟件研究進行了探討。
關鍵詞:大數據;高職院校;統計學;spss軟件
在2014年11月下《科技風》雜志上發表了“大數據背景下高職院校統計學的學習現狀研究”, 對大數據背景下統計學在我國高職院校開設的現狀及存在的問題進行了剖析,通過調查研究發現,目前在大數據背景下,高職院校開設的統計學課程運用SPSS軟件的應用已成為必然。
1 教材的選用
總所周知,《統計學》課程是高職院校財經類專業的學生中開設的一門公共專業基礎課程,也是學生工作后實際應用比較廣泛的一門學科,小到自己的日常生活,大到工作都離不開統計數字,靠傳統的手工計算辦法早就行不通了,特別是互聯網的應用,大數據背景下,如何在眾多的信息中篩選出有用的信息,在學生學習的過程中教材和軟件是必不可少的。
目前,統計學――基于SPSS系列教材,高等教育出版社、中國人銀民大學出版社等都出版過本科、研究生使用的教材,專門為高職院校財經類的學生使用而出版的統計學教材很少,目前,通過多方面調查,筆者認為比較適合高職院校選用的是人民郵電出版社的《SPSS統計分析實用教程》,由謝蕾蕾、宋志剛、何旭洪主編,2013年出版。這本教材以SPSS16.0為基礎,詳細介紹了多種常用統計分析方法的原理和實踐技能。全書分為十一章,主要內容包括SPSS簡介;變量、數據文件、系統參數;統計描述;統計圖制作;均值比較和T檢驗;方差分析;相關分析;回歸分析;聚類分析和判別分析;因子分析和非參數檢驗等,結合實際問題詳細介紹使用SPSS解決這些問題的步驟和結果。
這本教材克服了在選用傳統統計學教材時,只注重理論知識講授,死記硬背公式。學生們對統計計算不在望而生畏,對復雜的統計公式及數字計算,由于軟件的使用變得簡單了。因此,現在高職院校的學生必須要學習使用spss軟件,教材是學生學習過程中不可缺少的,選好教材尤為重要。
2 強化理論基礎,重視實踐技能
2.1 轉變教學觀念,理論引導下,重點強調應用
統計學是一門實踐性較強的學科,學生既要掌握扎實的基礎理論知識,也要熟練運用各種計算工具,才能具備高超的解決實際工作中問題的能力。這樣,必須對傳統的高職統計學課程進行改革。我們學校在講授這門課時,介紹統計的基本理論、基本概念、基本方法的同時,側重對統計軟件使用的講解,很好的將二者有機結合起來,做到學以至用。
2.2 以企業為依托,實現校企共育
全面建立和完善“校企共育”的人才培養模式,主動順應黃河三角洲高效生態經濟區和山東半島藍色經濟區發展帶來的產業結構優化升級和企業崗位需求變化,推行“基于工作崗位”系統化課程改革,突出學生職業崗位能力的培養,增強社會服務能力,為企、事業單位提供高素質技能型人才。
按照“知能兼備,德業為本”的財經人才培養要求,以統計職業崗位要求為目標,以就業為導向,打破傳統學科體系,建立以知識、能力、素質并重的課程體系及工學結合的校內外實踐教學機制,構建符合統計職業培養要求的人才培養模式;采取專職教師“頂崗實踐”和兼職教師“項目指導”相結合的方式,建設一支具有優秀專業帶頭人、品質優良、專兼結合的“雙師”素質教師比例達到95%以上的教學團隊;確立與職業要求相適應的教學標準,通過課堂教學與崗位實踐一體化,著力培養學生的實踐能力、創造能力,為spss軟件的應用提供了有利條件。
3 培養學生職業能力,激發學生學習興趣
3.1 深入企業工作崗位,由讓他學變成我要學
山東鋁業職業學院依托山東鋁業公司辦學,山東鋁業公司隸屬于中國鋁業公司,是全國成立的首家職業教育集團,我院的學生,具有其他院校學生無可比擬的學習優勢,我們學院在學生學習的過程中,為調動學生學習的積極性,將學生帶到企業有關崗位,如到銷售處,現場看我們的銷售人員如果對收集來的數據進行處理、加工、整理到提取出有用的信息,將spss軟件的應用過程讓學生親身體會,企業導師認真講解、操作示范,激發了學生的學習興趣。特別是老師們以通俗易懂的語言對統計方法的核心思想進行系統講解,輔助以“操作示意圖”的方式對SPSS軟件的操作進行了詳細介紹,帶領學生以看圖做題的方式非常簡單方便地學會用SPSS軟件完成各種統計方法的計算工作,面對眾多數據,同學們個個都想試試,看看雜亂無章的初始數據,在spss軟件的操作下,很快得出自己想要的數據,真的由讓他學變成我要學。
3.2 改革考核辦法,注重職業能力
隨著統計學教學的改革,我們改革了考核辦法,引導教師采用過程考核的方式促進學生有效學習。建立了《山東鋁業職業學院考試管理規定》和考試模式改革相關通知和制度,使課程考核方式真實反映學生完成實際工作任務能力的最佳方式進行考試。課程考核采用過程考核與結果考核相結合、理論考核與實踐考核相結合的模式,每門課程都進行了考核評價方案設計。目前我院財經專業以培養職業能力為核心的教學方法,得到社會承認,培養的學生已獲得企業認可。
綜上所述,在大數據時代,高職財經學生spss軟件的應用學習很好地解決了傳統統計學理論與實際相脫節的問題,激發學生的學習興趣,培養學生解決實際問題的職業能力,有利于推動學生就業。
【摘要】大數據對統計學的發展帶來了巨大的機遇與挑戰。文章分析了大數據與統計學之間的基本關系,并針對大數據環境下的統計學課程教學提出了對策與建議。
【關鍵詞】大數據 統計學 挑戰 機遇 教學
1.引言
“大數據”時代的來臨和“大數據”處理技術的發展深深的影響著統計學的發展。能否利用傳統的統計理論和統計方法對海量的數據做出快速、準確的處理并獲取相關信息?如何對傳統的統計理論與方法進行改進或探索新的統計理論和方法來對大數據進行挖掘與處理以獲取信息?如何在“大數據”時代背景下培養符合市場需求的統計分析師或數據分析師?如何將“大數據”處理技術融入相關統計學課程教學以促進數據處理與分析技術的發展?這些都是我們在統計學相關課程教學過程中必須思考的一個問題。
2.大數據與統計學
“大數據”隨著社交網絡、物聯網、云計算等的興起而產生。一般認為大數據具有規模性、多樣性、實時性及價值性四個基本特征,包含分析、帶寬和內容三個要素?!按髷祿痹跀祿碓础祿Y構和處理方法方面對傳統的統計分析方法產生了沖擊。第一,在大數據背景下,數據來源不再是原來的簡單抽樣,而是“樣本即總體”,直接將總體作為研究對象。第二,在大數據時代,研究對象也不是原來單一的結構化數據,由于數據的多樣化與規模化,我們更多的是研究非結構數據,采用人工智能來進行數據挖掘和信息獲取。第三,數據處理方法也不是簡單的采用傳統的假設檢驗方法進行研究,特別是對于統計學中的異常點,不再采取以往的丟棄或者平滑處理方式。
“大數據”處理技術對統計學的發展提出了巨大挑戰,但我們必須認識到學科之間的發展是相互交融的,“大數據處理技術”其本質上是數據處理與分析技術,其發展對統計學學科的發展也有積極的一面,同時統計學作為一門獨立的學科,有其自身獨特的學科優勢。首先,海量的數據有利于提高各類統計分析的精度,如減小抽樣誤差等。其次,較之于傳統的統計學方法,現有的“大數據”分析方法難度較大、成本較高、耗時較長。而在實際的應用中,我們關心的不是數據量的多少,而是數據量所蘊含的信息。傳統的統計學分析方法是以較少的數據進行精確度相對較高的統計分析,這是“大數據”分析所無法替代的。另一方面,統計學在數據收集方法、模型選擇、模型假設以及模型診斷方面有很大優勢。而且并不是所有的問題都具有海量的數據,并不是每一個“大數據”問題都適合用現有的“大數據處理技術”來處理。
3.對策與建議
3.1 夯實基礎教學
針對以上的分析我們可以看出,大數據對統計學的發展既是機遇,又是挑戰。因此我們在教學過程中要夯實統計學基礎知識的教學,講清楚統計學的基本原理與基本方法,特別是數據分析與數據處理的基本原理與方法。對于許多傳統領域,如生物、醫藥以及質量與可靠性工程等,我們面對的多是“小數據”而不是大數據,因此基于樣本的統計分析方法仍然是進行此類問題研究的最有效的科學手段。
另一方面,我們要結合大數據技術的特點,對統計學的基本知識進行拓展教育,引導學生思考怎樣將已有的統計學基本原理與方法運用到大數據處理的技術研究中。如在大數據環境下怎樣進行數據的收集、篩選與甄別、存儲與分析等,如何分析并厘清可能的數據來源與范圍,如何建立相關指標體系并對數據進行分類,如何制定或調整相應的統計參考標準,以及如何對依靠非傳統數據源加工生產的統計數據進行規范的統計推斷等。
隨著大數據時代的來臨,各行各業對具有統計背景知識人才的需求必定越來越多。因此,在統計學教學過程中,一定要結合各專業的特點,特別是“大數據”的特點,切實加強統計學的基礎知識教學與拓展教學。
3.2 加強統計學專業軟件教學
“大數據”環境下,對統計人才需求也發生了變化。面對海量的數據與多樣化的數據,一名合格的統計人才或數據分析人才不單需要良好的統計素養與扎實的統計基礎知識,更需要具有數據的存儲與整理能力、計算能力以及數據分析與處理能力等。這就要求在教學過程中,加強統計軟件或數學軟件的教學。
針對傳統的“數學證明+手工計算”或“重理論輕專業統計軟件”的統計學課程教學模式,可將統計軟件或數學軟件融入課堂教學并安排一定的課時上機學習統計軟件,以此提高學生數據處理能力,加深對統計學基本原理的理解與掌握。
在加強統計軟件或數學軟件,如SPSS、R、SAS以及Matlab的教學過程中,要擯棄“會軟件的操作即會統計技術”的思維,要讓學生真正掌握相關操作與相關算法,深入思考算法的實現與相關理論的應用。同時引導學生思考對“大數據處理”的技術要求,包括數據搜集、發掘、存儲以及計算分析過程中的算法與設備要求等,引導學生針對大數據進行軟件升級與開發。
3.3 突出案例教學與實踐教學
大數據的產生和發展源于規模經濟問題或超規模經濟問題的研究。每一個大數據問題的研究都是與實際經濟或社會問題緊密相聯的,因此,在實際教學過程中,要突出案例教學與實踐教學,由易到難,通過案例教學逐步引入大數據的概念以及大數據處理的基本技術,提高學生的分析全局觀以及進行實際數據分析與處理的能力。
教學改革的目的是培養在“大數據”時代背景下,符合市場需求的專業統計人才,而合格的專業統計人才必須具備良好的統計實踐能力。案例教學與統計實踐活動是培養學生統計實踐能力的有效途徑。因此,在教學過程中,一方面,教師可融合各種與實際問題相關的案例進行分析和講解,加深學生對相關統計理論知識的理解,激發學生的學習興趣,培養學生解決實際問題的能力。另一方面,教師可以組織多種形式的課堂或課堂外的統計實踐活動以培養學生統計實踐。如,指導學生針對他們感興趣的與經濟、社會發展相關的統計實際問題展開統計研究,設計調查問卷,收集數據、整理和分析數據,撰寫研究報告,實現對實際問題的分析和解決等。
4.結束語
總之,在“大數據”環境下我們既要積極面對挑戰,又要緊緊抓住機遇,切實結合“大數據”的特點和“大數據處理技術”發展的需求,既加強對傳統的統計學方法、統計理論的教學,又積極開展 “大數據“環境下的拓展教學,推動統計學的發展,在數據收集、數據分析以及統計制度等方面進行改革和創新。
阿根廷一直被懷疑有低估其通貨膨脹數據的嫌疑,以避免為那些與通貨膨脹指數掛鉤的政府債券支付高利率。希臘和意大利也被指稱在加入歐元區前對預算赤字數據進行過粉飾,這種做法使希臘政府從投資者處獲得了較低的借款利率。其他一些國家也常被懷疑對增長數據進行潤色。這個名單還可以繼續盤點下去,世界各地許多國家都有因戰略原因而篡改經濟數據的嫌疑,意在吸引投資者或獲取較低成本的債務融資。
筆者搜集了100多個國家近20年的國際收支平衡數據,運用統計學對這些數據進行檢驗。從理論上來說,這些數據的首位數字不應呈均勻分布,而應出現本福特定律所揭示的特殊分布規律。根據本福特統計定律,較小的數值(比如1、2和3)在首位數字中出現的頻率應當比較高數值的數字出現的頻率高。
由于任何數據只要數量足夠大即應符合本福特定律,因此該定律可用于檢驗自1990年代以來,各國的審計和財務數據是否出現過篡改。我們利用這一方法來檢驗國際收支平衡標準化數據,發現一系列的國家都謊報了宏觀經濟數據。盡管這種方法無法使他們查證某一政府具體在哪一時點了虛假信息,但仍可通過某些特征,例如匯率類型或海外資產頭寸,來對國家進行分類,從中總結出一定的規律。
誰是做假賬的家伙?
第一類不符合本福特定律的國家是采用了“固定匯率”機制的國家,在這類國家中,還有一個子類,即允許資本自由流動的那些國家,其公布的經濟數據的統計分布偏離了本福特定律,與標準的分布差距的幅度尤其大。這些國家都有強大的篡改不良數據的誘因,因為其貨幣一旦受到攻擊,就會面臨爆發經濟危機的高風險。國際收支平衡對于這些國家來說格外重要,因為投資者可以從國際收支平衡推斷出該國經濟的對外失衡程度――例如國家整體借貸需求以及融資構成、是否出現熱錢等。這些問題都會影響該國中央銀行在危機狀態下保衛其貨幣的能力。相反,使用浮動匯率制度的國家,其數據分布與本福特定律的吻合程度較高。
另一類首位數字分布異常的國家是那些有“經常賬戶赤字”的國家,這類國家同樣有著對經濟數據進行篡改的強大誘因,使其需要對外偽裝出穩健的形象。當你向世界其他地區借款時,你不希望自己看起來很慘。類似地,那些在凈海外資產項目上負債最多的國家,也有著可疑的數據,可以從中發現同樣的問題。從地域上來看,一些非洲國家和中東地區國家的經濟數據的首位數字分布也比較引人懷疑,有的拉美國家也是如此。但數據篡改實際上是經濟誘因問題,而非文化問題。的確,在經濟困難時期,國家經濟數據更易遭到篡改。在2008年的最后一個季度,烏克蘭和斯洛伐克等國家甚至拒絕公開數據,預防爆發貨幣危機,避免使已發生的貨幣危機進一步惡化。
最后,如果數據造假是個普遍現象,那么數字是否還有意義?在任何情況下,投資者對經濟數據都會留有戒心,持保留態度。即使是在環境比較透明的西方國家,甚至是經濟強健的德國,也會對失業率的定義進行調整,使政府能夠好看一點的經濟數據。
(作者為巴黎HEC商學院經濟學教授)
1 對基線資料進行統計學分析
搜集資料應嚴密遵守隨機抽樣設計,保證樣本從同質的總體中隨機抽取,除了對比因素外,其他可能影響結果的因素應盡可能齊同或基本接近,以保證組間的齊同可比性。因此,應對樣本的基線資料進行統計學分析,以證明組間的齊同可比性。
2 選擇正確的統計檢驗方法
研究目的不同、設計方法不同、資料類型不同,選用的統計檢驗方法則不同。例如:2組計量資料的比較應采用t檢驗;而多組(≥3組)計量資料的比較應采用方差分析(即F檢驗),如果組間差異有統計學意義,想了解差異存在于哪兩組之間,再進一步做q檢驗或LSD-t檢驗。許多作者對多組計量資料進行比較時采用兩兩組間t檢驗的方法是錯誤的。又如:等級資料的比較應采用Ridit分析或秩和檢驗或行平均得分差檢驗。許多作者對等級資料進行比較時采用檢驗的方法是錯誤的。
3 假設檢驗的推斷結論不能絕對化
假設檢驗的結論是一種概率性的推斷,無論是拒絕H0還是不拒絕H0,都有可能發生錯誤(Ⅰ型錯誤和Ⅱ型錯誤)。因此,假設檢驗的推斷結論不能絕對化。
4 P值的大小并不表示實際差別的大小
研究結論包括統計結論和專業結論兩部分。統計結論只說明有無統計學意義,而不能說明專業上的差異大小。P值的大小不能說明實際效果的“顯著”或“不顯著”。統計結果的解釋和表達,應說對比組之間的差異有(或無)統計學意義,而不能說對比組之間有(或無)顯著的差異。P≤0.01比P≤0.05更有理由拒絕H0,并不表示P≤0.01時比P≤0.05時實際差異更大。只有將統計結論和專業知識有機地結合起來,才能得出恰如其分的研究結論。若統計結論與專業結論一致,則最終結論也一致;若統計結論與專業結論不一致,則最終結論需根據專業知識而定。判斷被試因素的有效性時,要求在統計學上和專業上都有意義。
5 假設檢驗結果表達
P值傳統采用0.05和0.01這2個界值,現在提倡給出P的具體數值和檢驗統計量的具體數值(小數點后保留3位有效數字),主要理由是:①以前未推廣統計軟件之前,需要通過查表估計P值,現在使用統計軟件會自動給出具體的P值和檢驗統計量的具體值(t值、F值、χ2值等)。②方便根據具體情況判斷問題。例如P = 0.051與P = 0.049都是小概率,不能簡單地斷定P = 0.051無統計學意義而P = 0.049有統計學意義。③便于對同類研究結果進行綜合分析。
6 統計學符號的使用
統計學符號的使用應按照GB3358-82《統計名詞及符號》的規定,具體可參閱本刊稿約中的有關要求。