時間:2023-07-23 09:15:44
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇數據分析統計學方法范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
關鍵詞:大數據;數據分析;數理統計
基金項目:華北理工大學研究生教育教學改革項目資助(項目編號:K1503)
基金項目:華北理工大學教育教學改革研究與實踐重點項目資助(項目編號:Z1514-05;J 1509-09)
G643;O21-4
谷歌公司的經濟學家兼加州大學的教授哈爾?范里安先生過去說過統計學家將會成為像電腦工程師一樣受歡迎的工作。在未來10年里,人們獲得數據、處理數據、分析數據、判斷數據、提取信息的能力將變得非常重要,不僅僅在教育領域,各行各業都需要數據專家,“大數據”時代的到來使得數據處理與分析技術日新月異,深刻的影響著各個行業、領域及學科的發展,尤其是與數據關系密切的行業及學科,而作為工科各專業碩士研究生重要的公共基礎課數理統計學是天生與數據打交道的學科。
怎樣在“大數據”時代背景下培養出適應面向企業自主創新需求的數據分析人員或掌握現代數據處理技術的工程師,如何把當下流行的“大數據”處理技術與相關數理統計學課程教學有機的結合,以激發學生對數據處理與分析技術發展的興趣,這些都是我們在與數理統計學相關的課程教學中不得不思考的問題。然而,當前高校工科各專業碩士研究生數理統計教學的現狀卻與其重要程度相去甚遠,整個教學過程的諸多環節都存在較大的不足,主要表現為:1.教學內容偏重理論,學生學習興趣不高;2. 輕統計實驗;忽略對統計相關軟件的教學;3.沒有注重數理統計的學習與研究生專業相結合,實用性強調不夠。4. 輕能力培養;輕案例分析等。
這些現象導致的直接后果就是學生動手能力上的缺陷和創新能力的缺乏, 不能夠自覺利用數理統計知識解決實際問題, 尤其缺乏對統計數據的分析能力。因此,需要數理統計學隨著環境的變化不斷創新新的數理統計思維和教學內容。避免教學內容與大數據時代脫節。為此筆者在該課程的教學過程中,有意識地進行了一些教學改革嘗試。提出了幾點工科研究生數理統計教學的改革措施。
(1)調整教學內容,將與數理統計相關的大數據處理案例引進課堂。有很多有普遍性的應用統計實際案例,可以在本課程的教學過程中有選擇的引入介紹給學生,讓學生們了解利用所學統計方法進行實際數據分析的操作過程和得出結論的思維方法。以期解決工科研究生對確定性思維到隨機性思維方式的轉變的不適應性。
(2)適應大數據時代數理統計學課程的教學環境。實現教學方式的多樣性。大數據時代背景下,互聯網十分發達,學生根據自己的興趣去收集、整理和分析數據,既可以改變他們對統計方法的進一步認識,也可以增加他們的學習興趣。甚至可以以專業QQ群,郵件的方式和同學、老師之間相互交流,交流者處于相互平等的地位,可以暢所欲言,隨時隨地都可以交流,起到事半功倍的效果。這種交流使得教師不再是知識的權威,而是把教師上課作為一種更好自主學習的引導,這種交流使得他們的思想變得更加成熟。同時參與各種網絡論壇,貼吧回答問題等使得他們更能體現自己的價值,這種交流也使得學生的學習熱情和學習精神得到更好的激發。
(3)引導工科研究生開展與本專業相結合的課題研究,強調實用性,注重統計思維能力培養。適應大數據時代數理統計學課程教學環境,實現教學方式的多樣性。以期彌補學生缺少數據分析實例的訓練,解決學以致用的不足。在目前的數理統計教學安排下,受學時所限,如果相當一部分時間用來學習公式、定理的推導及證明,勢必沒有時間進行實際的數據分析練習。在大數據時代背景下,隨著海量數據、復雜形式數據的出現,使得統計方法的發展和以前有了很大的不同,沒有實際的數據分析訓練,學生們就無法對統計的廣泛應用性及重要性有深刻的體會,也不利于保持和提高他們的學習興趣。這要求具體工作者提出新的統計思想和方法,加深對已有統計思想的理解,以解決實際問題。
(4)改革成績評定方式?,F有的考試模式為通過有限的一到兩個小時的期末考試,進行概念的辨析和理論及方法的推導計算,由此來判斷研究生關于數理統計課程的學習情況有很大的不足,特別是對可以利用軟件進行的某些實際數據分析的考察沒有辦法實現。因此,有必要通過日常課堂“論文選題―提交―討論”與期末理論考試相結合的形式對學生數理統計學習進行考核。加大對學生平時考察的力度,相應地減少期末考試成績的比重。讓學生選擇一些與自己專業有關的數據進行嘗試性的數據分析、一些統計科普著作的讀書報告等并寫成論文的形式提交,做為對學生成績的評定方式,更能綜合、客觀地評價學生的學習情況。
數據分析在現代生活中發揮的作用越來越大,而道磽臣品椒可以與數據分析有機的結合,從而在提高數據分析效率的同時,保持分析結果的有效性,為生產和實踐活動提供準確的參考。以上的思考和建議僅是我們在教學研究和教學過程中的一點體會,還有許多工作亟待深入,比如適合工科研究生數理統計課程的大數據案例選取,與課程內容的有效銜接;案例教學法如何實施;教學方式多樣化問題;課堂教學與網絡交流結合;理論介紹與軟件應用訓練結合問題等。教學改革與實踐是一項艱巨的任務,以培養學生的實際運用能力和正確解釋數據分析結果的能力為目的,強調統計思想和方法應用的培養,讓學生們了解利用所學統計方法進行實際數據分析的操作過程和得出結論的思維方法將是一項長期的工作。
參考文獻
[1].游士兵,張 佩,姚雪梅.大數據對統計學的挑戰和機遇[J].珞珈管理評論, 2013, ( 02): 165-171.
統計學研究的對象是數據,數據科學顧名思義也是以數據為研究對象,這產生一種直觀的錯覺,似乎數據科學與統計學之間存在某種與生俱來的淵源關系。Wu(1998)直言不諱,數據科學就是統計學的重命名,相應地,數據科學家替代了統計學家這個稱謂。若此,那是什么促成了這種名義上的替代?顯然僅僅因為數據量大本身并不足以促成“統計學”向“數據科學”的轉變,數據挖掘、機器學習這些概念似乎就已經足夠了。問題的關鍵在于,二者所指的“數據”并非同一概念,數據②本身是一個很寬泛的概念,只要是對客觀事物記錄下來的、可以鑒別的符號都可以稱之為數據,包括數字、文字、音頻、視頻等等。統計學研究的數據雖然類型豐富,如類別數據、有序數據等定性數據,定距數據、定比數據等定量數據,但這些都是結構化數據;數據科學所謂的數據則更為寬泛,不僅包括這些傳統的結構型數據,而且還包括文本、圖像、視頻、音頻、網絡日志等非結構型和半結構型數據,即,大數據。大數據(以半/非結構型數據為主)使基于關系型數據庫的傳統分析工具很難發揮作用,或者說傳統的數據庫和統計分析方法很難在可容忍的時間范圍內完成存儲、管理和分析等一系列數據處理過程,為了有效地處理這類數據,需要一種新的范式———數據科學。真正意義上的現代統計學是從處理小數據、不完美的實驗等這類現實問題發展起來的,而數據科學是因為處理大數據這類現實問題而興起的。因此數據科學的研究對象是大數據,而統計學以結構型數據為研究對象。退一步,單從數量級來講,也已發生了質變。對于結構化的大規模數據,傳統的方法只是理論上的(可行性)或不經濟的(有效性),實踐中還需要借助數據挖掘、機器學習、并行處理技術等現代計算技術才能實現。
二、數據科學的統計學內涵
(一)理論基礎
數據科學中的數據處理和分析方法是在不同學科領域中分別發展起來的,譬如,統計學、統計學習或稱統計機器學習、數據挖掘、應用數學、數據密集型計算、密集計算方法等。在量化分析的浪潮下甚至出現了“metric+模式”,如計量經濟學、文獻計量學、網絡計量學、生物統計學等。因此,有學者將數據科學定義為計算機科學技術、數學與統計學知識、專業應用知識三者的交集,這意味著數據科學是一門新興的交叉學科。但是這種沒有側重的疊加似乎只是羅列了數據科學所涉及到的學科知識,并沒有進行實質性的分析,就好似任何現實活動都可以拆解為不同的細分學科,這是必然的。根據Naur(1960,1974)的觀點,數據科學或稱數據學是計算機科學的一個替代性稱謂。但是這種字面上的轉換,并沒有作為一個獨立的學科而形成。Cleveland(2001)首次將數據科學作為一個獨立的學科提出時,將數據科學表述為統計學加上它在計算技術方面的擴展。這種觀點表明,數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果。一如統計學最初只是作為征兵、征稅等行政管理的附屬活動,而現在包括了范圍更廣泛的理論和方法。從研究范圍的擴展來看,是從最初的結構型大規模數據(登記數據),到結構型的小規模數據(抽樣數據)、結構型的大規模數據(微觀數據),再擴展到現在的非(半)結構型的大規模數據(大數據)和關系數據等類型更為豐富的數據。從分析方法的擴展來看,是從參數方法到非參數方法,從基于模型到基于算法,一方面傳統的統計模型需要向更一般的數據概念延伸;另一方面,算法(計算機實現)成為必要的“可行性分析”,而且在很多方面算法模型的優勢越來越突出。注意到,數據分析有驗證性的數據分析和探索性的數據分析兩個基本取向,但不論是哪一種取向,都有一個基本的前提假設,就是觀測數據是由背后的一個(隨機)模型生成,因此數據分析的基本問題就是找出這個(隨機)模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關系,兩者皆必不可少,強調EDA是因為它被低估了。數據導向是計算機時代統計學發展的方向,這一觀點已被越來越多的統計學家所認同。但是數據導向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數據背后存在某種生成機制;而算法模型則認為復雜的現實世界無法用數學公式來刻畫,即,不設置具體的數學模型,同時對數據也不做相應的限制性假定。算法模型自20世紀80年代中期以來隨著計算機技術的迅猛發展而得到快速成長,然而很大程度上是在統計學這個領域之外“悄然”進行的,比如人工神經網絡、支持向量機、決策樹、隨機森林等機器學習和數據挖掘方法。若響應變量記為y,預測變量記為x,擾動項和參數分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關系并對y做出預測,其中,f是一個有顯式表達的函數形式(若f先驗假定,則對應CDA;若f是探索得到的,則對應EDA),比如線性回歸、Logistic回歸、Cox回歸等。可見,傳統建模的基本觀點是,不僅要得到正確的模型———可解釋性強,而且要得到準確的模型———外推預測能力強。而對于現實中復雜的、高維的、非線性的數據集,更切合實際的做法是直接去尋找一個恰當的預測規則(算法模型),不過代價是可解釋性較弱,但是算法模型的計算效率和可擴展性更強。基于算法的基本形式類似于非參數方法y=f(x,ε),但是比非參數方法的要求更低yx,因為非參數方法很多時候要求f或其一階導數是平滑的,而這里直接跳過了函數機制的探討,尋找的只是一個預測規則(后續的檢驗也是基于預測構造的)。在很多應用場合,算法模型得到的是針對具體問題的解(譬如某些參數是被當作一個確定的值通過優化算法得到的),并不是統計意義上的推斷解。
(二)技術維度
數據科學是基于數據的決策,數據分析的本質既不是數學,也不是軟件程序,而是對數據的“閱讀”和“理解”。技術只是輔助數據理解的工具,一個毫無統計學知識的人應用統計軟件也可以得到統計結果,但無論其過程還是結果都是可疑的,對統計結果的解釋也無法令人信服?!皬挠嬎銠C科學自身來看,這些應用領域提供的主要研究對象就是數據。雖然計算機科學一貫重視數據的研究,但數據在其中的地位將會得到更進一步的加強”。不可否認,統計分析逐漸向計算機科學技術靠近的趨勢是明顯的。這一方面是因為,數據量快速膨脹,數據來源、類型和結構越來越復雜,迫切需要開發更高效率的存儲和分析工具,可以很好地適應數據量的快速膨脹;另一方面,計算機科學技術的迅猛發展為新方法的實現提供了重要的支撐。對于大數據而言,大數據分析丟不掉計算機科學這個屬性的一個重要原因還不單純是因為需要統計軟件來協助基本的統計分析和計算,而是大數據并不能像早先在關系型數據庫中的數據那樣可以直接用于統計分析。事實上,面對越來越龐雜的數據,核心的統計方法并沒有實質性的改變,改變的只是實現它的算法。因此,從某種程度上來講,大數據考驗的并不是統計學的方法論,而是計算機科學技術和算法的適應性。譬如大數據的存儲、管理以及分析架構,這些都是技術上的應對,是如何實現統計分析的輔助工具,核心的數據分析邏輯并沒有實質性的改變。因此,就目前而言,大數據分析的關鍵是計算機技術如何更新升級來適應這種變革,以便可以像從前一樣滿足統計分析的需要。
(三)應用維度
在商業應用領域,數據科學被定義為,將數據轉化為有價值的商業信息①的完整過程。數據科學家要同時具備數據分析技術和商業敏感性等綜合技能。換句話說,數據科學家不僅要了解數據的來源、類型和存儲調用方式,而且還要知曉如何選擇相應的分析方法,同時對分析結果也能做出切合實際的解釋②。這實際上提出了兩個層面的要求:①長期目標是數據科學家從一開始就應該熟悉整個數據分析流程,而不是數據庫、統計學、機器學習、經濟學、商業分析等片段化碎片化的知識。②短期目標實際上是一個“二級定義”,即,鼓勵已經在專業領域內有所成就的統計學家、程序員、商業分析師相互學習。在提及數據科學的相關文獻中,對應用領域有更多的傾向;數據科學與統計學、數學等其他學科的區別恰在于其更傾向于實際應用。甚至有觀點認為,數據科學是為應對大數據現象而專門設定的一個“職業”。其中,商業敏感性是數據科學家區別于一般統計人員的基本素質。對數據的簡單收集和報告不是數據科學的要義,數據科學強調對數據多角度的理解,以及如何就大數據提出相關的問題(很多重要的問題,我們非但不知道答案而且不知道問題何在以及如何發問)。同時數據科學家要有良好的表達能力,能將數據中所發現的事實清楚地表達給相關部門以便實現有效協作。從商業應用和服務社會的角度來看,強調應用這個維度無可厚非,因為此處是數據產生的土壤,符合數據科學數據導向的理念,數據分析的目的很大程度上也是為了增進商業理解,而且包括數據科學家、首席信息官這些提法也都肇始于實務部門。不過,早在20世紀90年代中期,已故圖靈獎得主格雷(JimGray)就已經意識到,數據庫技術的下一個“大數據”挑戰將會來自科學領域而非商業領域(科學研究領域成為產生大數據的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環境科學、生物醫藥、互聯網技術等領域所面臨的大數據挑戰。2011年2月11日,《科學》攜其子刊《科學-信號傳導》、《科學-轉譯醫學》、《科學-職業》專門就日益增長的科學研究數據進行了廣泛的討論。格雷還進一步提出科學研究的“第四范式”是數據(數據密集型科學),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數據,而非將數據用于計算”。這種觀點實際上是將數據從計算科學中單獨區別開來了。
三、數據科學范式對統計分析過程的直接影響
以前所謂的大規模數據都是封閉于一個機構內的(數據孤島),而大數據注重的是數據集間的關聯關系,也可以說大數據讓孤立的數據形成了新的聯系,是一種整體的、系統的觀念。從這個層面來說,將大數據稱為“大融合數據”或許更為恰當。事實上,孤立的大數據,其價值十分有限,大數據的革新恰在于它與傳統數據的結合、線上和線下數據的結合,當放到更大的環境中所產生的“1+1>2”的價值。譬如消費行為記錄與企業生產數據結合,移動通訊基站定位數據用于優化城市交通設計,微博和社交網絡數據用于購物推薦,搜索數據用于流感預測、利用社交媒體數據監測食品價等等。特別是數據集之間建立的均衡關系,一方面無形中增強了對數據質量的監督和約束;另一方面,為過去難以統計的指標和變量提供了另辟蹊徑的思路。從統計學的角度來看,數據科學(大數據)對統計分析過程的各個環節(數據收集、整理、分析、評價、等)都提出了挑戰,其中,集中表現在數據收集和數據分析這兩個方面。
(一)數據收集方面
在統計學被作為一個獨立的學科分離出來之前(1900年前),統計學家們就已經開始處理大規模數據了,但是這個時期主要是全國范圍的普查登記造冊,至多是一些簡單的匯總和比較。之后(1920-1960年)的焦點逐漸縮聚在小規模數據(樣本),大部分經典的統計方法(統計推斷)以及現代意義上的統計調查(抽樣調查)正是在這個時期產生。隨后的45年里,統計方法因廣泛的應用而得到快速發展。變革再次來自于統計分析的初始環節———數據收集方式的轉變:傳統的統計調查方法通常是經過設計的、系統收集的,而大數據是零散實錄的、有機的,這些數據通常是用戶使用電子數碼產品的副產品或用戶自行產生的內容,比如社交媒體數據、搜索記錄、網絡日志等數據流等,而且數據隨時都在增加(數據集是動態的)。與以往大規模數據不同的是,數據來源和類型更加豐富,數據庫間的關聯性也得到了前所未有的重視(大數據的組織形式是數據網絡),問題也變得更加復雜。隨著移動電話和網絡的逐漸滲透,固定電話不再是識別住戶的有效工具變量,相應的無回答率也在增加(移動電話的拒訪率一般高于固定電話),同時統計調查的成本在增加,人口的流動性在增加,隱私意識以及法律對隱私的保護日益趨緊,涉及個人信息的數據從常規調查中越來越難以取得(從各國的經驗來看,拒訪率或無回答率的趨勢是增加的),對時效性的要求也越來越高。因此,官方統計的數據來源已經無法局限于傳統的統計調查,迫切需要整合部門行政記錄數據、商業記錄數據、個人行為記錄數據等多渠道數據源,與部門和搜索引擎服務商展開更廣泛的合作。
(二)數據分析方面
現代統計分析方法的核心是抽樣推斷(參數估計和假設檢驗),然而數據收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數據構建的推薦算法,誠然改進算法可以改善推薦效果,但是增加數據同樣可以達到相同的目的,甚至效果更好。即所謂的“大量的數據勝于好的算法”這與統計學的關鍵定律(大數定律和中心極限定理)是一致的。同樣,在大數據分析中,可以用數量來產生質量,而不再需要用樣本來推斷總體。事實上,在某些場合(比如社會網絡數據),抽樣本身是困難的。數據導向的、基于算法的數據分析方法成為計算機時代統計學發展無法回避的一個重要趨勢。算法模型不僅對數據分布結構有更少的限制性假定,而且在計算效率上有很大的優勢。特別是一些積極的開源軟件的支撐,以及天生與計算機的相容性,使算法模型越來越受到學界的廣泛重視。大數據分析首先涉及到存儲、傳輸等大數據管理方面的問題。僅從數量上來看,信息爆炸、數據過剩、數據泛濫、數據墳墓、豐富的數據貧乏的知識……這些詞組表達的主要是我們匱乏的、捉襟見肘的存儲能力,同時,存儲數據中有利用價值的部分卻少之又少或塵封窖藏難以被發現。這除了對開采工具的渴求,當時的情緒主要還是遷怨于盲目的記錄,把過多精力放在捕捉和存儲外在信息。在這種情況下,開采有用的知識等價于拋棄無用的數據。然而,大數據時代的思路改變了,開始變本加厲巨細靡遺地記錄一切可以記錄的數據。因為:數據再怎么拋棄還是會越來越多。我們不能通過刪減數據來適應自己的無能,為自己不愿做出改變找借口,而是應該面對現實,提高處理海量數據的能力。退一步,該刪除哪些數據呢?當前無用的數據將來也無用嗎?顯然刪除數據的成本要大于存儲的成本。大數據存儲目前廣泛應用的是GFS、HDFS等基于計算機群組的文件系統,它可以通過簡單增加計算機來無限地擴充存儲能力。值得注意的是,分布式文件系統存儲的數據僅僅是整個架構中最基礎的描述,是為其他部件服務的(比如MapReduce),并不能直接用于統計分析。而NoSQL這類分布式存儲系統可以實現高級查詢語言,事實上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級查詢語言也使MapReduce更接近傳統的數據庫編程,二者的差異將變得越來越模糊。大數據分析的可行性問題指的是,數據量可能大到已經超過了目前的存儲能力,或者盡管沒有大到無法存儲,但是如果算法對內存和處理器要求很高,那么數據相對也就“大”了。換句話說,可行性問題主要是,數據量太大了,或者算法的復雜度太高。大數據分析的有效性問題指的是,盡管目前的硬件條件允許,但是耗時太久,無法在可容忍的或者說可以接受的時間范圍內完成。目前對有效性的解決辦法是采用并行處理。注意到,高性能計算和網格計算也是并行處理,但是對于大數據而言,由于很多節點需要訪問大量數據,因此很多計算節點會因為網絡帶寬的限制而不得不空閑等待。而MapReduce會盡量在計算節點上存儲數據,以實現數據的本地快速訪問。因此,數據本地化是MapReduce的核心特征。
四、結論
(一)數據科學不能簡單地理解為統計學的重命名,二者所指“數據”并非同一概念,前者更為寬泛,不僅包括結構型數據,而且還包括文本、圖像、視頻、音頻、網絡日志等非結構型和半結構型數據;同時,數量級也是后者難以企及的(PB以上)。但是數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果,特別是數據導向的、基于算法的數據分析方法越來越受到學界的廣泛重視。
(二)從某種程度上來講,大數據考驗的并不是統計學的方法論,而是計算機科學技術和算法的適應性。譬如大數據的存儲、管理以及分析架構,這些都是技術上的應對,核心的數據分析邏輯并沒有實質性的改變。因此,大數據分析的關鍵是計算機技術如何更新升級以適應這種變革,以便可以像從前一樣滿足統計分析的需要。
(三)大數據問題很大程度上來自于商業領域,受商業利益驅動,因此數據科學還被普遍定義為,將數據轉化為有價值的商業信息的完整過程。這種強調應用維度的觀點無可厚非,因為此處是數據產生的土壤,符合數據科學數據導向的理念。不過,早在20世紀90年代中期,已故圖靈獎得主格雷就已經意識到,數據庫技術的下一個“大數據”挑戰將會來自科學領域而非商業領域(科學研究領域成為產生大數據的重要土壤)。他提出科學研究的“第四范式”是數據,不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數據,而非將數據用于計算”。這種觀點實際上將數據從計算科學中單獨區別開了。
(四)數據科學范式對統計分析過程的各個環節都提出了挑戰,集中表現在數據收集和數據分析這兩個方面。數據收集不再是刻意的、經過設計的,而更多的是用戶使用電子數碼產品的副產品或用戶自行產生的內容,這種改變的直接影響是淡化了樣本的意義,同時增進了數據的客觀性。事實上,在某些場合(比如社會網絡數據),抽樣本身是困難的。數據的存儲和分析也不再一味地依賴于高性能計算機,而是轉向由中低端設備構成的大規模群組并行處理,采用橫向擴展的方式。
【關鍵詞】統計學;統計思想;認識
1關于統計學
統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
2統計學中的幾種統計思想
2.1統計思想的形成
統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。
2.2比較常用的幾種統計思想
所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:
2.2.1均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.2.2變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
2.2.4相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
2.2.5擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
2.2.6檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
2.3統計思想的特點
作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
3對統計思想的一些思考
3.1要更正當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。新晨
3.2要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
參考文獻:
[1]陳福貴.統計思想雛議[J]北京統計,2004,(05).
[2]龐有貴.統計工作及統計思想[J]科技情報開發與經濟,2004,(03).
一、統計學中的幾種常見統計思想
統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等。統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
1.均值思想。均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.變異思想。統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想。估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
4.相關思想。事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
5.擬合思想。擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
6.檢驗思想。統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
二、對統計思想的若干思考
1.要改變當前存在的一些不正確的思想認識。英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜,越科學。在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
關鍵詞 大數據時代 數據分析
一、相關概述
大數據環境下經濟社會生活都出現了較大的變化,同時自然科學和人文科學等也都有了較大的提升。在此背景下,依靠計算機信息技術的不斷發展,研究者能夠使用一定的方法和技能對較為復雜且規模較大的海量數據進行數據處理,并有效挖掘其中的價值信息。大數據環境為統計學的研究和發展提供了好的機遇,同時也對統計學的拓展提出了一定的挑戰。
大數據環境下數據在各個行業和領域中都有所滲透,并逐漸成為主要的生產要素。大數據本身具有價值密度低、數據體量大、數據類型多、數據處理速度快的特點。不過由于數據量的急速增長,也使得在數據分析和研究過程中由于數據庫缺少必要的管理工具進行數據采集和管理,而導致數據搜索、數據分析、數據存取和數據共享等出現一定的困難。一般情況下,在大數據環境下,往往存在著數據存儲、處理技術、數據安全等相關的技術性問題。這些問題的存在一定程度上影響和制約了數據的開發和應用效率。盡管大數據下進行數據分析存在一定困難,但是其在實踐中的應用空間和領域卻十分廣泛,對于經濟社會的發展具有重要的推動力。
二、大數據環境下數據分析過程分析
(一)數據的價值挖掘過程
面對海量的大數據環境,數據使用者應當圍繞數據分析目標和具體要求對大數據進行有效挖掘,提取有用數據,摒棄無用數據,從海量數據中進行價值挖掘,結合數據類型提升數據使用價值。在進行具體的大數據挖掘時可以按照具體的案例來進行,比如在進行廣告人群匹配時,在進行數據分析和數據挖掘上主要是面對著兩種數據。一種是廣告庫數據,主要包含了廣告庫以及廣告的客戶信息等。這種數據一般都具有較高的結構性,能夠在傳統的數據庫中進行采集和應用、分析。另外一種數據是客戶的后期行為數據。通過對此兩種數據的結合分析,有效挖掘其中的有效價值。與此同時,在具體的應用實踐過程中,還需要積極發揮第二種信息的作用和價值,這樣能夠獲得客戶所需的信息。依靠對群體行為和群體智能的分析,最終形成具體的反饋機制和反饋流程,在此基礎上為信息使用者提供優質可靠的數據處理信息,為信息使用者科學決策提供有效的信息和數據支持。
(二)數據的處理與分析過程
在此過程中,一方面要及時更新抽樣調查的工作理念。一般情況下,大數據的樣本資料都是之前的材料匯總,這就要求在對此數據進行分析處理時應當首先對數據整體進行梳理和了解,并逐步向數據局部進行延伸。同時在對海量數據進行分析處理時還應當解決好調查目標設定不合理、抽樣框架不穩定以及樣本數量受限制等問題。另一方面,也要進一步提升大數據環境下數據精確度標準。由于大數據環境下數據的來源比較廣,數據處理質量和效果也各有差異,因此應當在允許數據之間存在準確度差異的同時提升數據精準度的標準。要在積極吸收各種數據資源的基礎上,提升數據處理能力和質量,科學應對數據復雜性和變量關系復雜性等問題。除此之外,也應當圍繞大數據中的數據分析,對數據關系的分析重點進行合理轉換。既要重視對數據中因果關系的分析和梳理,同時也要重視對事物之間相關性的分析研究,及時轉換分析思路,圍繞數據分析目標和事物之間關聯關系進行大數據環境下的數據分析工作。
三、大數據對統計的影響分析
(一)能夠進一步拓展統計學研究領域
大數據環境對于各個研究領域都能夠產生比較大的影響,對于統計學也是一樣。統計學研究的是客體、客觀事物之間的數量關系和數量特征,數量性是統計學研究對象最為主要的特征。由于在傳統的統計學研究實踐中實驗數據和調查數據是最主要的研究數據,因此在大數據環境下,統計學研究對象既包括了之前的結構化數據,同時也包括了非結構化數據,這些非結構化數據不能夠單純地依靠數量關系來加以衡量和表示。這其中就包括了文本、聲音、圖片、動畫等數據信息。從這個意義上講,大數據環境下統計學的研究領域有了較大范圍的擴展。
(二)能夠對統計計算的規范性產生影響
按照傳統的統計學研究方法,在反應事物量的特征時大都是依靠方差、平均值、相對數等來進行,這些研究方法能夠反映出事物之間的界限和關系,并且也能夠依靠數據計算規范來反映出具體的數據。不過在當前的大數據環境下,非結構性數據常常難以使用傳統的數據計算規范來加以計算。從這個角度上講,大數據環境下統計的數據計算規范也受到了較大的挑戰。
(三)能夠對統計的數據整理和分析過程產生影響
統計學中數據審核之前主要是針對數據的完整性和準確性。不過在當前的大數據環境下,數據審核除了要保障原先的數據完整性、準確性外,還應當保證數據審核的速度、效率以及數據預測的準確性等。除此之外,還應當準確確定數據處理的規模,合理確定數據量的級別。盡管大數據自身具有混亂性和不穩定性的特點,但是使用合理的數據整理方法也能夠在大數據中有效挖掘出數據之間的隱蔽關系,提升數據挖掘的價值性。因此,大數據下統計研究對象本身具有準確和不準確兩種情況,它們分別具有不同的價值屬性,一般情況下不需要對其進行刪除或者替換。
對于數據存儲來講,之前的統計研究數據存儲過程中都是將審核、匯總或者編制的表格、圖表等,并將它們進行適當的保存處理。不過在大數據環境下進行數據的保存就還需要重視數據存儲成本的管控,并結合自身實際制定規章制度和計劃合理確定數據存儲的規模和目錄。
(四)能夠對數據開發和利用過程產生影響
這主要涉及大數據環境下數據的積累、開發以及應用。在傳統的數據統計工作過程中,研究者都是圍繞自身目標來對相關數據進行分類和匯總,通過存儲和提取過程,對數據進行有效挖掘,并在此基礎上為后續的數據分析和查詢提供支撐。大數據環境下,數據量比較大,只有對數據信息進行適當處理才能夠獲得其中價值量比較高的信息。正是基于大數據自身的復雜性,統計研究者應當對前期數據進行適當處理。圍繞數據的規模和結構、層次等進行合理分類和匯總,在確保真實性的同時提升數據的價值性。與此同時,由于大數據環境下數據具有流動性特點,使得數據本身也具有再生性特征,并進一步增加了數據的價值性。因此有必要針對統計研究中的大數據進行深入的數據挖掘,依靠數據整合提升數據價值性。在數據應用上則主要是針對統計學現象的預測和解釋,實現在大數據環境下數據相關關系的預測和分析。
總的來講,大數據環境不僅改變了經濟社會生活,也對統計等相關科學產生了巨大的影響,如何實現大數據環境下的統計研究是統計學領域的重要課題。進一步強化對大數據的理解和把握,重視大數據在統計中的研究和應用,有效分析和挖掘大數據中的價值信息,更好地推動統計學的理論和實踐應用。
(次世青、高東宇單位為首都航天機械公司;次青波單位為中國航天標準化研究所)
參考文獻
[1] 田茂再.大數據時代統計學重構研究中的幾個熱點問題[J].統計研究,2015(05).
關鍵詞:大數據;經濟統計;專業建設
當前,大數據已經滲透到社會、經濟、政治以及文化等眾多領域。大數據在給各行各業帶來了新的歷史發展機遇的同時,也將給各行各業帶來新的挑戰。顯然,對高等教育來講也同樣如此。相應的,對直接服務于經濟統計人才培養的經濟統計學專業建設來講,迫切需要回答的問題是,在新形勢下,專業建設遇到新的挑戰又將是怎樣的呢?進一步的,為了積極應對新的挑戰又需要對舊的培養模式進行怎樣的修正和改進呢?從現有的文獻資料看,雖然學術界已經積累了大量與(經濟)統計學專業建設相關的研究成果(如龐皓,1991;曾五一,1999;曾五一和尚衛平,1999;曾五一等,2010;朱宇兵,2009等),但基于大數據背景對這些問題較為深入的研究還比較缺乏,本研究則可以視為是對此進行彌補的一個努力嘗試。
1經濟統計學專業建設的發展現狀
從某種意義上講,經濟統計學是一個新的專業。2012年10月,教育部頒布了《普通高等學校本科專業目錄(2012年)》。在新專業目錄中,除保留統計學為理學類一級學科(包括統計學和應用統計學兩個二級學科)之外,在經濟學類的經濟學一級學科下增設經濟統計學。正是在這樣的背景下,目前我國高校經濟統計學專業的開設一般有兩種情況,一種是新專業目錄頒布后新設立的,如中央財經大學、對外經濟貿易大學、西南政法大學以及中南民族大學等;一種則是由原來的統計學專業更名而來的,如中南財經政法大學、天津財經大學、江西財經大學、南京財經大學以及中央民族大學等。從發展歷史過程看,經濟統計學并非是一個全新的專業,而是由以前的統計學專業發展而來。在1998年9月國家教育部頒布的《普通高等學校本科專業目錄和專業介紹》中,統計學被列為理學類一級學科,但可選擇授予經濟學或理學學位。在這種背景下,根據具體的辦學條件和偏好,各高校采用了不同的教育模式,一類是強調各類統計學所具有的共性。它肯定統計學的“理學性質”,按照理學類學科的特點設置課程。另一類則是強調各類統計學的個性,如財經類院校統計學專業(曾五一等,2010)。前者的數量較少,它是將統計學作為應用數學的一個分支來看待,所開設課程主要是數學和各種數理統計方法。后者數量占有絕大的比重,其專業方向包括國民經濟統計、經濟統計、管理統計、金融證券統計等(李寶瑜,2004)。從我國統計學學科建設的發展過程看,其特征主要表現為兩個轉變,即從起初的側重理論培養向當前的強調實際應用轉變以及從起初的主要服務政府部門向當前的主要服務社會企業組織轉變。由于新專業目錄頒布時間還很短,經濟統計學專業還沒有建立起新的培養模式,主要還是其前身———(經濟學方向的)統計學——培養模式的一種延續。從我們掌握的資料看,目前各高校經濟統計學專業的培養方案還主要是參照1998年《普通高等學校本科專業介紹》制定的,其培養目標是所謂的“復合型人才”,即具有堅實的經濟理論基礎,既懂數理統計方法、又懂經濟統計方法,并能熟練掌握現代計算手段的經濟統計人才(曾五一等,2010)。這種人才既是統計人才又是經濟管理人才,不僅能勝任基層企業和政府部門的日常統計業務,而且能從事市場調查、經濟預測、信息分析和其他經濟管理工作。相應的,在具體的課程體系構建和安排上,各高校大都貫徹了“大統計”的學科觀點,遵循“厚基礎、寬口徑、重應用”的復合型人才培養原則(向書堅和平衛英,2010),即在強調較為完整系統地介紹統計學主要理論和分析方法的同時,還強調其與經濟學其他學科的密切聯系,按照經濟類學科的特點設置課程。也就是說,經濟統計學專業的課程設置具有顯著的二元性特征。從各高校的具體設置看,統計學方面的課程一般有數學基礎課、概率論、數理統計、運籌學、隨機過程、回歸分析、時間序列分析、多元統計分析、抽樣調查、非參數統計、統計預測與決策等;而經濟學方面的課程一般則有微觀經濟學、宏觀經濟學、會計學、國際經濟學以及與專業方向(如國民經濟統計、財務會計統計、金融證券統計等)有關的課程。此外,和其他專業一樣,經濟統計學也重視學生應用和創新能力的培養,特別強調本專業的畢業生應該具有熟練地采集數據和應用計算機分析、處理數據的能力。因此,Excel、SAS、SPSS等常用軟件的學習和訓練也通常以實驗課的形式被納入到課程體系中。但是,要注意的是,我國各高校在制定或修訂經濟統計學培養方案時,有意或無意地忽視了當前隨互聯網技術日新月異帶來的大數據海量涌現。而由于大數據和傳統數據存在顯著的差異,各高?,F有的經濟統計培養模式可能需要做出重大調整。
2大數據帶來的挑戰
大數據之所以在眾多領域里引起關注,其根本的原因在于大數據蘊含著巨大的潛在價值。相對于傳統的標準化數據,大數據不僅體量龐大、產生速率極快,而且也更為全面(甚至是整體數據)。因此,大數據的分析結果也更接近真實。換句話說,大數據分析往往意味著人們能夠從這些全面的數據中獲取新的洞察力,從而更有可能創造出新的價值,進而帶來更大的發展。大數據蘊含的巨大潛在價值,勢必將打破現有的數據邊界,使大數據逐漸成為經濟統計分析的主要對象。由于大數據與傳統的標準數據存在顯著的差異,對未來的經濟統計工作而言,大數據勢必將帶來新的問題或挑戰。簡要地說,大數據帶來新的問題或挑戰主要來自于兩個方面,即:
(1)數據來源問題。與傳統數據主要來源于抽樣調查或組織內部不同,大數據是互聯網高速發展的產物。隨著科技環境的巨變———個人電腦的全球普及,移動智能終端的盛行,物聯網和社交網絡的爆炸式發展,以及數以千萬計的聯網傳感器節點在交通、汽車、工業、公用事業和零售部門等的廣泛分布,這些都讓數據的生產和收集的途徑更為多元、更為廣泛。不過,需要特別注意的是,由于其蘊含的巨大潛在價值,大數據已經成為了可以與物質和人力資本相提并論的重要生產要素和組織資產。相應的,對各類逐利組織(尤其是企業)來說,不僅需要考慮如何收集到大量的有效信息,同時也希望這些信息為其獨自所占有,如最近阿里巴巴封殺微信、京東,斷絕與社交網絡新浪微博的賬號合作。這種電商行業“封殺”現象的出現,其理由看似是如這些企業所宣稱的那樣為了保護公司的信息安全,但背后的根源其實是擔心自身的內部商業信息通過互聯網泄漏,擔心用戶流量的命脈被他人掌握。因此,在大數據時代,如何解決數據的封閉性問題將是經濟統計工作數據收集面臨的一個重要挑戰。此外,對經濟統計人才來講,由于數據不再僅僅是標準結構的,資料收集新技術的開發和掌握也成為一種迫切的需要。
(2)數據分析問題。由于數據更多的是半結構化或非結構化的,傳統的經濟統計分析工具和方法可能不再有效。就大數據分析而言,經濟統計工作需要解決的問題是如何從體量龐大且雜亂無章的各類數據中挖掘有效信息以創造新的知識和新的價值。在以前,數據很大程度上是指“數字”,如業務量、營業收入額、利潤額、工業企業產值、固定資產投資、GDP等,都是一個個數字或者是可以進行編碼的簡單文本。而在大數據時代,人們不再是隱藏在終端和網絡后面的隱形者,購物、社交、游戲、閱讀、出行等信息都變成數據被收集到各種各樣的儲存設備中。而數據也不再是單純的“數字”,還包括文本、圖片、音頻、視頻等多種格式,其涵括的內容也更為豐富,如博客、微博、通話錄音、位置信息、交易信息、點評信息、互動信息等。也就是說,數據不再只是結構化的,更多是廣泛存在于社交網絡、物聯網、電子商務等之中的半結構化數據和非結構化數據。隨著數據越來越大,越來越復雜,增長越來越快,要想建立和保持競爭優勢需要對數據進行實時、有效的分析。而由于數據更多的是以半結構化和非結構化形式出現,過去傳統的數據分析技術可能無法實現實時監測和分析。
3應對措施及建議
從個人服務到商業運營,從醫療衛生到公共教育,從城市交通到公共管理,大數據已開始撼動世界的方方面面。在帶來新的發展機遇的同時,大數據時代也向包括經濟統計在內的眾多領域提出了眾多挑戰,需要做好充足的準備及應對。具體到與人才培養息息相關的經濟統計學專業建設,我們認為需要從以下幾個方面做出必要的變革:
(1)樹立市場意識,避免人才培養與現實需求脫節。從目前的實際情況看,我國高校經濟統計人才培養與市場需求之間或多或少存在一定程度的“學”“用”脫節,還沒有全面實現學以致用。一方面,以企業為主的各類組織對經濟統計人才需求非常急迫,如最近一份針對近千家企業和從業人員的調查顯示,97.9%的企業認為數據分析對電商運營很重要,超過半數的企業表示數據分析能力欠缺,同時有近60%的企業希望專業數據分析人才加入,并愿意為此支付更高薪資;①另一方面,無論是課程體系還是教學內容以及教學方式,現有模式基本上是以傳統數據為對象的。換句話說,在現有培養方式下,學生掌握的數理統計和經濟統計方法可能無法滿足大數據的分析需要,如傳統的統計分組、頻數分布等數據整理方法顯然難以完全適用于圖片、音頻、視頻等非結構化數據。因此,要真正做到“厚基礎、寬口徑、重應用”,則需要根據經濟發展的需求設置教學計劃、更新落后的教育內容、采納現代化的教學手段,需要注意與其他學科之間進行充分的交流與融合,跟上當代社會科學的雜交化、整體化趨勢發展的步伐。
(2)經濟、統計與IT相融合,優化課程體系。在大數據的洪流中,數據分析是否能夠帶來新的洞察力、創造新的知識和價值,取決于從業人員是否掌握大數據收集、管理、分析和開發的相關特定工具。從我國高校經濟統計學專業課程體系看,專業課程設置主要包括經濟類基礎課程與專業主干課程兩大基本模塊。雖然各高校都強調遵循“厚基礎、寬口徑、重應用”的復合型經濟統計人才培養原則,也主張將理論方法的教學與計算機軟件緊密結合起來(如“統計學導論”選用Excel,“應用多元統計分析”選用SPSS,“計量經濟學”選用Eviews等軟件作為計算工具),但在大數據的開發和應用日益成為新潮流、新趨勢的背景下,仍然很少看到有高校在經濟統計學專業中開設獨立的、專門涉及大數據技術的相關課程。因此,根據現實人才需求的新變化以及大數據技術的不斷進步和升級,我們應該對經濟統計學專業的課程體系進行必要的調整,即根據大數據分析的內在需要,在經濟學和統計學相關課程之外把大數據技術相關的課程納入到現有體系之中,實現“經濟、統計與IT”三方面內容的平衡和融合。在大數據時代,雖然經濟統計所包括的主要工作仍然是數據收集和數據分析等,但是其內容卻發生了翻天覆地的變化。如收集數據不再依賴于隨機采樣,而是需要利用多個數據庫來接收發自客戶端的數據,并導入到一個集中的大型分布式數據庫。相應的,數據存儲和預處理以及數據挖掘和分析也都是以分布式數據庫為工作對象的??紤]到本科教育的基本要求與技術的實際發展水平以及通用性等,在Hadoop、NoSQL、HDFS等目前較為常用的大型數據分析軟件和工具中,我們建議至少增設Hadoop方面相關的課程。
(3)與時俱進,加強師資隊伍培養。能否把本專業的學生培養成為復合型的應用人才,取決于是否擁有一支高素質的教師隊伍。隨著大數據及其應用成為一種新的潮流和趨勢,經濟統計的專業教師團隊建設也需要做出相應的調整和變革。從教師隊伍的結構看,由于經濟統計學專業發展的過程使然,目前我國各高校該專業的專業教師以具有經濟學或統計學學科教育背景的教師為主,而具有信息技術教育背景的教師還非常稀少。由于大數據及其應用需要融合經濟、統計以及IT等多個領域的理論、方法和工具,因此對經濟統計專業建設而言,當前最為迫切的是,需要建設一支教育背景涵蓋上述三個領域的結構合理的教師隊伍。而實現的途徑無非是兩種:一方面是在全校范圍內進行挖潛,重新組合和配置教師資源以優化經濟統計專業教師團隊;另一方面則是實施“請進來”戰略,加大力度引進海內外優秀人才。在內部挖潛和外部引進的同時,專業教師團隊建設還應該努力創造一個良好的人才成長環境,鼓勵教師積極“走出去”,到國內外高水平大學進修和學習,鼓勵教師不斷以新的知識充實、提高自己,以此來不斷提高本專業的教師質量和水平.
參考文獻
[1]李寶瑜.統計學一級學科建設中的若干問題[J].統計研究,2004(8).
[2]龐皓.經濟統計學課程體系改革的方向[J].統計研究,1991(1).
[3]向書堅,平衛英.30年來我國財經類院校統計學專業本科課程設置的歷史回顧與展望[J].統計研究,2010(1).
[4]曾五一.關于經濟管理類統計學專業課程體系設置的幾點意見[J].統計教育,1999(8).
[5]曾五一,尚衛平.關于經濟統計學若干問題的思考[J].統計研究,1999(11).
[6]曾五一,肖紅葉,龐皓,朱建平.經濟管理類統計學專業教學體系的改革與創新[J].統計研究,2010(2).
一、數據分析觀念的內涵
(一)《標準》中“數據分析觀念”的主要內涵
1.了解在現實生活中處理很多問題時,應當先做調查研究,收集數據,再通過分析進行判斷,明確數據中蘊含的信息。這一描述強調了確立統計意識是培養數據分析觀念的前提。面對復雜的現實情境,學生要從數據中提取有用的信息,必須具備數據意識,意識到數據包含有所需要的信息,同時也要具備數據分析意識,知道只有通過分析數據,才能挖掘出數據中所蘊含的豐富信息。
2.了解對于同樣的數據有多種分析方法,需要根據問題的背景選擇合適的分析方法。數據中所蘊含的情境性,是數據與數字的最大區別,這也使得在各種問題情境中所收集到的數據有可能相似,但采用的分析方法卻大相徑庭。不同的數據分析方法不能簡單地用“對”與“錯”來評判,只有“合適”與“不合適”。同樣的數據,因為研究的問題和目標不同,所以選擇的分析方法也不同,決策者要根據具體的情境和期待的結果作出正確的選擇。
3.通過數據分析體驗隨機性:一方面對于同樣的事情每次收集到的數據可能不同,另一方面只要有足夠的數據就可能從中發現規律。[1]這說明數據具有隨機性的特點,但是通過大量的實驗可以發現,數據又呈現出一定的規律性。數據分析是在大量的甚至無限次的實驗的基礎上作出相應的數理統計的過程,而每一次實驗都存在隨機性,無法保證實驗結果一定準確無誤,這是數據出現隨機性的原因。
分析《標準》中關于“數據分析觀念”的闡述可以知道,針對義務教育階段統計教學如何培養學生的數據分析觀念,《標準》提出了3個方面的要求:一是過程性的規定,即數據分析觀念是在學生調查、收集和整理數據的過程中發展起來的,并在分析的基礎上作出相應的決策;二是方法性的規定,即面對不同情境的問題,如何選擇恰當的、合理的解決方法;三是感悟性的規定,即讓學生從中體會數據的隨機性和規律性特點。
(二)關于內涵解讀的研究
“統計是關于收集和分析帶有隨機性誤差的數據的科學和藝術?!盵2]y計的對象――數據,是統計研究的基礎。正如美國統計學家戴維?S?穆爾所說:“統計是用來處理數據的。數據由數字組成,但它不僅是單純的數字。數據是有內容的數字?!盵3]小學階段的統計學習正是探討這些具有一定實際背景的數字,教學時教師需要將其與學生熟悉的“數與代數”中那些單純的數字進行區分,幫助學生認識統計的特殊性。
數據分析觀念是數據意識、統計技能的統一體。在現實生活中,數據意識體現在,當遇到問題時能夠想到進行調查研究,用數據說話,運用統計的方法解決問題。數據意識是統計活動的起點,也是統計教學的核心內容。統計技能是完成統計活動所必需的各種能力和技術的總和,它包括數據的收集、整理和分析,從數據中提取有價值的信息,進而作出決策。因此,數據分析觀念也可以劃分為3個維度:一是認識到需要收集數據,這包括3個要素,即有數據意識、發現和提出運用數據解決問題、根據問題的需要設計收集數據的計劃;二是了解數據中蘊含的信息,也包括3個要素,即從數據中提取信息、通過分析數據進行判斷、選擇恰當的統計方法;三是體會數據的隨機性特點,認識到所收集的數據是隨機的,但數據較多時會呈現某種穩定性和規律性。
盡管表述方式不同,但學者們都把數據分析作為統計內容的核心,并一致強調數據的現實背景來源,具體表現為:①數據分析應當建立在統計的基礎之上;②應當選取合適的方法對收集到的數據進行分析和處理;③根據已經整理好的數據作出解釋、得出結論,運用數據進行推斷,在推斷的過程中還要對數據的來源、處理方法和分析結果進行合理的質疑。
二、數據分析觀念的教育價值
在知識經濟和信息技術時代,加強數據分析觀念的培養是新時代對人才的要求??梢?,數據分析觀念是義務教育階段學生必備的數學素養之一。
(一)結合數據的情境性激發數據意識
在信息化社會中,無論是人口預測、投資貸款、風險評估、市場預測,還是學生學習統計與概率的知識,都需要數據分析觀念的指導,而數據意識更是發揮著重要的作用。數據分析觀念并非簡單的匯攏數字、計算平均數和眾數、畫統計圖,而是人們在經歷調查行動后形成的對事物加以整理和分析的意識。所謂數據意識,是指遇到現實情境問題時能夠想到用數據來解決問題,將現實情境中遇到的問題轉化為數據問題。
例如,小紅、小明的10次射擊訓練成績(環數)如下:
如果你是教練,會選擇誰參加比賽呢?遇到這樣的問題,學生首先會計算小紅和小明射擊訓練成績(環數)的平均數,這時會發現兩人射擊訓練成績(環數)的平均數相同,于是產生疑問:那要根據什么進行選擇呢?小學生雖然還沒有接觸方差等概念,但利用眾數和折線圖的陡緩程度能夠初步判斷誰的射擊訓練成績(環數)更穩定、更有潛力。如果教師對學生進行過相關的訓練,在看到一組數據時,學生就會有意識地對數據進行分析,從而發展數據意識,那么,今后遇到類似的問題時就能夠自覺地運用學到的知識和技能對數據進行處理和分析了。
(二)在統計活動中體驗和發展隨機性思維
在生活與工作中,人們必須掌握處理不確定性現象的概率統計知識,具備一定的數據分析意識與數據處理能力,只有這樣,才能在面對大量的、不確定的數據信息時作出正確的選擇。小學生在學習“統計與概率”之前就已經掌握了數與代數、圖形與幾何等內容,具備了以邏輯推理為主的確定性思維,在學習統計與概率的內容時,教師要讓學生知道事物的發展既有偶然性又有規律性,從而形成數據分析觀念和隨機性觀念。
例如,一個不透明的袋子中裝著若干個紅球和藍球,事先不告訴學生紅球和藍球的數量,而是讓學生重復摸取、放回,進行多次實驗。在活動中我們發現:每次摸取球的顏色可能不一樣,但是隨著摸取球的次數的增加,就會發現一些規律。學生在摸球過程中理解了隨機的概念,體驗到了隨機知識在生活中的應用,進而意識到學習隨機性的意義。
(三)親歷問題解決過程,訓練思維的靈活性
數學思維的靈活性是需要重點培養的思維品質之一,而這需要學生在解決數學問題的過程中獲得鍛煉和發展。比如,教師可以設計一些有效的統計活動,鼓勵學生采用不同的統計方法,從多角度對數據進行分析,發散學生的思維,并根據情境的變換及時調整解決問題的思維方向,引導學生學會解決不同情境的實際問題。
例如,教師可以創設這樣的情境:假設學生是任教五(1)班和五(2)班的數學老師,期末總結時要對自己任教的這兩個班級的期末成績進行比較。在這個過程中,教師應當引導學生按照不同的標準來評判兩個班級的數學成績。這時我們會發現:有的學生依據兩個班級各自的數學平均分進行比較;有的學生依據85分及以上為優秀這個標準,先統計出兩個班級獲得85分及以上的學生各有多少人,然后分別計算出兩個班級的優秀率,再進行比較分析;有的學生依據60分以下為不合格的標準,統計出兩個班級不合格的人數,按照不合格人數的數量比較兩個班級數學成績的優劣。其實,這里的答案并不唯一,每一種答案都可以作為教師分析學生成績的標準。因此,教師應當鼓勵學生進行多維度思考,訓練學生思維的靈活性。
三、稻莘治齬勰畹吶嘌策略
數據分析觀念不是憑空想象出來的,也不是教師說統計有用,學生就能夠體會得到的,更不是憑借收集數據就可以形成的,而是學生在經歷統計活動解決問題的過程中建立起來的一種認識。從某種意義上說,觀念是意識的高級階段,是在意識、能力的基礎上形成的認識。培養學生的數據分析觀念是一個循序漸進的過程,教師必須根據學生的認知特點設計教學。
(一)引導學生樹立統計思想
數據分析觀念是統計思想的重要組成部分,要讓小學生樹立統計思想,教師首先要讓學生意識到統計的必要性,重視統計的應用。課堂上,教師可以向學生展示生活中與統計相關的事例,指導學生學會判斷在什么情況下需要采取統計的方法解決問題,并自覺地朝著統計這個方向思考問題。其次,學生具備了統計意識后,教師要讓學生掌握具體的統計方法和策略,以便更好地進行數據分析。需要注意的是,面對不同的問題要采取不同的統計方法。
例如,調查統計“我們最愛吃的水果”,教師可以創設生活情境:生活老師要為同學們準備課間水果,準備哪些水果比較合適呢?首先,生活老師需要了解全班同學的喜好,為此必須采用統計的方法,設計統計方案。其次,當收集到所有數據之后,為了確定哪一種水果最受歡迎,必須采用合適的統計方法進行統計,比如可以采取扇形圖對水果進行分類;至于每一種水果需要的數量是多少,則應當再次根據前期的數據調查進行分析。
(二)體驗數據分析的全過程
學生要將數據分析觀念真正地納入已有的思維模式中,最有效的方法就是經歷數據分析的整個過程,包括發現問題、提出問題、調查現狀、收集數據、整理分析、得出結論以及反思交流。小學生抽象思維尚未成熟,接觸的數據都應源于現實生活背景,只有豐富的數學情境才能夠幫助他們更好地理解概念,并學會遷移應用。因此,教師應當充分挖掘貼近學生生活的情境資源,創設學生感興趣的問題情境。
以估計全校學生上個月家庭用電情況為例,如果對全校每個學生都進行調查,有點不切實際,浪費時間和精力。當學生碰到這個問題時,教師可以滲透抽樣統計的方法,選取每個年級段的一個班級進行調查,收集數據。在這個活動中,如何利用收集到的數據對全校學生進行合理的估計,學生需要具備較強的數據分析能力。教師可以通過這個活動,發展學生的數據分析能力。學生掌握了基本的統計方法,經歷了調查研究、整理數據、分析數據的過程,將會逐步形成數據分析的觀念。
(三)培養批判意識,提高辨別能力
在信息社會,人們每天都要接觸大量的數據信息,其中絕大多數是無用的信息或偽信息。辨別信息的真偽并作出理智的選擇,離不開批判意識和辨別能力。培養學生的批判性分析能力,教師要引導學生讀懂數據,理解數據內在的含義,并對數據的來源和處理方法進行考察和分析。小學生心智發展尚未成熟,加上認知發展水平還處于具體運算階段,對于外界復雜的信息缺乏理性的判斷,因此,教師可以呈現案例,如生活中誤用或濫用統計數據的現象但大多數人對此并未警覺或質疑,從而培養學生的批判意識,提高辨別能力。
例如,超市為了促銷牛奶,打出的廣告是第二箱半價。如果不加思索,消費者就會認為很實惠,馬上買了兩箱牛奶。但仔細思考發現,兩箱牛奶的平均價格和促銷前其實只相差幾毛錢而已,這是因為,消費者只注意到半價,而并沒有留意到第一箱牛奶的價錢。又如,超市有兩種不同品牌的商品,甲品牌打八五折,乙品牌買滿150元送50元,我們應該怎么選擇呢?面對這樣的問題,我們不能憑感覺亂猜,而要根據不同的需求量進行分析。諸如此類的實例都是小學生在日常生活中常常會遇到的,學生要作出理性的選擇與判斷,必須具備質疑能力和一定的數據分析能力。
(四)合理利用信息技術
小學生每天大部分時間都在學校度過,接觸外界事物的機會不多,而數據分析觀念的培養又需要呈現大量的真實的生活情境,讓學生對數據進行整理、分析和判斷,信息技術正好可以彌補這一缺陷。教師可以利用信息技術的優勢給學生呈現更多的生活實例。另外,當碰到需要分析大數據或需要多次實驗才能夠解決的統計問題時,教師可以利用信息技術對原始數據及分析結果進行直觀展示,這樣做有助于學生理解統計過程及其內涵。
例如,調查分析全班學生對顏色的喜好情況,教師可以借助信息技術,讓學生先在電腦中輸入自己最喜愛的一種顏色。待全部學生輸入完畢,電腦便會自動生成全班學生對顏色喜好的原始數據。接下來,學生就要對這些原始數據進行分類、整理,再通過電腦將整理后的數據生成不同的統計圖表,并依據這些圖表分析學生對顏色的喜好情況。在這個過程中,教師利用信息技術不僅節省了寶貴的教學時間,將數據的收集、整理和繪制統計圖表生動形象地展示在學生面前,而且幫助學生經歷了數據的收集、整理及圖表繪制的過程。
參考文獻:
[1]中華人民共和國教育部.義務教育數學課程標準(2011年版)[S].北京:北京師范大學出版社,2012:6.
[2]陳希孺.機會的數學[M].北京:清華大學出版社,2000:58.
[3](美)戴維?S?穆爾,鄭惟厚譯.統計學的世界[M].北京:中信出版社,2003:4.