時間:2023-05-24 17:22:44
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇數據分析設計范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
關鍵詞:習題設計;發展 ;數據分析觀念
【中圖分類號】G 【文獻標識碼】B 【文章編號】1008-1216(2016)12C-0029-02
簡單的數據統計重在讓學生經歷數據的收集、整理和分析過程,掌握一些簡單的數據處理技能,感受數據蘊含著的信息,培養初步的數據分析觀念。在課堂教學中,這一核心知識受到教師的足夠重視,然而我們的課堂時間有限,僅僅依靠教材提供的有限的統計活動還不足以發展學生的數據分析觀念。如果能夠依托統計教學的核心,靈活設計習題,從不同側重點進行有針對性的訓練,有意識地讓學生運用數據分析解決問題,將能發展學生的數據分析觀念,使習題成為教材的有益補充。
一、豐富統計素材,主動收集整理數據
培養數據分析觀念的首要方面是引導學生有意識地從數據的角度思考有關問題,就是遇到有關問題時能夠想到通過設計簡單的數據收集計劃收集所需數據,解決所求問題,從而體會到數據是有用的,數據中蘊含著我們想要的信息。教師在進行練習設計時,要考慮不同年齡學生生活經驗和認知水平的差異,賦予習題鮮活的背景,激勵學生主動收集整理數據。
在學習了簡單的統計圖表之后,我設計如下統計練習:
夏天到了,吃冰激凌成為很多孩子的愛好,學校門前的張老板想通過一個調查來了解哪種口味的冰激凌在我們學校最流行。
(1)小組討論:要完成這項任務,你們需要做哪些工作?請在下面的表格中,圈出需要的選項。
1 確定調查時間,設計調查用的統計表。
2 以小組為單位,每班隨機抽取15名學生,對他們最喜歡的冰激凌進行調查統計。
3 以小組為單位,對我校學生的年齡進行調查統計。
4 匯總統計表,繪制條形統計圖。
(2)小組合理分工,展開調查統計。
(3)根據分析結果給張老板提出一些建議。對愛吃冰激凌的同學又會提出什么建議?
吃冰激凌是孩子們的最愛,與學生的生活密切相關,很容易引起他們的共鳴。學生意識到要想幫張老板解決這一問題,調查收集數據是必需的,有用的,激發學生熱情投身學習活動。真實的統計數據,會幫助張老板解決現實的問題。而對愛吃冰激凌的同學提建議,又有意識地對學生進行健康常識教育。由扶到放的習題設計,幫助學生逐步提高開展實際調查的能力。
二、精心設計問題提高分析數據信息能力
從不同角度分析數據,以便從數據中獲得盡可能多的信息,并發現蘊含其中的一些規律,是數據分析觀念的基本內涵之一。練習中通過精心設計問題串,引導學生從不同角度理解和分析數據信息,感受數據分析方法的多樣性,并為發現和提出更有意義的問題提供機會。
小明家每兩個月交一次水費,每次用水的噸數如下表:
月份 1~2月 3~4月 5~6月 7~8月 9~10月 11~12月
用水量(噸) 8 5 6 16 7 6
根據上表回答以下問題:
(1)從上表中知道,用水量最多的是哪兩個月份?最少呢?分別占全年總用水量的百分之幾?
(2)全年平均每個月用水多少噸?
(3)根據生活常識,你能解釋一下為什么7~8月份的用水量最多嗎?
(4)如果想說明7~8月份的用水量比全年的1/4還多,選( )統計圖表示最容易使人明白。
本題中前兩題從一組數據的極值入手,大致了解數據的分布范圍,對于家庭用水量有個初步了解。然后通過計算解決其中一個月份與全年之間的關系,并通過平均數分析用水情況,對于出現的極端情況,嘗試利用生活常識進行解釋,使學生體會極端數據出現的原因,最后通過選擇統計圖,加深對各種統計圖的特征的把握,進一步增強學生根據解決問題需要靈活選擇統計圖分析數據的能力。
三、連貫使用數據提高收集整理數據意識
對于同樣的數據,由于背景和目標不同可以有多種分析的方法,需要根據問題背景選擇合適的方法。每年學校都會組織學生進行體檢,我將學生的身高情況及時收集,保存。在解決“ 鐵道部門規定,兒童身高在120厘米以下乘火車免票,120~150厘米之間享受半價。我們班有多少人乘火車可以享受免票?有多少人需要購買全價票?”這一習題時,我組織學生討論并形成一些可行的收集學生身高的方法,將最近學生體檢的身高數據及時呈現在大屏幕上,學生感到非常驚訝,感到老師真是個有心人,根據提供的數據學生很快列表整理信息,順利解決問題,老師這種收集和整理重要數據的習慣,使學生也受到潛移默化的影響。這時,我進一步追問,看到這些身高的數據,它們還能幫助我們解決什么問題。學生想到可以了解自己身高在班級處于什么情況,學??梢愿鶕砀呓o我們定做課桌椅,可以定做校服……這時我又呈現,定做校服時大號、中號、小號和特號相關的身高要求,然后讓學生根據需要重新對剛才的數據進行分組整理。通過變換問題情境,使學生體驗到同一數據由于要解決的問題不同,整理、分析的方法往往會不同。
到了五年級學習了折線統計圖,我再一次將學生身高情況呈現給學生,不同的是這次我將每個同學1~5年級的身高情況都呈現出來,學生感到非常興奮,“你能將自己這5年的身高情況繪制成折線統計圖嗎?”,學生繪制非常用心,在組內交流近5年身高增長情況時更是積極主動,分析得頭頭是道。這時我又引導學生根據自己身高增長情況對六年級的身高進行預測,并學習老師,做一個“數據收藏家”,記住自己的身高,到時看看自己預測得準不準。
等到六年級復習時,我再次呈現,學生將六年來的身高增長情況繪制完整,并檢驗自己的預測,同時對自己15歲時的身高情況再次進行預測,此時,給學生增加了我市近年來男、女生平均身高增長統計圖,發現男女生13~15歲身高增長的一些規律,很多同學又調整了預測。同樣的身高數據由于解決的問題不同,分析方法大不相同,對數據進行橫向及縱向的比較,會使我們的判斷和預測更準一些。
四、巧設矛盾沖突促進動手實驗能力提升
游戲是激發學生主動參與統計活動的很好方式,在游戲實驗活動中通過數據體會概率事件的隨機性,在教學可能性時,我設計這樣一題:
小明和小軍兩人玩游戲,袋子里放有2個和1個,每次任意從中摸出兩個圖形,摸完后放回,如果摸到的兩個圖形能拼成平行四邊形為小明贏,如果能拼成小房子圖形,則是小軍贏。你認為這樣的游戲公平嗎?同桌的同學玩一玩,看看拼成哪種圖形的人贏的次數多?想想為什么?
游戲中的三個圖形中有兩個是相同的,任意從中摸兩個,結果只有2種情況,學生很容易認為游戲是公平的,實際上兩種情況出現的可能性大小不同,極易引發學生爭辯,促使學生主動通過實驗活動求證結論。動手實驗正是學生體會隨機現象的最佳路徑,通過學生的實驗,認識到游戲的設計是不公平的,與原有猜測產生沖突,學生急于一探究竟,發現小軍贏的可能性會大一些。當然,游戲試驗中,也會出現拼成平行四邊形的次數等于或超過小軍的現象,這一非常規情形的出現也是體會隨機現象的重要資源,使學生深刻體會小軍贏的可能性大一些,游戲是不公平的,但是小軍不會一定贏,更有利于學生感悟隨機現象的特點。
五、適度綜合運用,全面感受分析數據的意義
統計與概率的內容和其他數學領域的內容有著緊密的聯系。這部分課程的教學,應為發展和運用比、分數、百分數、度量、圖像等概念提供活動背景,為培養學生綜合運用知識解決問題能力提供機會。
王阿姨在汽車銷售公司上班,工資由基本工資和銷售獎金組成,即每銷售1輛汽車給予一定數量的獎金。下表顯示王阿姨今年3~6月份銷售汽車的輛數與工資情況:
銷售汽車輛數 8 10 11 12
月工資(元) 3000 3300 3450 3600
根據上表提供的信息你能算出王阿姨的基本工資是多少,每銷售1輛汽車的獎金是多少元嗎?
本題緊密聯系社會生活實際問題,學生需要在認真理解題意的基礎上,借助計算分析題中的數量關系,發現不同信息之間的聯系,從而得出正確的計算方法,提升學生數據分析能力,在綜合解決問題的過程中全面感受分析數據的意義。
關鍵詞:數據分析;數據挖掘;大數據;云計算
0引言
商業銀行作為經營信用、貨幣的企業,面向的客戶是幾乎全方位的,同時銀行業的競爭也是異常殘酷的[1]。從網點、ATM、POS、網銀、手機銀行乃至其他網絡信息等各類渠道數據信息中,挖掘、分析出有效的數據,可以增加營銷效率、加快產品創新,快人一步擴大業務發展空間和市場份額[2]。大數據可以使商業銀行決策由經驗依賴到數據依賴的轉變,實時、深入地把握業務和市場動態,從而更加科學、有效地決策,讓商業銀行能夠穩健、可持續發展[3]。大數據的挖掘、分析可以有效地提高商業銀行精細化管理水平,在風險控制、成本核算、資本管理、績效考核等各個方面發揮出巨大作用,讓經營管理能力大幅提升,更理性、更高效、更精確[4]。
1大數據技術
1.1HadoopMapReduce技術
Hadoop是一種分布式系統的平臺,通過它可以很輕松地搭建一個高效、高質量的分布系統[5]。Hadoop的最核心的設計思想:MapReduce是Hadoop的核心組件之一,Hadoop主要包括2部分:一是分布式文件系統HDFS,HDFS為海量的數據提供了存儲;二是分布式計算框MapReduce,為海量的數據提供了計算。MapReduce是大規模數據計算的利器,Map和Reduce是它的主要思想,Map負責將數據打散,Reduce負責對數據進行聚集。Hadoop采用并行工作模式,同時維護多個工作數據副本,確保失敗的節點能夠重新分布處理,具有可靠、高效、可伸縮、低成本的優點。
1.2NOSQL數據庫技術
NOSQL(NotOnlySQL)數據庫是指非關系數據庫。這是相對于傳統關系數據庫提出的概念,隨著Web2.0網站的興起,數據量越來越大,傳統關系型數據在處理大數據、實時讀寫以及多表聯查已經越來越力不從心,而NOSQL以鍵值對存儲,機構不固定,每個元組可以根據需要增加、減少鍵值對,減少了時間和空間的開銷,同時NOSQL可以處理大數據,能夠良好地運行在廉價的PC服務器機器上,便于擴展[7]。
1.3內存分析技術
內存分析(In-memoryAnalytics)技術是在內存中直接獲取分析數據。隨著64位操作系統的普及,系統可用內存大幅度提升,同時由于工藝不斷成熟,內存容量不斷,價格不斷下降。由于內存容量暴增,人們開始直接將數據預讀到內存中,對內存中的數據進行分析加工,而不用如傳統的那樣將數據反復不斷地讀入內存、寫入磁盤,從而極大地提升了數據分析效率。
2商業銀行數據應用現狀
目前,商業銀行對于大數據的挖掘還處于起步階段,沒有一個在設計之初就目標明確的定位于大數據挖掘、分析的系統[8]?,F有的幾個與數據挖掘相關的管理信息系統有PCRM系統(個人優質客戶系統)、RPTS系統(綜合報表系統)、GDP系統(基礎數據平臺系統)等,這些系統在設計之初就具有先天的局限性,它們僅僅是針對某個或者某幾個業務部門的應用開發的,遠遠還談不上大數據分析。同時這些系統由于沒有統一的規劃設計,物理架構大致相同,一些重要數據,如定期、活期主檔及明細表全部重復加工,造成人力、財力的浪費,效率較低[9]。在上面提到的幾個管理信息系統中,GDP系統是相對比較典型的應用,現在對GDP系統物理架構和邏輯架構進行分析。如圖1所示的GDP物理架構圖,采用成熟的3層B/S架構,2臺乃至多臺PC服務器部署WEB前置服務,做表示層;由1臺小型機部署應用服務程序,做邏輯層;1臺小型機上運行數據庫系統,做數據訪問層。數據庫由控制庫和日終庫組成,其中控制庫使用SYBASEASE庫,將不同的處理任務劃分成一個個的作業鏈,作業鏈中包含不同的作業,通過對作業和作業鏈調度次序進行控制;日終庫采用SYBASEIQ庫,對日終數據進行高效處理。控制庫與日終庫可在同一臺小型機上。2臺PC服務器使用IBMWebSphere部署高可用集群,提供WEB服務,包含作業調度服務和前臺展示。
3構建商業銀行數據分析
系統模型商業銀行作為傳統金融企業,與新興的互聯網企業不同之處在于:行內的數據中含有許多機密、隱私的信息,同時無論媒體還是客戶都關心銀行數據的安全性。在數據挖掘、分析包括使用的時候,效率與安全的選擇需要慎重考量。為了避免資源的浪費,本文在設計模型前,必須對現有數據進行詳盡分析,剔除重復、無效的數據,將有效數據進行分類。商業銀行數據應用中大致可以分為2種類型:一類是高可靠數據,以數據的準確性為主,需要提供給統計部門、核算部門及監管部門,對于這類數據我們必須在使用前進行數據清洗、篩選后,才能夠真正使用;另一類則不需要很精確,只需要一個大致數量級或者一個大的方向,主要供決策層、管理經營層及產品研發、營銷等部門使用,對于這類數據其實才是真正符合現今大數據的概念,無需對數據進行清洗,可以直接進行挖掘。針對側重于安全可靠和快速高效這2種不同的需求,以及結合商業銀行現有技術發展,本文設計出下面2種模型。
3.1高可靠模型
基于商業銀行對數據的精度要求較高,在設計模型時首先考慮的是數據的完整性和安全性,其次才考慮效率等其他的問題。因此,本文對現有成熟和完備的商業銀行GDP系統3層架構和業務定位深入分析的基礎上,進行了一些改進,克服現有GDP系統3層結構的不足。
3.2高效率模型
對于商業銀行精度要求不高,但是非常具有時效性和海量的數據,不需要考慮數據的完整性、安全性。為此,本文使用一些互聯網的新技術以及開源的軟件,拋棄原有3層架構,引入大數據挖掘新技術,實現大數據的挖掘需求。
4數據分析
當將海量的數據挖掘出來后,怎樣使用這些數據?投入這么多人力、物力當然是希望它能帶來更多的收益,怎樣將數據變成收益?這就需要對數據進行分析,結合自身以及行業的現狀進行分析。在傳統的數據中,以少量的數據為依據,以數據的準確性為目標進行的統計工作,其實這樣的統計是有偏差和片面的。而大數據則以海量數據為依托,強調數據的完整性、綜合性和復雜性,通過答題輪廓,捕捉發展脈絡,確定未來發展方向。從決策層出發,大數據可以為我們更快地找出未來銀行的發展方向,最大限度地避免在決策方向上出現偏差。一直以來商業銀行的決策是由個人或小團隊進行的,但是在這些決策中往往有很多依靠過往的經驗、主管判斷的,這就帶來決策缺少扎實的依據,很多決策適合一些地方,但在另外一些地方卻未必很適合。特別是現在科技發展日新月異,對傳統銀行業帶來了巨大的沖擊,原來的很多經驗不但不能帶來幫助,甚至會制約決策層的思維,決策遠遠滿足不了前瞻性、有效性和針對性的要求。
而大數據的分析則可以更準確、更快捷地幫助決策層把握脈絡,從而做出具有前瞻性、及時的、精準的決策。從管理執行層來看,通過大數據的分析可以更快捷地推出精品產品,更有效地營銷客戶,更高效的使用行內各種資源,提高管理能力,創造更多利潤。通過大數據的分析,管理層能夠分析出哪些產品受哪些客戶的喜好,分析各類客戶都有什么需求,可以根據這些有針對性地開發一些受客戶歡迎的產品??梢詫σ恍└哔|量的VIP客戶進行分析,對他們的資金利用進行跟蹤,盡量將資金鏈鎖定在行內,利用資金空閑時段進行中間業務的營銷,可以對這些客戶在貸款的利率上進行一定幅度的優惠等等。可以對基層行、網點人員效率進行分析、優化,對行內的電子設備,如ATM、POS機等進行分析,在使用量龐大的地方可以加大投放,收回一些效率低下的設備等等。從監管層來看,通過大數據的分析可以更加直觀、有效地對商業銀行的合規經營做出監管??梢詮拇髷祿袑Ω鞯氐慕洜I、營銷費用、采購招標等需要進行監管的地方進行分析,一旦發現某個地方有異常情況,就可以進行重點關注、重點監管,而不是像以前那樣無差別的監管,或者靠經驗去進行監管,從而能夠更快、更有效地進行監管,提前去發現問題,制止問題事件的擴大,為商業銀行減少損失,更有效保障商業銀行的利益。
5結語
大數據在商業銀行決策、生產運行和經營管理中越來越重要,構建商業銀行自身的大數據挖掘、分析系統已經迫在眉睫了,如何構建大數據分析系統、利用分析系統實現數據到價值、利潤的轉化,這需要不斷的研究。本文通過深入分析商業銀行的數據分析現狀,總結其數據分析的優、缺點。并針對側重于安全可靠和快速高效2種不同需求,以及結合商業銀行現有技術發展,設計了商業銀行數據分析系統,使商業銀行從珍貴數據中分析、挖掘對其戰略發展和業務經營有巨大推動作用的信息。
參考文獻:
[1]薛良飛.云計算在新型信息化系統中的綜合研究[D].濟南:山東大學,2013.
[2]李斌,黃治國,彭星.利率市場化會降低城市商業銀行投融資水平嗎?——基于中國24家城市商業銀行數據的實證研究[J].中南財經政法大學學報,2015(1):40-47.
[3]方先明,蘇曉珺,孫利.我國商業銀行競爭力水平研究——基于2010—2012年16家上市商業銀行數據的分析[J].中央財經大學學報,2014(3):31-38.
[4]劉曉茜.云計算數據中心結構及其調度機制研究[D].北京:中國科學技術大學,2011.[5]陸嘉恒.Hadoop實戰[M].北京:機械工業出版社,2012.
[6]張世明,徐和祥,錢冬明,等.云架構模式下“網絡學習空間人人通”體系探析[J].華東師范大學學報(自然科學版),2014(2):30-39.
[7]江務學,張璟,王志明.云計算及其架構模式[J].遼寧工程技術大學學報(自然科學版),2011(4):575-579.
[8]韓浩.大數據技術在商業銀行中的運用探討[M].蘇州:蘇州大學,2014.
供電服務是供電企業的一項重要綜合管理指標。在供電服務管理實踐活動中,可以發現供電服務與營銷業務管控、電網運行、設備運維、供電能力、電建施工、員工素質、工作標準、管理者思維等諸多因素有關,如何將供電服務管理中存在著的諸多變化和離散因素,運用系統的科學的方法進行分析,尋求管理上的精細化和實現風險最小化,是各級供電企業所面臨的最迫切最現實的亟待解決的問題,最終實現客戶服務智能化、優質高效。
【關鍵詞】互聯網+ 大數據分析 供電服務 管控系統 設計與應用
目前,供電公司系統中存在著龐大的數據分析工作,利用數據分析結果進行有效的診斷分析,以更好地指導營銷服務,提升客戶服務功能,是供電公司必選的最佳途徑和手段,開發《基于互聯網+大數據分析模式創建供電服務管控系統》( The design and application of electricity system managing which is basing on ten huge data analysis ),其核心依托設計是創建大數據分析模式的供電服務管控應用系統,融合拓展開發《開放式用電信息服務平臺的應用系統》{《開放式用電信息服務平臺》(The Opening Electricity Service Platform――簡稱:OEEP系統)}是基于互聯網模式、計算機通信技術、GIS地理信息系統、用電信息服務的開放式面向客戶端的信息平臺,通過開發利用計算機、手機智能式服務系統,在確保電網和營銷管理系統的安全前提下,鏈接供電生產系統、營銷服務系統與客戶端服務大數據系統信息共享,實現互聯網+多媒體的一體化開放式管控系統和公共服務平臺。
1 供電服務管控系統設計思路
1.1 供電服務管控應用系統設計
(1)建立與營銷系統完整鏈接的營銷服務主系統,基礎數據來源和依賴于營銷系統數據,分類建立不同功能模塊,設定客觀的量化指標,加入賽馬博弈競賽評分功能,客觀真實的反映出各層級供電單位供電服務業績,通過營銷服務在線管控系統實現綜合評價。
(2)搭建供電服務應用系統,實時實現首端與末端、縱向與橫向、分級管控的全方位管控和應用,開發手機客戶端APP下載到每個員工手機上,達到供電服務全天候、全過程的在線操作。
(3)主要實現功能:供電服務法規及政策、信息公開及、工單受理與流轉、服務指標體系、競賽積分系統、工作動態與經驗推介、綜合評價與獎懲。
(4)供電服務管控系統設計上,重點突出系統工程管理思維,力求規范化、標準化和可操作化,建立相應人性化管理的信息保障機制,對供電服務提升將會起到很好促進作用。
1.2 開放式用電信息服務平臺
(1)依托互聯網和計算機軟件技術,建立GIS地理和供電設備集成系統,實現模糊查詢實時鏈接。
(2)采用互聯網+模式,將95598客戶服務系統和營銷服務系統嵌入,經過數據研判分析,建立開放式的客戶端即時使用和交換界面。
(3)建設依托計算機通信系統拓展的電力多樣化、智能化的服務,通過多媒體系統、掌上APP、微信等客戶端系統,實時與金融、氣象、交通等其他資訊系統融合的通訊交換功效。
(4)借助電力系統的調度D5000系統、生產PMS系統、營銷MIS系統、用電信息采集系統等以及拓展的營配調貫通系統,實現全方位全天候的停電信息實時、設備故障查詢、客戶報修服務系統合一功能。
2 系統功能性設計界面
2.1 大數據系統性分析
(1)應用數理統計學原理和解析法開展供電服務大數據分析、篩選、研判操作,通過數據分析結論,以系統的管理理念、科學的管理方法揭示業務管控、運行過程、管理現象內在規律性問題,拓展供電服務領域措施和更大的提升空間。
(2)對供電服務管理的歸類統計和分析,可以達到過程清晰,由整體、局部到個性離散元素之間邏輯關系和關聯鏈接實現了閉環,便于發現問題,從而改進供電服務管理的統計方法和分析思路。
(3)在供電服務管理中,能把影響供電服務指標變化的因素,以及諸多因素影響的程度,進行量化和篩選出來,有效的解決了投訴事件分析的盲目性和無序性,增強了投訴事件分析和管理流程的針對性、目的性和規律性,提高了精細化管理水平和工作效率。
(4)把營銷服務活動過程中,具有規律性和關聯性的諸多離散因素及物理現象,以及過程化的實踐控制流程,建立數據分析的邏輯鏈接,進行分類歸納和運算分析,展現不同的管控對象所需要的應用界面、過程管控以及個性需求。
2.2 客戶信息服務平臺
(1)基于互聯網+模式與計算機網絡通信規約,將GIS地理系統為基本內核,實時進行導航鏈接,運用多媒體功能界面,在計算機終端和手機端加載運行。
(2)建立一個個不同數據結構的模型,設計若干程序模塊和接口,實現內置固化和跟蹤嵌入的方式,實時數據鏈接相關功能模塊,在不同的支撐界面進行靈活交互。
(3)鑒于信息安全管控要求,在確保電力網物理隔離和邏輯隔離滿足安全運行的情況下,在設計入口時設置唯一身份驗證和電子鑰匙,有條件的開放調度、生產和營銷系統數據接口,防止發生數據破壞和病毒侵害。
2.3 系統設計構架圖
如圖1、2、3所示。
3 系統功能及性價比
3.1 實現功能
(1)該系統實現跨專業海量的信息資源共享,系統公共管理和專業個性的管理,實現專業融合、互動和協同,可滿足各級供電公司和不同管理層級的人員管理需求。
(2)該系統可實現實時的在線研判、指揮和分析,實現各層級供電服務在線實時跟蹤管控,提升了工作時效性、針對性和真實性。
(3)開放式的用電信息服務突破傳統服務技術瓶頸,建立了客戶與供公司自由、方便、快捷的服務通道,對客戶訴求和業務辦理實現在時間和空間上的即時響應和一對一服務。
(4)該系統開發使用可實現供電公司各種系統資源的縱橫協同和拓展延伸,實現內部資源有效應用,最大限度的發揮各系統管理效益和經濟效益,資源高效利用提升了企業資產良性運行成效。
(5)該系統應用可提高工作效率,減輕和降低了人員繁重和重復的工作量,解放了一線人員勞動資源。
3.2 性價比分析
3.2.1 軟硬件投資
一次性投資該系統的開發費用較低,基本上是用于已有的各類系統的接口技術處理,實現諸多系統和平臺之間的鏈接,該系統軟件運維成本較低,除了已有的各類系統自身的運維費用外,該系統只需解決接口費用即可。
主系統需配置較高標準的新設備,各級工作站現按照統一標準配置計算機和交換機等設備,即可滿足使用。建議各級供電服務指揮中心建設不同規格的大屏幕監控工作室。
3.2.2 應用效益分析
(1)該系統開發后,實現了全省供電系統技術服務資源的整合高效利用,精細了管控過程和環節,評價客觀真實,公司的管理效益十分顯著。
【關鍵詞】智慧倉儲 物聯網 大數據平臺
大型供應鏈管理服務商通常具備多條成熟的運輸線路以及遍布全國的貨物倉庫,企業日益擴大的交易規模和業務范圍,各地倉儲和物流運輸每日可采集豐富的交易、物流、倉儲、供應商等數據,單一的企業ERP系統只能完成資源管理,對于海量數據的分析和企業更高要求的數據分析能力有限,于是,企業智慧倉儲大數據平臺應運而生。
本文提出的智慧倉儲運營支撐平臺,運用了先進的RFID技術、視頻分析技術及大數據分析技術,不僅解決了分散在各處的倉庫智慧化管理,還可將倉庫和物流各類運營及管理基礎數據同步上傳至大數據平臺,實現倉庫運營和管理信息資源的整合與共享,并依托各類基礎信息庫,為企業管理者提供智能決策支持。
1 智慧倉儲運營支撐平臺
智慧倉儲運營支撐平臺是一個功能完備的基礎平臺,系統架構如下圖所示,分五層結構:感知層、傳輸層、數據層、服務層和應用層。
1.1 感知層
包括RFID讀寫器、激光雷達、視頻終端、門禁對講、溫濕度傳感器和警報器。
1.2 傳輸層
采用有線局域網或WIFI無線通信方式與支撐平臺連接并傳輸數據。
1.3 數據層
包括設備信息庫、業務信息庫、監控信息庫和人員信息庫。
1.4 服務層
包括RFID中間件、ESB總線和第三方接口等模塊,為整個系統的運行提供服務支撐。
1.5 應用層
包括倉庫的業務管理、安防管理、人員管理、報表分析和系統管理等功能。
通過智慧倉儲運營支撐平臺可實現對貨物入庫、出庫、移庫、盤點等基本業務的智能化處理,其中,視頻分析技術還可實現倉儲的安防管理、人員管理等功能,不僅實現了對倉庫的智能化管理,還能夠收集物流和倉儲的各個生產過程和任務執行中產生的運營數據,作為大數據分析平臺數據源的重要組成部分,為企業實現智能分析提供了基礎。
2 智慧倉儲大數據應用
智慧倉儲運營支撐平臺將各地的倉儲運營數據統一上傳至企業大數據平臺,進行分類和對分散及重復數據進行篩選、匯總、抽取、挖掘、分析形成物流與倉儲有價值的大數據,便可應用于企業管控和管理全過程的協調、管理、協同、決策。大數據平臺架構如下圖所示,分為數據源、大數據獲取、大數據處理、大數據服務四層。
數據源層主要實現采集前端各類感知設備以及各倉儲運營平臺數據。
大數據獲取層實現結構化數據、非結構化數據、半結構化數據的導入導出。
大數據處理層實現數據的分布式存儲和并行計算,并統一提供資源的調度服務、訪問服務、管理監控服務和權限控制服務等。
大數據應用層實現物流運輸調度、儲位管理、可追溯管理、精準營銷等各類智慧化應用。
2.1 運輸調度
通過大數據優化任務發運計劃,使運輸任務最大程度地銜接起來,達到整個運輸網絡任務協調排程,合理組織運輸工作和車輛調配,提高運輸調度水平。
2.2 儲位管理
通過對產品的進出貨數據進行分析、整理、分類,深度挖掘不同類別之間的相關關系,再配合波次作業手段,優化揀貨單,提高倉儲工作效率。
2.3 可追溯管理
借助大數據平臺智能分析及智慧倉儲前端采集信息,建立產品檔案,全面直觀地展示品牌形象,借助供應鏈系統與電子商務交易平臺,實時監督產品生產、交易和運輸全過程。
2.4 精準營銷
通過收集各個電子商務平臺上同類產品的銷售價格、數量、潛力,以及老客戶的個人資料、交易行為、忠誠度等信息,同時深度挖掘潛在客戶,制定一些優惠政策,激發購買的積極性,定向推送產品信息,實現精準營銷。
3 結束語
基于大數據分析的智慧倉儲運營支撐平臺,適用于擁有多個分散倉庫的大型企業,不僅使倉庫管理者能夠及時掌握倉庫運行情況,更將大數據技術應用到物流領域,對于建設智能倉儲體系,優化物流運作流程,提升物流倉儲的自動化、智能化水平有著積極的推進作用。
參考文獻
[1]肖建輝.淺談倉儲管理[J].物流工程與管理,2010,32(06):130-132.
[2]張仁彬,李玉民.基于物聯網技術倉儲管理系統研究[J].物流科技,2011(06):35-38.
[3]宮夏屹,李伯虎,柴旭東,等.大數據平臺技術綜述[J].系統仿真學報,2014, 26(03):489-496.
關鍵詞:大數據 交易平臺 數據資源 數據分析服務 融合
1.引言
目前發展大數據產業已經上升為國家戰略,大數據的價值也得到了社會的廣泛認可。眾多研究[1-5]表明,大數據不僅為政府治理開辟了新思路,還是企業創新的重要源泉和高校科研的重要支撐。大數據交易平臺是整個大數據產業的基礎與核心,它使得數據資源可以在不同組織之間流動,從而讓單個組織能夠獲得更多、更全面的數據。這樣不僅提高了數據資源的利用效率,更重要的是,當一個組織擁有的數據資源不斷豐富和立體化,有助于其通過數據分析發現更多的潛在規律,從而對內提高自身的效率,對外促進整個社會的不斷進步。
在現有的大數據交易平臺上,數據供應方和需求方各自供需信息,交易雙方瀏覽這些信息,如果發現合適的交易對象,則進行大數據資源的買賣,交易平臺只作為信息中介存在。這類大數據交易的本質,其實是單獨的大數據資源交易,現有平臺可以統稱為第一代大數據交易平臺。第一代大數據交易平臺在供需平衡、數據定價和時效性三個方面都存在較大的不足。本文針對這些不足進行改進,設計了一種全新的第二代大數據交易平臺,命名為:融合數據分析服務的大數據交易平臺,該平臺將數據資源交易與數據分析服務進行深度融合,實現了數據與服務的一體化交易。本研究不僅為當下正在建設的各類大數據交易平臺提供有益的借鑒,也豐富了大數據交易的基礎理論體系。
2.相關研究
目前大數據交易的相關研究中,比較有代表性的有:
(1)大數據的財產屬性和所有權。王玉林等[6]對大數據的財產屬性展開研究,認為大數據的法律屬性會直接影響大數據產業的發展,而大數據交易實踐本身就反映出大數據具有財產屬性。但大數據與傳統的財產權客體存在較大不同,它符合信息財產的特征,是信息財產權的客體,應受到相關法律的保護。齊愛民等[7]從宏觀的角度分析了國家對于其主權范圍內數據的所有權,剖析了個人擁有的數據權以及數據的財產權。
(2)大數據的定價問題。劉朝陽[8]對大數據的定價問題展開研究,首先分析了大數據的基本特征、價值特征等定價基礎。接著討論了效用價格論、成本價格論等定價模式。最后分析了大數據的定價策略,并對大數據定價的雙向不確定問題進行了詳細論述。劉洪玉等[9]認為在大數據交易過程中,由于缺乏足夠的歷史參考,其數據資源的交易價格很難確定,因此提出一種基于競標機制的魯賓斯坦模型,用于大數據交易雙方進行討價還價,以求達成一個交易的均衡價格。翟麗麗等[10]從資產的期權價值角度來評估大數據資源的價值,并指出數據在不斷變化和更新,加上數據的非獨占性等情況的出現,數據資產的價值可能會下降,最后綜合這些因素構建了一個評估模型來計算數據資產的價值。
(3)大數據交易的安全與隱私保護。史宇航[11]認為非法的數據交易會對個人數據等高價值信息的安全造成影響,對非法數據交易的購買方和協助方都應進行處罰。提出應先明確數據的法律屬性,再以數據交易所為平臺進行交易,并對數據交易所的法律地位進行了分析。殷建立等[12]為應對大數據時代數據采集、交易等過程中的安全問題,綜合考慮技術、政策和管理平臺等方面的因素,構建了一種個人數據溯源管理體系,該體系可在數據應用時實現個人數據的追蹤溯源,從而保護其個人隱私。王忠[13]認為大數據環境下強大的數據需求會導致個人數據的非法交易,為應對這種情況,應該建立個人數據交易許可機制,通過發放交易許可證、拍賣授予等措施實現隱私保護。
(4)大數據交易的發展現狀與問題。楊琪等[14]認為我國的大數據交易還處于行業發展的早期,大量數據源未被激活,原因是大數據產業價值鏈的各個專業環節發展滯后,并且對數據交易中的安全問題和隱私泄露等有較大的擔憂。應該對數據產品進行改造,使其更商品化,并且通過政府開放公共數據等措施逐漸消除數據流通中的安全顧慮。唐斯斯等[15]首先分析了我國大數據交易的發展特點、交易類型等現狀,接著指出目前大數據交易存在法律法規相對滯后、行業標準不完善、交易平臺定位不明確、數據質量不高等問題,最后提出應加快相關法律和標準建設,并推動數據開放,加強交易方式的創新。
除了上述四個主要研究方向以外,李國杰等[16]從理論的角度分析了大數據研究在行業應用和科學研究方面的重要作用,這從客觀上反映了大數據流通的必要性。涂永前等[17]認為大數據時代企業管理和運用數據資源的相關成本會成為企業的主要交易成本,這會改變企業的組織結構,并導致企業邊界的變化,企業會進行多方向的擴張,這為促進大數據產業發展的相關法律的制定提供了理論支持??偟膩砜?,由于大數據交易本身屬于較新的領域,因此相關研究總體上較少,已有研究也大多集中在上述幾個研究方向上。實際上,大數據交易平臺是實現大數據交易的重要載體,是大數據資源流通轉換的主要節點,交易平臺本身需要隨著整個大數據產業的發展,不斷的改進和升級,而現有研究中恰恰缺少對大數據交易平臺本身進行創新的研究。由此,本文針對現有大數據交易平臺的不足,結合實際設計了一種全新的融合數據分析服務的大數據交易平臺,為實踐和科研提供借鑒和參考。
3.現有大數據交易平臺的不足
大數據本身作為一種新興事物,當把它作為一種商品進行交易時,其交易平臺的設計很自然會參照傳統的商品交易模式,即:交易雙方先供求信息,再經過討價還價,達到一個均衡的價格則成交,賣方將大數據資源經過脫敏處理后,交付給買方。目前無論是政府主導的大數據交易所,還是企業或者高校創建的大數據交易平臺,都是采用類似的交易模式,這也是第一代大數據交易平臺的突出特點。實際上大數據與傳統商品有很大的區別,照搬傳統商品的交易模式會出現很多問題。本文將從供需平衡、數據定價和時效性三個方面分析現有大數據交易平臺的不足。
3.1 數據供需的錯配
現有大數據交易平臺的第一點不足就是數據供需的錯配,即:供應方提供的數據資源往往不是需求方所需要的,而需求方需要的數據在交易平臺上找不到,即使有相近的數據資源,也存在很大的數據缺失或冗余,買回去也無法使用。對數據供應方來說,由于無法準確預知數據買方多樣性的需求,它只能從自身角度出發,將可以公開的、并且自認為有價值的數據資源放到平臺上待售。對需求各異的買方來說,供應方提供的標準數據很難與自己的應用方向精準匹配,這也是目前大數據交易還不夠活躍的原因。當然,當供需雙方建立初步聯系以后,供應方甚至可以為需求方個性化定制大數據資源,但即使這樣,供需錯配的問題仍然無法解決,原因就在于單個的數據供應方無法提供多維的數據資源,只有多維的數據資源才具有較高的分析價值。
3.2 大數據資源定價困難
大數據資源定價困難是現有大數據交易平臺的第二點不足。大數據資源和普通商品不同,普通商品可以直接消費或者作為再加工的原材料,其價值都可以通過最終的消費品價格得到體現。而大數據本身的價值無法直接衡量,需求方購買它的目的是作為數據分析的信息源,但是否能發現潛在的規律還未可知。因此無法在購買前,準確判斷出待售數據資源的價值大小。此外,需求方在不確定某大數據資源是否能真正能給組織帶來收益情況下,很難給出一個較高的價格,這在客觀上會影響數據供應方的交易積極性,加大了供需雙方達成交易的難度。
3.3 數據的時效性不強
現有大數據交易平臺的第三點不足,就是數據資源的時效性不強。目前很多大數據交易平臺上待售的數據資源都以歷史數據為主,這是因為數據資源在交易前需要經歷脫敏處理,將涉及政府信息安全、企業商業機密和個人隱私等敏感信息進行變換和替代。此外,供應方還需要對原始數據進行初步的清洗,整理成一定的數據格式集中存貯和交付,方便需求方進行數據分析。由于一般的數據供應方并不具備對大數據進行實時脫敏和清洗的能力,只能將采集到的數據資源,經過一段時間的離線處理后,再放到交易平臺上,所以只能供應歷史數據。隨著社會節奏的不斷加快,歷史數據很可能并不能反映當下的真實情況,越來越多的數據分析都需要用到實時數據作為信息源,這是未來大數據交易必須克服的一個短板。
4.融合數據分析服務的大數據交易平臺設計
本文提出將數據分析服務融合到目前的大數據交易中,以此來克服現有交易平臺的不足,本節將首先對數據分析服務進行概念界定,再依次介紹平臺設計的總體思路和核心模塊的設計,具體如下。
4.1 數據分析服務的概念界定
數據分析是指運用各類數據處理模型和信息技術手段,對數據資源進行深度的挖掘,從而發現其中蘊含的規律,作為管理決策的依據。數據分析本身是一種能力,如果一個組織將其數據分析能力提供給其他組織或個人,并收取一定的費用,這就是數據分析服務。在大數據環境下,數據資源不僅體量巨大而且種類多,對數據分析能力的要求不斷提高。在這種情況下,只有少數組織具備獨立處理大數據的能力,其他的組織比如大量的中小企業,都需要從組織外部尋求專業的數據分析服務,來滿足自身的需要。因此,數據分析服務和大數據資源一樣存在巨大的市場需求。
4.2 平臺設計的總體思路
本文將提出的融合數據分析服務的大數據交易平臺,定位為第二代大數據交易平臺,它將大數據資源交易與數據分析服務兩者進行深度融合,在交易平臺上實現數據與服務的一體化交易。大數據交易平臺的角色也從原來的數據資源買賣的信息中介,轉變為大數據綜合服務商。在融合后的大數據交易平臺上,數據需求方不再提交數據資源的需求信息,而是直接提出自己的應用方向和想要得到的結果,交易平臺再根據需求方的應用方向,反向匹配數據資源和數據分析服務。這個匹配的過程不是單一的數據集或服務的查找,而是對全平臺的數據資源進行有效整合,形成高價值的多維數據,再結合復合型的數據分析技術,得到最終的分析結果,最后將分析結果與基礎數據一同交付給需求方。交付基礎數據的目的,一是方便需求方進行分析結果的對照,為決策提供更精準的參考。二是需求方可以根據基礎數據進行衍生挖掘,進一步提高數據的利用效率。平臺設計的總體思路繪制成圖1。
圖1 平臺設計的總體思路
4.3 核心模塊的設計
融合數據分析服務的大數據交易平臺共劃分為四大模塊,具體如圖2所示。
圖2 融合數據分析服務的大數據交易平臺的主要模塊
系統管理模塊具體又分為用戶管理、系統維護和安全管理。安全管理是系統管理模塊的重點,主要包含三個方面的功能:第一,負責整個交易平臺的系統安全,通過對交易平臺進行實時監控,阻止外部的非法入侵行為,保障平臺的正常運行。第二,對數據供應方提交的數據資源進行審核,如果發現是非法數據,則阻止其交易,并及時將有關情況反饋給相關的政府監管部門,由它們進行調查處理。第三,檢查所有數據是否經過脫敏處理。如果發現部分數據存在未脫敏或者脫敏不合格的情況,交易平臺將負責對該數據資源進行脫敏處理,從而保護數據中的隱私不被泄露。
大數據資源池模塊、數據分析服務模塊和協同模塊是交易平臺的三大核心模塊,是數據與服務兩者融合并實現一體化交易的關鍵,本文接下來將對這三個核心模塊的功能進行詳細設計。
4.3.1 大數據資源池模塊
大數據資源池模塊主要包含三個方面的功能:數據資源格式的整理、數據的多維度整合、大數據資源的云存貯。具體如下。
(1)數據資源格式的整理。由于大數據交易平臺上的數據資源來自不同的數據供應方,因此其數據資源的格式會有較大的差異。如果不經過格式整理就直接進行數據分析,很可能會因部分數據無法準確讀取,而影響數據處理的效率,嚴重者還會導致數據分析中斷。數據資源格式整理的主要任務是將同一類型數據的格式進行統一,對部分缺失的數據屬性進行補充,對錯誤的數據格式進行修正。
(2)數據的多維度整合。在上文3.1中提到供需錯配的一個重要原因,就是單個數據供應方無法提供高價值的多維數據。所謂多維數據是包含用戶或者行業多個背景和情境的大數據資源,這些多維數據使用戶或行業多個側面的信息產生了關聯,有利于發現深層次的潛在規律。融合數據分析服務的大數據交易平臺應該作為數據整合的主體,將單個數據供應方提供的零散的數據資源,進行多維度的整合,當缺少某一個維度的數據時,再向相應的數據供應方進行定向的采集,最后得到相對完整的多維數據,具有很高的分析價值。
(3)大數據資源的云存貯。大數據資源經過格式整理和多維度整合以后,已經可以作為數據分析服務的信息源。下一步就是將這些數據資源進行統一的云存貯,以便數據分析服務調用。以往部分大數據資源由于體量巨大或實時更新的需要,無法上傳到交易平臺上,或者只提供部分調用接口。融合數據分析服務的大數據交易平臺通過建立云存貯中心,將整合后的多維數據進行統一存放和調用,有助于提高數據資源的存取效率。
4.3.2 數據分析服務模塊
數據分析服務模塊首先根據數據需求方的應用方向,匹配出合適的多維數據資源,再選擇相應的數據分析模型分配所需的計算能力,最后將得到的分析結果反饋給需求方。本文將數據分析服務劃分為三個大類:基礎性分析服務、高級分析服務、深度定制的分析服務。具體如下。
(1)基礎性分析服務?;A性分析服務是指那些常規的數據統計,比如:總體中不同對象的占比分析,基于不同屬性的關聯分析或相關性分析等。這些分析服務耗時較短,分析技術較為簡單,只要數據資源本身完備,就可以迅速得到結果?;A性分析服務由大數據交易平臺本身來提供,可以面對不同的需求方,實現快速交付。
(2)高級分析服務。高級分析服務是指那些較為復雜的數據分析服務,比如:精準的趨勢預測、全面的用戶興趣畫像、非結構化的信息挖掘等。這些分析服務需要大量專業的數據處理技術,比如:興趣建模、視頻分析,音頻分析、深度語義分析等,必須由大數據交易平臺對接第三方的數據分析服務商,由它們來提供高級分析服務。大數據交易平臺在同一數據分析領域,應引入多家數據分析服務商,通過動態的競爭,來保證服務的質量。
(3)深度定制的分析服務。大數據分析目前還處在快速發展階段,很多前瞻性的技術還在試驗當中,應該說數據分析技術的發展相對于旺盛的現實需求來說是滯后的。當需要用的某一數據分析技術,在目前的市場上還找不到現成的提供方時,就需要大數據交易平臺為其進行深度的定制,交易平臺通過多方位的研發能力評估,尋找合適的技術主體來進行專門的技術攻關。
4.3.3 協同模塊
協同模塊主要包含兩個方面的功能:數據分析服務之間的技術協同、交易各方的管理協同。具體如下。
(1)數據分析服務之間的技術協同。在面臨較為復雜的數據分析任務時,可能需要用到多個領域的數據分析技術,這時單個的數據分析服務商可能無法獨立完成。因為不同的行業領域,都有其行業技術的獨特性,需要長時間的專業積累。在這種情況下,就需要多個數據分析服務商相互合作才能完成。數據分析服務之間的技術協同,就是通過一定的技術標準和操作規范,讓多個數據分析技術提供方,能夠在完成同一任務時,在技術上不沖突,能夠相互并行的完成對數據資源的處理,按時按質的交付最終的分析結果。
(2)交易各方的管理協同。在融合數據分析服務的大數據交易平臺上,交易的參與者一共有四類,分別是數據資源的供應方、數據分析服務商、需求方和交易平臺自身。數據需求方在提交自己的應用方向和預期結果的同時,提交自己的交易預算。交易平臺根據需求方提交的應用方向和預期結果,對數據資源和數據分析服務進行反向的選擇。如果數據分析任務中只用到了基礎性分析服務,則整個交易為平臺方、需求方、數據資源供應方的三方交易。如果某數據分析任務,平臺自身無法完成,需要用到第三方的數據分析服務商,則整個交易包含了全部四類參與者,是一個四方交易。交易的基本原則是實現參與各方的利益共享。交易各方的具體利益分配如圖3所示。
圖3 交易各方的利益分配
需求方希望在獲得預期結果的同時,其支付的成本在可接受的范圍內。交易平臺在對數據和服務進行反向匹配后,會出現兩種不同的情況:第一種情況是在原交易預算下,可以達到需求方預期的結果,則可成交。第二種情況是,原交易預算較低,在該預算下無法達到需求方要求的結果,這時交易平臺會和需求方溝通,提出新的報價,需求方經過考慮后,與平臺進行討價還價,它們在價格上達成一致時才能完成交易。由于交易數據是整合后的多維數據,因此原始數據資源供應方的收益,由平臺從總交易價中支付,具體的支付方式可分為平臺一次性買斷或按次數支付。同一數據資源對于不同的需求者來說,其價值是不一樣的,融合數據分析服務的大數據交易平臺根據最終的一體化交易成交價,反向對數據資源進行定價,相對于現有的大數據交易平臺來說,是一種進步。交易平臺的深度參與,會使數據交易的頻率加快,原始數據資源供應方會獲得更多的收益。數據分析服務商根據具體的數據分析任務,直接參與由平臺發起的競價,達成交易后由平臺支付。交易平臺本身的收益則是需求方支付額減去其他各方收益的差價。
5.融合數據分析服務的大數據交易平臺的優勢
本文3.1到3.3中指出現有大數據交易平臺存在數據供需錯配、大數據資源定價困難、數據的時效性不強三大不足。融合數據分析服務的大數據交易平臺作為改進后的第二代大數據交易平臺,可以很好地克服上述三點不足。除了這三個方面的優勢以外,由于融合后可實現數據與服務的一體化交易,這將擴大交易對象的覆蓋范圍,提升交易的活力,具體如下。
5.1 直接面向應用,從根本上避免了數據供需的錯配
在融合數據分析服務的大數據交易平臺上,需求方對交易平臺直接提出應用方向和預期結果。交易平臺對全平臺的數據進行多維度整合,如果缺失某個維度的數據,可以進行定向的采集和補充,最后形成高價值的多維數據。這些多維數據才是真正具有分析價值的數據資源,這是單個數據供應方無法提供的。在得到多維數據后,結合平臺自身和第三方數據服務商的分析能力,得到最終的分析結果。交易平臺最后交付給需求方的是數據分析結果和基礎數據,這種直接面向最終應用的大數據交易方式,從根本上避免了數據供需的錯配。
5.2 融合后定價更有根據
在現有的大數據平臺上,數據需求方是將數據資源買回去以后自己分析,而在購買數據資源之前,不能預知數據分析效果的好壞,因此無法進行有效的價值判斷,這是定價困難的關鍵點。在融合數據分析服務的大數據交易平臺上,需求方不再直接對數據資源付費,而是對最終的數據分析結果付費,并且數據分析結果是根據需求方的要求反向定制的,是符合需求方利益的。需求方可以通過評估預期結果對自身的重要性或收益的改進程度,給出適當的交易預算。交易平臺以該預算為參照,對數據和服務進行選擇,若出現原預算約束下無法實現預期結果的情況,交易平臺再與需求方進行溝通,雙方討價還價后達成交易。這樣相對于現有的大數據交易平臺來說,融合后定價更有依據。
5.3 融合后可提供實時數據
在融合數據分析服務的大數據交易平臺上,數據資源采用云存貯的模式,由平臺進行統一管理,這提高了數據資源的安全性。在數據安全有保障的前提下,由交易平臺出面和數據資源供應方進行實時數據的對接,將實時數據納入大數據資源池中。對于單個的數據資源供應方來說,實時的數據脫敏難度太大。但大數據交易平臺不一樣,它可以利用規模優勢,組建強大的計算能力,對大數據資源進行實時的脫敏和清洗,極大地提高了數據資源的時效性。
5.4 融合后將擴大交易對象的覆蓋范圍,提升交易的活力
融合后可實現數據和服務的一體化交易,讓很多自身不具備數據分析能力的組織和個人,也能方便地利用大數據,特別是大量的中小企業,這將大大增加交易對象的覆蓋范圍。
交易對象的增多會促進交易頻率的增長,從而為數據資源供應方帶來更多的收益,這樣會提升它們參與交易的積極性,鼓勵它們供應更多的數據資源,從而提升交易的活力,整個大數據交易行業就形成了正向循環的良好發展態勢。
6結語
本文對大數據交易平臺本身進行了改進與創新,設計了一種全新的第二代大數據交易平臺,即:融合數據分析服務的大數據交易平臺。該交易平臺可以直接面向需求方的應用方向,實現數據和服務的一體化交易,不僅從根本上避免了數據供需的錯配,還使大數據交易的定價更有依據,平臺的深度參也讓提供實時數據成為可能,這些將從整體上提升大數據交易的效率。融合后數據和服務的一體化交易降低了大數據應用的技術門檻,鼓勵更多組織和個人參與,增加了交易活力。未來筆者將繼續關注大數據交易平臺的創新研究,為實際應用和學術科研提供更多有益的參考。
參考文獻
[1]趙強,單煒.大數據政府創新:基于數據流的公共價值創造[J].中國科技論壇,2014(12):23-27.
[2]徐繼華,馮啟娜,陳貞汝.智慧政府:大數據治國時代的來臨[M].北京:中信出版社,2014.
[3]李文蓮,夏健明.基于“大數據”的商業模式創新[J].中國工業經濟,2013(5):83-95.
[4]侯錫林,李天柱,馬佳,等.大數據環境下企業創新機會研究[J].科技進步與對策,2014,31(24):82-86.
[5]張峰,張迪.論大數據時代科研方法新特征及其影響[J].科學學研究,2016,34(2):166-170,202.
[6]王玉林,高富平.大數據的財產屬性研究[J]。圖書與情報,2016(1):29-35,43.
[7]齊愛民,盤佳.數據權、數據主權的確立與大數據保護的基本原則[J].蘇州大學學報:哲學社會科學版,2015(1):64-70.
[8]劉朝陽.大數據定價問題分析[J].圖書情報知識,2016(1):57-64.
[9]劉洪玉,張曉玉,侯錫林.基于討價還價博弈模型的大數據交易價格研究[J].中國冶金教育,2015(6):86-91.
[10]翟麗麗,王佳妮,何曉燕.移動云計算聯盟企業數據資產評估方法研究[J].價格理論與實踐,2016(2):153-156.
[11]史宇航.個人數據交易的法律規制[J].情報理論與實踐,2016,39(5):34-39.
[12]殷建立,王忠.大數據環境下個人數據溯源管理體系研究[J].情報科學,2016,34(2):139-143.
[13]王忠.大數據時代個人數據交易許可機制研究[J].理論月刊,2015(6):131-135.
[14]楊琪,龔南寧 .我國大數據交易的主要問題及建議[J].大數據,2015(2):38-48.
· 為什么要做數據分析?
· 數據分析的目的是什么?
· 數據分析的一般過程是怎樣的?
· 有哪些數據分析方法?
· 在服務性行業里,數據分析方法有哪些需要特別注意的地方?
· 在國內最容易犯哪些數據分析的錯誤?
因筆者能力和精力有限,文章中存在錯誤或沒有詳盡之處,還望各位讀者見諒并懇請及時指正,大家相互學習。
(一)數據分析的核心作用
根據國際標準的定義,“數據分析是有組織、有目的地收集并分析數據,通過將數據信息化、可視化,使之成為信息的過程,其目的在于把隱藏在看似雜亂無章的數據背后的信息集中和提煉出來,從而總結研究對象的內在規律。”在實際工作中,數據分析能夠幫助管理者進行判斷和決策,以便采取適當策略與行動。
這里需引起關注的是任何沒有目的或結果的分析報告都是“忽悠”,都僅僅是沒有靈魂的軀殼!我們經??吹絿鴥鹊耐聜兠τ诟鞣N所謂的“數據分析報告”,堆砌了大量的圖表和文字,顯得“專業”、“美觀”,但認真研讀后卻發現缺乏最關鍵的“分析”過程,更別說什么分析結果了。顯然大家只是把對事實的原始描述當成了數據分析,而實際上描述原始事實只是數據分析過程的一項內容而非全部。數據分析不能僅有報表沒有分析,因為“有報表不等于有分析,有分析不代表有效執行”,報表只是數據的展現形式;數據分析也不能僅有分析沒有結論,沒有結論的分析無疑“差了一口氣”,對實際業務工作無法產生價值,唯有通過分析得出結論并提出解決方案才能體現數據分析協助管理者輔助決策的核心作用。因此數據分析來源于業務,也必須反饋到業務中去,沒有前者就不存在數據分析的基礎,沒有后者也就沒有數據分析的價值了。
(二)數據分析的分類
最常見也是最標準的數據分析可分為三大類:描述性數據分析、探索性數據分析以及驗證性數據分析。
所謂描述性分析是對一組數據的各種特征進行分析,以便于描述測量樣本的各種特征及其所代表的總體特征。這種分析要對調查總體所有變量的有關數據做統計性描述,主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布以及一些基本的統計圖形,比如上個月的平均通話時長是多少,員工離職率是多少等等。
探索性數據分析是指對已有數據(特別是調查或觀察得來的原始數據)在盡量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規律的一種數據分析方法,側重于在數據之中發現新的特征,比如呼叫中心的一次解決率和哪些因素相關?他們背后的驅動因素又有哪些?哪些因素是“因”、哪些又是“果”等等。
而驗證性分析是依據一定的理論對潛在變量與觀察變量間關系做出合理的假設,并對這種假設進行統計檢驗的現代統計方法,側重于驗證已有假設的真偽性。驗證性分析是在對研究問題有所了解的基礎上進行的,這種了解可建立在理論研究、實驗研究或兩者結合的基礎上,比如從調研的結果來看本月的客戶滿意度比上個月高出2%,是否真是如此;男性客戶的滿意度是否高于女性客戶等等。
(三)數據分析的一般過程
通常來講完整的數據分析過程可分為以下幾步:明確數據分析的目的、采集并處理數據、分析及展現數據、撰寫分析報告。
現實情況中人們往往在做數據分析時陷入一大堆雜亂無章的數據中而忘記了分析數據的目的,數據分析第一步就是要明確數據分析的目的,然后根據目的選擇需要分析的數據,明確數據分析的產出物,做到有的放矢、一擊即中!
其次,在做數據分析時要根據特定需求采集數據,有目的地采集數據是確保數據分析過程有效的基礎,采集后的數據(包括數值的和非數值的)要對其進行整理、分析、計算、編輯等一系列的加工和處理,即數據處理,數據處理的目的是從大量的、可能是難以理解的數據中抽取并推導出對于某些特定人群來說是有價值、有意義的數據。
接著是對處理完畢的數據進行分析和展現,分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,數據展現的方式有兩類:列表方式、圖形方式。
最后,整個數據分析過程要以“分析報告”的形式呈現出來,分析報告應充分展現數據分析的起因、過程、結果及相關建議,需要有分析框架、明確的結論以及解決方案。數據分析報告一定要有明確的結論,沒有明確結論的分析稱不上分析,同時也失去了報告的意義,因為整個數據分析過程就是為尋找或者求證一個結論才進行的。最后,分析報告要有建議或解決方案,以供管理者在決策時作參考。
(四)客戶中心常用的數據分析工具及簡介1 Excel
Excel是微軟辦公套裝軟件的一個重要組成部分,它可以進行各種數據的處理、統計分析和輔助決策操作,廣泛地應用于管理、統計財經、金融等眾多領域。Excel提供了強大的數據分析處理功能,利用它們可以實現對數據的排序、分類匯總、篩選及數據透視等操作。
2 SPC
SPC(Statistical Process Control)即統計過程控制,是一種借助數理統計方法的過程控制工具。實施SPC的過程一般分為兩大步驟:首先用SPC工具對過程進行分析,如繪制分析用控制圖等;根據分析結果采取必要措施:可能需要消除過程中的系統性因素,也可能需要管理層的介入來減小過程的隨機波動以滿足過程能力的需求。第二步則是用控制圖對過程進行監控。
3 SAS
SAS是用于決策支持的大型集成信息系統,但該軟件系統最早的功能限于統計分析,時至今日,統計分析功能仍是它的重要組成部分和核心功能。在數據處理和統計分析領域,SAS系統被譽為國際上的標準軟件系統,SAS提供多個統計過程,用戶可以通過對數據集的一連串加工實現更為復雜的統計分析,此外 SAS還提供了各類概率分析函數、分位數函數、樣本統計函數和隨機數生成函數,使用戶能方便地實現特殊統計要求。
4 JMP
JMP是SAS(全球最大的統計學軟件公司)推出的一種交互式可視化統計發現軟件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等強大的產品線,主要用于實現統計分析。其算法源于SAS,特別強調以統計方法的實際應用為導向,交互性、可視化能力強,使用方便。JMP的應用非常廣泛,業務領域包括探索性數據分析、六西格瑪及持續改善(可視化六西格瑪、質量管理、流程優化)、試驗設計、統計分析與建模、交互式數據挖掘、分析程序開發等。 SPSS(Statistical Product and Service Solutions)“統計產品與服務解決方案”軟件,是世界上最早的統計分析軟件,基本功能包括數據管理、統計分析、圖表分析、輸出管理等等。SPSS統計分析過程包括描述性統計、均值比較、一般線性模型、相關分析、回歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等幾大類,每類中又分好幾個統計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權估計、兩階段最小二乘法、非線性回歸等多個統計過程,而且每個過程中又允許用戶選擇不同的方法及參數,SPSS也有專門的繪圖系統,可以根據數據繪制各種圖形。
6 Minitab
Minitab軟件是為質量改善、教育和研究應用領域提供統計軟件和服務的先導,是全球領先的質量管理和六西格瑪實施軟件工具,具有無可比擬的強大功能和簡易的可視化操作,對一般的數據分析和圖形處理都可以應付自如。
【關鍵詞】 大數據 HDFS MapReduce CIMS
一、研究背景
工業化和計算機技術的發展,使制造系統每天產生的數據量不斷增加,整個制造業產生的數據量遠高于其他行業[1]。面對日益復雜的制造業生產系統,通過保存其運行過程中的中間數據,并對數據進行研究,能夠解決當前的系統建模手段無法解決的問題。傳統的數據分析方案一般先將數據保存到關系型數據庫中,然后借助聯機分析、處理等手段為決策提供支持[2]。
當面對制造業的海量數據時,可能會有如下缺陷[3]:
(1)數據來自不同地區的工作站、傳感器等,而且數據格式不統一,既有結構化數據,也有非結構化數據,不利于處理;
(2)聯機分析處理過程中會有大量的數據移動操作,當數據量達到PB級時,大量數據移動造成的開銷變得難以接受。
因此,有必要研究并實現一個能夠合并存儲異構數據、并且可以完成基于大數據的CIMS數據分析處理的平臺。本文將Hadoop大數據技術引入到CIMS海量工業數據的監測和分析中。
二、研究現狀
范劍青[4]闡述了大數據獨有的特點,說明大數據提供的海量數據給統計、處理以及統計估算和檢驗帶來的問題。Jiang 等人[5]對電子商務網站的大量商品數據進行分析處理,提出了基于Hadoop的協同過濾算法。
Duke能源公司模擬大數據解決方案,使維護專家遠程觀看設備和記錄異常指數,甚至可以及時采取糾正操作,但還不能真正實現大數據分析和處理平臺。通用電氣(GE)于2013年推出其大數據分析平臺,用以將云平臺中的工業機器產生的海量數據轉化為實時信息,此平臺可以認為是第一個能夠真正管理工業海量數據的平臺,但是難以處理來自多個數據源的數據。美國國家儀器公司和IBM聯手推出InfoSphereStreams大數據解決方案,能夠以很高的數據吞吐率分析來自多個數據源的信息,但其處理帶有一定的數據延時,實時性不佳。
為解決海量數據處理時的實時性問題,本文擬采用開源的Storm流處理技術,并借助類SQL和Piglatin等過程化語言擴展,以實時監控整個大數據平臺。
三、大數據技術在CIMS監測與分析平臺中的設計
工業應用數據在數據量上遠超普通應用,其海量數據存儲的要求超過了傳統的關系型數據庫的存儲能力。另外,工業應用數據也由傳統的結構化數據擴展到結構化、半結構化以及非結構化數據并存,對這些數據格式以及數據類型都存在不同的工業數據進行采集、分析和處理的方式有別于傳統方式,因此需要對監測和分析平臺進行設計,從軟件結構、通信方式以及數據存儲方式等各個方面進行分析。
3.1 CIMS海量數據監測與分析平臺的設計
在將大數據技術應用于CIMS海量數據的監測與分析時,海量的工業數據不再存放在傳統的關系型數據庫,而是存放到HDFS分布式文件系統上。因此,軟件結構設計要與Hadoop的HDFS文件系統相對應。
3.1.1 軟件結構
本文設計的CIMS海量工業數據監測和分析平臺(以下簡稱“平臺”)采用Master-slave主從架構,Hadoop集群的NameNode節點作為監測和分析平臺的管理節點,完成數據采集、數據分析等各功能的功能模塊是工作節點。管理節點管理整個集群的相關信息,并維護包括節點的主機名、IP地址等機器狀態。工作節點可以根據工業應用的需求進行靈活的配置,也可以動態增加或減少。
平臺主要分為如下部分[6]:客戶端、消息中間件、數據查詢模塊、數據分析模塊、數據采集模塊以及Hadoop集群??蛻舳私邮沼脩粽埱?,向平臺發出任務請求;數據采集模塊、數據查詢模塊以及數據分析模塊是平臺的功能組件,分別提供工業大數據分析流程中的對應功能[7]:數據采集模塊對外提供數據的訪問接口,其功能是從不同的數據源獲取數據,并將這些數據存儲到Hadoop的HDFS文件系統上。
數據查詢模塊從HDFS文件系統中查詢數據的存儲索引,并返回給數據分析模塊;數據分析模塊中實現不同的數據分析配置方法,并交由MapReduce框架分布式地實現數據分析任務。
3.1.2 系統功能模塊
平臺中監測和分析的數據一般都是離散數據,所以選擇消息中間件作為通信管理模塊,消息中間件實現平臺中各個模塊間的通信。
以功能節點上線為例,由于管理節點存儲了所有節點的狀態信息,所以為保證整個集群信息的一致性,功能節點上線時需要先向管理節點注冊其信息,管理節點會向消息中間件訂閱“注冊”這一主題,消息中間件接收到訂閱請求后會創建相應的隊列,并持續監聽此隊列的消息情況。消息隊列中的消息是以文本格式存在的,本文的消息傳遞方式采用XML。平臺中的操作請求都會發送給任務管理模塊,由其解析后,再發送給相應的功能模塊執行。
數據采集模塊從基于HDFS文件系統的Hbase數據庫中獲取來自客戶端的數據,由于工業數據的采集并發量可能比較大,因此要在采集端部署大量數據庫;除此之外,ETL工具負責將異構數據源的數據抽取處理進行數據清洗。Hadoop上的數據分析模塊能夠完成多維分析,由于MapReduce的具備很強的并行處理能力,因此分析維度的增加并不會使數據分析的開銷顯著增加,這無疑是傳統的數據分析平臺所無可比擬的。
3.1.3 數據存儲方式
傳統的關系型數據庫不能很好的支持結構化和半結構化的數據,HDFS分布式文件系統克服了這一缺陷,將非結構化數據和結構化數據都以文件形式存放,實現了廉價而又可靠數據存儲。
工業數據可能來自多個不同的數據源,平臺借助中間件屏蔽了它們之間的異構性,然后將這些原本異構的數據存儲到HDFS文件系統中。這種異構數據存儲方式不需要昂貴的存儲設備,廉價的服務器即可組成可靠的存儲集群;另外,存儲集群節點同時還是Hadoop集群的工作節點,提高了數據存儲節點的利用率[8]。
四、大數據技術在CIMS監測與分析平臺的性能優化
軟件工程思想中,不能只設計軟件的結構,同時要對軟件進行不斷優化。平臺集中了多個數據來源的數據,因此平臺間的數據傳遞吞吐量比較大;另外,平臺各個組件間的網絡依賴關系比較復雜,合理分配網絡資源對提升平臺性能有重要的影響。
系統動力學研究復雜系統的結構、功能以及動態行為模式,可以利用系統動力學的相關原理和方法,對本文設計的平臺進行模擬仿真研究。
在進行實際的大數據平臺仿真分析時,為搭建Hadoop集群本文配置4臺服務器,其中一臺作為NameNode,其他服務器作為DataNode。具體的配置信息如表1所示:
系統動力學分析軟件系統的基本思路是把與系統相關的網絡變量轉換為因果圖及流圖,因果圖表征了變量間的相互影響關系,流圖說明了變量的反饋積累;然后利用DYNAMO方程描述變量間的關系。因果圖反應了平臺中的反饋回路的正負極性,表示出系統元素間基本的相互影響關系。
基于以上分析,對本文設計的平臺進行系統動力學分析如下:由于平臺是一個非線性時變系統,影響其性能的因素不僅包括管理節點、消息中間件、Hadoop集群等,還包含網絡帶寬、服務器配置等客觀因素。根據系統建模目的,可以知道系統邊界應該包括如下因素:用戶請求數目、數據采集模塊采集到的輸入數據、消息中間件隊列中的消息數量、消息中間件路由消息的延遲、Hadoop集群的性能等。
平臺的系統邊界確定后,接下來需要分析系統邊界內的元素間的影響關系,以及它們之間是否有因果關系。經分析可知,用戶請求的增加會導致消息中間件隊列中的消息增加,而消息中間件路由消息的延遲降低會降低系統中消息傳遞的整體時延。
消息中間件的工作性能和系統各個模塊的工作時延組成正反饋回路,說明消息中間件和系統模塊是正相關的,所以平臺整體性能的提升依賴于消息中間件和系統模塊的合理資源配置。
消息中間件的各種配置參數,比如響應速度、吞吐量等參數對提升平臺的分析性能影響很大,在優化消息中間件的各種參數后,比較本文設計的基于大數據的數據分析平臺和傳統的工業數據平臺的性能,在同時對PB級別的工業數據進行分析時,當CPU數目相同時,響應速度的結果如表2所示:
對于不同的數據級別,兩種大數據平臺的處理效果如表3所示:
由結果可知,在處理相同的數據量時,在響應速度的性能上,本文設計的工業數據分析平臺要優于傳統的數據分析平臺。
當處理不同的數據量時,隨著數據量的增加,傳統的大數據處理平臺的處理時間也呈現顯著增加,而本文設計的大數據處理平臺處理時間是線性的,明顯優于傳統大數據處理平臺。
五、總結與展望
本文首先介紹了Hadoop大數據技術,分析了其HDFS文件系統和MapReduce計算框架;
接下來對基于大數據技術的CIMS海量工業數據監測和分析平臺進行設計,從軟件結構、通信方式以及數據存儲方式等各個方面進行了分析。最后利用系統動力學的原理,對影響平臺性能的因素進行了研究。
與Duke能源公司模擬的大數據解決方案相比,本文設計的平臺已經能夠采集、分析并處理海量數據,真正意義上在工業領域引入了大數據技術;而且此平臺還能夠處理來自多個數據源的數據,比通用電氣的大數據分析平臺具備一定的優勢。
參 考 文 獻
[1] 韓燕波,趙卓峰.面向大規模感知數據的實時數據流處理方法及關鍵技術[J].計算機集成制造系統.2013,19(3):641-653.
[2] 鄧華鋒,劉云生,肖迎元. 分布式數據流處理系統的動態負載平衡技術[J]. 計算機科學. 2007(07)
[3] 胡茂勝.基于數據中心模式的分布式異構空間數據無縫集成技術研究[D].武漢:中國地質大學,2012.
[4] 楊林青,李湛,牟雁超等.面向大規模數據集的并行化Top-k Skyline查詢算法[J].計算機科學與探索.2014, 12(26).
[5] J.Jiang, J. Lu, G. Zhang, and G. Long. Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop. SERVICES, pp. 490 -497, 2011.
[6] 王黎維,黃澤謙,羅敏,彭智勇. 集成對象數據庫的科學工作流服務框架中的數據跟蹤[J]. 計算機學報. 2008(05)