時間:2023-06-01 09:32:54
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據分析的方法,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
一、看數據分布
最簡單的拆分方法就是不看平均值,看數據分布。因為凡 是“總和”或者“平均”類的統計數據都會丟失掉很多重要的信息。例如李嘉誠來我們公司參觀,這一時間我們公司辦公室里的“平均資產”就會因為李嘉誠一個人 被抬高到人均幾億身家。如果有人根據這個“平均資產”數據來判定說我們辦公室的人都是豪華游艇的潛在顧客,這自然是荒謬的。
可實際上,我們每天都在做著類似的判斷,比如當我們聽到說顧客“平均在線時間”是3分34秒,就可能根據這個時間來進行業務決策,例如設置“停留時間超過3分34秒為高價值流量”,或者設置系統,在用戶停留了3分34秒還沒有下單的話就彈出在線客服服務窗口。我們設置這些時間點的根據是“平均停留時間”,在我們的想象里,我們的每個顧客都有著“平均的”表現,停留時間大致都是3分34秒,可實際上真正的顧客訪問時間有長有短,差別巨大:
在一些數據中我們可以看得出來,訪客平均停留在頁面的時間非常的短暫,具體的也就是說,問需要在淘寶數據分析上面下工夫的,那么,究竟該怎么弄才能比較好的呢?這個就看個人是怎么想的了,這里也就不多說了。
再舉一個例子,比如我們看到上個月平均訂單金額500元/單,這個月也是500元/單,可能會覺得數字沒有變化。可是實際上有可能上個月5萬單都是400~600元,而這個月5萬單則是2萬單300元,2萬單400元,5千單500元,5000單超過2500元 ——客戶購買習慣已經發生了巨大變化,一方面可能是客戶訂單在變小(可能是因為產品單價下降,采購數量減少,或者客戶選擇了比較便宜的替代品),另一方面 出現了一些相對較大的訂單(可能是中小企業采購,或者是網站擴充產品線見效了)。——看數據分布可以讓我們更容易發現這些潛在的變化,及時的做出應對。
二、拆因子
很多時候我們很難直接從數據變化中分析出具體的原因,這時可以考慮拆分因子,將問題一步步細化找尋原因。
例如網站轉化率下降,我們要找原因。因為“轉化率”=“訂單”/“流 量”,所以“轉化率”下降的原因很可能是“訂單量下降”,“流量上升”,或者兩者皆是。按照這個思路我們可能發現主要的原因是“流量上升”和“訂單量升幅 不明顯”,那么
下面我們就可以來拆解“流量”的構成,例如拆成“直接訪問流量”、“廣告訪問流量”和“搜索引擎訪問流量”再看具體是哪部分的流量發生了變 化,接下來再找原因。這時我們可能看到說是搜索引擎訪問流量上升,那就可以再進一步分析是付費關鍵詞部分上升,還是自然搜索流量上升,如果是自然流量,是 品牌(或者網站名相關)關鍵詞流量上升,還是其他詞帶來的流
量上升——假如最后發現是非品牌類關鍵詞帶來的流量上升,那么繼續尋找原因——市場變化(淡季旺季之類),競爭對手行動,還是自身改變。假如剛好在最近把產品頁面改版過,就可以查一下是不是因為改版讓搜索引擎收錄變多,權重變高。接下來再分析自己到底哪里做對了幫助網站SEO了(比如把頁面導航欄從圖片換成了文字),把經驗記下來為以后改版提供參考;另
一方面還要分析哪里沒做好(因為新增流量但是并沒有相應增加太多銷售),研究怎樣讓“產品頁面”更具吸引力——因為對很多搜索引擎流量來說,他們對網站的第一印象是產品頁面,而不是首頁。
三、拆步驟
還有些時候,我們通過拆分步驟來獲取更多信息。
舉兩個例子:
第一個例子:兩個營銷活動,帶來一樣多的流量,一樣多的銷售,是不是說明兩個營銷活動效率差不多?
如果我們把每個營銷活動的流量拆細去看每一步,就會發現不一樣的地方。營銷活動B雖然和營銷活動A帶來了等量的流量,可是這部分流量對產品更感興趣,看完著陸頁之后更多的人去看了產品頁面。可惜的是雖然看產品的人很多,最后轉化率不高,訂單數和營銷活動 A一樣。
這里面還可以再深入分析(結合之前提到的分析方法,和下一章要說的細分方法),但是光憑直覺,也可以簡單的得出一些猜測來,例如兩個營銷活動的顧客習慣不太一樣,營銷活動 B的著陸頁設計更好,營銷活動 B的顧客更符合我們的目標客戶描述、更懂產品——但是我們的價格沒有優勢等等這些猜想是我們深入進行分析,得出行動方案的起點。至少,它可以幫助我們
更快的累計經驗,下次設計營銷活動的時候會更有的放矢,而不是僅僅寫一個簡單report說這兩個營銷活動效果一樣就結案了。(注:這是個簡化的例子,實際上還可以分更多層)
第二個例子可能更常見一些,比如網站轉化率下降,我們可以拆成這樣的漏斗:
這樣拆好之后,更能清楚地看到到底是哪一步的轉化率發生了變化。有可能是訪客質量下降,都在著陸頁流失了,也可能是“購物車–>登錄”流失了(如果你把運費放到購物車中計算,很可能就看到這一步流失率飆升),這樣拆細之后更方便我們分析。
曾經有一個例子就是轉化率下降,市場部查流量質量發現沒問題,產品經理查價格競爭力也沒問題——最后發現是技術部為了防止惡意注冊,在登錄頁面加了驗證碼(而且那個驗證碼極度復雜),降低了“登錄頁面–>填寫訂單信息“這一步的轉化率。
四、細分用戶族群
很多時候,我們需要把用戶行為數據拆分開,看不同族群的人有什么不同的表現,通過比較異同來獲取更多的洞察。從實踐出發,客戶族群細分的方法主要有三種:
Abstract:In view of the problems of the social survey data processing and analysis, this paper establishes the mathematical model of three dimensional matrix which is based on the three dimensional matrix.On the basis of the established three dimensional matrix model,we can use the properties of three dimensional matrix to deal it with a variety of mathematical methods, and use the hypergraph theory for further analysis. This enriches the method of the survey data processing greatly.
Key Words:Social survey data;Three-dimension matrix;Hypergraph
社會調查是了解各方面信息的重要途徑之一,社會調查數據主要是通過調查問卷的方法得到的。由于社會調查數據的維數較高,加上人為主觀因素,數據類型主要為二元變量、離散變量、序數變量等為主,所以對于社會調查數據的分析和處理大都基于統計學,只對單一題目進行統計學分析,其分析方法主要是基于題型進行處理的,對于題目和題目之間的關系很少關心[1]。許多數據挖掘算法因為種種限制無法在社會調查的數據分析中得到應用。因為方法的限制,所以現在很多社會調查只能驗證事先想好的內容和假設,很少可以對高維數據進行相對復雜的回歸分析處理。
根據以上存在的問題,該文建立了基于三維矩陣的數學模型,將單選題、多選題和排序題用向量形式進行表示,每一題定義為空間中的一個維度,從而所有的題目就可以構成一個N維空間。每份問卷的信息用一個M×N矩陣表示。這樣表示可以將所有問卷內容當作一個整體,作為后續算法的基礎。
1 社會調查數據的特點
通常情況下,社會調查數據特點如下。
(1)相關性。對于一個樣本個體而言,它具有本身的多個特征,這些特征之間就具有一定的相關性。對于多個樣本而言,個體與個體的特征之間具有相關性。如果樣本隨時間而變化,那么該樣本在不同時刻的特征之間又具有相關性。因此,由于上述多個原因使得社會調查數據具有了復雜的相關性,傳統的統計學調查難以解決這樣的問題。
(2)離散性。因為社會調查數據是通過自填式問卷、網絡調查數據庫等方法得到,所以社會調查數據一般以離散變量為主,且這些數據之間只有標示作用,并沒有嚴格的邏輯關系。
(3)模糊性。社會調查數據當中不可避免的會接觸到各種表達方式和概念,因此,它具有模糊性。
因為由自填式問卷或結構式訪問的方法得到的社會調查數據具有以上特點,所以在實際應用中基于統計學的處理方法只能籠統的顯示數據的部分特性,如頻數、離散程度等[2]。對于數據之間的關系只能分析出維數極少的大致的關系。
而且利用軟件進行數據挖掘時,因為現有的軟件中的數據挖掘算法對于數據類型和格式要求較高,所以能應用到的數據挖掘算法很少。就算是數據要求較低的關聯分析,其結果也存在大量的冗余。因此,我們需要建立一個合適的社會調查數據的數學模型來完善原先的方法并使跟多的數據挖掘方法可以運用到其中,使得結果更準確。
2 社會調查數據的建模
研究中我們發現,三維矩陣可適用于社會調查數據的建模。
2.1 三維矩陣的定義
三維矩陣的定義:由n個p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。
2.2 三維矩陣模型的建立
調查問卷的題目一般有三種類型:單選題、多選題和排序題。這三類題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個向量,排序題可以表示成多個向量組成的矩陣。對于單選題和多選題,可以按選項的順序可以表示成一個向量,其中選中的項用“1”表示,未選中的項用“0”表示。對于排序題,可以表示成一個n×n的方陣,其中n表示該排序題的選項個數,。這樣,每一題就可以定義為空間中的一個維度,從而所有的題目就可以構成一個N維空間。每份調查問卷的信息用一個M×N矩陣表示(M為題目的最大選項數),其在每一維上的選擇稱之為一個元素,這樣每份問卷的信息就包括了N個元素。以第1,2,3題數據為例,其中第1題為單選題選擇“B”,用向量表示為一個元素,第2題為多選題選擇“ACE”,用向量表示為一個元素,第3題為排序題順序為CBADEFIHG,用矩陣表示,每一個列向量是一個元素,如圖1所示。
那么,假設有一問卷信息用一個大小為M×N的矩陣表示。K份的問卷信息就可以用K個大小為M×N的矩陣表示。將這K個矩陣疊加,形成一個三維矩陣。這個三維矩陣就是我們建立的三維矩陣數學模型,如圖2所示。
在圖2中我們看到,該三維矩陣數學模型有三個坐標軸,它們分別是題目,人數,選項。題目軸以每一道題為一個單位;人數軸以每一份問卷為一個單位;選項軸的刻度為A,B,C,D,E,F等題目選項,其個數為該調查問卷中選項最多的題目的選項個數。
在此基礎之上,這樣的三維矩陣具有以下性質。
(1)在題目軸中選取對應的題目,將三維矩陣面向豎切得到截面1(如圖2中01所示),截面2表示每一道題所有人選擇的信息。
(2)在人數軸中選取對應的人,將三維矩陣橫切得到橫截面1(如圖2中02所示),橫截面1表示對應的人選擇所有題目的信息。
在得到三維矩陣后,可對它進行像素化處理,置1的元素用黑點代替,置0元素的則空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著人數維度上向下投影,這樣就可以得到一個具有濃黑不一的點的平面。通過這些點的濃度,可以知道每一選項選擇的人數。接下來我們可用灰度級表示點的濃度,篩選出濃度大于一定程度的點,在此基礎上進行后續算法處理。
上述三維矩陣數學模型具有數學三維矩陣的所有性質,可依據調查問卷的需求進行轉置,加權、相乘、篩選等數學處理,另外在數學處理的基礎上,采用超圖理論可以大大豐富了調查問卷的處理方法。
3 基于超圖算法的調查問卷分析技術
超圖是離散數學中重要的內容,是對圖論的推廣[3]。超圖是有限集合的子系統,它是一個由頂點的集合V和超邊集合E組成的二元對,超圖的一條邊可以有多個頂點的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向后得到的有向二元對就是有向超圖。超圖在許多領域有廣泛的應用。
大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個選項設成一個節點,然后將三維矩陣從上向下投影,如果某一題的若干個選項同時被一個人選擇,就用一條超邊包圍這些節點,那么選這些選項的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進行聚類處理。
利用有向超圖,可以將關聯規則表示成有向超圖的形式,在得到了關聯規則后,設實際中得到的關聯規則的形式為:,前項和后項都是由多個項組成的集合。該文定義一條關聯規則由一條有向超邊表示,有向超邊的頭節點表示關聯規則的前項,有向超邊的尾節點表示關聯規則的后項。每條有向超邊的頭節點和尾節點均可以為多個,如此便成功表示了復合規則,從而可以使用相關算法進行冗余規則檢測。
通過基于有向超圖的冗余規則檢測就可以將關聯規則之間存在著的大量冗余檢測出,減少挖掘資源的浪費,從而增加了挖掘結果的有效性。
傳統的聚類方法都對原始數據計算它們之間的距離來得到相似度,然后通過相似度進行聚類,這樣的方法對于低維數據有良好的效果,但是對于高維數據卻不能產生很好的聚類效果,因為高維數據的分布有其特殊性。通過超圖模型的分割實現對高維數據的聚類卻能產生較好的效果。它先將原始數據之間關系轉化成超圖,數據點表示成超圖的節點,數據點間的關系用超邊的權重來表示。然后對超圖進行分割,除去相應的超邊使得權重大的超邊中的點聚于一個類中,同時使被除去的超邊權重之和最小。這樣就通過對超圖的分割實現了對數據的聚類。具體的算法流程如下。
首先,將數據點之間的關系轉化為超圖,數據點表示為超圖節點。如果某幾個數據點的支持度大于一定閾值,則它們能構成一個頻繁集,就將它們用一條超邊連接,超邊的權重就是這一頻繁集的置信度,重復同樣的方法就可以得超邊和權重。
然后,在基礎此上,通過超圖分割實現數據的聚類。若設將數據分成k類,則就是對超圖的k類分割,不斷除去相應的超邊,直到將數據分為k類,且每個分割中數據都密切相關為止,同時保持每次被除去的超邊權重和最小,最終得到的分割就是聚類的結果。
如圖3所示是基于超圖算法的選題型調查問卷的分析技術的流程圖,主要包括4個主要部分,一是用向量表示調查問卷結果,二是將向量表示的調查問卷轉化為三維矩陣數學模型表示調查問卷結果,三是使用超圖算法進行優化,四是根據要求顯示調查問卷結果。
【關鍵詞】大數據 網絡規劃 用戶價值 用戶感知
doi:10.3969/j.issn.1006-1010.2015.10.004 中圖分類號:TN929.53 文獻標識碼:A 文章編號:1006-1010(2015)10-0022-06
引用格式:李梅,杜翠鳳,沈文明. 基于大數據分析的移動通信網絡規劃方法[J]. 移動通信, 2015,39(10): 22-27.
1 引言
隨著移動通信網絡的發展和移動互聯網業務的增長,移動通信網絡的各類相關數據呈爆炸式增長。借助大數據強大的數據處理能力和數據挖掘技術,通過分析用戶行為、基于用戶價值和用戶感知規劃設計網絡,成為運營商提升網絡競爭力的關鍵環節。
傳統的移動通信網絡規劃需要借助海量的測試,分析總結網絡存在的問題,再基于對市場和業務的經驗預測,制定規劃方案。該過程中,測試結果的普遍性和業務預測的準確性制約了規劃方案的合理性,高昂的測試成本和冗長的測試工期影響了規劃效率。
基于此,提出了基于大數據分析的移動通信網絡規劃方法,通過大數據工具分析海量數據,實現用戶業務趨勢預測、用戶價值挖掘、用戶感知評估分析,進而能夠以用戶為中心、面向具體業務場景展開通信網絡規劃。同時,該方法能夠綜合分析CQT(Call Quality Test,呼叫質量撥打測試)、DT(Drive Test,路測)等多種前端測試數據和信令數據、位置數據、用戶業務信息等大量后臺數據,克服單一數據分析的局限,不僅能夠大規模降低測試成本、縮短方案制定時間,而且還提高了方案的科學合理性。
2 基于大數據分析的移動通信網絡規劃
體系
如圖1所示,本文提出的移動通信網絡規劃體系可分為數據層、管理層、業務層和展示層,各層均與大數據密切相關。
2.1 大數據數據層
該層采用HDFS數據庫和Hbase數據庫管理通信網絡相關的結構化、非結構化數據。數據主要來自于網管側和計費側,包括:核心網管數據、詳單數據、網優平臺數據、投訴數據、用戶信息表等,這些數據經過預處理、算法處理后,按照標準數據格式存放在Hbase里面。
2.2 大數據管理層
該層基于Hadoop管理平臺建立特定的數據預處理腳本和算法模型,實現對用戶價值和用戶感知數據的分析管理。
數據的預處理主要包括確實數據處理以及噪音數據處理。為分析用戶價值和用戶感知,本系統用到的大數據分析算法模型主要有層次分析法和聚類閾值法。
2.3 大數據業務層
該層是對用戶價值和用戶感知業務實施梳理與管理,對影響用戶價值和感知業務的各維度進行分析并找出其關聯關系。例如:用戶價值與收入、終端、業務、套餐的各維度關聯關系的梳理;用戶感知與回落之間的關系梳理等。
2.4 大數據展示層
該層是以圖表進行展示數據分析結果,輔助開展通信規劃,重點是對用戶價值與感知進行地理化展現、相關圖表的輸出。
3 用戶價值與感知評價分析方法構建
3.1 用戶價值評價體系構建
通信領域中的用戶價值評估是一個多層次、多因素的問題,需要針對相關的業務構建評價指標體系,能夠全面考慮用戶的收入特征、層次結構、業務特征相互聯系。
(1)建立用戶價值評價體系結構模型――AHP分析法
采用AHP法評價用戶價值時,首先是把用戶價值進行梳理,建立出以業務為基礎的層次結構模型,然后將用戶價值分解成收入、套餐、業務和終端4部分。具體如圖2所示:
用戶價值評價模型的層次一般分為:
最高層:用戶價值。
中間層:用戶潛力和消費能力。
最底層:用戶潛力包括用戶的套餐指標與終端指標;消費能力包括用戶的收入指標與業務指標。
基于以上的維度進行評分,可將評分落到各基站扇區,根據評分做出扇區化的圖層,并將網絡的價值扇區進行地理化呈現。
(2)確定用戶價值評價模型各指標權重
以AHP法確定用戶價值評價模型各指標的權重分為以下兩步:
首先,構建遞階層次結構。如圖2所示,目標層是用戶價值,該層是建立評價模型的目的和追求的最終結果。一級指標層為{用戶潛力,消費能力};二級指標層包括套餐、終端、收入、業務等。
其次,要建立判斷矩陣。根據模型同一層級的相關指標體系指標可構造判斷矩陣,將同一層次的指標元素按照其上層指標元素的重要性進行兩兩比較,判斷相對重要程度。一般都會邀請通信專業人士和資深人員組成專家小組,依據他們的通信專業知識和研究經驗進行評估,構造判斷矩陣。
(3)綜合權重計算用戶價值
針對移動通信系統,服從一定社會(地理和邏輯)分布的具有不同消費能力、行為和移動特征的客戶群體,在通信過程中形成的具有運營價值的業務活動區域叫做價值區域。
價值區域可以采用收入、終端、用戶、業務(數據和語音)“四維度”,基于各自評分標準進行評分;將評分落到各基站扇區,再根據評分做出扇區化的圖層,就可以將網絡的價值扇區進行地理化呈現。
根據AHP法得出的權重以及各維度的評分標準,可以算出各小區的綜合評分;再根據綜合評分,可定義TOP30%為高價值扇區,TOP30%~TOP50%為中價值扇區,TOP50%~TOP80%為一般價值扇區,TOP80%以上為低價值扇區;最后,根據高低價值區域的評定,可以將網絡的價值扇區進行地理化呈現。
該價值分析結果在規劃中可進一步拓展到區域層面、微網格層面,從而實現網絡建設目標精準定位,以更好地指導網絡資源投放。
3.2 用戶感知分析方法
(1)建立用戶感知評價體系結構模型
如圖3所示,與用戶價值評價體系結構模型建立的方法相似,仍采用AHP分析法,用戶感知評價模型可分為:
最高層:用戶感知。
中間層:網絡覆蓋和網絡質量。
最底層:網絡覆蓋主要為MR(Measurement Report,測量報告)覆蓋指標;網絡質量包括HSDPA(High Speed Downlink Packet Access,高速下行分組接入)用戶速率與3G回落指標。
(2)確定用戶感知評價模型各指標權重
與用戶價值評價模型各指標權重計算方法相似。
首先,構建遞階層次結構。如圖3所示,目標層是用戶感知,該層是建立用戶感知評價模型的目的和追求的最終結果。一級指標層為{網絡覆蓋,網絡質量};二級指標層包括MR覆蓋指標、HSDPA用戶速率、3G回落指標等。
其次,建立判斷矩陣。由專家根據經驗確定權重。
(3)綜合權重計算用戶感知
用戶感知可以采用MR覆蓋指標、HSDPA用戶速率、3G回落指標“三維度”,按照評分標準進行評分,再將評分結果落到各基站扇區,做出扇區化圖層實現網絡感知的地理化呈現。
3.3 價值與感知聯合評估
為了更好地指導網絡規劃建設,可將用戶價值分析方法和用戶感知分析方法聯合起來,建立4×3的價值與感知聯合評估矩陣,針對不同矩陣中的網格分別制定對應的資源投放策略。
價值與感知聯合評估矩陣中,不同網格的資源投放策略建議如表1所示(紅色、綠色區域為重點投資區域)。
4 應用案例
在某運營商本地網的無線網絡規劃中,運用上述的分析方法對2014年6月的7 000萬條語音原始詳單、5億條數據原始詳單、238萬條用戶原始信息詳單進行了大數據分析。
4.1 價值區域分析
(1)終端分布分析
網上現有用戶約110萬戶,其中支持3G業務的終端56萬戶,占比50.7%,僅支持2G業務的終端54萬戶,占比49.3%;約一半用戶終端不支持3G業務,3G終端使用者中有一半終端使用的是2G套餐。
(2)業務分布分析
現網用戶的業務分布統計情況是:語音業務63%承載在2G網絡上,37%承載在3G網絡上;數據流量2G承載24%,3G承載76%。考慮到3G網絡的業務體驗更好,且網絡資源更為豐富,應通過各種措施加快業務的遷移,促進2G/3G網絡的融合發展。
(3)套餐分布分析
現有用戶的套餐數據統計結果如圖4所示:
從圖4統計分布可知,低端用戶貢獻了61%的收入,但占用了73%的流量資源和65%的語音資源。低端用戶單位收入消耗的網絡資源更高,說明高流量不一定帶來高收入;市場營銷策略是影響用戶規模、用戶行為以及網絡資源使用的主要因素,為此,建議規劃與市場應緊密結合,以計劃為先、網絡先行,市場與建設互相配合、逐步推進。
(4)用戶收入分布分析
從用戶收入角度分析,結果如表2所示:
從表2統計分析可知,使用2G套餐2G終端ARPU(Average Revenue Per User,每用戶平均收入)值低于2G套餐3G終端,3G套餐2G終端ARPU值低于3G套餐3G終端,3G套餐ARPU值整體高于2G套餐,3G終端ARPU值整體高于2G終端。
從以上“收入、套餐、終端、業務”四維度進行扇區化統計,各扇區統計結果如圖5所示:
從圖5統計分布可知,高價值小區數占比為30%,收入占比達到72%;中價值小區數占比為20%,收入占比達到16%;高/中價值全網小區數占比為50%,收入占比達到88%,高價值小區各維度占比均接近70%,各維度評估合理。
4.2 用戶感知分析
(1)用戶速率分析
網絡單用戶下載速率統計分布如圖6所示:
從圖6統計分布可知,全網速率大于1Mbps的扇區占比為90.3%,需重點關注低于1Mbps區域的速率改善。
(2)3G用戶回落分析
3G用戶回落指標統計分布如圖7所示:
從圖7統計分布可知,全網回落評估指標差的扇區占比為23.2%,需重點關注回落評估指標差的扇區的深度覆蓋問題。
(3)用戶感知MR覆蓋分析
對MR數據中扇區級的RSCP(Received Signal Code Power,接收信號碼功率)進行統計,其分布如圖8所示:
從圖8統計分布可知,全網MR覆蓋指標差的扇區占比為20.87%,需重點關注MR覆蓋指標差的扇區的深度覆蓋問題。
4.3 價值與感知聯合分析
綜合以上價值區域及用戶感知分析,按照專家法取定的權重對各維度指標進行綜合評分,得到全網各小區的綜合評估分析結果,統計各類小區占比如圖9所示:
從圖9統計分布可知,全網綜合評估高/中價值扇區中感知中/差的扇區占比為34%,這部分區域將是本次規劃中需要重點投入網絡資源的區域。具體分布如圖10所示:
5 結束語
綜上所述,通過對現網用戶的收入分布、終端分布、套餐、業務、用戶感知等多維度分析,可精準定位高價值扇區及高價值區域,以進一步指導網絡的精準化規劃設計,引導投資的精準投放。除此之外,基于用戶價值和用戶感知的多維度分析還可以應用于市場營銷、渠道規劃等領域。
基于大數據的價值分析對運營商而言,是市場驅動、精細化管理的重要途徑,有利于改變傳統的經營模式,改善用戶感知、增強自身競爭力,從而能夠有效應對來自于虛擬運營和OTT業務的沖擊。
參考文獻:
[1] 黃勇軍,馮明,丁圣勇,等. 電信運營商大數據發展策略探討[J]. 電信科學, 2013(3): 6-11.
[2] 劉旭峰,耿慶鵬,許立群. 運營商獲取移動互聯網用戶價值的策略研究[J]. 郵電設計技術, 2012(8): 9-12.
[3] 袁首. 多網協同下的電信無線網絡規劃方法研究[D]. 北京: 北京郵電大學, 2012.
[4] 曹艷艷. 3G無線網絡規劃[D]. 濟南: 山東大學, 2005.
[5] 李勇輝. 大數據概念辨析及應對措施[J]. 互聯網天地, 2014(1): 11-14.
[6] 龍青良,李巍,呂非彼. 基于用戶感知的WCDMA無線資源效能評估方法研究[J]. 郵電設計技術, 2014(9): 33-39.
[7] 朱強. 3G無線網絡規劃和優化的探討[J]. 通信世界, 2005(30): 57.
[8] 任毅. 3G無線網絡規劃流程[J]. 電信工程技術與標準化, 2005(11): 15-18.
[9] 郭金玉,張忠彬,孫慶云. 層次分析法的研究與應用[J]. 中國安全科學學報, 2008(5): 148-153.
完整的數據分析主要包括了六個既相對獨立又互有聯系的階段,它們依次為:明確分析目的和思路、數據準備、數據處理、數據分析、數據展現、報告撰寫等六步,所以也叫數據分析六步曲。
明確分析目的和思路
做任何事都要有個目標,數據分析也不例外。經常有一些數據分析愛好者,向數據分析高手請教以下問題:
這圖表真好看,怎么做的?
這數據可以做什么樣的分析?
高級的分析方法在這里能用嗎?
需要做多少張圖表?
數據分析報告要寫多少頁?
為什么這些數據分析愛好者會提出這些問題呢?原因很簡單,就是他們沒有明確的分析目的,為了分析而分析,而且一味追求高級的分析方法,這就是數據分析新手的通病。
如果目的明確,那所有問題就自然迎刃而解了。例如,分析師是不會考慮“需要多少張圖表”這樣的問題的,而是思考這個圖表是否有效表達了觀點?如果沒有,需要怎樣調整?
所以在開展數據分析之前,需要想清楚為什么要開展此次數據分析?通過這次數據分析需要解決什么問題?只有明確數據分析的目的,數據分析才不會偏離方向,否則得出的數據分析結果不僅沒有指導意義,甚至可能將決策者引入歧途,后果嚴重。
當分析目的明確后,我們就要對思路進行梳理分析,并搭建分析框架,需要把分析目的分解成若干個不同的分析要點,也就是說要達到這個目的該如何具體開展數據分析?需要從哪幾個角度進行分析?采用哪些分析指標?
同時,還要確保分析框架的體系化,以便分析結果具有說服力。體系化也就是邏輯化,簡單來說就是先分析什么,后分析什么,使得各個分析點之間具有邏輯關系。如何確保分析框架的體系化呢?可以以營銷、管理等方法和理論為指導,結合實際業務情況,搭建分析框架,這樣才能確保數據分析維度的完整性、分析框架的體系化、分析結果的有效性及正確性。
營銷方面的理論模型有4P理論、用戶使用行為、STP理論、SWOT等,而管理方面的理論模型有PEST、5W2H、時間管理、生命周期、邏輯樹、金字塔、SMART原則等。
明確數據分析目的以及確定分析思路,是確保數據分析過程有效進行的先決條件,它可以為數據收集、處理以及分析提供清晰的指引方向。
數據準備
數據準備是按照確定的數據分析框架,收集相關數據的過程,它為數據分析提供了素材和依據。這里所說的數據包括第一手數據與第二手數據,第一手數據主要指可直接獲取的數據,如公司內部的數據庫、市場調查取得的數據等;第二手數據主要指經過加工整理后得到的數據,如統計局在互聯網上的數據、公開出版物中的數據等。
數據處理
數據處理是指對采集到的數據進行加工整理,形成適合數據分析的樣式,保證數據的一致性和有效性。它是數據分析前必不可少的階段。
數據處理的基本目的是從大量的、可能雜亂無章、難以理解的數據中抽取并推導出對解決問題有價值、有意義的數據。如果數據本身存在錯誤,那么即使采用最先進的數據分析方法,得到的結果也是錯誤的,不具備任何參考價值,甚至還會誤導決策。
數據處理主要包括數據清洗、數據轉化、數據抽取、數據合并、數據計算等處理方法。一般拿到手的數據都需要進行一定的處理才能用于后續的數據分析工作,即使再“干凈”的原始數據也需要先進行一定的處理才能使用。
數據分析
數據分析是指用適當的分析方法及工具,對收集來的數據進行分析,提取有價值的信息,形成有效結論的過程。
在確定數據分析思路階段,數據分析師就應當為需要分析的內容確定適合的數據分析方法。到了這個階段,就能夠駕馭數據,從容地進行分析和研究了。
由于數據分析大多是通過軟件來完成的,這就要求數據分析師不僅要掌握各種數據分析方法,還要熟悉主流數據分析軟件的操作。一般的數據分析我們可以通過Excel完成,而高級的數據分析就要采用專業的分析軟件進行,如數據分析工具SPSS、SAS等。
數據展現
通過數據分析,隱藏在數據內部的關系和規律就會逐漸浮現出來,那么通過什么方式展現出這些關系和規律,才能讓別人一目了然呢?一般情況下,數據是通過表格和圖形的方式來呈現的,我們常說用圖表說話就是這個意思。
常用的數據圖表包括餅圖、柱形圖、條形圖、折線圖、散點圖、雷達圖等,當然可以對這些圖表進一步整理加工,使之變為我們所需要的圖形,例如金字塔圖、矩陣圖、瀑布圖、漏斗圖、帕雷托圖等。
多數情況下,人們更愿意接受圖形這種數據展現方式,因為它能更加有效、直觀地傳遞出分析師所要表達的觀點。一般情況下,能用圖說明問題的,就不用表格,能用表格說明問題的,就不用文字。
報告撰寫
數據分析報告其實是對整個數據分析過程的一個總結與呈現。通過報告,把數據分析的起因、過程、結果及建議完整地呈現出來,以供決策者參考。所以數據分析報告是通過對數據全方位的科學分析來評估企業運營質量,為決策者提供科學、嚴謹的決策依據,以降低企業運營風險,提高企業核心競爭力。
一份好的分析報告,首先需要有一個好的分析框架,并且層次明晰,圖文并茂,能夠讓讀者一目了然。結構清晰、主次分明可以使閱讀對象正確理解報告內容;圖文并茂,可以令數據更加生動活潑,提高視覺沖擊力,有助于讀者更形象、直觀地看清楚問題和結論,從而產生思考。
另外,分析報告需要有明確的結論,沒有明確結論的分析稱不上分析,同時也失去了報告的意義,因為最初就是為尋找或者求證一個結論才進行分析的,所以千萬不要舍本求末。
【摘 要】 在高等教育領域已經儲備有海量教學過程數據的背景下,強調了教學過程數據的價值,提出了大數據思維下基于教學活動
>> 通信行業大數據分析及應用研究 大數據時代電子稅務數據分析與應用研究 大數據時代下數據分析理念研究 信息時代背景下數理統計在大數據分析中的應用研究 大數據分析 煉鋼―連鑄生產過程數據分析及在仿真中的應用研究 大數據分析方法及應用初探① 大數據分析與應用問題研究 教育大數據分析研究與典型應用 極課大數據及教學應用研究 基于大數據分析評測電網調度能力的方法研究及應用 電信企業大數據分析的應用及發展策略研究 基于大數據分析的低壓臺區降損系統研究及應用 油田生產中大數據分析技術的研究及應用 基于大數據分析下的數學課堂教學研究 基于大數據的學業、教學過程評價系統的應用與研究 探究大數據下的智能數據分析技術 大數據時代下數據分析理念框架探討 大數據時代下數據分析的主要變化 大數據時代下數據分析理念探究 常見問題解答 當前所在位置:l Chen, E., Heritage, M., & Lee, J. 2005. Identifying and Monitoring Students’Learning Needs With Technology[J]. Journal of Education for Students Placed at Risk, 10(3),309-332.
Duhon, R. 2014. Mapping Learning into the Experience API. Retrieved May 13, 2016, from https:///Publications/Magazines/TD/TD-Archive/2014/01/Mapping-Learning-Into-the-Xapi
Global Pulse. 2012. Big Data for Development: Challenges & Opportunities. Retrieved May 13, 2016, from http:///upload/2012-07/12071822344575.pdf
Glossary of Education Reform. 2013. Learning Experience. Retrieved May 13, 2016, from http:///learning-experience/
《義務教育教學課程標準(2011年版)》將原來的“統計觀念”改為“數據分析觀念”,并把“數據分析觀念”作為數學學習的十個核心觀念之一,指出了統計的核心就是數據分析。通過學習,我對數據分析觀念的內涵有了更深刻的認識:使學生了解在現實生活中有許多問題應當先做調查研究,收集數據,通過分析做出判斷,體會數據中蘊涵的信息;了解對于同樣的數據可以有多種分析的方法,需要根據問題的背景選擇合適的方法;通過數據分析體驗隨機性,一方面對于同樣的事情每次搜集到的數據可能不同,另一方面說明只要有足夠的數據就可能從中發現規律,數據分析是統計的核心。
如何發展學生的數據分析觀念,培養他們對數據的分析與判斷能力?下面談談我個人的粗淺看法。
一、讓學生參與數據搜集的全過程
統計學的一個核心就是數據分析。不論是統計還是概率,都要基于數據,基于對數據的分析;在進行預測的同時,為了使預測更合理,也需要搜集更多的數據。培養“數據分析觀念”最好的辦法是讓學生經歷數據的搜集、整理、描述、分析的全過程,讓學生親身體驗進行數據分析的必要性。學生通過大量重復試驗,在頭腦中再現知識的形成過程,避免單純地記憶,使學習成為一種再創造的過程,數據分析觀念也得到了初步培養。
例如,“組織比賽”的情境,學生在操場上討論:“組織什么比賽好呢?”“去問一問同學,他們最喜歡什么活動?”這就使學生認識到統計對決策的作用,引起學生進行調查的愿望。教材緊接著安排小調查,“調查你們班的部分同學,他們最喜歡什么活動,在下圖中涂一涂。”這就要組織學生搜集數據、整理數據,用在方格紙上涂一涂的方式呈現數據。最后安排學生說一說:
(1)一共調查了幾個同學?喜歡什么比賽的同學最多?喜歡什么比賽的同學最少?
(2)喜歡足球的同學比喜歡跳繩的同學多多少個?
(3)如果你們班有一名同學沒來,猜一猜他(她)最有可能喜歡什么活動。
(4)你認為你們班最好組織什么比賽?
(5)根據統計圖,你還能提出什么數學問題?
這就是引導學生分析數據,做出合理的決策。上面的例子就是根據低年級兒童的特點,組織學生經歷統計活動的全過程,發展學生的數據分析觀念。
二、引導多角度分析數據
義務教育階段的統計學習要讓學生有意識地、正確地運用統計來解決實際問題,并理智地分析他人的統計數據,以作出合理的判斷。稻莘治齙墓程應該把重點放在怎樣分析數據上。教師要啟發學生自己想辦法,多角度全方位分析數據,讓學生感悟到我們做統計的目的是解決問題。
案例:《認識中位數》教學中有以下環節:
(課件出示)例題5,出示場景圖,同學們正在進行跳遠比賽,看看他們的成績:
五年級(2)班7名男生的跳遠成績如下表。
(1)分別求出這組數據的平均數和中位數。
(2)用哪個數代表這組數據的一般水平更合適?
(3)如果 2.89m以上為及格,有多少名同學及格了,超過半數了嗎?
(4)如果再增加一個同學楊冬的成績 2.94m,這組數據的中位數是多少?
首先讓學生分組討論: ①表格中的數據有什么特點,有幾位同學的成績,最高是多少,最低是多少?②求數據的平均數和中位數,看看幾位學生的成績與平均數和中位數之間的大小有何關系? ③選擇哪兩個統計表示數據的一般水平比較合適呢?
(5)學生匯報:7名男生跳遠成績的平均數是2.96,中位數是2.89,有5名男生的成績低于平均值,這說明在這里用平均數來代表該組成績不太合適,應選用中位數。
強調:①中位數的求解方法,首先將數據按照大小順序排列好;②找到最中間位置的數據2.89;③矛盾:當數據增加一個后,一共有偶數個數,中間位置出現兩個數據:2.89和2.90,最中間的數找不到怎么辦?學生展開討論。討論結論:一組數據中有偶數個數的時候,中位數是最中間的兩個數的和除以2計算出中位數來。也就是需要求兩個數的平均數,即這組數據的中位數。
數據分析應該把重點放在怎樣分析數據上。因此,我們要啟發學生自己想辦法,讓學生感悟到我們是為了解決問題而來做統計的。通過數據分析,學生從中提取相關信息,根據不同的背景,選擇不同的方法,從而培養學生思維的靈活性。學生從中發現問題,并且思考解決問題的辦法。
三、體驗數據分析的隨機性
數據的隨機性主要有兩層含義:一方面對于同樣的事情每次搜集到的數據可能會不同;另一方面只要有足夠的數據就可能從中發現規律。
史寧中說:“統計與概率領域的教學重點是發展學生的數據分析意識,培養學生的隨機觀念,難點在于,如何創設恰當的活動,體現隨機性以及數據獲得、分析、處理進而作出決策的全過程。”
如二年級有這樣一個課堂教學片段:
組織小組活動:盒子里有3個黃球、3個白球。每次摸出1個,摸之前先猜猜你會摸到什么顏色的球,每次你都猜對了么?
活動結束時,老師詢問:有沒有每次都猜對的同學?(全班只有2人舉手)
師:為什么我們那么多的同學都沒有猜對呢?(此時,兩個猜對的同學急于向大家介紹方法)
生1:黃球和白球摸在手里的感覺不一樣!
師:(饒有興趣地問)真的嗎?讓我們見識一下!
生1:(摸出一球,沒看前猜測)黃色!(拿出后是白色,生1低頭坐了下去)
師:怎么不試了?
生1:沒有信心了。
師:怎么就沒有信心了?
生1:摸在手里分辨不出來。
生2:我發現了,如果第一次摸出來的是黃球,第二次就猜是白球,是交錯出現的。
師:你剛才就是這樣猜的,結果都對了嗎?
生2:連連點頭。
師(半信半疑):還有這個規律?摸1個!
(生2摸出1個白球,放回)
生2:第二次一定是黃球。
(第二次生2果真摸出一個黃球)
師:看來,下次……
生2:第三次該是白球了!
(第三次生2摸出個黃球)
師:這個規律還成立么?
學生直搖頭。
師:通過剛才的摸球游戲,你發現了什么?
生:盒子里有黃球又有白球,摸出一個球,可能是黃球,也可能是白球。
通過學生操作實驗,用實驗獲得數據,再對數據進行分析,這種通過對數據進行分析處理,讓學生體會了數據的隨機性,從而發展了學生的數據分析觀念。
【關鍵詞】箱線圖;冪變換;展布水平圖;降水量
一、研究背景及發展
數據分析分為兩大階段,探索階段和實證階段。探索性數據分析可以分離出數據的模式和特點,把它們有力地給分析者。探索性數據分析(exploratory data analysis,簡稱EDA)于上世紀六十年代被提出,并逐步發展,現今已經應用非常廣泛。具體來說,是對調查者觀察得到的原始數據直接進行預處理凈化,做出箱線圖、莖葉圖等等,直觀展現出數據的結構等。并沒有先做出相關的假定或者在部分假定條件下進行分析。即在對數據的基本特點還沒有認識的情況下,無法選取相應的統計方法進行相關分析,此時可以應用探索性數據分析,挖掘數據之間的相關特征,給出之后實證分析的大致方向,此時再運用統計方法則會顯得更加合理,更科學有效。為后來的數據實證分析做鋪墊。
二、實例研究
如下,選取數據為中國16個大城市三月到10月的降水量,數據顯示如下,可知,若直接運用統計方法,如大海撈針,不知何種假定下,選取何種統計方法較為合理。則先運用探索性數據分析中的相關方法。為使結果直觀顯示,運用箱線圖作圖,結合R軟件編寫代碼。
(一)未作冪變換前的箱線圖
箱線圖是一批數據的五數總括的圖示,展現了這個批的數據結構要點。從箱線圖我們可以發掘出一個批的某些特性:位置、展布、偏度、尾長、邊遠數據點(離群點)。
但是初始箱線圖也有缺點,如遠離原點的批可能比靠近原點的批,有更大的展布,體現在圖形上則會出現有些箱線圖擠在一起,較為扁平,不利于數據分析。因此,若用同一尺度來繪圖,將難以看出靠近遠點的批的細節。
為了改善箱線圖的這個缺點,我們可以做一些適當的變換,使得這些批的變異性更加一致。我們要從數據本身得到關于數據變換的一些指導,一個比較適合的標準就是“展布對水平圖”,它能夠建議一個冪變換,有助于把跨越這些批的不同水平的展布變成相等。
用箱線圖比較幾個批的數據,三搜集中國16大城市3月到10月的降水量數據,單位為毫米,由于數據龐大,不在此列出。數據來源于2012年統計年鑒。
構造出的箱線圖可以看出位置,展布,尾長和離群值截斷點。圖中四分數相對于中位數的位置,可以看出偏度,若中位數離下四分數,比離上四分數近得多,則表明這個批是正偏的,反之則為負偏。由以上箱線圖可知,效果不是很好,有較多的離群值截斷點,不便于我們對數據的分析。
由上圖可知,第13個箱線圖(廣州),距離遠點較遠,其降水量不僅有較大的展布,且分布較均勻。第16個箱線圖(烏魯木齊),其降水量展布較小,距離遠點較近。由此可見,箱線圖的局限性,為了解決展布對水平的依賴,以及離群值對數據分析的干擾,下面將對其進行改進。做相應的冪變換。
(二)冪變換(改善箱線圖)
用R對所有數據進行平方根變換,得到新的展布對水平圖。
則與前一個展布對水平圖比較得知,此圖沒有明顯的趨勢,展布對水平不再有依賴性,則說明變換有效,達到了目的。
改善之后的展布水平圖與箱線圖如下。
可知,這個變換確實在幾個重要方面改善了數據。我們可以知道,第13個箱線圖(廣州)的降水量普遍較高,其最小值都高于第2個箱線圖(天津),我們得出,即使是在雨季,天津降水量都比廣州要小,地域差異使得降水量有如此大的差異。第11個箱線圖(武漢)的降水量有一個離群點,是在7月,降水量為389.7,可見武漢的雨水集中在7月,在夏天是一個降水量較大的城市。
三、結論分析
通過運用探索性數據分析和R軟件結合的方法,數據被有效地處理與改善了。可見,探索性數據分析技術能幫助我們正確的處理數據,與R軟件結合以后,擁有更加強大的功能,通過冪變換,箱線圖得到了明顯的改善,減少了離群值,展布也不再依賴于水平。總之,探索性數據分析在當今軟件計算機如此發達的時代,其作用得到了越來越充分的體現,沒有探索性分析,證實性分析往往是盲目的, 缺乏根據的; 沒有證實性分析, 探索性分析則永遠是一次不完整的的統計分析。正確運用探索性數據分析與R軟件結合的方法,對數據進行處理與分析,可以帶來很大的便利。
參考文獻:
[1] David C Hoaglin Frederick Monsteller.John W.Tukey著,鏈、郭德媛、楊振海翻譯校訂.探索性數據分析[M].中國統計出版社,1983.
[2]李世勇,胡建軍,熊 燕,歐陽虹.2004年我國卷煙焦油量的探索性數據分析[J].2005年第7期.
關鍵詞個性化服務需求大數據分析平臺決策支持數據質量控制
分類號G250.76
Construction of the Big Data Analysis Platform for the Library based on the Personal Services Requirements
Ma Xiaoting
AbstractCurrently, big data is the best way to make well-informed decisions for personal services in library. This paper firstly describes the analysis requirements about demand of library customer based on the big data. And then, according to the personal services requirements analysis of customer based on the big data, it constructs the big data analysis platform for the library, which can help librarians to make scientific analysis and decisions.
KeywordsPersonal services requirements. Big data analysis platform. Dicision support. Data quality control.
據美國麥肯錫全球研究院2011年6月的《大數據:下一個創新、競爭和生產力的前沿》研究報告分析,“大數據已成為與物質資產和人力資本相提并論的重要生產要素,大數據的使用將成為未來提高競爭力的關鍵要素”。隨著大數據時代的到來,圖書館用戶服務保障能力建設重點已從以提高數據中心基礎設施結構科學性和運營效率為中心,向以滿足讀者需求為核心的用戶個性化服務轉變。圖書館有效采集、存儲和管理數據中心的系統運營與監控數據,用戶服務與業務管理數據,圖書館與客戶關系數據,以及讀者的個性化服務需求、閱讀模式、閱讀活動和情感、閱讀社會關系等數據,并對海量數據進行科學的分析、評價和決策,是關系圖書館全面、系統和深入了解用戶需求,并將運營與服務決策方式由傳統的管理層主觀經驗式決策,向依靠大數據的科學、定量化決策方式轉變的重要保證。圖書館只有堅持以用戶需求為中心構建大數據分析平臺,并采用科學的分析與管理策略,才能保證圖書館管理與用戶服務決策內容全面、準確、連續和可評估[1]。
1圖書館大數據的環境特征、存在問題與分析需求
1.1大數據時代圖書館數據結構的特征分類
大數據時代,圖書館數據主要由結構化數據、半結構化數據和非結構化數據組成。結構化數據主要是指關系模型數據,即以關系型數據庫表形式管理的數據,主要由圖書館數據中心系統管理數據、監控數據和部分符合關系模型數據特征的服務數據組成。半結構化數據主要指那些非關系模型的、有基本固定結構模式的數據,包括圖書館應用日志文件、XML文檔、JSON文檔和電子郵件等。非結構化數據主要指除去結構化和半結構化數據以外的數據。此類數據沒有固定的結構模式,主要由WORD、PDF、PPT、EXL文檔及各種格式的圖片和視頻等服務、監控數據組成。在圖書館的大數據資源中,非結構化數據約占據數據總量的80%以上,并以成倍的速度快速增長,大幅度增加了大數據系統的結構復雜度,以及數據采集、存儲、處理、分析過程的難度與成本,嚴重影響了圖書館對用戶個性化服務進行大數據分析與決策的科學性、準確性、可用性和可控性[2]。
1.2圖書館的大數據分析環境十分復雜
大數據時代,圖書館通過數據中心系統監測設備、閱讀傳感器信息接收、射頻ID數據采集、移動閱讀終端識別、用戶閱讀行為和數據流監控等方式,獲取關于用戶服務過程和讀者閱讀行為的數據。
首先,圖書館數據中心的運營數據和龐大讀者群閱讀行為數據,具有海量、復雜、隨機、低價值密度和不可預測的特性,大幅度增加了數據的采集、存儲和標準化難度。其次,圖書館的大數據資源通常從多個用戶對象和數據源采集,數據類型包括圖像、文本、聲音、視頻等多種格式。同時,數據內容涉及讀者的閱讀模式、閱讀關系、閱讀愛好、地理位置和時間等信息,具有多源異構的特性。第三,圖書館所采集的數據中心系統和讀者行為數據,具有即時、海量的特點。要求大數據分析系統可通過在線實時分析過程,為用戶個性化服務提供快速的決策支持,滿足用戶個性化閱讀活動的實時性需求。第四,對雜亂無章的大數據資源進行深度挖掘和價值提取,并準確發現關系,是提高圖書館服務有效性和用戶滿意度的深層次知識,是建設智慧圖書館和為讀者提供智慧服務的關鍵。
1.3大數據分析的個性化服務需求
圖書館通過對系統管理與運營、用戶服務和讀者行為數據的分析,才能獲取大量有深度和有價值的信息。此外,利用大數據的支持可提高圖書館服務系統的管理和運營效率,保證讀者個性化閱讀服務過程安全、高效、滿意。
首先,圖書館在管理、運營和服務過程中,不同的應用項目對大數據分析過程的數據處理性能、數據量、運算速度、精確性、實時性和多樣性要求不同。因此,在大數據分析過程中應結合不同分析對象、過程的特點,采用恰當的大數據分析方法與系統資源分配策略。其次,大數據分析過程應緊密結合讀者個性化服務需求,在對讀者個性化閱讀需求和閱讀行為分析深度價值挖掘的前提下,根據服務場景特點實現精確、即時的個性化服務推薦。第三,大數據分析結果應根據分析對象特點實現可視化的表現。圖書館可以交互的方式管理和分析數據,分析結果須反映用戶個性化閱讀活動和服務的多個屬性與變量,并以多種方式直觀、可視化地表現。
1.4大數據分析的數據質量保證需求
圖書館大數據環境具有數據海量、類型復雜、處理速度高和價值密度低的特點,因此,在大數據采集、存儲、處理和分析過程中,如果不根據分析需求采取有效的質量控制策略,則可能導致數據分析過程成本投入過高和分析效率下降現象發生。
首先,圖書館應制定科學、可控的大數據分析管理策略,提高數據采集、處理與分析過程的效率與管理有效性,實現數據對象、分析技術與決策結果應用三者的統一。其次,大數據主要由海量數據采集、存儲、管理、分析與挖掘、可視化表示和決策等技術組成,應根據圖書館數據分析對象和質量要求,選擇正確的大數據技術標準和大數據處理平臺,實現大數據分析資源、策略和平臺的最優化結合。第三,大數據分析過程應重點加強對數據可視化分析、數據挖掘與分析算法、預測性分析能力、數據采集質量和分析過程科學性的管理,最終實現大數據分析過程的質量可控[3]。
1.5大數據分析的目標定位
傳統IT環境下,圖書館在對讀者閱讀需求分析和服務模式定位時,通常會以自身工作經驗、感性認識和知識積累為依據,而不是依靠大數據分析結果為基礎獲得科學、理性的實證分析,因此分析過程和知識獲取具有較強的盲目性和局限性。隨著大數據技術在圖書館應用的不斷深入,圖書館應通過科學采集和分析大數據資源提升自身的運營效率、服務質量和競爭優勢。
圖書館大數據分析的目標首先應是對讀者閱讀需求、大數據服務環境、讀者閱讀行為和閱讀模式變革、個性化服務風險的精確定位和預測,為讀者個性化閱讀服務內容、方法與模式的變革提供可靠的數據支持。其次,可通過大數據挖掘來發現、優化圖書館服務資源的配置,不斷提高服務管理質量、決策水平、系統運營效率和用戶滿意度。第三,大數據分析應準確定位用戶服務的風險和市場競爭環境,及時分析、發現和預測用戶個性化服務過程中存在的安全威脅與不穩定因素,提高讀者個性化服務的安全性和可靠性。
1.6大數據分析的風險可控需求
大數據時代,圖書館大數據資源主要由傳感器設備采集數據、網絡監控和讀者服務調查數據、移動服務商共享數據、閱讀終端反饋數據、射頻ID數據等組成。首先,圖書館大數據資源呈現數據總量快速激增、分散存儲和異構數據協同整合的趨勢,導致數據管理、存儲、傳輸與分析難度增大。其次,隨著數據源的不斷擴展和結構復雜性增強,大數據資源呈現多樣性、低價值密度、價值挖掘難度大、錯誤或無用數據占數據總量比例上升現象。第三,數據分析師的專業素質、大數據平臺結構科學性、預測與分析軟件的可用性、分析結果對圖書館服務與讀者滿意度提升有效性等因素,也是關系圖書館大數據分析效率和風險可控的重要因素[4]。
2圖書館大數據分析流程與數據分析平臺構建策略
2.1圖書館大數據平臺數據分析的流程
圖書館大數據平臺信息分析流程圖主要由數據源、數據采集與存儲、數據過濾與價值提取、知識發現、預測分析與決策五部分組成,如圖1所示:
圖1圖書館大數據平臺信息分析流程圖
圖書館大數據資源主要由系統監控器、視頻監控、射頻信號識別、閱讀終端設備、網絡監控器和閱讀傳感器等數據源組成。數據采集與存儲平臺利用云計算、數據集成等技術,對數據源進行數據的采集與存儲,為上層提供高效的數據存儲與管理服務。數據過濾與價值提取層,可對底層采集的海量數據進行數據過濾和價值提取,并在減少所采集大數據資源總量和提高價值密度的前提下,降低大數據挖掘與分析系統的負荷。知識發現層可對下層傳輸的信息進行深度挖掘,并從信息中發現知識,實現讀者需求、閱讀行為、系統管理和讀者群關系的精確發現。預測分析與決策層是分析流程的最高層,可對用戶需求、未來閱讀模式發展趨勢、服務系統運行、安全隱患和市場環境變化進行智慧分析和預測,并對圖書館個性化智慧服務的模式、策略、內容和安全防范措施進行決策與評估[5]。
2.2圖書館大數據分析平臺的構建策略
2.2.1增強圖書館對大數據資源的智慧分析能力
增強對大數據資源的智慧分析能力,是圖書館樹立以“智慧分析和決策”為核心的大數據戰略思想,以及高效整合大數據平臺價值體系和科學分配、調度系統資源,利用大數據支持提高圖書館讀者個性化服務風險預測、分析與決策、讀者閱讀體驗、系統運營整體效率和市場競爭力的重要內容。
首先,圖書館應依靠大數據資源的支持,提高對讀者閱讀需求、內容、方法和模式的預測和判斷能力,明確讀者未來個性化閱讀活動的時間、地點、對象、方法和內容,并在提高個性化服務針對性和質量的前提下,降低用戶服務的成本投入。其次,增強圖書館大數據的智慧分析能力,就是要將以大數據資源為核心的圖書館服務能力建設,轉變為以大數據資源采集、處理、建模、分析和系統反饋、優化全過程為核心的綜合保障,確保大數據智慧分析過程安全、高效、可用和可控。第三,圖書館應根據大數據分析的對象、內容和質量要求,選擇科學、高效、快速和經濟的分析算法,確保對大數據資源有較高的質量和知識提取效率,并且分析平臺可自動、智能地從數據中提取高價值密度的信息。第四,圖書館大數據的智慧分析平臺應具備實時分析和可視化分析能力,可將分析結果準確、快速、友好和多模式地表示,確保讀者個性化閱讀服務過程具有較強的前瞻性、即時性和可控性[6]。
2.2.2大數據分析應以讀者個性化服務需求為中心
大數據時代,圖書館應以讀者個性化需求與服務為中心,逐步建立依據用戶需求、業務優先等級和服務收益為標準的大數據戰略目標,才能有效提高大數據采集、處理、整合、分析和決策的效率。
首先,圖書館應通過對用戶閱讀反饋與服務系統運營大數據信息的監測、分析,提高大數據平臺對用戶個性化服務安全隱患、突發事件、服務質量潛在風險的預測、判斷和評估能力,為安全防范策略的制定與實施提供科學的數據支持。同時,還應通過對用戶閱讀需求、閱讀內容和閱讀環境的準確預測,提高讀者個性化閱讀滿意度并降低客戶流失率。其次,大數據分析過程應以絕大多數讀者的海量閱讀行為數據為基礎,不能為了降低數據采集、存儲、處理和分析成本而采取用戶抽樣的方法,避免因所采集的個別讀者最小量行為樣本數據的片面、局限性,而影響分析結果的全面性和準確性。第三,大數據分析應以讀者閱讀時限需求為依據,對于用戶多媒體閱讀需求預測、用戶行為即時分析、安全風險監控與評估等大數據應用,應采用海量數據實時分析的方法,確保大數據服務過程具有較高的安全性、質量保證和可靠性。而對于離線統計分析、機器學習、服務策略評估與優化等實時性要求不高的大數據分析,則可采用離線數據分析的方法,在保證滿足系統管理和服務需求的前提下大幅度降低大數據分析成本[7]。
2.2.3構建科學、高效和經濟的大數據分析中心
圖書館構建科學、高效和經濟的大數據分析中心,重點應加強大數據分析中心架構科學性、數據存儲效率和數據分析能力建設三部分內容。
首先,圖書館大數據信息具有數據源多樣性、數據海量、數據傳輸時效性要求高和處理速度快的特點。因此,大數據分析中心架構必須科學、開放、異構、透明、跨平臺和具備智能化管理的功能,并擁有較高的IT架構智慧管理、智能計算和低碳運營能力,可通過智慧管理實現數據采集存儲、計算、分析、決策的精細化管理與資源最優化配置。其次,隨著圖書館大數據資源總量和存儲標準的增長,圖書館應依據大數據源位置、數據分析流程和數據流傳輸時延,構建高性能的光纖通道存儲區域網絡,滿足大數據平臺實時分析過程對數據高速即時傳輸的需求。同時,數據存儲應采用虛擬化和分布式多節點存儲方法,將大數據資源存儲在位于不同地理位置的圖書館子數據中心里,在保證大數據資源準確、可控和可快速更新的前提下,確保大數據資源存儲管理安全、高效、快捷和經濟。第三,圖書館大數據分析能力的提升,是一個關系數據中心IT基礎設施架構科學性、數據分析算法有效性、數據中心系統整體優化、數據分析過程可視的綜合問題。因此,圖書館應重點解決好大數據平臺計算資源管理與分配、分析算法科學性與可擴展性、分析系統安全性與穩定性、數據傳輸網絡效率、數據分析平臺的能耗與低碳等問題。此外,還應加強大數據分析平臺的智能化與機器自我學習能力,保證分析系統可根據分析對象和內容的變化,對分析算法和過程進行智能的調整與優化[8]。
2.2.4確保大數據資源具有較高的安全、可用性
大數據環境下,只有保證大數據資源具有較高的安全、可用性,才能保證圖書館大數據分析過程安全、高效、可控和經濟,才能保證分析結果全面、準確、可用和可對系統管理與用戶服務進行實踐指導。
首先,圖書館在用戶行為與閱讀社會關系數據采集過程中,應將讀者的個人隱私保護放在首要位置。讀者必須擁有對自身數據采集、存儲、分析和共享的知情權與決定權,圖書館不能隨意監測、采集、使用和泄露用戶隱私數據。其次,圖書館應建立科學的大數據資源采集、存儲和分析流程,不斷提高存儲架構科學性和分析過程可行性。同時,應通過對大數據資源的過濾和價值挖掘,不斷降低大數據資源總量并提高數據的價值密度,最終建立與讀者個性化服務相匹配的數據分析流程。此外,還應防止大數據分析過程出現經驗主義和長官意志現象。第三,大數據資源的安全與可用性保障內容,應重點放在提高數據準確性、存儲適用性、可搜索與查詢性、數據集可擴展性與穩定性四個方面,這樣才能確保數據采集、抽取、清理、分類管理、轉換和加載過程規范、標準化[9]。
3結語
大數據時代,讀者對圖書館個性化服務的內容、模式和服務質量有了更高的要求。同時,大數據環境數據量與數據結構復雜度的快速增長,也給圖書館大數據的準確、高效、快速和深度分析帶來了挑戰。圖書館在大數據平臺數據分析能力建設中,應堅持以用戶需求和服務質量保障為中心,重點加強在大數據資源采集、存儲、處理、分析和決策過程中的數據管理科學性與效率。同時,在大幅度降低大數據資源總量和數據分析平臺系統負荷的前提下,不斷提高大數據分析平臺的系統結構科學性、分析系統運行效率、分析算法可用性和大數據資源的價值密度,確保大數據分析過程安全、高效、快速和經濟,為讀者個性化服務和圖書館智慧管理提供科學、全面、即時和可靠的大數據分析與決策支持[10]。
參考文獻:
[ 1 ][英]維克托?邁爾-舍恩伯格,肯尼思?庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:1-15.
[ 2 ]李晨暉,崔建明,陳超泉.大數據知識服務平臺構建關鍵技術研究[J].情報資料工作,2013(2):29-34.
[ 3 ]張延松,焦敏,王占偉,等.海量數據分析的One-size-fits-all OLAP技術[J].計算機學報,2011,34(10):1936-1946.
[ 4 ]覃雄派,王會舉,杜小勇,等.大數據分析:RDBMS與MapReduce的競爭與共生[J].軟件學報,2012,23(1):32-45.
[ 5 ]漆晨曦.電信企業大數據分析、應用及管理發展策略[J].電信科學,2013(3):12-16.
[ 6 ]沈來信,王偉.基于Tree-Lib的大數據實時分析研究[J].計算機科學,2013,40(6):192-196.
[ 7 ]Russom P. Big Data Analytics[R].Tdwi Best Practices Report. Fourth Quarter,2011:15-21.
[ 8 ]王柯柯,崔貫勛,倪偉,等.基于單元的快速的大數據集離群數據挖掘算法[J].重慶郵電大學學報:自然科學版,2010,22(5):673-677.
[ 9 ]唐杰,楊洋.移動社交網絡中的用戶行為預測模型[J].中國計算機學會通訊,2012,8(5):21-25.
[10]王珊,王會舉,覃雄派,等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011,34(10):1741-1752.
一、以“復合型”人才培養為目標創新教學培養模式
應用統計專業學位的設立是為了適應現代統計事業發展對應用統計專門人才的需要而設置的,它的培養目標主要是讓學生掌握扎實的理論基礎和系統的專業知識和技能,具備數據采集、整理、分析和開發的能力,能夠從事統計調查咨詢、數據分析等“應用型”統計專門人才[5]110-111。然而,在大數據環境下實現的數據分析已不再局限于某一類特殊的行業統計分析需要,各行各業的運作發展都越來越依賴于大數據環境的存儲、計算、統計分析與決策。對于多樣化的大數據集,其所涉及的內容和知識結構必然是不同學科的交叉應用。大數據時代的數據分析專業人才的培養目標并不僅僅是傳統的數據收集、整理與分析,而是需要掌握能適應大數據特點的新的研究方法和獨立分析的能力,能很好地融會貫通其他專業的知識內涵,成為真正意義的專業大數據分析人才。然而傳統的統計學人才培養目標和教學模式并不符合社會對大數據分析專業能力的要求。參考和借鑒文獻[6-7]8-9,226提出來的一些建議,筆者探索從以下幾個方面對人才培養目標和教學培養模式進行改革:(一)走出校園,深入社會,挖掘并歸納出社會用人單位對數據分析專業職位技能和能力素質要求,進而制定符合社會需求的人才培養目標,以市場需求為導向更好地指導教學實踐活動。為了更好地為用人單位輸送符合大數據時代需求的專業數據分析人才,嘗試對高年級學生的培養方案設計中考慮以崗位需求為標準靈活調整和制定相應的培養目標和內容。(二)參考國外本科生專業人才培養的先進理念,引入“協作式”培養模式,大力支持大型企業與高校合作或高校與高校合作培養復合型和開發型人才。各個高校、企業可以發揮各自專業特長來實現合作,高校的不同專業之間也應該加強溝通和協作,例如在制定應用統計專業數據分析人才培養方案及實施過程中,可以以統計學科所在的學院為主導,讓計算機學科、經濟、金融及管理學科等相關學院協作參與完成[8-9]60-64。(三)總結教學過程存在的不足,探索新的知識學習和能力培養的創新模式。目前的教學活動主要以老師獨立授課,學生被動接受知識為主的方式,培養過程計劃性強,缺乏彈性,培養的評價也過于單一。在本科生培養中可以引入課程學習、導師指導和科學研究三個階段,考慮采用導師指導與集體培養相結合的方式,一門專業課程的講授不再局限于單個老師完成,在培養方案中考慮主題分組方式,鼓勵授課教師根據自己的專業特點和知識背景共同參與一門課程的教學活動。多名教師協同工作的模式可以取長補短,在大數據分析的實際案例設計及課程內容上都更加貼近實際需求,產生更好的教學效果[6]8-9。
二、基于大數據分析的特點科學構建課程體系
大數據背景下,人們可以通過互聯網、數據庫以及各種通信工具獲得海量數據,人們日常生活、學習和工作的各類事物都可以實現信息化,世界幾乎是由各種信息和數據所構成的。大數據的特點可以歸結為四個V,數量大(Volume)、類型繁多(Variety)、價值密度低(Value)、速度快時效高(Velocity)[6]8-9。大數據的真正意義不在于能提供龐大的數據量,而是對海量的數據進行專業的處理和分析,并從中獲取用戶關注的信息。結合當前互聯網應用中大數據本身的特點,從大數據中挖掘出重要知識并對之深度學習和分析的工具和方法也應與時俱進地發生改變,傳統的統計方法和統計分析工具已無法滿足大數據分析的需要。然而,在大多數高等院校中,統計學專業人才培養的課程體系并沒有考慮社會的實際應用需求,仍然停留在以傳統的統計模型框架為主導的課程體系設置,本科生教育的主要專業課程包括:數學分析、高等概率論與數理統計、應用隨機過程、回歸分析和多元統計分析等[10]248-249,這些課程內容和知識結構還不足以滿足大數據時代對數據分析專業人才知識結構的要求,課程體系設置中缺少能有效整合的數據分析能力培養模塊[11]66-68。因此,有必要針對各類院校師生各自的專業特點和學科基礎,分層次、分階段地展開課程體系改革。(一)參考國內外先進高校大數據分析專業的課程設置,結合本校的師資和專業結構特點采取靈活的策略制定課程計劃,在實施學分制改革的高校中各類學生可以在學業導師指導下實施符合學生自身特點的課程學習方案。(二)以大數據分析人才需求驅動的課程體系改革要考慮市場的行業需求變化、大數據應用中跨學科的特點。素質好的數據分析人員不僅僅要具備專業的數據分析能力,還應該對具體數據中涉及的學科知識有較好的儲備,能將不同行業的專業知識與數據分析緊密關聯起來,實現大數據分析的效用最大化。此外,在充分借鑒國內外大學成功經驗的基礎上,課程設置應該與學生的學術傾向和基礎能力緊密結合,注重基礎課程教育的同時強調文理滲透,同時要兼顧學生的興趣與學習的聯系,在課程體系的設置中需要增設一些多領域、跨學科的選修課程,如經濟學、金融學、保險學、管理學和會計學等。因此,校內跨學科或高校與高校之間聯合培養是實現跨學科課程建設的有效方法之一。(三)科學構建課程體系的主要思路還包括根據大數據時代需求,對專業必修和專業選修課程在課程時間、順序及內容等方面進行改革。專業必修課程重點內容為統計學和計算機科學的交叉部分,在講授統計基礎理論(如多元統計、決策樹、時間序列等)課程基礎上設置大數據案例分析課程,在案例分析過程中讓學生實際操作企業當前應用的大數據計算平臺[6]8-9,從而增強學生大規模分布式計算技能。為提高學生的實際動手和二次開發能力,專業選修課程需更多地開設與數據挖掘及面向數據的編程語言相關的課程,如數據挖掘算法、C++、Java和Python等課程,強化學生的數據挖掘和分析能力。
三、基于協同創新的理念開展實踐教學改革
近幾年,隨著應用型、創新型人才培養目標的提出,學校越來越重視和加強對各類專業人才實踐教學能力的培養,以“數據分析”為方向的專業人才需要運用統計分析軟件對數據進行分析和決策,其實踐教學的重要性更是不言而喻。然而,在大數據被廣泛應用的時代背景下,高等院校中的實踐教學仍然是培養高層次“大數據分析”人才的薄弱環節,實踐教學教材及內容不規范、教學方法單一、軟硬件的更新以及師資儲備等方面都存在著一些問題[12]96-97。例如以模型驅動為主的實踐教學模式已不適應大數據時代的要求,大數據時代數據是海量且復雜的,用簡單的SPSS、Eviews為主的軟件教學已無法處理大數據[5]110-111。因此,學習其他知名高校構建的協同創新的理念,結合財經類院校的統計學科及人才培養的特點,開展實踐教學改革[13]248-249。對“數據分析”專業人才實踐教學改革,筆者的建議如下:(一)根據協同創新理念,解決實踐教學環節存在的實驗教材(教學內容)缺乏實用性的問題,一方面可以參考企業對數據分析師、調查分析師資格認證相關培訓教材,開發實用性強的《數據分析》實踐教材,另一方面學校可以和企業或其他高校定期舉辦交流座談會,面向企業需求甄選實踐教學內容。(二)高素質的師資隊伍對人才的培養無疑起著至關重要的作用,在提高指導教師理論和實踐能力方面,借鑒協同創新聯合培養的模式可以有效充分地利用企業、學校的各方面師資資源。例如北京大學、中國科學院、中國人民大學、中央財經大學、首都經濟貿易大學5所高校已經與政府部門和產業界簽署了聯合培養大數據分析應用人才的合作協議[14]。廣東財經大學也可以參照類似聯合培養的做法,和廣東其他高校、政府和企業合作。一方面企業或政府可以利用自身的資源為高校提供人才培養實習基地,并且引薦相關的技術人員聘為校外實習導師,指導學生在實習實踐中建立以問題為導向,以項目為牽引的運作機制,讓學生能夠理論聯系實際,切身體會數據分析的商業操作體系。另一方面,由于高校的專業教師缺乏社會實踐的機會和經驗,高校應該制定政策鼓勵并推薦相關專業教師走出學校、走進企業,密切與企業合作交流,從而更進一步地提高教師對復合型專業學位人才培養的能力[15]29-32。(三)為了激發學生的學習熱情,減少對實踐操作的畏難情緒,實驗課程的教學方法也需要探索創新性實踐教育模式。教學過程可以考慮靈活的制定團隊教學計劃、案例實戰分析、模擬實訓等多樣化的方式,減少單一的課堂內容講授,在理論和實踐教學環節中積極調動學生的主觀能動性,提供更真實的企業大數據應用環境,并以學生為主完成實際案例分析。此外,基于不同的授課對象的特點,老師在教學過程中也要適當考慮學生的興趣和需求,隨時調整實驗教學策略[9]。
大數據時代,人類的工作和生活都與大數據息息相關,各類行業的發展也和大數據中的海量信息密切相關,數據及其分析將成為決策唯一的依據。因此,各行各業都將需要擁有大數據分析能力的統計學專業人才。各類高等院校作為人才培養的重要載體,更是承載了培養能適應大數據環境下數據分析專業人才的重要使命。文章從完善人才培養的目標出發,總結和分析了傳統的統計學及數據分析人才培養在大數據環境下存在的問題,并基于大數據的特點提出了課程體系和內容的改革思考,并在此基礎上提出了面向大數據分析的課程實驗教學方法,探討如何提高本科生理論與實踐結合的綜合能力,為大數據時代下數據分析專業人才培養改革提供新的思路和參考。
作者:溫雅敏 龔征 單位:廣東財經大學 華南師范大學
與此相適應,會計信息管理專業的人才培養課程體系體現為會計學基礎課程、數據分析技術課程以及決策能力提升課程等三個層次。
0 引 言
2012年以來,鋪天蓋地的大數據進入了我們的視線,各種流行書籍,各大網站、媒體都在談論大數據,一時間成為這個時代最熱門的話題。同時,這也引起了我們的關注。我們說,大數據,不單純是數據規模上的大,還在多樣性、速度、精確性上都有突破性增長。更重要的是,這種數據的潛在價值也是舊有數據難以企及的。我們這里暫且不論如何駕馭大數據以及有什么樣的技術要求,它給我們的一點重要啟示就是要注重數據分析的重要性。在此背景下,深圳信息職業技術學院會計信息管理專業積極探索滿足新形勢下人才需求的培養模式,使人才更好地滿足當前企業的實際需要。
1 大數據時代背景引發對人才需求的變革
可以說,在未來的競爭領域,“占領市場必須先占有數據”,也就是要做到基于信息的決策——“用數據說話,做理性決策”,即進行數據分析。數據分析是從海量的數據中提取和挖掘出對企業有價值的規律和趨勢,為企業的決策提供支持,這些支持體現在四個方面:①行為預見鏡——幫助企業識別機會、規避風險;②問題良藥——幫助企業診斷問題、亡羊補牢;③跟蹤檢測——幫助企業評估效果,提升效益;④引力動力器——幫助企業提高效率,加強管理。
不可否認,個別公司的決策人具有超人的戰略眼光以及敏銳的洞察力,單靠直覺也能給公司帶來巨大價值。那么究竟靠數據分析的決策能否優于直覺決策,我們這里也要靠數據說話。有學者比較了組織中用直覺決策以及用數據分析決策的可能性,研究發現,業績優秀的組織更多地傾向于采用分析決策,尤其是在財務管理、運營、戰略等方面。因此,可以推斷,用數據分析決策比直覺決策能給企業帶來更大的價值。與此同時,根據智聯招聘網站顯示,短短兩年時間,珠三角地區數據分析人才需求已接近了需求量旺盛的傳統會計專業。可見,越來越多的公司需要能夠對公司財務等相關信息數據進行處理、加工、分析以為公司管理層決策提供信息支持的人才。
可以說,傳統會計專業注重會計核算,即財務報表編制的整個流程及環節的掌握,而會計信息管理專業更注重對財務報表數據以及其他有用信息數據的再加工、處理、分析及呈報,以滿足管理層經營決策的需要。 可以說,不同的社會發展階段和發展水平要求有不同的專業設置及專業培養目標與之適應。從會計電算化到會計信息管理背后的推動力是時代的變革引發的對人才的需求。
然而,從當前會計信息管理專業的建設情況來看,多數院校存在培養目標不清晰、沒有明確的專業定位、與會計電算化等專業沒有明顯區分以及缺乏明確的專業核心課程等突出問題,尤其是對會計信息管理專業名稱中“信息”二字究竟如何體現沒有清晰的把握和界定。 因此,會計信息管理專業的人才培養模式亟需變革。
2 大數據時代背景下會計信息管理人才工作崗位及能力分析
深圳信息職業技術學院2012年成功申報會計信息管理新專業,并于2013年下半年開始首屆招生。與此同時,會計信息管理的專業定位、培養目標、課程體系也成為擺在專業任課教師面前的重大課題。近幾年來,全體專任教師圍繞會計信息管理專業建設展開了一系列的咨詢、調研、走訪,并定期進行討論、交流,扎扎實實了解實際中的人才需求,實現專業人才供給與人才需求無縫對接。到目前,初步形成了具有專業特色的會計信息管理專業建設思路與方法。
首先,會計信息管理專業人才就業崗位主要集中在賬務處理、管理會計、財務數據分析、預算管理、成本管理、資金管理及內部控制等方面。具體工作任務體現在:會計核算,納稅申報,管理會計,財務數據處理、加工、分析及呈報,以及預算、成本、資金管理等。
其次,在新形勢下會計信息管理人才的工作崗位領域,會計信息管理專業人才應具備如下三方面能力:
①會計核算能力,指的是熟悉并掌握會計信息生成系統,運用財務信息對企業經營活動進行評價;②數據分析能力,指的是掌握一定的數據分析方法,運用Excel、數據庫等現代信息技術手段對數據進行采集、處理、分析及呈現;③輔助決策能力,指的是能夠依據相應的數據分析結果,為公司日常財務等管理決策提供支持。
3 大數據時代背景下會計信息管理人才培養目標
在當前互聯網時代及大數據時代,對財務人才的要求,已經不局限于傳統賬務處理,更傾向于對決策相關信息數據的處理和分析。“占領市場必須先占領數據”,公司財務和經營決策的制定更多的是基于信息的決策,即“用數據說話,做理性決策”,而數據分析即是從海量的數據中提取和挖掘出對企業有價值的規律和趨勢,為企業的決策提供支持。因此,在新形勢下,會計信息管理專業的人才培養目標可以確定為數據分析引領財務決策信息化。
為了實現這一培養目標,需要三個層面的支撐體系,即基于財務會計、強化數據分析、服務管理決策。
4 大數據時代背景下會計信息管理人才培養課程體系
在以數據分析引領財務決策信息化的人才培養目標指引下,我們初步形成了如下三個層次的課程體系。
(1)會計學基礎課程:會計信息管理源于會計,不能脫離財務會計,仍然要以財務會計為基礎。專業學生要了解財務報表的生成過程及會計賬務處理流程、能夠對一般企業常見經濟業務進行會計處理、進行企業納稅申報等。
這方面課程主要有:會計學原理、財務會計、納稅實務。(2)數據分析技術課程:對信息的把握體現在兩個層面,其一是與企業信息化相適應的一般管理軟件、財務軟件的使用及熟練操作以及簡單維護,能夠作為關鍵人物輔助中小企業實現財務信息化;另一層面通過對數據的采集、整理、分析報告,滿足管理層基于信息的決策以及決策的科學化。數據的來源可以來自公司內部的管理信息系統,根據需要也可以來自企業外部的國家經濟產業政策、行業市場信息等。
其中,對數據的分析能力又從兩方面進行培養,一方面是分析思維方式的培養,這是起主導作用的層面;另一方面是分析工具運用的培養,信息化時代,數據量的加大要求借助于一定的分析工具才能實現數據分析。企業信息化實施及數據分析方面的主要課程有:財務報表分析、財經數據分析、應用統計學、數據庫原理及應用、數據處理軟件應用、商務智能等。
(3)決策能力提升課程:新形勢下財務人員面對和服務的更多是企業的管理層和決策層,會計信息管理專業學生要清楚公司管理層和決策層需要哪方面的決策信息支持,并通過數據分析方法進行提供,同時給出合理化建議。這方面課程主要有:管理會計、財務管理、成本管理等。
具體課程名稱及課程目標見表2。
其中,財經數據分析課程能夠使學生掌握系統的數據分析方法,包括數據收集、數據處理、數據分析、數據展現及報告撰寫各環節的基本理論及操作技能,同時熟練地運用數據分析的思想和方法分析企業的財務數據,為管理層決策提供信息支持。數據分析軟件應用課程能夠讓學生熟練運用Excel等常見數據分析工具、軟件進行數據錄入、數據整理和數據分析的方法和技巧,培養學生操作Excel等數據分析軟件的基本技能。商務智能(含數據挖掘)課程依托商務智能平臺,從商務智能概念、商務智能結構、多維數據集內容、數據挖掘、交付等主要內容,使學生在了解如何運用商務智能的工具、架構以及規則的基礎上,分析企業數據,為企業管理層提供信息化決策支持系統。
5 結 語
不同的社會發展階段和發展水平要求有不同的專業設置及專業培養目標與之適應。從會計電算化到會計信息管理背后的推動力是時代的變革引發的對人才的需求。大數據時代下會計信息管理人才培養目標為數據分析引領財務決策信息化。 相應課程體系為財務會計基礎課程、數據分析技術課程、決策能力提升課程。我們共同期待,會計信息管理人才將通過數據分析對企業財務等管理決策帶來價值增值。
[關鍵詞] 審計;大數據;數據模型
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 13. 023
[中圖分類號] F239.1 [文獻標識碼] A [文章編號] 1673 - 0194(2017)13- 0056- 03
1 大數據環境下的審計特征
傳統審計過程中最困難的就是對被審計對象原始數據的獲取,在信息數據未歸集的條件下,如何準確獲取審計所需數據一直是困擾審計信息化的難題之一。
隨著信息化時代的來臨,審計數據發生了根本性的變化,具有分布廣、數據量大、集成度高、更新快等特征。在大數據環境下,非現場審計將逐漸成為主要工作方式。審計不再局限于憑證、賬面、財務系統等信息,信息化審計極大地拓展了審計視角,能更快地挖掘出被審計單位的全部業務信息。審計方法從“抽樣審計”逐漸轉變為“全面審計”,建立在大數據基礎上的審計變得更加簡便,數據更加準確、全面。大數據環境下持續性審計將成為現實,審計人員可以利用云數據掌握公司的運營狀況、風險變化等情況,對內部風險及時分析預警,將風險隱患消除在萌芽狀態。
因此,積極應用“云計算”、數據挖掘、智能分析等技術,能提高審計效率;而探索多維度、智能化數據分析方法,加強對各層級、各系統間數據的關聯分析,更能增強感知風險的能力。
2 審計數據分析類型
審計數據分析按照其操作方法、實現工具、與審計經驗結合程度等方面的不同,可以分為以下三種類型。
查詢型分析:審計人員借助業務信息系統或財務總賬,訪問和查詢數據記錄,進行篩選、查找、排序、核對、抽樣、統計等操作性分析。這是對審計項目進行總體分析,具有直觀、簡易的特點,但缺點是審計思路呈線性結構,數據量較大,不易發現問題線索。
驗證型分析:審計人員借助工作經驗首先提出風險點,然后根據相關數據來檢查風險點,從數據中確定審計事實。驗證型分析的關鍵,是要能提出合理的風險點,這與審計人員的職業判斷和經驗積累息息相關。
挖掘型分析:審計人員以海量數據為基礎,進行深層次數據分析,從不同的角度對被審計單位的業務數據進行挖掘,并以直觀易懂的形式展示分析結果。
3 審計數據分析模型
根據審計數據分析類型,通過對數據的查詢、驗證和挖掘,建立更直觀的數據模型,結合審計目標尋找疑點,進而評估被審計單位控制風險、揭示制度問題等。建立數據分析模型,主要通過以下幾個步驟。
3.1 采集數據,掌握整體情況
采集被審計單位數據,對被審計單位的財務收支、物資出入庫、經營管理、內部控制等進行總體分析,把握全局,形成對被審計單位的財務、物資、內控的整體印象。
3.2 發現問題線索,確定審計重點
在整體掌握的基礎上,通過復核、對比、計算等數據分析手段,對采集的數據進行整合,建立數據分析模型,從而發現問題線索,確定審計重點。
3.3 核實問題線索,評估控制風險
對數據模型分析中發現的異常情況,通過現場審計獲取證據予以證或者排除,進而評估控制風險、揭示制度問題。
以上三個方面是緊密聯系的,只有在掌握整體情況的基礎上,才能建立數據分析模型確定審計重點,并對審計重點進行核實,進而實現風險評估。
4 實例分析
2016年8月,對X省電力公司所屬集體企業A、B公司總經理任期經濟責任履職情況進行了審計。此次審計按照標準審計流程,結合已有審計數據,對各系統間數據進行智能化分析。通過審計軟件及業務信息系統獲取更直觀的數據,建立了“三重一大”事項、物資采購及合同管理、薪酬福利管理、固定資產管理、財務管理、三公費用管理等審計數據分析模型。
4.1 采集數據,掌握整體情況
審計組根據經濟責任審計要求,采集營業收入、利潤總額、資產總額等數據,掌握被審計單位整體情況。將采集的數據導入Excel,運用其各種功能,得出如圖1、圖2所示結果。
4.2 發現問題線索,確定審計重點
在總體掌握的基礎上,對采集的數據進行整合,通過對數據進行指標分析、對比,建立數據分析模型,發現問題線索,確定審計重點。
分析結果如圖3、圖4所示。
從分析結果看出,A公司資產負債率不高,但負債總額較大,存在一定的風險;銷售凈利率較高,說明該公司收益水平較高;資產凈利率較好,資產的利用效率較高,該公司在增加收入和節約資金等方面取得了較好的效果。B公司資產負債率較低,該公司成本較低,風險小,償債能力強,經營較為穩健,投資行為比較謹慎;銷售凈利率較高,收益水平較高;資產凈利率較好,資產的利用效率較高。
4.3 核實問題線索,評估控制風險
在總體分析的基礎上,結合審計重點建立數據分析模型,發現問題線索,進而評估風險,揭示制度問題。分析結果如圖5、圖6所示。
從審計問題分布圖中可以直觀地發現,A公司在物資及合同管理方面的問題涉及的金額比重較大,其次是財務管理、三重一大、三公費用、薪酬福利方面的問題。因此,該公司在關注各方面問題的同時,應重點關注物資及合同管理方面的問題。
從圖6分析結果發現,B公司在財務管理方面的問題涉及的金額比重較大,其次是三重一大、物資及合同管理、薪酬福利、三公費用方面的問題。因此,該公司在關注各方面問題的同時,應重點關注財務管理方面的問題。
5 結 語
在大數據環境下,運用審計數據分析的前沿理念和技術,開展數據分析和挖掘,致力于構建審計數據分析模型,可以有效降低審計人員的工作量,提高審計的效率和質量。審計人員通過總體分析、關聯分析、趨勢分析、多維分析等,從整體上把握被審計單位的財務狀況、審計重點和疑點,為客觀、真實評價企業領導干部經濟責任履行情況提供了數據支撐。利用審計數據分析模型,可以使審計報告更有說服力,問題定性更加準確、審計效果更加明顯。
主要參考文獻
[1]馬瀅,喬羽.大數據環境下企業內部審計面臨的機遇和挑戰[J].新經濟,2016(27):73-74.
關鍵詞:移動信令數據;大數據中間件;研究
現階段,我國有很多企業都對移動信令數據進行研究分析,而且大多數企業都有自己的算法庫,但是因為沒有統一的規范與標準,移動信令數據的挖掘與分析存在著重復性,同時算法庫管理水平也不高,最為重要的是項目模塊幾乎沒有共享性,這使得很多資源沒有得到充分利用,大數據庫的管理工作也十分不方便。基于就這個現狀來說,企業的確應該制作大數據中間件。
1 移動信令數據分析的大數據中間件研究必要性
移動信令數據分析問題將是未來各界人士只要研究的問題,這主要是由于現代企業希望通過對移動信令數據的挖掘,來獲得更多更有價值的信息,從而推動企業發展。移動信令數據分析與研究的必要性體現如下:
首先,現代企業所使用的數據分析方法比較落后,已經不能滿足大批量數據分析的要求,尤其是在互聯網時代,企業所需要的數據幾乎都來自于移動互聯網,而互聯網上的信息非常多,現有數據分析方式已經不能達到要求,因此企業有必要建立更先進的數據分析框架,以能夠滿足移動大數據快速有效的分析要求;其次,移動信令數據分析既可以為用戶提供更具權威性的感知,也可以為用戶提供實時的設備監測數據。新型技術的應用可以提高企業精細化管理的水平,為企業提供決策正確率奠定基礎;再次,現階段移動運營商正在努力的挖掘移動大數據但是并沒有形成系統,而此時,各個廠家也都在發揮自己的效能進行研究與信令監測,這就導致研究資源的大量浪費,同時無論是投資、研究,還是開發都具有重復性,因此需要大數據中間件進行研究,以減少這種浪費;第四,現階段各個企業所進行都沒有統一的標準與規范,所以有很多開發項目都不夠規范,盡管有很多廠家都具有自己的算法庫以及場景庫,但是卻沒有統一的標準來規范,所以管理比較混亂,而大數據中間件建立之后,標準與規范相對都比較統一,這為各個廠家也提供參照標準;第五,大數據分析由很多模塊構成,但是很多處理模塊卻沒有達到統一,也沒有實現共享。無論哪一類項目,挖掘數據、分析數據等都需要算法,但是現階段卻沒有統一標準來實現算法,再加之,項目與項目之間沒有進行良好的溝通,所以項目中的模塊只能在本項目中應用,無法應用在其他項目中,即共享性非常弱。
基于上述幾點,企業有必要對移動信令數據進行深入的分析,制作出共享性強、標準統一的中間性軟件,這樣才能實現大數據處理,便于大數據科學合理的管理與應用。
2 基于移動信令數據分析的大數據中間件
2.1 大數據中間件架構
企業在進行移動信令數據分析時,為了確保網絡與營銷分析更加真實可靠,研究人員嘗試著在制作大數據中間件,將其放于應用層與共享層之間。有關人員在共享層中挖掘數據,而應用層通過中間件,共享數據。中間件既要模型庫,也有算法庫,同時還有大數據分析系統化做支撐,所應用的模式,既有語言,也有接口。這種中間件,功能強大,尤其是共享性突出。
中間件具體的處理流程如下:應用類型分析。針對具體應用場景,對共享層的輸入數據進行抽樣,對抽樣數據進行主成分分析,提取感興趣的字段,遍歷模型庫,若存在該應用類型的應用模型,將感興趣的字段與模型庫中對應的應用模型關鍵字進行匹配,根據匹配結果進行下一步相關處理;按已確定的關鍵字提取原始數據,對提取的數據進行清洗、審核,輸出審核通過的數據;對海量原始數據進行分布式存儲,根據目標用戶,進行數據抽取,得到用戶數據文件,然后對用戶數據文件進行文件合并;在算法庫中選擇不同的算法對樣本數據進行挖掘分析,計算其準確率,用遺傳算法對算法進行組合,得出近似最優解,并對組合分類算法進行預評估;對組合算法模型進行初始參數配置,對樣本數據進行相應的數據變換。
2.2 并行數據挖掘算法庫
數據挖掘算法庫是大數據中間件的核心組成部分之一,它包括各類數據挖掘算法的實現以及組合算法的實現。其中,算法的并行化是算法庫的核心。為實現對多種并行數據挖掘算法的管理,更好地利用算法本身并行性以及整個數據挖掘算法流程上的并行性,在上述計算框架下增加對數據挖掘算法與服務管理,對數據挖掘算法的工作流進行定義,增加對各種數據挖掘算法的擴展性支持,靈活配置各種數據挖掘算法,對算法整個計算流程進行管理,優化算法各個流程所需要的計算框架的分配方式,實現對批量計算的流水并行。
2.3 大數據中間件應用效果
2.3.1 有效降低移動大數據研究項目的重復投資、重復研究和重復建設,為應用層決策提供強大的數據支撐,為后續大數據分析的發展提供基礎平臺。移動大數據分析處理中間件預計每年為湖北移動分公司網管中心節省大數據研究項目經費30萬。
2.3.2 大幅減少人力投入。本項目構建的移動大數據處理中間件,具有高效準確的數據挖掘算法支持,數據處理智能高效,提供各種大數據分析挖掘服務,提高應用層業務分析人員的工作效率,從而有效節省人力資源。應用層業務研究分析人員通過使用移動大數據分析挖掘服務,能夠快速、準確地進行移動信令大數據的統計、挖掘等功能,能提高數據分析人員工作效率一倍以上。
2.3.3 大幅提高大數據營銷的效率。本項目提供先進的數據挖掘算法和算法組合方法,為移動信令大數據分析挖掘提供快速、準確、全面的算法支持,提高營銷分析速度和成功率。以終端營銷為例,能將營銷成功率提高百分之六十以上。
結束語
綜上所述,可知對移動信令數據分析的大數據中間件研究十分重要。如果大數據中間件研究成功,并且應用在實際工作中,企業的潛在價值將會被充分的挖掘出來,不僅能夠提高算法效率,同時能夠提高算法的準確率。通過實驗研究,企業應該自大數據中間件之后,不僅減少了重復投資與研究,同時也減少了人力投入,另外,大數據營銷水平也得到了非常大提高,因此,大數據中間件完全值得嘗試應用。
參考文獻
[1]左超,耿慶鵬,劉旭峰.基于大數據的電信業務發展策略研究[J].郵電設計技術,2013(10).
[2]俞國紅.智能化數據庫中間件的設計與實現[J].廊坊師范學院學報(自然科學版),2010(1).
[3]潘琛宇,唐曉梅,陳家訓.基于平臺中間件的自助式繳費系統[J].微型機與應用,2002(12).