真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 數據分析分析技術

數據分析分析技術

時間:2023-05-30 09:04:51

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據分析分析技術,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

數據分析分析技術

第1篇

數據分析技術給信息安全領域帶來了全新的解決方案,但是如同其它領域一樣,大數據的功效并非簡單地采集數據,而是需要資源的投入,系統的建設,科學的分析。Gartner在2013年的報告中指出,大數據技術作為未來信息架構發展的十大趨勢之首,具有數據量大、種類繁多、速度快、價值密度低等特點。將大數據技術應用與信息安全領域可實現容量大、成本低、效率高的安全分析能力。

1.1信息安全分析引入大數據的必要性

大數據具有“4V”的特點:Volume、Variety、Velocity和Value,可實現大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數據的處理和分析要求,將大數據應用于信息安全領域能夠有效的識別各種攻擊行為或安全事件,具有重大的研究意義和實用價值。隨著企業規模的增大和安全設備的增加,信息安全分析的數據量呈指數級增長。數據源豐富、數據種類多、數據分析維度廣;同時,數據生成的速度更快,對信息安全分析應答能力要求也相應增長。傳統信息安全分析主要基于流量和日志兩大類數據,并與資產、業務行為、外部情報等進行關聯分析?;诹髁康陌踩治鰬弥饕◥阂獯a檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應用主要包括安全審計、主機入侵檢測等。將大數據分析技術引入到信息安全分析中,就是將分散的安全數據整合起來,通過高效的采集、存儲、檢索和分析,利用多階段、多層面的關聯分析以及異常行為分類預測模型,有效的發現APT攻擊、數據泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動性。而且,大數據分析涉及的數據更加全面,主要包括應用場景自身產生的數據、通過某種活動或內容“創建”出來的數據、相關背景數據及上下文關聯數據等。如何高效合理的處理和分析這些數據是安全大數據技術應當研究的問題。

1.2安全大數據分析方法

安全大數據分析的核心思想是基于網絡異常行為分析,通過對海量數據處理及學習建模,從海量數據中找出異常行為和相關特征;針對不同安全場景設計針對性的關聯分析方法,發揮大數據存儲和分析的優勢,從豐富的數據源中進行深度挖掘,進而挖掘出安全問題。安全大數據分析主要包括安全數據采集、存儲、檢索和安全數據的智能分析。(1)安全數據采集、存儲和檢索:基于大數據采集、存儲、檢索等技術,可以從根本上提升安全數據分析的效率。采集多種類型的數據,如業務數據、流量數據、安全設備日志數據及輿情數據等。針對不同的數據采用特定的采集方式,提升采集效率。針對日志信息可采用Chukwa、Flume、Scribe等工具;針對流量數據可采用流量景象方法,并使用Storm和Spark技術對數據進行存儲和分析;針對格式固定的業務數據,可使用HBase、GBase等列式存儲機制,通過MapReduce和Hive等分析方法,可以實時的對數據進行檢索,大大提升數據處理效率。(2)安全數據的智能分析:并行存儲和NoSQL數據庫提升了數據分析和查詢的效率,從海量數據中精確地挖掘安全問題還需要智能化的分析工具,主要包括ETL(如預處理)、統計建模工具(如回歸分析、時間序列預測、多元統計分析理論)、機器學習工具(如貝葉斯網絡、邏輯回歸、決策樹、隨機森利)、社交網絡工具(如關聯分析、隱馬爾可夫模型、條件隨機場)等。常用的大數據分析思路有先驗分析方法、分類預測分析方法、概率圖模型、關聯分析方法等。可使用Mahout和MLlib等分析工具對數據進行挖掘分析。綜上,一個完備的安全大數據分析平臺應自下而上分為數據采集層、大數據存儲層、數據挖掘分析層、可視化展示層。主要通過數據流、日志、業務數據、情報信息等多源異構數據進行分布式融合分析,針對不同場景搭建分析模型,最終實現信息安全的可管可控,展現整體安全態勢。

2安全大數據分析的典型應用

2.1基于用戶行為的不良信息治理

中國移動開展了基于大數據的不良信息治理工作,主要針對垃圾短信和騷擾詐騙電話開展基于異常行為的大數據分析。通過開源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數據分析平臺,采集用戶的行為數據,構建用戶行為分析模型;分別提出了異常行為分類預測模型、統計預測分析模型、社交網絡分析模型等,將用戶的行為數據輸入到模型中,可以精準地挖掘出違規電話號碼,并且發現違規號碼與正常號碼之間存在大量相異的行為特征。通過用戶的行為,構建多維度的用戶畫像數據庫,支撐全方位的大數據不良信息治理服務,支撐大數據不良內容的智能識別等。實踐表明,大數據分析技術能夠挖掘出更多潛在的違規號碼,是對現有系統的有效補充。除此之外,中國移動還將大數據技術應用在安全態勢感知、手機惡意軟件檢測和釣魚網站的分析中,提升了現有系統的分析能力。

2.2基于網絡流量的大數據分析

在互聯網出口進行旁路流量監控,使用Hadoop存儲及Storm、Spark流分析技術,通過大數據分析技術梳理業務數據,深度分析所面臨的安全風險。主要分析思路是采集Netflow原始數據、路由器配置數據、僵木蠕檢測事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點分析及協議還原等方法,進行Web漏洞挖掘、CC攻擊檢測、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。

2.3基于安全日志的大數據分析

基于安全日志的大數據分析思路主要是融合多種安全日志,進行數據融合關聯分析,構建異常行為模型,來挖掘違規安全事件。主要的安全日志包含Web日志、IDS設備日志、Web攻擊日志、IDC日志、主機服務器日志、數據庫日志、網管日志、DNS日志及防火墻日志等,通過規則關聯分析、攻擊行為挖掘、情景關聯分析、歷史溯源等方法,來分析Web攻擊行為、Sql注入、敏感信息泄露、數據分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應用場景。基于安全日志的大數據分析已經在國際上有廣泛的應用。如IBMQRadar應用整合分散在網絡各處的數千個設備端點和應用中的日志源事件數據,并將原始安全數據進行標準化,以區別威脅和錯誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機、垃圾郵件和其它威脅等;IBMQradar還可以將系統漏洞與事件和網絡數據相關聯,劃分安全性事件的優先級等。ZettaSet海量事件數據倉庫來分析網絡中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數據倉庫)。Orchestrator是端到端的Hadoop管理產品,支持多個Hadoop分布;SDW是構建在Hadoop的基礎上,并且基于Hive分布式存儲。SDW于2011年BlackHat網絡安全會議面世,SDW可從網絡防火墻、安全設備、網站流量、業務流程以及其它事務中挖掘安全信息,確定并阻止安全性威脅。處理的數據質量和分析的事件數量比傳統SIEM多;對于一個月的數據負載,傳統SIEM搜索需要20~60min,Hive運行查詢只需1min左右。

2.4基于DNS的安全大數據分析

基于DNS的安全大數據分析通過對DNS系統的實時流量、日志進行大數據分析,對DNS流量的靜態及動態特征進行建模,提取DNS報文特征:DNS分組長、DNS響應時間、發送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報文特征,構建異常行為模型,來檢測針對DNS系統的各類流量攻擊(如DNS劫持、DNS拒絕服務攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚網站域名等。

2.5APT攻擊大數據分析

高級可持續性威脅(APT)攻擊通過周密的策劃與實施,針對特定對象進行長期的、有計劃的攻擊,具有高度隱蔽性、潛伏期長、攻擊路徑和渠道不確定等特征?,F已成為信息安全保障領域的巨大威脅?!罢鹁W”潛伏3年,造成伊朗納坦茲核電站上千臺鈾濃縮離心機故障。收集業務系統流量、Web訪問日志、數據日志、資產庫及Web滲透知識庫等,提取系統指紋、攻擊種類、攻擊時間、黑客關注度、攻擊手段類型、行為歷史等事件特征,再基于大數據機器學習方法,發現Web滲透行為、追溯攻擊源、分析系統脆弱性,加強事中環節的威脅感知能力,同時支撐調查取證。

3總結

第2篇

關鍵詞:聯機數據分析;處理數據;分析和轉換數據

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)03-0006-03

為了提升大學物理公共課程的教學水平,更好地了解學生的學習情況,需要引用聯機數據技術,通過科學建立模型對教學數據進行處理和分析。維度模型的建立是為了能夠全方位地剖析數據。

1 建立數據模型

建立模型是為了更加直觀地表達數據和事實。對于同一批數據,人們總是會以不同的角度對其進行觀察,這就是維度。維度模型從不同的角度分析數據,最終得出一張事實表。

如圖1所示,維度模型包括了教材維度表,學期維度表,教師維度表,學生維度表和教學事實表。為了更好地分析教學效果,維度模型從四個不同的角度進行分析,每一張維度表上都注明了詳細的數據內容。最后,在總結四張維度表的基礎上,概括了最終的教學事實表。

2 OLAP技術

2.1 數據的采集

原有的Visual和SQL數據庫上儲存了學生的信息,教師的信息以及教學的數據等等。如圖二所示,教務數據庫中包含了課程信息表,學生信息表以及選課成績表。DTS工具能夠從不同的數據庫中自動抽取需要進行分析的數據,并且將其全部集中在一個新的數據庫中。新的SQL數據庫既可以儲存信息,還能夠對信息進行管理。聯機分析處理技術從不同的角度分析數據,有助于全面了解學生的學習情況和教師的教學質量。

2.2 數據分析的結構

從圖2中可以看出,數據分析的結構包括了四層,其中最底層的是各種信息數據庫和文本文件,在此基礎上建立數據ETL,然后建立相應的維度模型,最后利用聯機分析技術對數據進行分析。采集數據和轉換數據是使用聯機分析技術的基礎,也是必不可少的一步。多維度分析是該結構中的最后一步,最終的結果將會把數據轉換成圖表的形式呈現出來。

2.3 轉換數據

由于不同數據的語法可能存在差異,因此,把不同的數據轉換成相同的結構顯得尤為必要。在聯機分析技術應用的過程中,轉換數據是關鍵的一步,能否成功轉換數據,決定了維度模型的建立是否具有科學性與全面性。轉換數據是為了解決語法,語義結構不同引起的問題。

和數據語義不同相比,處理不同語法的數據顯得更為簡單。如果數據本身和目標數據之間存在語法結構不同的問題,那么只需要通過函數對其進行轉換即可。一般來說,數據本身的內容并不會影響轉換過程,只要建立原數據和目標數據之間的對應關系,就能解決數據名稱存在沖突的問題。例如,學生數據庫本身的信息包括了學生的ID和班級,這就相當于最終目標數據中學生對應的名稱和班別。如果數據類型不同,可以運用相應的函數對其進行轉換,例如trim()函數就能完成數據的轉換。下面是利用函數對原數據中學生的ID,專業以及院名進行轉換的過程,其轉換代碼如下:

Function Main()

DTSDestination(“ID”)=trim(DTSSourse(“名稱”))

DTSDestination(“專業”)=cstr(DTSSourse(“專業”))

DTSDestination(“院名”)=trim(DTSSourse(“學院”))

Main=DTSTransformStat_OK

End Function

轉換不同語義結構的數據是一個復雜的過程,它需要重視數據本身的信息和內容。因此,僅僅通過一步完成數據轉換的過程是幾乎不可能的,它需要將原數據進行一次次轉換,才能得到最終的目標數據。例如每一個教師都有以及開展項目,在原數據中只能看到項目的名稱和論文的名稱,如果需要將其轉換成教師的論文數量和項目數量,則需要經過兩步的數據轉換。

2.4 數據結果分析

原數據從SQL中提取出來,然后通過函數對其進行轉換,最后利用聯機分析技術進行數據管理和分析,從不同的角度研究數據,從而全面分析學生的學習情況和教師的教學情況。數據分析的方法有很多種,其目的都是為了全方位地剖析數據。

2.4.1 高校教師教學質量的對比分析

在教師維度表中,我們已經按照教師的從業年齡,學歷以及職稱對其進行劃分,不同職稱的教師,其教學質量有著明顯的區別。教師的學歷不同,教齡有所差異,這都和教學效果息息相關。

2.4.2 不同時期對教學質量的影響分析

聯機分析處理技術能夠從多角度分析數據,教學質量不可能是一成不變的,它與多個因素密不可分,時間也是其中一個因素。在不同的時期,由于政策的變動和外界因素的影響,教師的教學質量也會隨之而受到不同程度的影響。

2.4.3 教學質量和其他因素息息相關

除了時間和教師的水平會對教學質量造成一定的影響,還有其他因素同樣會影響教學效果,例如:學生的學習能力,學校選用的課本等。綜合考慮各個因素對教學效果的影響,有利于教育部門更好地作出相應的政策調整。

3 計算機分析處理技術中的數據處理方法分析

無可置疑,計算機技術的出現顛覆了人們傳統的思想和工作模式。如今,計算機技術已經全面滲透到我們生活中和工作中的各個方面。不管是在工業生產還是科研數據處理中,計算機技術都發揮著不可替代的作用。如今我們需要處理的數據正與日俱增,這就意味著傳統的數據處理方法已經無法滿足人們的需求了。儀表生產和系統控制要求數據具有高度精確性,這些數字在顯示之前,都必須經過一系列的轉換,計算以及處理。首先,數據會以一種形式經過轉換器,然后變成另一種新的形式,只有這樣計算機才能對數據進行處理和分析。處理數據是一個復雜多變的過程,它的方法并不是單一的,根據數據處理的目標不同,需要選擇不同的數據處理方法。例如,有的數據需要進行標度轉換,但有些數據只需要進行簡單計算即可,計算機技術的不斷進步是為了更好地應對人們對數據處理新的需要。

計算機數據處理技術的應用離不開系統,它比傳統的系統更加具有優越性:

1)自動更正功能,計算機系統在處理數據時,對于計算結果出現的誤差能夠及時修正,確保結果的準確度。

2)傳統模擬系統只能進行數據的簡單計算,而計算機系統則能夠處理復雜多變的數據,其適用范圍和領域更加廣。

3)計算機系統不需要過多的硬件,只需要編寫相應的程序就能夠完成數據的處理,在節省空間的同時也降低了數據處理的成本。

4)計算機系統特有的監控系統,能夠隨時監測系統的安全性,從而確保數據的準確度。

對于不同的數據,往往需要采用不同的處理方式,處理數據的簡單方法包括查表,計算等。除此之外,標度轉換,數字濾波同樣是應用十分廣的處理技術。

3.1 數據計算

在各種數據處理方法中,計算法是最為簡單的一種,利用現有的數據設置程序,然后直接通過計算得出最終的目標數據。一般來說,利用這種方法處理數據需要遵循一個過程:首先,求表達式,這是計算法最基本的一步;其次,設計電路,在此之前必須將轉換器的位數確定下來;最后,利用第一步已經求出的表達式運算數據。

3.2 數據查表

3.2.1 按順序查表格

當需要搜索表格中的數據時,往往需要按照一定的順序和步驟。首先,明確表格的地址和長度,然后再設置關鍵詞,最后按照順序進行搜索。

3.2.2 通過計算查表格

這是一種較為簡單的方法,適用范圍并不廣。只有當數據之間表現出明顯的規律或者數據之間存在某種關系時,才能夠使用這種方法查表格。

3.2.3 利用程序查表格

相比于上述的兩種方法,利用程序查表格是一種相對復雜的方法,但是這種方法的優點在于查找效率高,并且準確度高。

3.3 數據濾波處理

采集數據并不難,但是確保每一個數據的真實性卻十分困難,尤其是在工業系統中,數據的測量難以確保絕對準確,因為在測量的過程中,外界環境對數據的影響往往是難以預估的。為了提高數據處理的精確度和準確率,需要借助檢測系統對采集的數據進行深加工。盡可能地讓處理的數據接近真實的數據,并且在數據采集的過程中最大限度地減少外界因素對其的影響,從而提高計算結果的準確度。

濾波處理技術的應用首先要確定數據的偏差,一般來說,每兩個測量數據之間都會存在一定的誤差,首先需要計算數據與數據之間可能出現的最大誤差。一旦超出這一數值,可以認定數據無效,只有符合偏差范圍內的數據,才能進行下一步的處理。

為了減少由于外界影響導致數據失真的情況,利用程序過濾數據是很有必要的。濾波技術有幾種,根據不同的需要可以選擇相應的數據處理技術,每一種數據濾波技術都有其適用范圍和優點。數據濾波技術包括算術平均值濾波,加權平均值濾波,中值濾波,限幅濾波,限速濾波以及其他類型的濾波技術。

3.4 轉換量程和標度

在測量數據的過程中,每一種參數都有相應的單位,為了方便數據處理,需要使用轉換器把數據轉換為統一的信號。標度轉換是必不可少的,為了加強系統的管理和監測,需要不同單位的數字量。轉換方法包括非線性參數標度變換,參數標度變換,量程轉換,這幾種轉換方法在數據處理的過程中較為常見。當計算過程遇到困難,可以結合其他的標度轉換方法進行數據處理。

3.5 非線性補償計算法

3.5.1 線性插值計算方法

信號的輸入和輸出往往會存在一定的關系。曲線的斜率和誤差之間存在正相關關系,斜率越大,誤差越大。由此可見,這一計算方法僅僅適用于處理變化不大的數據。當曲線繪制選用的數據越多,曲線的準確程度越高,偏差越小。

3.5.2 拋物線計算方法

拋物線計算方法是一種常用的數據處理方法,只需要采集三組數據,就可以連成一條拋物線。相比于直線,拋物線更加接近真實的曲線,從而提高數據的準確度。拋物線計算法的過程,只需要求出最后兩步計算中的M值,就能夠直接輸入數據得出結果。

3.6 數據長度的處理

當輸入數據和輸出數據的長度不一,需要對其進行轉換,使數據長度達到一致。由于采集數據所使用的轉換器和轉換數據所選擇的轉換器不同,因此,當輸入位數大于輸出位數,可以通過移位的方法使位數變成相同。相反,當輸入位數少于輸出位數時,可以使用填充的方法將其轉換成相同的位數。

4 結語

本文對聯機分析技術進行了詳細的論述,該技術的應用對于評價教學效果有著重要的意義。在物理公共課程中,教學數據數量巨大,如果利用傳統的方法對其進行分析,將會耗費大量的人力物力,而采用OLAP技術則能更加快速準確地分析處理數據。數據分析是評估教學質量必經的過程,而使用QLAP技術是為了能夠多層次,全方位地分析各個因素對教學質量的影響,從而更好地改進高校教育中存在的不足。除了分析物理課程數據,聯機分析技術同樣適用于其他課程的數據處理和分析。

參考文獻:

[1] Ralph kimball,Margy Ross.The Data Warehouse Toolkit:the Complete Guide to Dimensional Modeling[M]..北京:電子工業出版社,2003.

第3篇

關鍵詞:數據挖掘;金融數據分析;Analysis Services

中圖分類號:TP274文獻標識碼:A 文章編號:1009-3044(2009)36-10604-02

The Implement of Financial Data Analysis Module Base on SSAS Technology

HE Ying-gang, CHEN Jian-xiong

(Chengyi College, Jimei University, Xiamen 361021, China)

Abstract: Introduces a sample of design method to develop financial data analysis module by using the Data Mining technology. This sample use Microsoft SQL Server Analysis Services technology for analysis and forecasting. In practice, the operation of this module can improve the work efficiency offinancial analysts.

Key words: data mining; financial data analysis; analysis services

目前許多金融交易系統都為用戶提供了技術指標的編寫工具。在編寫指標計算公式時,往往有各種參數需要用戶進行選擇和設置,合理的參數組合所得出的結果可以使得用戶作出正確判斷,但是這類金融系統中并未提供最佳參數搜索功能,這使得用戶需要耗費許多時間對分析驗證參數。隨著數據挖掘技術的成熟和發展,為這類問題的解決提供了解決方法和途徑。

由于許多金融公司都有使用Microsoft SQL Server系列數據庫系統作為內部系統的數據庫平臺,而微軟公司提供的Microsoft SQL Server 2005 Analysis Services (SSAS) 通過服務器和客戶端技術的組合為客戶提供聯機分析處理 (OLAP) 和數據挖掘功能。這使得我們可以在不改變現有數據庫系統的前提下,在原有的公司業務系統的基礎上開發數據挖掘分析模塊。基于SSAS本文提出了一種實現金融數據分析模塊的解決方案。

1 金融數據分析模塊的數據挖掘功能的設計

1.1 功能設計

金融數據分析模塊主要應用于對指標參數的搜索,尋找最合適的指標參數值。所以系統應具有的功能有:1)根據用戶的需要,提供指標公式設計和參數設置;2)提供靈活直觀的圖形顯示;3)用戶能夠指定數據挖掘算法的參數值,并查看數據挖掘生成的規則。

1.2 結構設計

數據分析模塊的設計采用了三層體系結構,分別為:1)數據訪問層,實現對金融日志數據的采集、清理和轉換;2)數據挖掘業務層;3)分析結果表示層,表示層把各種參數組合所對應的數據挖掘分析結果以圖形化或表格化的方式展現出來,方便用戶能夠對比各種參數組合的優劣。為了避免對數據庫系統性能造成影響,模塊使用獨立的數據倉庫系統。開發框架如圖1所示。

2 金融數據分析模塊的數據挖掘功能模塊的實現和關鍵技術

指標公式參數的求解是一類系統優化問題。遺傳算法是一種求最優解或近似最優解的全局優化搜索算法。使用遺傳算法比傳統的枚舉算法和啟發式算法具有諸多優點,例如:搜索使用評價函數啟發,過程簡單;搜索從群體出發,具有并行性;與問題領域無關的快速隨機搜索能力等等。由于SSAS所提供的數據挖掘算法中沒有包含遺傳算法,所以為了實現最優參數搜索,必須在數據挖掘模塊中加入遺傳算法。本文將指標計算公式的參數作為染色體基因,一種參數組合作為一個個體。然后根據個體基因數據生成指標值,并對指標值進行數據挖掘和預測,對預測結果的準確性進行評分,預測效果最好的參數組合將作為最佳選擇提供給用戶。遺傳算法實現可以參考有關文獻。本文所設計的主要處理流程如圖2所示。

在圖2流程中使用SSAS對每一種參數組合計算生成的指標數據進行數據挖掘分析和預測。SSAS是基于數據挖掘模型進行處理的,數據挖掘模型是一個數據結構,包含了數據關系、多維數據的分組和預測分析、數據挖掘算法等。用SSAS進行數據挖掘過程分為三個步驟:創建挖掘模型、訓練挖掘模型和利用挖掘模型生成的規則進行預測。

2.1 創建數據挖掘模型

開發人員可以利用Visual Studio 2005內置Analysis Services項目模板快速創建數據挖掘模型,也可以利用DMX數據挖掘查詢語言創建和處理數據挖掘模型。下面是一個利用關聯規則算法建立的外匯利潤預測分析的挖掘模型的例子。選擇交易時間做為主鍵,該字段用來唯一表示某時間段內外匯交易價格。

CREATE MINING MODEL DM (

Ftime Date KEY,

KvalueDoublediscrete,

DvalueDoublediscrete,

…….

ProfitLeveldiscrete PREDICT)

USING Microsoft_Association_Rules (Minimum_Probability = 0.3, MINIMUM_SUPPORT = 0.05)

2.2 訓練挖掘模型

SSAS將挖掘模型保存在數據庫服務器端,然后訓練挖掘模型生成數據挖掘規則。AMO(Analysis Management Object)是微軟提供給開發人員使用的管理SSAS的主要接口,開發人員可以使用AMO創建、管理和處理挖掘模型,立方體,分區等Analysis Services對象。以下是在戶端程序中使用AMO與Analysis Services進行數據交互,訓練挖掘模型的簡單例子。

Svr=new Server();

Svr.Connect(@”Provider=SQLNCLI.1;Data Source=SSASDM\Store;……”);

Db=svr.Databases.GetByName(“DM”); //獲取數據挖掘模型對象

Db.Process(ProcessType.ProcessFull); //調用訓練和處理挖掘模型

Svr.Disconnect();

2.3 預測

挖掘模型訓練完后,SSAS生成挖掘規則并可以用來進行預測。本文算法流程中將指標數據預留一部分用于預測,然后使用SSAS提供的SQL擴展語言,實現預測任務。以下是一個客端程序的預測連接例子:

AdomdConnectionConn=new AdomdConnection(……);

AdomdClient.AdomdConnand Comm=Conn.CreateCommand();

AdomdDataReader reader;

mandText=String.Format(@”Select Predict( [profit Level] ) , PredictProbability( [Profit Level] ) From IndexData NATURAL PREDICTON JOIN (Select {0} as [Kvalue],{1} as [Dvalue],… as t”,R1,R2,…);

//構建數據挖掘預測語句

Reader=Comm.ExecuteReader();

上述第四行程序語句涉及數據挖掘模型和數據測試表,使用一個實例集進行預測,返回預測結果數據表格。

3 總結

該文分析了一種金融數據分析模塊的設計方法和實現,該模塊可以被重復開發和利用。若用戶自定義新的指標計算公式,只需要修改數據挖掘模型和預測連接語句即可運行。在實際應用中,該系統模塊的原型證明能夠幫助金融分析員提高工作效率。

參考文獻:

[1] Zhao Huitang.Data Mining with SQL server 2005[M].Wiley Publishing,Inc.2007.

[2] 張濤.基于MS Analysis Services多維分析系統的實現[J].哈爾濱理工大學學報,2003(6):16-18.

第4篇

    論文摘要:電子商務(EC)在現代商務企業的發展中占有越來越重要的地位。如何利用信息技術掌握更多的商務信息已備受商家們的關注,站點分析技術正是為商家和網站提供了這樣一種有效的分析工具。

    本文討論了一些站點分析的相關技術信息和幾種網站分析瀏覽者行為的理論與算法,及數據倉庫的相關理論知識。并對站點日志數據進行了實例分析,并指出了站點分析技術發展的方向。

    一、緒論

    互聯網技術不斷革新與發展,給全球經濟帶來新的革命,從而也影響著人們的生活?;ヂ摼W為企業提供了一種真正屬于自己并面對廣大網民的信息載體,企業通過這一載體,可以自由地將企業的產品、服務等其他相關信息在線。

    電子商務就是網上實行各種商務活動的總包裝,種種所謂電子商務解決方案,實際上就是實現各種網上商務活動的硬件與軟件系統。它將影響到每一個人、每一個企業。電子商務的主體是我們每一個人、每一個企業,電子商務發展的過程就是對人們的生活、企業的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數字,它還是一種信息,如果網站能夠從網絡中獲得網民的信息并從中分析其行為誘因,那么就容易掌握網民的需求,從而利用互聯網去創造更多商機。

    電子商務站點用戶行為的分析這一問題也因此成為現如今的熱門話題,被人們普遍關心起來,尤其是被眾商家所重視。Web站點的日志數據正以每天數十兆的速度增長。如何分析這些數據,如何從這些大量數據中發現有用的、重要的知識(包括模式、規則、可視化結構等)也成為現在人們最關注的信息。

    在此情況下,站點用戶行為分析就可為網站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業廣告點擊情況總括、產品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據不同的頁面內容來分類瀏覽者,以便做出更合理的頁面分類,促使網站逐步向個性化、最優化狀態發展。這一技術對互聯網的發展壯大有著不可忽視的巨大作用,它的發展對信息技術亦將產生深遠的影響。

    在電子商務早期階段時,Web站點數據流分析通常是在主頁上安裝計數器以及在一個外部日志文件上運行簡單的統計程序記錄點擊率。但是,簡單的點擊計數既不準確也遠未達到營銷目的所需的詳細程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司Web站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務器的訪問日志。每當用戶在站點上請求一個網頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數據流分析工具的這些最新進展可以使網站獲得有關上網客戶和他們習慣的詳細報告。

    二、站點信息統計方法

    Web頁面數據主要是半結構化數據,計算機網絡技術和信息技術的飛速發展,使得半結構化數據呈現日益繁榮的趨勢。半結構化數據,是一種介于模式固定的結構化數據,和完全沒有模式的無序數據之間,在查詢前無法預先確定其具體的類型和格式;同時它們相應的數據結構是不固定、不完全或不規則的,即這些數據有的本身就沒有結構,有的只有十分松散的結構,有的數據的結構是隱含的,需要從數據中進行抽取。而有時,盡管數據本身是有精確結構的,但為了一定的目的,而故意忽視它的結構。半結構化數據具有以下五方面的

    主要特點:

    1.結構是不規則的。包含異構數據、相同的數據信息用不同類型或不同的結構表示。

    2.結構是隱含的。如電子文檔SGML格式。

    3.結構是部分的,有時部分數據根本無結構,而部分數據只有粗略的結構。

    4.指示性結構與約束性結構。傳統的數據庫使用嚴格的分類策略來保護數據。而指示性數據結構是對結構的一種非精確的描述。它可接受所有新數據,代價是要頻繁修改結構。

    5.半結構化數據通常在數據存在之后才能通過當前數據歸納出其結構,稱之為事后模式引導。模式有時可被忽略,同時數據與數據模式間的區別逐漸消除。

    三、數據分析的方法

    Web頁面的數據通常是利用統計模型和數學模型來分析的。使用的模型有線性分析和非線性分析;連續回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統計分析工具能提供可視化功能和分析功能來尋找數據間關系、構造模型來分析、解釋數據。并通過交互式過程和迭代過程用來求精模型,最終開發出最具適應性的模型來將數據轉化為有價值的信息。

    知識發現是從數據倉庫的大量數據中篩取信息,尋找經常出現的模式,檢查趨勢并發掘實施。它是分析Web頁面數據的重要方法。知識發現與模式識別的算法有以下幾種:

    1.依賴性分析

    依賴性分析算法搜索數據倉庫的條目和對象,從中尋找重復出現概率很高的模式。它展示了數據間未知的依賴關系。利用依賴性分析算法可以從某一數據對象的信息來推斷另一數據對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經過依賴性分析,商店認為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。

    2.聚類和分類

    在某些情況下,無法界定要分析的數據類,用聚類算法發現一些不知道的數據類或懷疑的數據類。聚類的過程是以某一特定時間為依據,找出一個共享一些公共類別的群體,它稱為無監督學習。分類過程,這是發現一些規定某些商品或時間是否屬于某一特定數據子集的規則。這些數據類很少在關系數據庫中進行定義,因而規范的數據模型中沒有它們的位置。最典型的例子是信用卡核準過程,可確定能否按商品價格和其它標準把某一購買者歸入可接受的那一類中。分類又稱為有監督學習。

    3.神經網絡

    神經網絡通過學習待分析數據中的模式來構造模型。它對隱式類型進行分類。圖像分析是神經網絡最成功的應用之一。神經網絡用于模型化非線性的、復雜的或噪聲高的數據。一般神經模型由三個層次組成:數據倉庫數據輸入、中間層(各種神經元)和輸出。它通常用恰當的數據庫示例來訓練和學習、校正預測的模型,提高預測結果的準確性。

    4.數據挖掘中的關聯規則

第5篇

[關鍵詞]電力用戶 用電信息 采集系統 數據分析 處理技術

中圖分類號:P816 文獻標識碼:A 文章編號:1009-914X(2015)13-0016-01

一、前言

電力用戶用電信息采集系統是國家電網公司實現智能化用電的主要方法,通過采集電力用戶的用電信息,能夠減少電力公司的運營成本,并且還可以減少設備維護,延長設備的使用壽命。

二、 用電信息采集系統現狀與分析

用電信息采集系統一般由主站、遠程傳輸通信通道和本地數據采集通道三部分構成。用電信息采集的實現主要依賴于通信通道的選擇,在通信方式上一般采用兩級通信方式,一是遠程傳輸通道,是指集中器到主站(供電公司)之間的通信方式;二是本地數據采集通道,即集中器到采集器或電能表之間的通信方式。

1、遠程傳輸通道現狀與分析遠程通信是指采集終端和系統主站之間的數據通信。通過遠程通信,系統主站與用戶側的采集終端設備間建立聯系,下達指令和參數信息,收集用戶用電信息。遠程通信信道可采用光纖專網、GPRS/CDMA無線公網、230MHz無線專網和中壓電力線載波等。綜合考慮系統建設規模、技術前瞻性、實時性、安全性、可靠性等因素,確定具體通信方式。

2、遠程傳輸通道可以采用以下幾種方式:

(一) 借助移動運營商的無線傳輸方式,如中國移動或中國聯通的GSM/GPRS和中國電信的CDMA-1X優點:覆蓋面廣,接入容易,在一定程度上解決了少量數據采集的需求,按流量計費;缺點:能提供的帶寬很低(一般只有幾十千比特),且存在不穩定性,滿足不了實時采集的要求。在地下配電室、移動電話用戶集中區、樓宇密集區對通信質量影響很大。處理網絡問題依賴第三方的協調。

(二) 借助于固網運營商的寬帶城域網,如ADSL或LAN優點:傳輸速率高,適用于有網絡端口環境下的表計集抄;缺點∶目前運行費比GPRS/CDMA方式貴。處理網絡問題依賴第三方的協調。此外還有通過電話線調制的方式上傳數據,這種方式曾經用于調度自動化的遠動數據傳輸,但由于接續時間長,容易掉線,與電話用戶擠占通道資源、帶寬較低、運行不穩定等因素很快就被淘汰。這種方式多用于試點,已陸續轉為其他通信方式。

以上幾種遠程數據通信方式,普遍存在以下問題:通道不能專用用電信息涉及商業機密,公用網絡承載業務復雜,用電數據以內網轉外網再進入內網的方式進行數據轉發,存在著數據泄漏和易被攻擊的隱患,難以達到國家電網公司對于生產經營信息安全分區與隔離的要求。易受到天氣、地理、人群密度等多方面因素的影響多點間難以實現同步的實時采集與分析,關口電量、大客戶與居民用電信息存在比較大的時延差,使線損分析、營業數據動態分析偏差較大。運營成本較高以上海市為例,640萬居民用戶按照每100戶一個集中點計算,70萬大用戶按照每個用戶一個集中點計算,共有76.4萬個集中點。按照10元/月進行計算,每年僅運行費用就達9200多萬元。基于這一原因,許多供電公司只能采用加大采集間隔,或有選擇地抄收部分而不是全部表計參數,犧牲應用性能來維持系統的正常運行。

3、無線寬帶通信目前主要的無線寬帶接入方案有WiMax和McWill。WiMax支持ATM和IP兩種數據接口,主要應用于高速傳輸的數據業務,同時也支持語音、視頻等多媒體業務的傳輸。McWill是完全基于IP分組交換的寬帶無線系統,采用宏蜂窩網絡結構。McWill是大唐基于SCDMA衍生出來的寬帶無線技術,由大唐旗下的信威公司擁有知識產權。

三、分析電力用戶用電信息采集系統不良數據的必要性

用電信息的采集系統建設工作是一項復雜而系統的工程,其涉及到通信體系的建設、信息采集終端的架構、采集系統主站的建設等幾個方面。整個采集系統建設工作涉及到復雜的用戶類型,而且用戶數量眾多,同時還需要解決信道不穩定、算法不統一以及公共網絡信道故障等問題。在這個過程中,將使得不良數據出現,例如線路的功率異常、電量異常、電壓數據異常等現象。采集系統獲得的數據中不良數據比例雖然很低,但是其存在直接影響到信息的準確性以及客觀性,可能造成計費錯誤以及用電習慣分析不準確等問題,從而造成不良的社會影響。因此,如何處理好其中的數據畸變問題是當前用電信息采集系統優化及完善的一個重要內容。

四、導致不良數據的主要原因及主要類型

1、導致不良數據出現的主要原因

(一)數據采集、存儲過程中的不良數據

電力數據的采集終端主要用于配網的使用,但是配網運行過程中存在諸多的問題,而且用電電壓的穩定性不足,造成信息通道噪聲較大。所以,在設備的應用過程中就會在數據的采集、傳輸環節中出現數據遺漏、數據誤差等現象。同時,所應用的數據處理芯片中可能存在BUG,從而導致電力數據超出邊界,或者電力數據讀數偏大等現象。

(二)電力系統故障導致的數據錯誤

當線路中由于部分故障而導致電流出現不正常時,例如出現了接地問題、連電問題等時,將會導致供電網絡的功率數據、用電數據出現故障。

五、電力用戶用電信息采集系統不良數據處理方法

不良數據點(包括漏點數據、畸變數據等)若沒有進行處理,直接參與統計分析,對系統數據將造成較大的影響,使整體負荷曲線、負荷特性等數據失真。可使用短期負荷預測的方法進行修正。

采用短期負荷預測方法對不良數據進行修正的原理是:辨識出歷史日中的正常數據點和可疑數據點;以正常數據點為已知條件,采用短期負荷預測方法完成對可疑數據點的預測,用預測結果修正這些可疑數據點、。其修正步驟如下(適合功率、電壓、電流、電量等)。

1、辨識可疑數據點

不良數據點往往具有數值突變的特征。通過這個特征可以辨識出歷史負荷數據中的可疑不良數據點。對于采集系統來說,其負荷數據中存在的正常的隨機變化量幅度不同,通過提高或降低判斷標準,即可收緊或放寬對可疑數據點的認定。任何一種可疑數據判斷機制都可能造成一定的誤差(誤判或漏判),但是,在采用短期負荷預測進行不良數據修正時,由于依據的是有規律的預測結果完成修正,所以所認定的可疑數據點多幾個點或少幾個點并不會對修正結果造成太大的影響。該算法可滿足實際數據估算的要求。

2、修正可疑數據點

修正歷史數據中的可疑數據是用電信息采集系統的要點和難點之一。準確修正可疑數據點的數據要比辨識它難得多。因此,傳統的負荷預測系統無法很好地處理不良數據修正問題,只能依靠預測人員的人工經驗來解決。采用短期負荷預測方案進行不良數據修正則可代替人工修正方式,減少預測人員的工作量,同時減少由于人工修正帶來的人的主觀因素影響。

根據已運行的采集系統數據分析,實際電力系統中每日不良數據點數一般不超過5%,以每天采集96點為例,不超過5點,即:91。則上述修正方案相當于,在以已知的91點數據為優化目標的情況下,對該日96點數據進行短期負荷預測,統計表明,這樣條件下的預測準確度高達97.59%以上。滿足系統實用化要求。

六、結束語

通過以上詳細的分析以及探討,我們能夠看出電力用戶用電信息采集系統數據分析與處理技術在電力公司中的作用。所以,我們必須加大資金投入力度,進行廣泛推廣以及應用。

參考文獻

[1]莫維仁,孫宏斌,張伯明.面向電力市場的短期負荷預測系統設計及實現[J].電力系統自動化.2001(23):41―44.

[2]劉振亞.中國電力與能源[M].北京:中國電力出版社.2012(31):31-32.

第6篇

關鍵詞:信息;稅收;數據分析

中圖分類號:F812.42 文獻標識碼:A文章編號:1007-9599(2012)05-0000-02

一、當前數據分析的制約因素

在稅收管理信息化技術不斷推進的形勢下,稅收數據的省級集中為稅源管理、稅收分析決策提供了良好機遇和應用平臺,稅收數據分析逐步成為稅源管理的重要手段。但由于各方面原因,在當前還存在著一些制約數據分析的因素。

(一)對數據分析缺乏認識

數據分析是建立在現代信息化的基礎之上,依托信息化平臺,采用數據挖掘技術,開展數據分析,其目的在于提高稅務內部決策能力,檢測納稅異常,預測稅源、稅收發展趨勢。但是有些稅務干部,習慣于傳統的思維方式,側重于經驗管理,缺乏對信息數據的駕馭和應用,尚未充分認識到數據分析效用。

(二)數據應用系統開發機制不完善

目前,雖然有省局“大集中”征管系統作支撐,但各類功能的應用系統層出不窮,各自獨立,互不兼容。開發系統的目標也不夠清晰,往往偏重一個特點或區域,缺乏通用性,實用性、可操作性。

(三)數據來源單一,質量不高

“三分技術,七分管理,十二分的數據質量”,這句IT界行話形象地說明了數據質量的重要性??茖W、系統、全面的數據分析工作,是建立在全面、準確、有效的原始數據基礎之上的。目前各類系統中擁有的海量數據,主要是納稅人提供的基礎信息、申報繳納、財務報表類數據,大量的納稅人生產經營、經濟行業指標、第三方納稅人基礎信息無法采集。同時,因少數基層干部責任心不強、審核把關不嚴等原因,也造成了現有數據不準確、邏輯關系錯誤等問題。

(四)缺乏有效的組織保障和業務支持

當前,由于沒有明確定位數據分析的組織機構和崗位職責,也沒有制定相應的工作制度,缺乏業務部門、基層應用單位的積極參與和支持,未能對稅收數據進行深層次的挖掘、分析和研究。

(五)數據分析效果不明顯

一是因數據分析還處于探索階段,沒有形成專業的數據分析隊伍,經驗積累少,在處理數據分析事項時往往與實際業務需求存在延時和偏差,主要表現在數據分析的模式單一,分析面窄,針對性差等原因。二是部分稅務人員尤其領導層人員信息化程度低,對數據平臺的作用認識不到位,把大部分精力放在簡單的日常申報和事務處理上,而未對其涉稅數據進行深入分析。導致數據分析的效果沒有得到充分的展現。

(六)數據分析人才匱乏

開展數據分析最關鍵的環節就是數據的組織和分析,要做好這項工作,需要既熟悉稅收業務又熟悉計算機技術的復合型人才。但在現階段,由于機構機制、人員認識、信息化水平和系統的一些實際情況,在數據分析人才的培養上還存在一定的欠缺。

二、開展數據分析的必要性

數據分析就是利用對“大集中”征管系統和各應用平臺提供的海量數據資源進行加工、處理,分析征管現狀、研究存在問題、提出整改措施、規避管理風險、掌握稅源狀況、監控稅源動態、預測經濟和稅收發展趨勢,全面監控稅收征管質量,逐步實現從經驗型管理向理性分析為基礎的“信息管稅”的轉變,有效提高稅收管理的整體效能。

(一)有利于提高數據信息的應用能力

在海量的征管數據基礎上,匯集所有稅源信息和外部經濟信息等各類數據,應用稅收分析方法和數據挖掘技術加以深度加工和增值利用,把“死”數據轉變成“活”信息,為領導決策、稅源管理、稅收分析提供指導和參考。同時快捷、簡便的“活”信息有利于增強各級稅務部門分析問題、研究問題、解決問題的意識和能力,有效地解決納稅人的納稅風險和稅務干部的執法風險。

(二)有利于提升稅源管理效率和質量

通過對數據的加工和分析,各級稅務機關既可以對不同行業、不同類型納稅人進行分類量化分析,尋找管理的內在規律性,形成詳細的分析報告,制定針對性的管理措施。同時也有利于加大稅源分析的力度和深度,將稅源基本情況、稅源變動情況與稅收預測相結合,全面掌握稅源的規模與分布狀況,從而達到加強稅源監控、堵塞管理漏洞的效果。

(三)有利于為稅收管理決策提供參考依據

數據分析如同高空俯瞰,通過對各個管理環節、管理層次的數據分析,不僅能從宏觀上展現稅收工作的各種情況,也能從微觀上深查納稅人的具體信息,使各級稅務機關能夠及時高效地分析數據背后所隱含的信息和規律。通過數據分析,能夠及時把握稅源管理的重點和方向,采取有效措施規避存在的稅收風險,真正利用科學手段將稅收工作管深管細。

三、實施稅收數據分析的幾點思考

稅收數據分析是用適當的統計方法對收集來的海量數據進行分析,以求最大化地開發數據資源的功能,發揮數據的作用,是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程,是信息化條件下稅收管理工作的眼睛,是應用和服務稅收管理的有效手段。隨著信息化技術在稅務部門的廣泛應用,對征管數據的利用也從簡單的數據查詢發展到了“管稅”層面,在2011年國家稅務總局工作思路中就明確提出了“以信息管稅為依托”的工作要求。

(一)建立數據分析應用系統的開發機制

一是在全省通用的“大集中”征管系統和統一數據綜合應用平臺上,按照業務需求由省局有計劃的擴展系統應用層。二是省級稅務部門制定統一標準和數據規范,各級稅務部門在此基礎上按照工作中的區域性特點以及熱點、難點問題,根據實際情況,補充開發具有區域性特點的軟件,提高數據處理的針對性。通過數據標準和規范制定便于數據分析時數據的采集、整合和利用。

(二)建立數據分析的管理機制

一是健全組織機構。專職組織機構是開展數據分析的保證,一方面要進一步完善數據分析中心的職責及其內部機構的設置與職能,另一方面要進一步明確數據分析應用在業務、技術等有關部門、崗位、工作環節的職責分工,使數據分析應用工作融入到稅收管理的各個方面。二是搭建數據分析平臺。整合“大集中”系統及其他應用系統,搭建數據分析平臺,以軟件分析為主導,人工分析做輔助,進行更加科學、客觀、公正的數據分析工作,不斷提升信息管稅質效。三是健全分析體系。根據各級工作層次和應用范圍建立數據分析體系。確保數據分析工作在制定指標、分析處理、結果、問題反饋等方面連貫協調,充分發揮數據分析在稅收管理工作中的作用。

(三)建立數據分析的聯動機制

一是加強稅務部門內部的技術與業務的聯動。在數據分析中,融合信息部門的技術資源與業務部的業務資源是極為現實和迫切的問題。由于數據分析工作既要具備全面的稅收業務知識和豐富的實際工作經驗,又要掌握較高的計算機技術水平,因此,應充分發揮部門優勢和聯動作用,建立以信息技術人員和各業務等部門參加的數據分析小組,把信息技術與業務需求有機結合,挖掘數據信息潛能,更好地促進稅收征管工作。二是加強稅務部門與外部門的聯動。納稅人有關涉稅信息分散在各管理部門。要加強監控管理,提高分析利用的針對性和準確性,就必須多方位采集外部數據,建立與外部門信息化或非信息化的數據交換渠道,及時獲取納稅人的涉稅信息以及生產經營的相關指標,為數據分析奠定堅實的基礎。

第7篇

①大數據分析

②大數據可視化

③BI商業智能分析

④大數據檢索

⑤產品大數據分析

⑥大數據預測、咨詢

⑦大數據服務支撐平臺

⑧機器學習技術

“大數據分析、可視化及BI領域——

雖然這三個領域在功能及應用范圍上各有千秋,但實質上可以說是相輔相成:通過大數據的基礎分析工具,研究人員可以獲得數據內部的邏輯及結果表現,但通常這些結果過于復雜并缺乏合理的表達形式,使數據科學家及企業的管理者無法快速領會并對經營活動進行調整。

因此大數據的可視化方案應運而生,多數可視化方案都作為數據分析工具的延伸而存在,但也有少部分公司另辟蹊徑,采用非傳統方式將數據的可視化更加貼近需求。BI則是大數據分析和可視化與業務場景的結合,作為企業內部管理工具,使企業的價值有了極大的增長,成為了大數據應用領域重要的一環。

{ 1 }大數據分析領域,在朝向易用、簡單化發展

大部分大數據分析企業的現狀,可以說是將數據的分析、可視化及數據的采集、治理、集成進行了一體化,以大數據的分析平臺形式存在。例如Fractal Analytics除了具備數據分析功能外,還提供自動化數據清理及驗證服務,能夠返回標準化的結構化數據;Voyager Labs則能夠實時采集、分析遍布世界各地的數十億個數據點,幫助用戶進行預測。

上述典型公司主要面向大型企業進行定制化全流程服務,客單價有時高達千萬美元級別,例如Fractal Analytics的客戶就包括飛利浦、金佰利等大型公司,其高昂的價格及服務令小型企業望塵莫及。

但隨著大數據技術的逐漸普及,SaaS化的大數據分析服務將是一個明確的發展方向,而其使用門檻也將大幅降低,從而將大數據分析的能力逐步賦予給中小企業,以真正的實現其基礎資源的價值。同時確保企業數據安全的數據脫敏、數據保護市場也會隨著SaaS化的到來而逐步拓展出新的市場空間。

目前大數據技術簡化、低成本、易用的趨勢已經在部分公司的產品策略上有所體現,例如大數據分析公司Domino的產品讓數據科學家只需專注于自己的分析工作,而不用關注軟硬件基礎設施的建立及維護,Datameer更進一步開發出的產品屏蔽了復雜的大數據分析底層技術,通過類似電子表格的可視化數據分析用戶界面,讓企業的員工能夠快速上手使用,RapidMiner Studio可零代碼操作客戶端,實現機器學習、數據挖掘、文本挖掘、預測性分析等功能。

在大數據分析能力普及的同時,提升數據分析性能、優化數據分析結果的技術研發也在快速進展中。例如SigOpt通過自主開發的貝葉斯優化(Bayesian Optimization)算法來調整模型的參數,獲得了比常見的網格搜索(grid searching technique)解決方案更快、更穩定、更易于使用的結果,目前SigOpt的產品不僅可以讓用戶測試不同變量,還能夠提供下一步的測試建議,以幫助用戶持續優化改善數據分析結果。

令人感到欣喜的是,在大數據分析領域還存在著一些顛覆了傳統數據分析理論,采用獨特方式方法進行數據分析的公司。這類公司的技術對傳統數據分析方法進行了很好的補充,在特定領域有著成功的應用。

這類公司中的典型之一是由三位全球頂尖的數學家創立的Ayasdi,它利用拓撲數據分析技術和上百種機器學習的算法來處理復雜的數據集,不僅可以有效地捕捉高維數據空間的拓撲信息,而且擅長發現一些用傳統方法無法發現的小分類,這種方法目前在基因與癌癥研究領域大顯身手,例如一位醫生利用Ayasdi的數據分析技術發現了乳腺癌的14個變種,如今Ayasdi已經在金融服務和醫療保健行業中獲得了相當數量的客戶。

{ 2 }可視化技術,逐步實現了自動化、智能化

大數據可視化是連接數據分析結果與人腦的最好途徑,因此可視化技術的高低也成為了左右大數據企業獲客能力的重要因素。目前可視化的發展方向同大數據分析一致,都是朝著簡單、自動化、智能的方向在努力。

典型企業如Alteryx是一個提供一站式數據分析平臺的初創公司,旨在讓用戶在同一個平臺上完成數據輸入、建模以及數據圖形化等操作,將數據運算與精美的圖像完美地嫁接在一起,并能夠和SAS和R語言一樣進行數據的統計和分析。

通過可視化幫助用戶實現真正的管理能力提升也是重要的功能之一,德國大數據公司Celonis通過流程挖掘技術,從日常記錄中提取數據、發現關鍵因素,并最終揭示公司在業務中的執行情況,能夠幫助客戶公司提高30%的工作效率。

發展到如今,可視化技術已經不局限于傳統的分析結果展示,而是能夠直接轉換文本、圖片等非結構化的數據并直觀展現,例如Quid利用機器智能讀取大量文本,然后將該數據轉換為交互式視覺地圖,以節約過去通常會耗費在閱讀檢索中的大量時間。Origami幫助營銷人員將CRM、社交媒體、郵件營銷和調查報告等跨平臺的數據整合并進行有效分析,使其簡單化、直觀化、視覺化,人人都能夠高效實用。

同時數據分析及可視化對硬件應用的革新也在進行中,開發GPU關系數據庫服務的Kinetica獲得了5000萬美元A輪融資,采用同一技術路線的MapD也已經能夠做到比傳統計算內核快100倍的速度對大數據進行查詢與可視化。

{ 3 }BI技術擺脫"雞肋",實時便捷普惠政企效率提升

BI技術的發展已經有了較長的歷史,但由于技術因素此前一直被限制于企業內部采集與應用,實際發揮的效果有限并且使用率不高。如今在數據采集與應用范圍普及與大數據分析、可視化技術的推動下,通過數據儀表板、智能決策等方式提升企業運營效率利器的BI再次獲得了資本市場的青睞,Tableau作為BI的代表性企業已經順利IPO目前市值超過48億美元,另一家代表性企業DOMO估值也達到20億美元,成長速度遠超傳統商業軟件公司。

相比于可視化技術,BI更偏重于實際的應用,通過模板化、SaaS化及去代碼等方式,BI應用范圍不再局限于數據科學家及企業高管,可預見未來企業內部每個員工都可以通過BI工具獲知自己及所處部門的各項數據,并能夠有針對性的改進工作方式與方向。

已經累計融資1.77億美元的Looker令用戶能夠使用自然語言進行查詢,降低了查詢大型數據集的門檻;GoodData為企業提供大數據分析SaaS服務,其所有的數據分析服務實現了100%云化,企業可以將公司已有數據導入GoodData的云平臺,再對數據做跟蹤、切分、可視化、分析等處理。

BI領域一個有意思的應用案例是Qlik公司的產品受到了中國海關總署的高度贊揚。海關總署每天都需要進行龐大的數據分析,Qlik則通過圖形化數據展示,使海關管理人員不再受平臺和時間的限制,能夠多視角長跨度的分析,實現了對于現有海量數據的業務的快速展示,極大地促進了稽查效果。

“企業大數據檢索、產品大數據分析、大數據咨詢預測、大數據平臺及機器學習領域——

企業大數據檢索能夠充分挖掘并釋放企業數據的潛力;產品的大數據分析使用戶行為成為了產品設計與運營環節的重要參考因素;大數據技術與咨詢業務的結合則對咨詢行業形成了很大的影響,數據技術導向的咨詢業務將極有可能成為未來行業的主流選擇;大數據服務支撐平臺類企業則為大數據技術的普及和實用化做了很大的貢獻,是大數據技術生態中不可或缺的一環;最后是機器學習,作為大數據分析的底層技術方法也逐漸開始得到廣泛應用。

首先將企業大數據檢索、產品大數據分析、大數據咨詢預測、大數據平臺和機器學習這五個領域的典型企業列舉如下,接下來將分版塊進行詳細介紹。

{ 4 }企業大數據檢索

移動互聯網的普及與SaaS服務的興起令企業沉淀的數據量呈指數級上升,但目前對企業數據價值的挖掘僅僅停留在較淺層面,真正的大數據分析能力還尚未應用。因此如何做好企業內部數據信息價值的發掘成為了關鍵的第一步。

提升企業數據挖掘檢索能力,并將檢索的技術門檻降低的典型企業有Algolia,目前其產品具備關鍵字輸入智能容錯功能,并提供搜索排名配置,能夠讓普通員工也能按需要找到自己所需的數據信息。同時Algolia還為移動設備提供了離線搜索引擎,其C++ SDK可以嵌入到應用服務器端,這樣即便沒有網絡連接應用也能提供搜索功能,適用范圍很廣。

而在SaaS化服務興起的同時,企業采用多種軟件導致內部數據不聯通而形成了數據孤島。根據互聯網女皇Mary Meeker的分析,不同行業的公司平均使用SaaS服務的數量從最低25個至高達91個,需要跨平臺數據檢索分析服務。Maana開發的數據搜索和發現平臺Maana Knowledge Graph,其長處便是收集來自多個系統或者"孤島"的數據,并將其轉換為運營建議,可廣泛應用于多個行業。

{ 5 }產品大數據分析

產品大數據分析相對其他應用來說關注度稍低,但其能夠發揮的功能并不少。通過收集用戶的瀏覽、點擊、購買等行為,不單從宏觀上能夠察覺用戶群體的喜好變化提前應對,微觀上還能夠構建用戶畫像,從而做到定制的產品推薦與營銷,能夠有效的提升用戶的消費水平與滿意程度。

Mixpanel便是一家提供類似產品的公司,其讓企業用戶跟蹤用戶的使用習慣提供實時分析,其產品有用戶動態分析(Trends)、行為漏斗模型(Funnels)、用戶活躍度(Cohorts)及單用戶行為分析(People)等幾個模塊,全面的覆蓋了可能發生的用戶行為與場景。

{ 6 }大數據咨詢預測

如今大數據技術的發展為事件分析和預測提供了可能,并且準確度和處理速度已經具備了很大競爭力,傳統咨詢公司的處境類似于現在面對AI威脅的華爾街分析師,或許不久之后就將會被替代。因此隨著逐漸出現大數據咨詢公司的同時,傳統咨詢企業也紛紛與大數據技術公司合作,甚至成立了自己的數據業務部門。

Opera Solutions便是一家依托大數據分析的咨詢公司,其創始人是咨詢行業資深人士,曾創辦了商業咨詢公司Mitchell Madison和Zeborg。

目前Opera致力于金融領域的數據分析類咨詢,通過建模、定量分析給客戶提供建議,解決客戶的商業問題。例如其計算機系統可以一次性采集數十億條數據,包含從房產和汽車價格到經紀賬戶和供應鏈的實時數據等,通過分析從中獲得有關消費者、市場和整個經濟體系將如何行動的信號或見解。其客戶包含了咨詢機構及花旗銀行等公司,最近還為摩根士丹利提供了幫助經紀人團隊給其客戶提供投資建議的業務。

新技術、機器學習與咨詢預測行業的結合,相比于僅使用大數據分析技術能夠獲得更好的效果,也成為了行業內的一個小熱點。例如基于社會物理學原理的Endor能夠依托少量數據生成統一的人類行為數據集,并比傳統海量數據分析方式更早的做出模式識別與判斷。在甄別facebook上受ISIS控制的賬號的實驗中,根據已知少量ISIS賬號特性,Endor高效分辨出了新的ISIS疑似賬號并且準確度令人滿意。

{ 7 }大數據服務支撐平臺

目前圍繞著大數據技術與大數據產業生態鏈發展的,還有許多是平臺服務型的公司,這類公司具備一定的技術水平,但主要通過服務大數據技術公司及科研人員而存在,是技術生態中不可或缺的一環。

Dataiku創建了一個云平臺,旨在使數據科學家和普通員工更容易獲得公司收集的大數據,并通過機器學習庫縮短了專家以及數據分析師所需要的時間。

Algorithmia的平臺上提供包括機器學習、語義分析、文本分析等通用性算法,一旦用戶找到想用的算法,只需添加幾行簡單的算法查詢代碼到應用中,Algorithmia的服務器就會與應用連接,避免了開發者的重復勞動。

目前部分向開發者社區業務發展過渡的平臺型企業,因其資源已經得到行業巨頭的青睞,被Google收購的Kaggle便是一例,通過舉辦數據科學周邊的線上競賽,Kaggle吸引了大量數據科學家、機器學習開發者的參與,為各類現實中的商業難題尋找基于數據的算法解決方案。同時Kaggle為其社區提供了一整套服務,包括知名的招聘服務以及代碼分享工具Kernels。

{ 8 }機器學習

機器學習,是模式識別、統計學習、數據挖掘的技術手段,也是計算機視覺、語音識別、自然語言處理等領域的底層技術,在附件的介紹中大家可以看到,微軟Azure、Google云平臺及AWS都推出了自己的機器學習產品,而眾多的機器學習創業公司則通過提供有特色的技術或服務進行差異化競爭。

已累計獲得了7900萬美元融資的Attivio專注于利用機器學習技術通過文本進行情緒分析,提供有監督的機器學習與無監督機器學習兩種技術,幫助企業通過識別企業語料庫中的文檔進行情緒建模與分析。思科通過Attivio的智能系統令銷售人員能夠在與客戶合作時依據對方的情緒、消費能力等數據推薦合適產品,從而節省了數百萬的銷售運營費用,同時節約了銷售團隊15-25%的時間。

第8篇

數據驅動業務

在大數據時代,誰擁有數據,誰能高效分析數據,誰能最充分地利用數據進行創新,誰就是勝利者。這樣的例子比比皆是。

沃爾沃是名副其實的創新者,它是最早觸及汽車互聯網的。它將傳統的汽車制造相關數據與汽車行駛數據相結合,進行大數據分析,不僅提供優質的汽車,還能有效減少事故的發生。

西門子亦是如此,它生產火車,同時分析由火車上的傳感器收集來的各類數據。對于西門子來說,它銷售的不僅僅是火車這一產品,更是一種服務,可以及時發現隱患,提前進行主動維修,盡可能避免災難的發生。

這些傳統行業的變化完全是由數據驅動。“我們與客戶一直保持著良好的互動,能夠深刻理解客戶的這些變化和新的需求,并及時響應,不斷加強數據分析的能力,同時擴展業務領域,在數據咨詢、數據科學等領域進行大量投入?!盩eradata天睿公司國際集團執行副總裁Peter Mikkelsen(彼得?米科爾森)表示,“在大數據時代,企業若想繼續生存,就必須改變原有的業務模式,其依據就是數據?!?/p>

隨著數據分析成為數字化時代業務優化、變革和重塑的強有力引擎,越來越多的企業已經意識到數據分析對企業發展的重要性,正在努力探索并提升數據分析能力,在現有的業務流程中植入數據分析,通過更有效地收集數據、分析數據,獲得更深刻的洞察,提高生產效率,并降低運營成本,用數據驅動精準營銷,帶來更多的創新和價值。

“數據對增強企業的競爭優勢,實現良好的客戶體驗至關重要。數據和分析正成為各個行業的用戶促進業務發展和創新的驅動力?!盩eradata天睿公司大中華區首席執行官辛兒倫(Aaron Hsin)表示,“我們以客戶需求為中心,通過創新的技術、全面的產品選項和卓越的咨詢與服務,幫助客戶通過數據分析獲得洞察,快速適應不斷變化的業務需求?!?/p>

如今,企業正面臨著巨大的數據壓力,比如新的數據類型、快速增加的數據量,這就要求企業具備更加快速的分析和決策能力。再比如,物聯網的普及帶來了大量傳感器的數據,對這些數據進行有效的分析,是所有企業甚至個人消費者的迫切需求,這就要求廠商在數據分析工具方面不斷創新,將人工智能等新技術與數據分析相結合。企業還必須清楚地認識到,數據分析絕不是IT一個部門的事,公司的高層和業務部門同樣需要掌握數據,獲得更具價值的分析結果,并以此作為企業決策和促進業務發展的依據。

抓住大數據的機遇

大數據時代蘊含著數據驅動轉型的巨大機遇。例如,數據分析正成為銀行業未來發展和競爭的制高點,通過建立大數據驅動的銀行營銷服務體系,引入外部互聯網和生活場景數據,將進一步釋放和擴大銀行自身數據的價值,幫助整個銀行業從根本上改變管理思路,增強競爭力。中國光大銀行就是一例,它從2006年開始與Teradata合作共建數據倉庫,之后又采用Hadoop技術增強歷史數據查詢能力,到2015年移動應用產品上線后,確立了以大數據分析平臺應用為重點。隨著金融服務場景多元化,以及大數據技術的發展,在銀行業中,數據價值轉化從后臺走向前臺是必然趨勢,實現金融服務與產品的創新是必由之路。光大銀行當前就將數據產品化轉型作為創新的主要途徑,經歷定制化、規模化生產、智能化決策等若干發展階段,最終將面向銀行整體運營提供服務。用數據分析解決棘手的業務問題,預測客戶行為,進行專業的場景化分析,提供精細化的管理建議,數據分析成了光大銀行數字化轉型的重要抓手。

彼得?米科爾森表示:“企業加快數字化轉型的步伐,不僅可以激活數據分析市場的發展,而且帶來了新的需求和應用趨勢。從全球市場來看,客戶對數據分析的需求不僅集中在提高客戶體驗、實現財務轉型和產品創新,以及降低風險等方面,而且也反映在利用數據分析實現決策的自動化,以及服務新的應用領域方面。”

Teradata通過不斷提供創新的產品和工具,為復雜的數據分析提供解決方案,挖掘更大的數據價值。同時,Teradata還關注最新的技術發展趨勢,積極擁抱開源技術和云計算,目標是建立完整的生態系統,為企業的云化提供支持。

Teradata進入中國已經20年,擁有1000多名員工,其中80%的人員是服務和咨詢人員。在中國,Teradata堅定不移地執行全球策略,依托公司40多年的研發和技術積累,提供多元化的數據分析平臺,以及專業化的咨詢服務,幫助客戶改善業務,同時提供創新的定制化服務,實現快速的本地化發展。據辛兒倫介紹,目前Teradata大中華區已經建立了12大行業的數據模型,結合各行業的最佳實踐,可以將數據分析快速用于客戶的業務,獲得大數據洞察,并提升業績。

數據驅動業務已經有很多成功案例。來自全球不同行業的領導企業的40余位嘉賓,在峰會上分享了他們如何通過數據分析讓業務流程更加高效和智慧的經驗,同時探討了金融、電信、醫療保健、航空、物流、制造、零售等行業在數據應用和分析方面的最佳實踐。

數據分析同步發展

成立41年來,Teradata只專注做好一件事,就是數據分析。在大數據的概念出現以前,企業也在做著數據分析的工作,只不過那時的數據量沒有現在大,而且計算和分析工具的能力和效率不如現在這么高。在移踴チ和社交媒體興起后,數據呈幾何級數增長大數據這一新的概念得到了廣泛認同。在大數據出現后,傳統的計算和分析工具顯得捉襟見肘,人工智能成為一種更有效的增強分析能力的工具。

數據量的增長與數據分析工具的創新形成波浪似的前進。其實,數據與分析是并肩成長的。在大數據概念出現前的30年中,數據與分析一直保持著同步發展。大數據的出現打破了這一平衡,數據量的增長比分析能力的提升要快得多。這時就涌現出許多新技術,比如云計算、人工智能等,而這些新技術最終導致的結果又是讓數據與分析回歸同步發展。當分析技術跟不上數據的發展,就又會有新的技術冒頭。數據與分析就是這樣相互促進、共同發展。

面對大數據,企業要怎么辦?只有不斷整合數據,采用更好的計算和分析方法,快速找到有用的信息,并快速做出決策。以前,企業做出一項決策可能要用一個月的時間,現在利用高效的數據分析工具,時間可能縮短到一個小時,甚至更短。企業必須持續提升信息的獲取和分析能力,同時實現對數據的治理。另外,企業要跟蹤新的技術發展趨勢,云計算、區塊鏈等新技術可能會影響到數據分析。

在本次峰會上,Teradata了諸多新產品,概括起來可歸成三大類:Teradata推出業內首創的面向混合云的可移植許可模式;升級Teradata客戶體驗之旅解決方案;可實現計算與存儲獨立伸縮的IntelliFlex,以及軟硬件集成的IntelliBase。

第9篇

關鍵詞:大數據平臺;電網統一數據中心;全業務;數據分析域

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)34-0015-03

稻莘治鲇蚴僑業務、全類型、全時間維度電網數據的匯集中心,是為電網公司各類分析決策類應用提供完備的數據資源、高效的分析計算能力及統一的運行環境,改變過去分析型應用數據反復提取、冗余存儲的局面,實現“搬數據”向“搬計算”的轉變,支撐企業級數據分析應用的全面開展。

1 電網全業務數據分析域平臺的作用

基于大數據平臺的電網全業務數據分析域主要完成ERP、生產、營銷、調度等核心業務系統數據的提取清洗、實時采集類、分析決策類相關應用遷移遷移改造;完成統一數據模型及主數據標準驗證;完成統一分析服務建設等工作,建成全業務統一數據分析域。

2 電網全業務數據分析域平臺接入的業務數據

2.1內部業務系統數據接入

基于電網公司總部數據字典統一梳理成果,以業務系統實際情況,結合統一數據分析服務、采集監測與分析決策等問題,遵循統一數據集成接口規范,統一數據模型(SG-CIM3.0、數據倉庫模型),梳理ERP、財務管控、營銷業務、營銷稽查監控系統、營銷檔案管理、營銷移動作業、一體化繳費接入管理、PMS2.0、OMS、電能質量在線監測、資產全壽命、省級計量中心生產調度、供電電壓自動采集、科技與信息化項目管理、項目過程管理、電力市場交易、IMS、TMS、電動汽車智能、干部管理、信息客戶服務管理、應急預案管理、車輛調度管理、經濟法律、輸變電GPMS、雙流雙控等業務系統,全量接入數據分析域,對于不符合SG-CIM3.0及主數據標準的相關業務數據進行清洗轉換,完成數據流轉至數據倉庫的接口開發,為各類分析應用的實現提供完備的數據資源。

2.2外部數據統一采集

基于大數據平臺,根據大數據分析應用業務,完成經濟、氣象、征信等外部數據采集。

3 電網全業務數據分析域平臺分析服務功能設計

3.1統一分析服務

基于統一分析服務功能,開展低電壓實時監測、負荷預測及防竊電分析、配網故障量監測分析、臨時用電超期未辦理合規性監測場景四個應用建設。

3.1.1配電網低電壓實時監測

配網低電壓監測主要針對目前電網設備發生低電壓的程度,從低電壓臺區和低電壓用戶兩個方面監測低電壓的場景研發。運用數據分析域上多源異構數據集成等數據存儲技術,實時計算技術,統計分析出低電壓的區域分布情況、涉及臺區情況、低電壓出現頻率等,及時將發現的問題通知到相關部門,由相關部門對低電壓臺區或用戶進行現場核實,查找出詳細原因,提出改造措施,消除低電壓情況。

3.1.2用戶側負荷預測及竊電行為分析場景

用戶側負荷預測及竊電行為分析功能可以提取客戶信息、用電量信息、用電負荷、事件異常等數據,從用電概況、負荷預測分析、負荷特性分析、防竊電預警分析等方面,選取相關性最高的影響因素,利用數據挖掘算法構建負荷預測模型、負荷特性分析模型、防竊電預警模型。

3.1.3配網設備狀態監測分析場景

通過提取設備臺賬、用電負荷、用戶檔案等數據,從配變設備基本概況、配變故障量預測分析及配變重過載的深化研究等方面,選取相關性最高的影響因素,利用數據挖掘算法構建故障量預測模型、農網配變重過載預測模型、迎峰度冬重過載預測模型實現配網設備狀態監測分析場景。

3.1.4臨時用電超期未辦理合規性監測

通過提取臨時用電數據,從“退費條件后是否按時退費給用戶”和“轉收入條件后是否按時進行轉收入”兩個維度,按單位、按月、按異動項目類型,總體展示臨時接電用戶目前總體情況及明細數據,并通過提醒、告警等方式監測各單位未及時退費項目、未及時轉收入項目的情況,提醒相關人員及時處理,避免造成的合同糾紛或企業損失,有效提升公司臨時用電業務合法性、合規性。

3.2采集監測與分析決策類應用遷移改造

3.2.1用電信息采集系統遷移改造

采用分布式消息隊列+分布式流計算方式,完成用電信息采集數據訪問接口的設計開發,實時同步用電信息采集數據,并基于大數據平臺,實現實時采集數據的統一對外共享,為用電信息采集系統前端應用及營銷業務、生產管理等系統,提供統一、高效的采集數據訪問服提升用電信息采集數據的共享服務能力。

3.2.2輸變電在線監測系統遷移改造

通過輸變電狀態監測數據在線計算、離線計算等程序設計研發,同時完成數據訪問接口的設計研發,實現輸變電狀態監測信息的采集和在線處理,為輸變電設備狀態監測提供靈活可擴展的數據存儲和分析能力,實現通過大數據平臺,統一對外提供高效的輸變電設備狀態采集數據服務。

3.2.3同期線損系統遷移改造

基于數據分析域,通過分析線損系統現有大數據計算框架與大數據平臺技術路線的差異,開展同期線損系統中電量與線損大數據計算區功能融入大數據平臺的研究及開發,將線損系統Cassandra存儲改為HBase存儲,對已實現的電量與線損分布式計算服務和提供的電量與線損結果查詢服務接口進行改造,完成同期線損遷移改造方案、存儲模型設計,實現線損相關存儲、計算組件的遷移改造及數據遷移。

3.2.4配電網運營分析應用遷移改造

利用大數據平臺,結合用電信息采集數據遷移,完成配電網運營分析應用優化改造,優化并提升數據提取、傳輸以及單體設備計算能力。結合配電網運營分析應用的數據模型成果,基于大數據平成數據緩沖表、接口表/中間表、計算結果表的模型設計。根據PMS、營銷、調度等數據接入需求,基于大數據平臺,完成PMS2.0、營銷業務系統檔案數據定期同步接口開發,完成調度數據采集及解析程序開發。

3.3統一數據模型與主數據標準驗證

基于統一數據模型設計成果,在數據分析域上驗證數據倉庫模型。結合數據提取清洗及統一分析服務建設需求,開展人員組織、財務、物資、項目、電網、資產、客戶等主題域的數據模型的差異性比對,對數據倉庫模型進行完善及優化。將數據倉庫模型部署至數據分析域中,并按不同業務域模型規范將ODS的數據存放至數據倉庫中,支撐分析應用場景建設。

4 電網全業務數據分析域平臺技術架構

根據統一數據中心總體架構設計,數據分析域是全業務、全類型、全時間維度數據的匯集中心,是為各類分析決策類應用提供完備的數據資源、高效的分析計算能力及統一的運行環境,改變過去分析型應用數據反復提取、冗余存儲的局面,實現“搬數據”向“搬計算”的轉變,支撐企業級數據分析應用的全面開展。

根據統一數據中心數據分析域總體架構要求,結合電力數據中心、大數據平臺的實際建設情況,設計電力數據分析域系統架構,包括數據接入、數據存儲、數據計算、統一分析服務、系統管理等5個層次。

平臺通過分布式消息隊列、ETL、Sqoop、API等各種技術手段,提取結構化非實時數據、實時數據、外部數據,對各類數據按照統一數據規范進行標準化及關聯,并按不同時效性的計算及應用需求,分類進行數據存儲、流轉及管理。

5 電網全業務數據分析域平臺采用的開發技術

數據分析域的數據抽方面取采用大數據平臺數據加載工具(基于Sqoop優化封裝)+文件導入方式。業務系統存量數據接入ODS區,涉及業務系統數據提取至緩沖區、緩沖區數據提取至統一視圖區。

大數據平臺數據加載組件,基于Sqoop工具優化封裝,支持關系型數據庫與大數據平臺中的分布式數據庫之間的數據提取。對于ODS數據加載至數據倉庫/數據集市,采用大數據平臺中的數據加載組件(基于Sqoop優化封裝)。對于ODS緩沖區、ODS視圖區、數據倉庫、數據集市之間的數據清洗轉換,采用大數據平臺數據提取組件(基于Kettle優化封裝)實現。提取工具(基于Kettle優化封裝)基礎功能包括數據獲取、數據清洗轉換、數據加載、任務管理等,支持內部所有異構系統、多數據類型、不同數據提取方式的數據采集,對多種數據庫、套裝軟件、封閉式主機、EAI軟件、文本等數據批量提取,實現對數據高效提取、傳輸和分發,滿足對數據提取和數據清洗功能。

電信息等實時類數據采集,采用大數據平臺消息隊列組件(基于Kafka優化封裝)+流計算組件(基于Storm優化封裝),實現生產實時數據的高效采集、計算和存儲。消息隊列組件(基于Kafka優化封裝)用于接收來自前端不同實時源的數據,后端則采用流計算組件(基于Storm優化封裝)技術對實時數據進行保存及分析。

外部數據采集主要有3種模式,一是線下手工采集,然后文件導入大數據平臺;二是通過外部接口采集;三是通過數據爬取程序采集。

數據倉庫存采用基于Hadoop HIVE+Impala組件優化封裝的分布式數據倉庫,存放按業務主題進行劃分、歸類的歷史數據。數據集市的數據由數據倉庫的數據經過轉換后形成,直接支撐前端的應用需求。數據集市,采用基于開源PostgreSQL優化封裝的分布式關系型數據庫。在數據集市應用中,對于實時性要求不高的結果數據查詢,將通過訪問PostgreSQL實現;對于實時性要求高的即時查詢應用,則直接通過Impala訪問HIVE的明細數據。

面向海量規模的實時采集類數據,采用基于Hadoop Hbase優化封裝,Hbase是基于Hadoop的NoSQL大數據平臺分布式列式數據庫作為存儲媒介。為大數據提供實時的讀/寫操作,能夠利用HDFS的分布式處理模式,并通過MapReduce獲取強大的離線處理或批量處理能力,同時能夠融合key/value存儲模式,以實現實時查詢能力。熱點數據存儲在基于Redis優化封裝的大數據平臺內存數據庫中,以供快速讀取、應用。

分析服務,采用大數據平臺自助式分析工具。大數據平臺自助式分析工具提供易用、快速、靈活的可視化設計器和豐富多樣化的可視化控件,結合數據建模的數據主題和數據挖掘的業務挖掘模型,業務人員可自定義配置分析界面。

數據分析域的系統管理,采用數據管理服務平臺實現,根據各類擴展需求,對數據管理服務平臺進行增強開發,以適應統一數據中心分析域的系統管理要求。

6 結束語

通過對大數據技術的研究和應用,開發部署電網統一數據中心全業務數據分析域平臺,能夠有效支撐電網配、變、過載、預警、分析等場景應用,為數據分析人員提供數據挖掘模型構建能力,滿足電網各類業務應用的大數據分析、挖掘需求。

參考文獻:

[1] 波,陳乾,眭建新.基于大數據技術的電網運營分析決策系統研究[J].電力信息與通信技術,2015,13(8):128-131.

[2] 王忻.基于大數據技術的電力公司運營系統研究[J].商,2016(4):214-214.

[3] 趙云山,劉煥煥.大數據技術在電力行業的應用研究[J].電力行業信息化年會,2013(30):57-62.

[4] 段軍紅,張乃丹,趙博,閆曉斌.電力大數據基礎體系架構與應用研究[J].電力信息與通信技術,2015,13(2):92-95.

[5] 刁柏青,步萬峰.構建集中統一的電網集團數據中心[J].電力信息與通信技術,2004,2(10):57-59.

[6] 姚強,楊志武.基于集中數據中心的統一數據平臺建設分析[J].內蒙古電力技術,2010,28(3):3-5.

第10篇

關鍵詞:生物醫學;大數據;研究趨勢

由于生物醫學涉及到了許多學科的理論和知識,因此,在大數據時代下,生物醫學研究能夠獲得更加全面細致的數據支持。隨著大數據技術的深入應用,生物醫學的數據規模正呈現出不斷擴大的趨勢。在這樣的背景下,生物醫學的內涵將變得更加豐富。由此可見,大數據技術和生物醫學的有機融合對于生物學規律的研究具有十分重要的積極意義。

1對生物醫學大數據的分析研究

大數據分析是生物醫學大數據中的重要組成部分之一,大數據分析的深入開展需要大數據儲存的強力支持,目前,生物醫學大數據分析的內容主要包括以下幾個方面:

1.1蛋白質組數據分析研究

經過長時間的發展,蛋白質組質譜分析技術已經逐漸趨于完善,在分析工作開展的過程中,需要使用到大量具備高分辨率的質譜數據,這些數據在蛋白組定性和定量分析工作開展的過程中能夠發揮出巨大的作用。當前階段,蛋白質組學的研究內容得到了極大的擴充,更加強調了對研究規律深入應用。在大數據技術的支持下,很多更加先進高效的數據分析方法得到了有效的應用,蛋白質組學研究的標準朝著更加規范化以及系統化的方向發展,因此,為了保障蛋白質組學研究的順利發展,必須加快推進不同層面組學數據的綜合分析。

1.2單細胞數據的分析研究

單細胞數據分析的細胞數量十分龐大,因此,相應的數據量也十分龐大。單細胞基因組測序中涉及到了DNA擴增技術的應用,這也導致測序深度存在高度不一致的現象,這對相應的基因組分析工作帶來了巨大的挑戰,加之單細胞的性質存在一定的差異性,因此,單細胞數據分析的難度相對較高。當前階段,單細胞基因組數據分析所使用的方法較少,比較常見的方法為單細胞基因表達差異化分析方法以及經過完善的velvet基因組拼裝方法,同時,在單細胞異質化分析領域仍舊存在大量的空白。

1.3基因組數據分析研究

隨著越來越多先進測序技術的推廣,高通量數據分析法的應用變得更加完善,為基因組和轉錄組數據的分析提供了有效的支持。系統化數據分析實現了對基因組、轉錄組以及的表觀基因組等數據的綜合分析,促進了生物系統研究朝著的更加標準化以及深入化的方向發展。大量的高通量測序數據的采集推動了基因組的數據的集中整合以及深度挖掘,因此必須使用更加先進的大數據分析硬件以及軟件才能保障基因組數據分析的有效推進。

1.4宏基因組數據分析研究

近些年來,與生物醫學相關的宏基因組項目的數量正呈現出迅猛增加的趨勢,其數量的規模也在不斷擴大。同時嗎,微生物群落大數據分析項目的數據量也在增加,在這樣的情況下,如何保障數據分析的效率和準確性就成了科研人員必須考慮的問題。目前,宏基因組研究領域已經基本完成了數據庫的構建,微生物群落研究的流程的規范性得到了極大的提升。同時,一大批微生物群落生物信息學研究網站開始涌現出來,為微生物群落研究提供了更加完善的服務項目。此外,微生物群落數據規模的不斷擴展對計算機的性能提出了更高的要求,因此必須研發出更加先進的計算機分析平臺,才能更好的應對數據量不斷增加的趨勢。

2大數據時代下生物醫學的研究趨勢探究

目前,大數據已經滲透到社會的各個領域,為各行各業的發展提供了更加龐大的數據,在生物醫學領域,大數據技術的應用推動了生物醫學研究的高速發展,具體表現在以下幾個方面:

2.1促進了不同類型生物醫學數據的高度整合

通過不同樣本的高效整合,可以構建出更加全面完善的數據模型,這樣可以實現不同類型、尺度數據的集成化分析。但是需要注意的是,在上述過程中,由于數據的格式等問題,不同數據之間不可避免的會產生一定的矛盾,為了有效的解決這一問題,必須采用更加智能化的數據建模和分析方法。這是生物醫學數據研究發展的重要方向這一。

2.2生物醫學數據的實時分析和臨床處理

隨著生物醫學研究的不斷發展,對樣本的迅速提取以及數據的深入挖掘已經成為其必然趨勢,因此,生物醫學數據的臨床處理受到了越來越多的關注,逐漸成為生物醫學研究的主要方向之一。

2.3生物醫學數據的個性化分析、預測和保存

生物醫學數據的采集以及分析處理不僅能夠促進數據規模的增大,還能夠為相關數據的個性化分析預測提供更加有效的支持,同時,針對個性化數據的分析安全保存也是必須重視的問題。

2.4人體微生物群落研究

生物醫學大數據在人體研究領域不僅包含了人體基因型和表型數據,同時還涉及到了人體微生物群落的研究。人體微生物群落對人體健康的影響主要體現在以下幾點:其一,通過病原菌數據庫的建立能夠為患者致病原因的分析提供良好的幫助。其二,通過對人體微生物的檢測可以對其健康狀況進行科學的預測,及時采取合適的預防措施避免疾病的出現。其三,通過人體有益菌的合理利用能夠極大的提升人體的免疫能力。其四,及時發現有害菌,促進預防工作的高效開展。其五,生物醫學數據研究方法對于多種類型的基礎醫學研究的發展具有一定的積極意義。其六,通過對人體微生物群落的研究,可以有效的應對細菌武器的侵害,為有害菌的控制和治療提供良好的幫助。

3結語

第11篇

IBM大數據分析融入騰訊媒體報道

在世界杯開賽之前,IBM和騰訊“牽手”成為騰訊體育社交媒體數據分析合作伙伴。IBM根據網友和球迷在騰訊網絡媒體平臺及社交網絡上的海量公開信息和數據,通過大數據分析技術,獲得球迷話題、球迷類型、球迷個性分析等一系列洞察;同時還能根據這些信息得出網友心中真實的球隊支持率。而騰訊則通過這些分析得出的洞察來指導內容報道,細分受眾,制作球迷更加喜歡的內容。

比如,IBM基于典型球迷在微博等社交媒體上所內容的綜合分析,并對比心理學上的任務性格分析模型,通過大數據技術進行球迷的性格分析,勾勒出不同球星的典型球迷形象,不僅是球迷的興趣愛好,連性格特點和行為方式都刻畫的十分詳細。如內馬爾球迷的關鍵詞為“陽光活潑、愛湊熱鬧、愛找樂子、喜歡悠閑生活”等等。

從世界杯看社交大數據分析如何為行業客戶創造價值

通過大數據分析,媒體能夠了解網友和球迷的喜好和關注點,就能夠有針對性的制作內容并進行推薦,這大大改善了網友的體驗。作為一名媒體人,筆者經常會為找到讀者喜歡的話題而頭痛,往往精心制作的選題卻反映冷淡,其原因在于媒體認知和讀者需求出現了脫節。大數據分析改變了媒體傳統的單向式傳播模式,讓讀者變成內容制作的“參與者”,從而更加貼近讀者的需求。“大數據”開啟了媒體報道的新模式,據悉,眾多媒體集團都表現出興趣,希望能和IBM進行類似的合作。同時,在本屆世界杯上,大數據和媒體的結合,也為球迷送去了一場與眾不同的“足球報道盛宴”。

行業CMO最關注大數據和社交網絡對營銷的影響

IBM在本屆世界杯和騰訊的合作只是IBM在體育行業大數據分析的一個縮影,此前IBM大數據社交分析已經在網球四大大滿貫賽事、橄欖球、高爾夫球等賽事中也發揮著巨大作用,為球迷帶來了更佳的觀賽體驗,為球員和教練合理制定訓練和比賽計劃提供著參考,同時也助力主辦方創辦世界頂級賽事也幫助轉播機構傳遞精彩比賽。事實上,其它行業的企業CMO也正越來越重視大數據和社交網絡在企業營銷中的價值。

圖注一:中國的CMO已經意識到營銷管理在將來的巨大變化,并且已經開始在投資/整合技術與分析方面做出相應的準備

根據IBM年度的全球和中國CMO調查報告,在被認為對營銷管理產生重要影響的13中因素中,數據爆炸和社交媒體被認為是最重要的兩種因素。其中,85%的CMO都選擇企業應對數據爆炸做出市場營銷的改變;71%的CMO則選擇了社交媒體。

IBM大數據社交分析已有成熟的方法論

移動技術和社交業務正在催生著很多新的IT服務來與被數字化武裝的個體進行交互。對于企業而言,構建一套全方位的互動參與體系,在員工、合作伙伴和客戶之間建立參與機制將尤為重要。而IBM在社交大數據分析方面不僅有SoftLayer等云計算基礎設施的支撐,還通過多年積累形成了一套為企業提供社交環境下客戶全生命周期支持的完整方法論,使大數據社交分析能充分挖掘到在媒體行業、電信、金融、交通運輸、零售、快速消費品等不同行業的客戶價值。

圖注2:IBM社交大數據分析解決方案為企業提供社交環境下客戶全生命周期的支持

第12篇

數據化是傳統企業與互聯網企業的本質區別。過去,數據僅僅是信息技術處理的一個符號或標識;現在,數據是業務發展的必備伙伴,是驅動企業數字化轉型和業務創新的核心要素?;ヂ摼W+時代,數據是企業的戰略資產,如何充分挖掘數據資產的價值?不僅需要構建企業數據分析技術平臺,更重要的是通過建設根植于企業的數據分析文化,形成數據分析運營機制。

數據分析驅動的業務模式

數字化時代的卓越績效企業,都把數據分析視為企業戰略競爭能力,正在探索以創造性的方式來構建集戰略治理、數據管理、數據分析、技術與工具、組織與人員管理一體化的數據分析驅動體系,以提升數據應用速度與價值實現。數據分析驅動型業務轉型,實際是構建一個連接數據、技術、工具、人員和流程的生態系統,包括信息管理、定量分析、預測模型、績效管理,以及業務決策和行動管理等活動的組合,用于解決業務問題和提升決策有效性的商業洞察體系。這種商業洞察體系關鍵特征是聚焦業務關鍵問題是什么?需要如何改進等?通過“問題驅動”的方式,分析管理和業務問題的解決方式,如營銷業務重點要解決如何準確洞察消費者需求、如何提升渠道關系、如何實現精準營銷等;所以,企業在數字化轉型過程中,需要我們具備發現各種問題的敏銳、正視問題的清醒、解決問題的自覺。通過準確的問題定義、清晰的問題分析及關鍵成功因素的識別,借助數據分析驅動的實施模式,實現從問題到成果的優化和變革。文/福建中煙工業有限責任公司吳正舉數據分析驅動的價值實現數據分析驅動模式價值的實現,需要以問題驅動,在“管理數據”的基礎上,“獲悉洞察”優化決策,進而“采取行動”成就業務績效,從每一次業務結果中獲得反饋,改善基于洞察的決策流程,創造突破性業務成果。數據分析驅動的價值實現路徑,是基于清晰的數據驅動型業務愿景,通過構建問題與價值驅動的“問題-分析-決策-行動-評價”業務閉環管理,以數據分析運營體系、數據分析主題體系及大數據技術平臺為支撐,以獨立的“數據分析服務中心”,作為數據與技術平臺服務提供者、數據分析項目組織者、數據分析價值管理者的模式,構建一套完整的商業體系,使企業獲得有形和無形的價值,這些價值包括解決業務問題、提升業務價值、優化分析投資、提升分析能力、驅動分析文化等。

數據分析驅動的業務實踐

問題場景:鑒于社會庫存過高且市場趨勢下行的現狀,針對品牌之間過度競爭的現狀,需要針對特定的目標市場,制動適合的營銷策略。分析方法:“一項目標”:構建完整的產品/市場矩陣來“選擇目標市場”;“雙模權重”:以“顧客資產價值模型”和“八維市場細分模型”對市場進行權重調整;“三維細分”:以“消費者市場細分”“零售戶市場細分”“商業公司市場細分”三維顧客市場進行分級分類;“四級界定”:以“競爭對手界定”——“戰略集團分析”——“市場結構分析”與“市場地位三四律”——“產品生命周期”+“品牌價值評估”推導“業務組合BCG分析”。分析主題:通過消費者市場細分——零售戶細分——商業公司細分三維顧客市場細分,通過構建顧客資產模型和八維市場細分模型來進行權重調整,形成初步的多維市場細分,找到“消費者在哪里”。通過競爭對手界定來初步區分和界定不同的競爭對手,通過戰略集團分析來認識企業自身的競爭能力構成與戰略傾向,進行前兩層級的競爭對手劃分。通過市場占有率分析,包括在每個細分市場的相對市場占有率、累計市場占有率、階段市場占有率,正確衡量企業品牌的競爭實力和盈利能力,進而結合市場細分分析與競爭對手劃分,在細分市場上進行市場結構分析,并依據市場地位三四律綜合判定企業在每個細分市場的市場份額的對應地位指標。通過產品生命周期判斷,不單判斷企業自身各品牌的產品生命周期,還需要判斷階段性競爭品牌在細分市場的產品生命周期,通過品牌價值評估模型一一對標衡量各個品牌在各個細分市場的權重,從而綜合性地進行業務組合波士頓分析(不僅分析企業自身品牌,也分析競爭對手品牌)。綜合前三層級的競爭對手分析與業務組合分析,通過競爭性路徑分析法來評估判定競爭對手的當前目標、當前策略、競爭能力、市場意愿、未來策略,從而正確選取企業的相應應對策略。在競爭性路線分析基礎上,結合每個細分市場的市場潛力分析,針對性地評估相應的目標市場,構建完整的產品/市場矩陣,進而鎖定目標市場,告訴企業“應該去哪里”,將營銷理論與企業營銷實際充分結合、將行業范例與企業經驗相結合,形成營銷策略的方向性建議。技術平臺:從企業業務藍圖中分析目前已具備或可獲取的數據源,結合企業戰略規劃的企業級指標分解,選擇適應業務需要的市場營銷分析模型與方法,進行分析落地的十六個主題。針對每一個主題設計,構建相應模型,篩選對應指標,研究相應算法,設計展現方式,反復討論驗證,持續改進優化。

大數據時代,隨著企業將越來越多的資源投入到應用數據的過程中,未來在數據采集、處理、平臺、工具、技術等等方面都將有完整的產品和解決方案,但如何讓數據轉變成資產?如何讓數據從“大”到有“價值”?如何實現從認識數據的“因果關系”到“相關關系”的思維模式變革?我們借助技術驅動和人工協作的有機結合,將有無限可能性!

作者:吳正舉 單位:福建中煙工業有限責任公司

主站蜘蛛池模板: 扎鲁特旗| 海口市| 广南县| 于都县| 阳江市| 理塘县| 五峰| 吉木萨尔县| 西和县| 兴海县| 桓仁| 娱乐| 油尖旺区| 措美县| 保山市| 遂宁市| 新宁县| 中牟县| 罗江县| 宜昌市| 金溪县| 舟山市| 苗栗县| 海阳市| 霍州市| 加查县| 桐柏县| 汾阳市| 贵州省| 英山县| 乌兰察布市| 肇庆市| 新巴尔虎左旗| 淳安县| 新营市| 宿州市| 策勒县| 崇阳县| 特克斯县| 保靖县| 和田市|