時間:2023-05-30 10:44:18
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據倉庫,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
關鍵詞:數據庫,數據倉庫,數據處理
1.數據倉庫的定義
數據倉庫的英文名稱為Data Warehouse,簡寫DW。W.H.Inmon。我們把它的定義為:數據倉庫是一個數據 集合,它的特點是:用于支持管理決策時它是面向主題的,集成的,相對穩定的,能夠反映歷史變化的。從數據倉庫的概念上我們可以從兩個方面理解,一方面,數據倉庫是用來支持決策的,主要面向分析 型數據處理,這一點有別于企業現有的操作型數據庫;另一方面,數據倉庫對多個異構的數據源進行有效集成,在集成后又按照主題重新進行了組合,并且包含歷史數據,盡管如此,卻一般不再修改其存放在數據倉庫里的數據。
2.數據倉庫的特點
(1)面向主題。操作型數據庫的數據組織面向事務處理任務,各個業務系統
之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織,一個主題通常與多個操作型信息系統相關。。
(2)集成的。面向事務處理的操作型數據庫通常與某些特定的應用相關,數
據庫之間相互獨立,并且往往是異構的。而數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須保證數據倉庫內的信息是關于整個企業的一致的全局信息。
(3)相對穩定的。操作型數據庫中的數據通常實時更新,數據根據需要及時
發生變化。數據倉庫的數據主要供企業決策分析只用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫之后,一般情況下將被長期保留,修改和刪除操作很少,通常只需要定期的加載、刷新。。
(4)反映歷史變化。操作型數據庫主要關心當前某一個時間段內的數據,而
數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點到目前的各個階段的信息,以對企業的發展歷程和未來趨勢做出定量分析和預測。
3.數據倉庫的結構
如上圖所示,整個數據倉庫系統包含五個層次:
(1)數據源層。是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。。
(2)數據導入層。是數據在進入數據倉庫前的一個臨時存放區,通過數據調度工具將業務系統傳送過來的數據表、文本文件等加載到臨時存放區。
(3)數據服務層。是整個數據倉庫系統的核心。針對現有各業務系統的數據,進行抽取、清理,并有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。
(4)應用服務層。應用服務層的功能主要是建立多維數據集、進行OLAP分析、生成各種靜態報表并以WEB方式提供各種功能的查詢分析。
(5)用戶層。根據對數據倉庫需求的不同,數據倉庫的用戶可以分為普通用戶、技術用戶、高級管理用戶這三類。不同用戶對數據倉庫訪問的需求層次以及復雜度都是不同的,簡單的需求是訪問一些固定的靜態報表和查詢分析,復雜的可以通過前端展現的工具生產一些靈活、動態的即席查詢報表,以滿足業務部門一些臨時的、迫切的報表需求。
4.相關的網站和論壇:
(1)數據倉庫之路 dwway.com/html/news.html
(2)MyDWBImydwbi.com致力于打造最專業的中文數據倉庫,商務智能社區
(3)商業智能和數據倉庫愛好者bihuman.com/
(4)數據挖掘研究院 chinakdd.com/
5.研究和商業機構
(1) 北京大學移動通信數據倉庫聯合實驗室
2006年5月由中國移動、北京大學、亞信集團聯合建立,該實驗室”是全球容量最大的數據倉庫分析系統實驗室,也有效的整合了三方得優勢資源。中國移動通信目前構建了目前國際上最大的數據倉庫系統,聯合實驗室的建立,既能推動中國移動自身數據倉庫系統建設,也能明顯推動數據倉庫技術向縱深發展。
(2)中國人民大學數據倉庫和商務智能實驗室
2004年5月由中國人民大學和全球著名的數據倉庫廠商NCRTeradata聯合建立。該實驗室承擔了國家863計劃、國家自然科學基金重點項目、教育部重點項目等國家重大科研任務。借助于NCRTeradata的優勢技術,雙方將通過密切的合作,共同開發具有中國行業特色的數據倉庫和商務智能應用軟件。
(3)北京漢端科技有限公司
北京漢端公司是一家專門從事商業智能信息化服務的企業,從1996年就開始專業做數據倉庫,它在數據倉庫領域是相當專業的,在這可以接觸到最前沿的數據倉庫技術。
(4)上證所金融創新實驗室
2006由上海證券交易所成立,該實驗室的數據全部來源于數據倉庫系統。 上證所在推出金融新產品時,都曾通過數據倉庫平臺進行過測算和驗證。通過實時數據倉庫技術,為上證所的經營、監管、創新和服務決策提供數據支持,極大的提高了監管的效率和服務的性能,能夠更好地服務市場和監管市場。
參考文獻:
1伍小榮 伍慶華 數據倉庫技術的研究現狀和未來方向 [期刊論文] 現代電子技術2002(6)
2.向海華 數據庫技術發展綜述[期刊論文] 現代情報 2003(12)
3.王澤明淺談數據倉庫技術 [期刊論文] 計算機應用與軟件2001-01-15
4.黃慶普 剖析數據倉庫技術 [期刊論文] 華南金融電腦2003年11期
5.劉立波 數據倉庫技術的研究與應用[期刊論文] 計算機工程與應用2002(15)
關鍵詞:數據倉庫;數據挖掘;決策樹
中圖分類號:TP391 文獻標識碼:A 文章編號:16727800(2013)002009904
0 引言
數據倉庫與數據挖掘是近年來剛剛興起并逐步發展起來的一門新興交叉學科,它把對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,并提供決策支持。此門學科涉及到許多領域的知識,包括數據庫技術、人工智能技術、數理統計、可視化技術、并行計算、機器學習等,匯集了多門學科的知識并在綜合運用這些學科知識的基礎上產生出新的知識和方法。此門學科的應用主要在于構建企業的決策支持系統,此系統正是目前幫助企業提高自身競爭力的重要手段。
在數據倉庫與數據挖掘學科中涉及了許多概念、設計方法及諸多挖掘算法,本文將就其中的一些內容結合SQL Server Analysis Service應用實例加以闡述與說明,以加深對理論的理解,并逐步掌握此門學科所提供的更多技術。
總體來講,構建一個企業的決策支持系統主要有兩個階段,第一個階段是創建企業的數據倉庫,第二個階段是在數據倉庫的基礎上進行數據挖掘。這兩個階段的工作相輔相成,數據倉庫是基礎,數據挖掘是在數據倉庫之上的高層應用,兩者需要整體規劃、分步實施。下面分別就這兩部分內容結合實例加以闡述。
1 數據倉庫的規劃與設計
數據倉庫是一個面向主題的、集成的,時變的、非易失的數據集合,支持部門管理的決策過程,數據中的每一個數據單元在實踐上都是和某個時刻相關的。數據倉庫也被看作是某個組織的數據存儲庫,用于支持戰略決策。數據倉庫的功能是以集成的方式存儲整個組織的歷史數據,這些數據會影響到這個組織和企業的多個方面。數據倉庫的特點是:數據常常來自于多個數據源;其存放模式一致;駐留在單個站點;數據已經清理、變換、集成與裝載并定期刷新;數據量巨大。
數據倉庫構建方法同一般數據庫構建方法最大的不同在于數據倉庫的需求分析是從用戶的決策問題入手,其目的是直接針對問題的主題,而一般數據庫系統是以事務處理為出發點。下面結合具體實例說明數據倉庫的設計步驟。
1.1 確定用戶需求,為數據倉庫中存儲的數據建立模型
通過數據模型得到企業完整而清晰的描述信息。數據模型是面向主題建立的,同時又為多個面向應用的數據源的集成提供了統一的標準。
例如:FoodMart是一家大型的連鎖店,在美國、墨西哥和加拿大有銷售業務。市場部想要按產品和顧客分析1998年進行的所有銷售業務數據。該公司現在急需進行銷售方面的數據分析,以找到一些潛在規律來促進銷售業務的進一步拓展從而擴大銷售渠道、加大銷售量、提高銷售利潤、增強公司競爭力。該連鎖店銷售的產品總體上被分為若干個大類,細節上分為若干個小類;客戶廣泛分布于不同地區、不同國家。該連鎖店在銷售信息管理系統中長期保存并不斷更新著產品、產品分類、商店、銷售、促銷、客戶等記錄表,依次為:產品表(PRODUCT)、產品分類表(PRODUCT_CLASS)、商店表(STOR)、1998年銷售記錄表(Sales_fact_1998)、促銷表(PROMOTION)、客戶表(CUSTOMER)等。
FoodMart連鎖店保存并不斷更新的數據庫是事務處理型數據庫,其結構是面向應用而設計的。要進行數據挖掘就必須建立面向主題的數據倉庫,為了進行1998年銷售方面的數據挖掘,要設計的數據倉庫必須以1998年銷售數據為主題,輔之以日期、產品、產品分類、商店、促銷、客戶等其它數據信息。具體來講,即創建以1998年銷售為主題的數據倉庫,采用星型/雪花模式構建事實表。
1.2 分析數據源,完成數據倉庫的設計工作
基于用戶的需求,著重于1998年銷售主題,開發數據倉庫中數據的物理存儲結構,即設計多維數據結構的事實表和維表。1998年銷售事實表包含5個維表和3個度量。這5個維表分別是日期、客戶、產品、促銷和商店維表,3個度量分別為銷售金額、倉儲成本、銷售單位。考慮到將來要根據顧客的年收入情況進行顧客會員卡種類方面的數據分析,另外增加了年收入維度(yearly income,取自于customer表)。為便于分析挖掘出有關時間因素的信息,特增加了時間表time。
1.3 生成物理的數據倉庫,并從各種源系統中獲取數據裝入數據倉庫中 在SQL Server Analysis Service manager中建立物理的數據倉庫可以通過ODBC數據源方式指定原有數據庫,再通過Microsoft OLE DB Provider for ODBC進行連接的方式完成原有數據庫到數據倉庫的映射。運用SQL Server Analysis Service manager提供的功能建立數據倉庫的多維數據集,指定此數據倉庫的度量值與維度,至此數據倉庫建立完畢。其中緯度與度量值如圖2所示。
2 數據挖掘
數據挖掘(Data Mining)又稱為數據庫中的知識發現(Knowledge Discovery in Database, KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。簡言之,數據挖掘就是從海量數據中提取隱含在其中的有用信息和知識的過程。數據挖掘可以幫助企業對數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,從而利用已有數據預測未來,幫助企業贏得競爭優勢。數據挖掘的方法是建立在聯機分析處理 (On Line Analytical Processing,OLAP)的環境基礎之上的。OLAP技術使數據倉庫能夠快速響應重復而復雜的分析查詢,從而使數據倉庫能有效地用于聯機分析。OLAP 的多維數據模型和數據聚合技術可以組織并匯總大量的數據,以便能夠利用聯機分析和圖形工具迅速對數據進行評估。當分析人員搜尋答案或試探可能性時,在得到對歷史數據查詢的回答后,經常需要進行進一步查詢。OLAP系統可以快速靈活地為分析人員提供實時支持。
數據挖掘工作是在完備地建立了數據庫、數據倉庫等數據集的基礎上進行的,典型的數據挖掘系統結構如圖3所示。
整個數據挖掘過程主要可分幾個階段,依次為:問題定義、數據預處理、數據挖掘以及結果的解釋和評估。
2.1 問題定義
問題定義就是要清晰地定義出業務問題,確定數據挖掘的目的。對于FoodMart連鎖店來說,它的問題定義就是:FoodMart連鎖店的市場部想增加客戶滿意度和客戶保有率,于是實行了創造性的方法以達到這些目標。
其方法之一是對會員卡方案重新進行定義,以便更好地為客戶提供服務并且使所提供的服務能夠更加密切地滿足客戶的期望。
為了重新定義會員卡方案,市場部想分析當前銷售事務并找出客戶人口統計信息(婚姻狀況、年收入、在家子女數等等)和所申請卡之間的模式,然后根據這些信息和申請會員卡的客戶的特征重新定義會員卡。
2.2 數據預處理
最初為數據挖掘所準備的所有原始數據集通常都很大,它們當中存在許多臟數據。造成臟數據的原因主要源自于收集與傳送過程的錯誤、濫用縮寫詞以及不同的慣用語、重復記錄、數據輸入錯誤、拼寫變化、不同的計量單位、過時的編碼、集成時的空值與丟失值以及不同的數據源等。臟數據主要有以下一些表現形式:
(1)數據不完整。表現為:感興趣的屬性缺值;缺乏感興趣的屬性;僅包含聚集數據等。例如:CUSTOMER表中的LNAME=“”
(2)數據噪聲。即包含錯誤的屬性值或存在偏離期望的孤立點值。一個屬性的值與事實完全不吻合的情況,例如:CUSTOMER表中的在家子女數num_children_at_home=200
(3)數據不一致。數據不一致表現為多種情況,比如:同樣的屬性在不同的結構里使用不同的名字,例如:name、xm;不同數據使用的計量單位不同,例如:100(美元)、100(美分);數據不允許為空的地方數據為空等。
如果在臟數據上進行數據挖掘將很可能導致錯誤的判斷甚至完全相反的分析結果,也就是說,沒有高質量的數據就沒有高質量的挖掘結果。由于決策質量依賴于數據質量,因此需要在數據挖掘之前進行數據預處理,以保證數據倉庫內包含的是高質量的、一致的數據。所謂數據預處理其實就是對數據倉庫中的數據進行提取、清理、轉換,從而保證數據的高質量,具體來講包括以下幾種操作:
(1)數據清理(data cleaning)。就是去掉數據中的噪聲,糾正不一致;填寫空缺值,平滑噪聲數據,識別、刪除孤立點。例如:將CUSTOMER表中的在家子女數num_children_at_home=200的記錄值刪除掉或填入平均值1。
(2)數據集成(data integration)。將多個數據源中的數據合并存放在一個統一的數據存儲(如數據倉庫、數據庫等)中,數據源可以是多個數據庫、數據立方體或一般的數據文件。
(3)數據變換(data transformation)。即數據的標準化與聚集,將數據變換成適于挖掘的形式。例如:屬性數據可以規范化,使得它們可以落入某個小區間。
(4)數據歸約(data reduction)。數據歸約技術可以用來得到數據集的歸約表示,它接近于保持原數據的完整性,但數據量比原數據小得多。與非歸約數據相比,在歸約的數據上進行挖掘,所需的時間和內存資源更少,挖掘將更有效,并產生相同或幾乎相同的分析結果。數據歸約主要通過數據聚集(如建立數據立方體)、維歸約(如刪除不相關特性)、數據壓縮(如最短編碼)、數字歸約(用較短的表示替換數據)、概化(去掉不用的屬性)等方法完成。例如,對于FoodMart連鎖店的數據挖掘來講,CUSTOMER表中的address1、address2、address3、 address4這4個屬性與挖掘目標無關,所以可以將它們刪除掉以節省空間和時間。
2.3 選擇挖掘模型,進行數據挖掘
根據數據挖掘的目標和數據的特征,選擇合適的挖掘模型,在凈化和轉換過的數據集上進行數據挖掘。
FoodMart連鎖店的工作設想是:對會員卡方案重新進行定義,以便更好地為客戶提供服務并且使所提供的服務能夠更加密切地滿足客戶的期望。市場部想分析當前銷售事務并找出客戶人口統計信息(婚姻狀況、年收入、在家子女數等)和所申請卡之間的模式,然后根據這些信息和申請會員卡的客戶的特征重新定義會員卡。
對于這個工作預期,決定采用決策樹的數據挖掘方法進行客戶群的分析。所謂決策樹,就是在對數據進行決策分類時利用樹的結構將數據記錄進行分類,其中樹的一個葉結點就代表符合某個條件的屬性集,根據屬性的不同取值建立決策樹的各個分支,隨后遞歸地構造每個子節點的子樹。由于決策樹結構簡單便于人們認識與理解,以及決策樹不需要額外的數據訓練,因此,決策樹是數據挖掘中常用的一種分類方法。
本實例采用“Microsoft 決策樹”算法在客戶群中找出會員卡選擇模式。按照以下步驟完成“決策樹”挖掘模型:
(1)將要挖掘的維度(事例維度)設置為客戶;
(2)將 Member_Card 成員的屬性設置為數據挖掘算法識別模式時要使用的信息;
(3)選擇人口統計特征列表(婚姻狀況、年收入、在家子女數和教育程度),算法將據此確定模式;
(4)處理訓練模型,瀏覽決策樹視圖并從中讀取模式。
經過處理后,挖掘模型瀏覽器展現出一棵深度為3、寬度為8的決策樹,此瀏覽器將根據用戶對樹中不同分支節點的選擇顯示出相應的統計信息。
例如,選擇根節點“全部”顧客的方框后顯示信息如圖4所示。
在圖中可以看到數據挖掘的結果:將客戶按照年收入的不同分為8個區段(類),涉及的客戶總數為7 632人,通過直方圖可以直觀地看到辦理金、銀、銅、普通卡的比例。
選擇年收入在$30K-$50K的范圍框后,挖掘模型瀏覽器的顯示信息如圖5所示。
年收入在此范圍內的客戶共計1 362人,其中辦理金、銀、銅、普通卡的數量和比例通過合計及直方圖可以一目了然。
其它選項依此類推。
對年收入在$150K以上的范圍節點進行進一步分級(顯示其子節點),選擇已婚節點后顯示信息如圖6所示。
其它選項依此類推。
2.4 解釋模型結果分析
針對FoodMart商店的舉措,對挖掘模型瀏覽器的顯示結果進行研讀后得出這樣的結論:年收入越高的顧客辦理金卡、銀卡的比例越高,收入越低的顧客辦理普通卡和銅卡的比例越高。在高收入的顧客中,已婚者辦理金卡的比例最高,單身者辦理銀卡的比例最高。在較低收入的顧客中,在家子女的人數少于兩人的辦理銅卡的比例較高,多于兩人的辦理金卡的比例較高。具體數據值及比例值可以從挖掘模型瀏覽器中得到。市場部將根據這些模式設計新的會員卡,使其適應申請各類會員卡的客戶類型。
3 結語
企業要建立自己的決策支持系統就必然要應用數據倉庫、數據挖掘技術,企業應根據自身要求合理建立特定主題的數據倉庫,在此基礎上還要結合實際問題選擇相應的挖掘模型,從而得到最有價值的挖掘分析結果,以利于企業的經營發展。
參考文獻:
在大數據(Big Data)時代,隨著技術的發展,數據倉庫已包含提取、清洗、集成數據并將數據交付給決策者的完整生態系統,包括提取-轉換-加載 (ETL) 和商業智能 (BI) 功能。數據倉庫在捕獲所有形式的企業數據,以及在其后準備這些數據供全企業決策者使用的過程中,起到非常廣泛的作用。
大數據與數據倉庫的異同
大數據時代的到來,確實對傳統的數據倉庫認知產生了重大的影響。什么是大數據?大數據的“大”實際上并不是最令人關注的特征。大數據是很多不同格式的結構化、半結構化、非結構化和原始數據,在某些情況下看起來與過去 30 年來我們存儲在數據倉庫中清一色的標量數字和文本完全不同。從另外一個角度來講,小數據比較簡單,有比較成熟的技術應對它。大數據是多種類型數據的組成,需要使用多種技術對待它。每一個識別和監測它的手段和方法是不一樣的。
然而,很多大數據不能使用任何類似 SQL 這樣的工具進行分析。對于企業及應用來說,數據倉庫應用更加有效。兩者并不形成替代,特別是銀行業等行業里面,更多的是互為補充。
數據倉庫的技術特點
被稱為數據倉庫之父的BillInmon在其著作《(Building the Data Warehouse))一書這樣描述:數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化(Time Variant)的數據集合,用于支持管理決策??梢詮膬蓚€層面對數據倉庫的概念進行理解,一是數據倉庫是面向分析處理的,主要用來支持決策制定;二是數據倉庫包含歷史數據,是對多個異構的數據源數據按照主題的集成,它的數據相對固定,不會經常改動。
面向主題的:數據倉庫的數據都是按照一定的業務主題進行組織的,面向主題體現在數據倉庫的建設中,而且還包含在業務數據分析和存儲上。
集成的:數據倉庫中的數據來自各個不同的分散數據庫中,它并不是對源數據庫數據的簡單拷貝,而是按照劃分好的主題和數據分析要求,經過數據抽取、清理、匯總和整理等步驟,消除源數據中的錯誤和不一致的數據,保證數據倉庫中數據的正確性和可用性。所以,它是整合集成的。
相對穩定的:數據倉庫的穩定性體現在它的非易失性上,由于數據倉庫是面向分析的,其中的數據是從業務數據中加載過來的歷史數據,所進行的主要操作是查詢和分析,供決策分析使用,所以其修改和刪除操作很少,只需要定期的增量加載,所以具有相對穩定特征。
反映歷史變化:數據倉庫必須能夠不斷地捕捉業務系統中的變化數據,記錄企業生產過程的各個階段的信息,以滿足決策分析的需要,所以必須實時地把新變化的業務數據追加到數據倉庫中去,通過數據隨時問變化的研究和分析,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
選擇實施方法
企業級數據倉庫的實現通常有兩種途徑:一種是從建造某個部門特定的數據集市開始,逐步擴充數據倉庫所包含的主題和范圍,最后形成一個能夠完全反應企業全貌的企業級數據倉庫;另外一種則是從一開始就從企業的整體來考慮數據倉庫的主題和實施。前一種方法是各個擊破,投資少、周期短且易于見到成果,但由于該設計開始時是以特定的部門級主題為框架的,向其他的主題和部門擴充往往非常困難。而后一種方法恰恰相反:投資大、周期長,但是易于擴展。
以哪種方法進行實施,主要取決于各個行業和客戶的實際情況。如電信和銀行業,采用第二種方法比較可行,這是因為這兩個行業業務發展變化快,為了能夠適應將來的變化,整個數據倉庫架構必須是可擴展的和易于維護的。如果只是基于部門級的需求去設計,將來肯定無法適應變化。如果重新設計,勢必造成前期投入的浪費。對其他一些行業,如制造業和零售業,本著“急用先行”的原則,可以先從某一局部入手,慢慢擴展為數據倉庫。
從技術上講,以部門需求作為主要考慮因素建立的系統,它的數據量不會太大,會影響對將來數據膨脹風險的正確估計,當數據集市擴展到企業范圍的時候,由于原有技術無法支撐新的數據規模,會造成數據裝載和數據分析速度的降低,甚至達到不可用的地步。企業級的數據倉庫會涉及更多的額業務系統,只有充分研究各業務系統,才能了解如何對不同格式、不同標準、不同接口的數據進行集成。
當然,對于第二種方法,也不是說把攤子鋪的越大越好。合理的做法是“統籌規劃,分步實施”。根據業務需求,把業務的主要方面都涵蓋進去,確定彼此之間的聯系;對于次要的需求,可以預留一些接口,以備將來細化。否則,如果整個調研周期拖得太長,等進入實施階段,業務又發生變化,不得不重新修改設計,同樣會造成浪費。
所以,先搭建好一個易于擴展且穩定的架構,在此基礎上逐步實施,是一個兼顧長遠發展與合理投入的最佳方式。此外,分步實施還可以減少風險:前一階段的經驗教訓可以為下一階段提供有益的借鑒,從而使得數據倉庫的建設不斷完善,不斷發展。
結合先進技術 從業務需求出發
和其他的應用系統相比,數據倉庫對于需求分析和系統設計等前期工作要求更高,其重要性也更加突出??梢哉f,分析和設計階段決定了數據倉庫最終的失敗。因為需求不明確、設計不合理造成的根本性缺陷是以后實施階段所無法彌補的。因此在分析和設計階段,對相關的業務部門和技術部門要進行詳細的調研,在用戶和開發人員之間的迭代和反饋是必須和重要的,它決定了數據倉庫最終的成功與否。
由于數據倉庫是面向業務分析的,所以最主要的需求應該從業務部門獲取和收集,因為數據倉庫最終是要服務于業務部門的。需求抓的不準,導致將來將無法解決業務部門的問題,這個數據倉庫項目就是失敗的,技術再先進也沒有用。這是衡量數據倉庫成敗與否的唯一尺度。
實施的過程中,最好能夠把行業專家的經驗,與企業現有的需求進行整合,以期得到一個更加全面的需求范圍,有利于適應將來業務的變化和擴展。
從技術角度來講,必須建立一個可伸縮、可擴展、高性能的數據倉庫平臺,才能為將來不斷的完善、不斷發展打下一個良好的基礎;由于數據倉庫項目要涉及多個業務系統,數據量非常龐大,所以本身的投入也是很大的,在保證系統高效穩定的前提下,盡量降低成本是非常重要的。
相關鏈接
數據倉庫的類型
根據數據倉庫所管理的數據類型和它們所解決的企業問題范圍,一般可將數據倉庫分為下列3種類型:操作型數據庫(ODS)、數據倉庫(Data Warehouse)和數據集市(Data Mart)。
操作型數據庫(ODS)
既可以被用來針對工作數據做決策支持,又可用做將數據加載到數據倉庫時的過渡區域。與 DW 相比較,ODS 有下列特點:ODS 是面向主題和面向綜合的;ODS 是易變的;ODS 僅僅含有目前的、詳細的數據,不含有累計的、歷史性的數據。
數據倉庫(Data Warehouse)
此種數據倉庫被用來進行涵蓋多種企業領域上的戰略或戰術上的決策。數據倉庫是為企業所有級別的決策制定過程提供支持的所有類型數據的戰略集合。它是單個數據存儲,出于分析性報告和決策支持的目的而創建。
關鍵詞:數據倉庫; 設計; 數據模型; 數據采集; 應用案例
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1009-3044(2015)05-0025-02
1 引言
數據倉庫的設計是指導數據體系建設,打破信息孤島,實現企業信息數據共享的重要環節。它能夠實現應用與數據分離,實現數據從部門到企業的提升,建立數據轉換為價值的體系,讓數據發揮出企業核心資源的效用,從而最終實現數據的增值[1]。
隨著企業快速發展與各類信息化系統建設的深入開展,某發電集團出于自身對于信息化發展的需求,按照企業信息化規劃所確定的“頂層設計、統一規劃”和“試點先行、分步實施”的建設原則,開展了數據倉庫系統方案和數據體系規范的設計工作。這其中所涉及的核心和關鍵環節在這里與大家展開研究和探討。
2 數據倉庫的設計
2.1 數據倉庫設計的總體要求
數據倉庫是在企業應用系統建設基礎上,為了進一步挖掘數據資源、為了決策支持需求而建設。它實現跨層級的數據抽取和共享。將企業各個應用系統的數據進行統一抽取,實現跨層級應用系統的數據抽取和共享[2],它為企業上層的BI應用提供數據源。數據倉庫作為BI系統的數據輸入源,其作用是提供不同分析主題的數據模型和數據統計,確保企業層面數據的完整和統一。
某發電企業的數據倉庫項目作為一期試點建設,項目設計的重點要求考慮如下:
1)搭建可線性擴展、高性能、易管理的數據倉庫平臺。由于數據倉庫的基礎性和穩定性,通過項目搭建全企業統一的數據倉庫平臺,其建設不僅需考慮企業本期數據采集的數據存儲量,還應重點從數據倉庫未來的發展定位與要求來考慮搭建方案。
2)設計全面、合理、穩定的數據倉庫模型。數據倉庫數據模型是數據倉庫建設的核心工作之一,數據倉庫中各層級(整合層、匯總層)的邏輯數據模型和物理數據模型,應滿足企業基于數據主題的數據存儲需要。
3)以分析模型作為需求驅動,設計實用、清晰合理的數據集市多維模型。基于數據倉庫數據模型,以分析模型作為需求驅動,設計試點業務域的數據集市數據模型,使其具備實用、清晰合理的特點,并能在建設過程中不斷驗證、完善、優化與拓展,滿足業務分析與設計的需要。
4)以企業已建的數據總線平臺為手段實現相關數據主題的數據采集與共享服務。數據倉庫建設主要目的為滿足數據共享與綜合分析需求,核心內容為數據資源,項目建設重點就必須以企業數據總線平臺,實現系統間的數據集成工作。同時,借助數據總線平臺的應用集成功能,實現數據共享的服務化管理。
2.2 總體架構設計
企業數據倉庫設計建設應體現“數據與應用分離、數據為應用服務”的理念,基于開放性與先進性、活性與可維護性、可擴展性與可伸縮性、安全性與可靠性、可用性和容錯能力、準確性與實時性、易用性和完整性等原則開展數據倉庫的總體架構設計。
1)總體架構
數據倉庫的總體架構是數據體系總體框架內細化設計,是整個企業的數據倉庫總體架構,它包括支撐平臺層、數據源層、數據集成層、數據存儲層、數據管理層、數據應用層、數據展現層共七層,以及數據安全保障體系、數據標準規范體系。
其中數據存儲層的設計根據企業的實際情況設計為三個部分組成,包括了操作型數據存儲層(ODS)、數據倉庫層(DW)、數據集市層(DM)。DW作為所有分析功能的單一數據源。ODS身兼二職,一方面保持與源系統的業務數據同步以滿足一些實時性應用的數據需求,另外作為數據加工區為倉庫提供數據加工服務。DM作為最終的前端分析、報告提供支持數據集市的數據是面向最終應用的,比如財務分析。數據集市的數據基于數據倉庫之上進行匯總加工而成[3]。
2)技術架構
根據企業對數據倉庫的實際應用分析技術架構設計采用分布式計算架構、基于MPP結構的并行計算數據庫系統進行數據倉庫平臺構建。
技術架構中展示層將采用“富客戶端”技術,減輕服務器的負擔,無刷新更新頁面,提高用戶體驗,方便用戶操作。
控制層負責接收來自于展示層的請求,驗證請求的數據,調用相應的業務邏輯進行數據處理,并將處理結果返回給展示層。包括了數據驗證、日志處理、安全認證、權限驗證、緩存處理、流量控制等功能。
業務處理層接收控制層傳來的指令,負責加工和處理業務數據,如果處理成功則更新數據存儲內容,如果處理失敗則回滾事務,并將處理結果返回給控制層。
企業信息系統層是系統正常運行的基礎模塊,系統采用統一權限管理,統一消息管理,統一工作流平臺,統一日志管理,統一報表平臺等。
2.3數據模型設計
數據模型是數據倉庫的核心,一個完整、靈活、穩定的數據模型對于數據倉庫的成功起著重要的作用。數據模型設計一般遵循統一規范化原則、可擴展性原則和高效性原則開展。在這部分的設計中我們按照以下思路來開展:
1)遵循數據模型設計方法論。在數據倉庫及數據集市模型設計中,通過對企業業務的詳細分析與理解,針對業務特點,我們選用了維度建模方法,設計了合理的分析維度表和事實表模型。
2)立足企業的現有信息化環境。數據倉庫是管控的基礎,而數據模型是決定數據倉庫質量的關鍵因素。數據模型必須以實際需求為牽引,滿足管控功能要求,從而支撐決策分析、經營管理、綜合管理與專業生產管理的需求。
3)實現項目階段目標。數據倉庫當期選取財務主題分析為本期項目實施切入點,就應該詳細分析了財務主題的業務需求,對主題進一步細化并設計相應的維度分析模型。
基于這些分析主題域建立相應的維度分析模型。在建模中,就可以確定ODS模型存貯的數據,其中如圖3的財務分析域主要來自財務主題域的分析成果。
2.4數據管理體系設計
數據管理體系包括管理目標、管理內容、管理環節、保障體系、管理工具五方面內容。本設計的核心內容是數據質量、數據安全、數據標準、基礎數據管理,從組織、標準、規程、技術四個方面構建完整的數據管理體系,對數據采集、傳輸、存儲、應用全生命周期進行管理。
圖4 數據管理體系設計圖
數據管理內容包括數據安全管理、數據質量管理、數據標準管理和基礎數據管理四部分內容。其中,圖4中數據標準管理是為全面加強企業數據管理,適應全公司數據集中管理與應用的需要,要結合企業數據管理需求,制定數據管理規范和技術技術標準。企業數據安全管理應該是整個企業信息化安全體系的一個組成部分,在整體安全體系規劃下建設數據安全系統。數據安全管理主要包括安全管理體系、安全架構、認證管理、容災備份管理等內容。
2.5數據采集與應用集成實踐
系統集成與數據采集是數據倉庫建設的核心工作內容,與數據填報共同組成數據倉庫數據收集的通道。通過對企業數據集成現狀的分析和數據采集與實施需求的理解,此次數據采集與實施的設計思路是以需求為驅動,充分考慮利用統一數據總線平臺現有資源,沿用企業數據標準,并采用閉環的采集流程設計,滿足該發電企業數據倉庫建設中的數據集成需求[4]。
通過業務系統分析,近年來,該發電企業先后建設了綜合計劃、綜合統計、股權管理、對標管理等業務管理系統,使得業務管理與信息技術的融合不斷深化;同時還開展了集團ERP系統、主數據管理系統、燃料管理系統等信息系統的實施與應用。
根據數據倉庫建設要求,系統集成主要實現數據集成和應用集成,其中數據集成主要實現各業務系統與數據倉庫之間的數據交互,包括數據倉庫從業務系統采集業務數據、業務系統從數據倉庫獲取其他行業或業務域的共享數據、分析系統從數據倉庫獲取分析數據;應用集成主要實現各業務系統之間直接進行數據交互的場景,即實現各組織層級應用系統之間的業務流程數據交互。
3 結論
總之,企業數據倉庫作為企業信息化的基礎技術平臺,是在企業應用系統建設基礎上,為了進一步挖掘數據資源、為了決策支持需求而建設。在其設計中應充分圍繞項目的業務需求分析、數據模型需求分析、功能需求分析和性能需求分析等方面開展。以實現以實際企業業務需求為導向,搭建企業數據倉庫,充分挖掘與發揮數據應用價值,構建橫向融合、縱向貫通的應用集成體系,最終為企業實現全面的綜合分析系統建設奠定堅實的數據基礎。
參考文獻:
[1] 李於洪. 數據倉庫與數據挖掘導論[M]. 北京: 經濟科學出版社, 2012.
[2] 袁文禮. 基于數據倉庫技術設計與實現的科技數據管理系統[J]. 電腦知識與技術, 2014(10).
關鍵詞:數據庫 數據倉庫 決策支持系統
數據倉庫(Data Warehouse)是在當前已存在大量數據庫的前提下,為了進一步分析數據而產生的。本文通過調查當前高校的實際情況,嘗試提出一套成熟、低價、高質的部署方案,用以提高數據倉庫架設的成功率并減少相應的投資,從而提高當前高校師生信息的管理與評判效率。
一、高校部署數據倉庫的意義與目的
當前高校的各個部門,幾乎都需要相應的數據庫保存師生的各類信息數據。而高校引入數據倉庫技術,可以加強對教師工作的考核評估,以及對學生成績的管理分析。高校數據倉庫的架設主要實現以下目的:
1.從不同種類的數據源收集數據。當前高校各部分數據儲存混亂,難以整合,數據倉庫的建立可以支持從這些不同的數據源收集數據,加以管理。
2.能夠有效地獲取當前和歷史數據。數據倉庫不但可以對當前數據進行分析,對于長期儲存的歷史數據同樣可以進行有效的管理。
3.建立人性化的決策支持系統(Decision Support System)。數據倉庫的建立是為了對數據進行分析,所以數據倉庫是高校建立有效的決策支持系統的基礎。
二、高校數據倉庫結構設計
為降低高校數據倉庫架設的風險,應選用成熟的數據倉庫基礎結構,使用Sybase IWS (Industry Warehouse Studio)可提供完善的解決方案。根據當前高校機構設置情況,數據倉庫的架設結構如圖1所示。高校數據倉庫架設的是以數據倉庫技術為基礎,以BI和DSS工具為手段的一整套解決方案,其結構主要應由以下三部分組成。
1.數據源。將當前高校各部門繁雜無序的數據利用一定方法提取、整合,再結合未來高校發展的需要建立數據庫邏輯模型,然后在此基礎上構造物理模型。
2.數據管理分析(DW、BI、DSS)。這部分是數據倉庫的核心,采用并行處理的關系數據庫管理系統,對集成的數據進行分析處理。
3.用戶訪問。這部分為可交互的前端圖形用戶界面,用戶可根據職務授予不同的訪問權限,對數據倉庫中的信息進行調取。
由于當前高校所需的數據管理任務沒有大型企業的復雜,所以在硬件層面的投資不必過大,可以使用一臺IBM小型機作為應用服務器和WEB服務器。開發軟件方面,由于采用Sybase IWS平臺,可使用Power Designer對當前高校所需的管理信息系統進行分析設計,結合PowerBuilder數據庫設計軟件來達到縮短開發時間和優化系統的目的。
三、高校數據倉庫架設可行性評估
雖然數據倉庫的建立對高校管理決策有著十分重要的意義,但在架設初期為了明確實施方案、避免盲目投資,應對以下幾個方面進行規劃評估。
1.數據整理搜集。數據倉庫最終能否成功架設并成為高校決策的有利工具,取決于能否完整搜集整理當前繁雜的用戶數據。推薦使用執行效率較高的Star Schema數據設計思路,對數據表進行重新劃分。
2.系統安全性。作為高校信息系統的一部分,數據倉庫的安全性也是必須重視的一個關鍵點。最終用戶需要建立分級機制,以便實現不同的操作權限。
3.投資與回報。數據倉庫的架設不單是IT技術方面的問題,也需要精確的控制投資預算,才能夠確保項目不會因為資金使用不當等問題而最終流產。
總之,數據倉庫的架設使高校能夠快速步入信息化軌道,有效提高校內決策的效率與準確性。本文通過對數據倉庫技術的分析,闡述了一套高效的、低成本的高校數據倉庫架設方法。需要說明的是,在實際架設過程中仍會遇到很多不可預見的問題,這就需要對現實情況中的高校數據結構進行更詳細地分析規劃,最大限度地降低數據倉庫部署風險。
參考文獻
近年來,隨著信息化建設的不斷推進,農信社已經積累了大量的歷史數據,但是這些數據卻被埋藏在計算機系統中未被加以利用,存在“數據豐富,信息貧乏”的數據囚籠現象。隨著大數據時代的到來,如何充分挖掘和運用好這些規模龐雜、充滿價值的海量數據,成為農信社能否在大數據時代獲得核心競爭力的重要課題。
路徑探析:數據倉庫破解數據管理難題
“大數據”時代,將海量數據管理好、運用好,將是農信社面臨的重大考驗。而數據倉庫的六項價值“能快速、及時、方便、準確而安全地訪問整合過的數據”恰恰符合大數據時代要求。數據倉庫是支持管理決策過程的、面向主題的、集成的、動態的、連續的數據集合。它不是數據的簡單堆積,而是從容量龐大的業務處理型數據庫中抽取數據,并將其清理、轉換為新的存儲格式,即根據決策目標將存儲于數據庫中對決策分析所必需的、歷史的、分散的、詳細的數據,經處理轉換成集中統一的、隨時可用的信息。
從目前農信社的信息建設及數據管理現狀看,建設數據倉庫具有重要的現實意義。
第一,有助于了解自身的經營狀況。農信社高效、安全經營的前提和基礎就是其決策者對自身經營狀況有一個全面的了解和認識。數據倉庫系統為我們及時、準確、全面地掌握自己的資產負債數量及其分布、頭寸調度情況、信貸資產分布情況、客戶的信用情況等,提供了必須的服務手段和有力的技術支撐。
第二,有助于進行市場細分,進而開發新產品,拓展新市場,獲得“深度效益”。對農信社而言,客戶就是資產,客戶就是價值,客戶就是發展的源動力。分析客戶個性化需求,提供滿意的客戶服務,是提高市場占有率、獲得最大利潤的關鍵。然而如何將我們擁有的百余萬客戶進行細分,從而設計大量定制化的產品或服務呢?只有通過以客戶為中心的決策支持系統,才能使用科學的方法實現個性化服務。建設數據倉庫后,系統中存放著每一位客戶同銀行往來的詳細的歷史交易明細數據,對客戶有統一的規劃,能幫助我們以科學的手段快速地分析、模擬和預測客戶的個性化需求,進而設計符合客戶需求的產品或服務。
第三,有助于經營管理和決策支持。任何企業經營管理方案的確定和未來戰略決策的產生,都要以對現實的分析和對未來的預測為基礎,都要以準確的數字為依據。借助數據倉庫系統,能進行不同業務產品的盈利性分析和風險性分析,因此數據倉庫系統為商業銀行提供了綜合不同運行平臺上的業務數據,并結合外部信息匯集在一起萃取出銀行策略的途徑。建設銀行從2005年開始啟動數據倉庫建設,至2012年已完成第五期項目工程建設。建行的數據倉庫系統數據模型整合了63個源系統數據,部署運行了50多個獨立應用服務,并向20多個下游系統提供數據支持。通過建設數據倉庫,建行整合了全行數據資源,建立統一的數據質量監控體系,為全行客戶分析、監管合規、財務績效、運營管理、風險管理提供了有力的支撐。
第四,有助于科學配置各類資源。利用數據倉庫系統,農信社可以有效地對內部的各種資源(如人力資源、網點資源、產品資源、物質資源等等)進行科學調配,以盡可能地達到資源的最優化配置,使現有資源發揮出最大的效能。例如,我們可以根據網點每日的業務量及業務種類,合理配置人員、柜臺數量、ATM數量等??梢酝ㄟ^數據模型分析每臺ATM設備的投放效益,結合歷史數據分析制定ATM設備備付金的存放額度,優化提高備付金利用率。
付諸行動:農信數據倉庫的建設路徑
建設數據倉庫是一個長期的、持續的過程,不可能一蹴而就,需要在合理的整體規劃和科學的體系架構基礎上,分階段分步驟地實施。例如廣發銀行啟動大數據實施戰略之后,先請咨詢公司進行了為期9個月的數據標準化咨詢項目,對全行的數據標準進行規劃、梳理并初步建立數據管控框架體系,為后續的數據倉庫建設掃清障礙,鋪平道路。
農信社數據庫建設首先要確立階段劃分原則:一是確立以業務價值為導向的原則。建設數據平臺的根本目的是為了業務發展更加順暢,信息更加透明,管理更加精細,而不是為了建平臺而建平臺,因此每個階段都必須包含其業務價值。二是確立從技術導向轉變為業務導向的原則。數據平臺的初期,涉及大量的基礎技術平臺的搭建,而中期必須轉變這種狀態,以業務應用、專題集市為主要建設內容。三是確立“養育數據”原則。數據平臺數據的積累包括兩個方面:深度(時間的積累)、廣度(數據源的積累),需要按重要程度,分批接入數據平臺。
一是通過批量的方式從生產系統數據庫抽取數據,通過數據模型的整合,消除分布在不同系統間的數據沖突,并從企業級角度構建數據唯一視圖;二是通過一次性的加工,根據整體業務需要,對數據進行匯總并計算出指標,為所有營運系統提供一致化的所有數據,既避免了各營運系統的重復計算,減少整體的處理時間,也保證了各個營運系統指標的一致。三是基礎數據平臺通過批量總線從所有生產系統的數據庫抽取數據進行加工處理,也通過批量總線向營運系統提供加工結果數據。
關鍵詞:數據倉庫;水文數據;邏輯模型;價值挖掘
水文數據在水利行業數據中占有重要位置,它通過水文測驗收集各種水文要素的原始記錄,經過統一的標準和規格,整理成簡明、系統的水文數據及數據庫。新世紀以來,水文遙感、水文示蹤、地理信息系統和云計算等新技術的快速發展,為深入挖掘水文時間、空間變化規律提供了技術可能。借助于神經網絡、決策樹方法、統計分析方法等,再配合前端數據可視化技術,讓我們可以有目的、有組織地去發現水文數據內在的規律和價值,提供面向主題的快速數據分析、預測預報等功能,實現支持決策和服務社會的目標。
1需求分析
水文數據按決策、服務對象和適用范圍可分為通用數據庫和專用數據庫,原始實測數據是基礎。通用數據庫主要存儲歷年基本水文數據,如簡單加工數據、資料整編后的數據等,為社會各行業和其他用戶提供基礎服務。專用數據庫主要存儲實時數據、二次加工處理和分析計算數據,為政府、水利專業和特定用戶提供服務,如水文情報預報專用庫、工程水文計算專用庫等。水文原始實測數據本身難以滿足復雜多樣的水文決策和服務需求,需要充分利用數據挖掘技術對水文數據進行分析和發現,提取出在水資源管理、防災減災等經濟社會科學發展方面有用的信息。
1.1洪水周期性
洪水由自然和人為因素共同作用形成,洪災是我國發生頻率高、危害范圍廣、對國民經濟影響最為嚴重的自然災害,亦是威脅人類生存的十大自然災害之一。以貴州省遵義市為例:2015年汛期共出現暴雨過程18次,造成12個縣(市、區)77個鄉(鎮)遭受不同程度的洪澇災害,受災人口12.6656萬人,損壞房屋226間,農作物受災面積8.471萬畝,直接經濟損失12888.305萬元。面對洪災造成的巨大損失,只有了解洪水、掌握洪水、利用洪水,才能把損失降到最低。通過對洪水周期性的研究,從水文序列數據中找出洪水重復出現的概率和路徑,進而對洪水進行預測預報預防。
1.2水文相似性
水文相似性是指找出與給定序列最接近的其它水文序列。找出與給定序列相似的所有數據序列稱為子序列匹配,找出彼此間相似的序列稱為整體序列匹配。查找水文序列相似性就是要在水文序列中,找出各類相似的子序列??捎糜诤樗^程預測、環境演變分析、水文過程規律分析等方面,最為直接的支持決策應用,如:防汛指揮中“當前洪水相當于歷史上哪一次洪水?”。
2水文數據倉庫模型設計
2.1總體結構
水文數據主要表現為水文時間序列,水文數據倉庫由水文時間序列元數據集合而成,按對象的主題要求形成水文基本數據層,隨時間變化轉為歷史數據,通過對歷史水文數據集合進行分析,建立單一或者一組模型,由所建立的模型對新數據集合的可能行為做出預測預報。水文數據倉庫模型設計采用三層結構體系,由倉庫數據庫服務器、OLAP服務器和前端客戶層組成。
2.2邏輯模型
基于星形模式組織的多維數據模型適用于面向預測預報的水文數據模型,水文數據倉庫包含1個事實表(即一個大的中心表)和5個維表(即附屬表)。事實表中包含時間、行政區劃、流域、河流、地理信息5個維表和降雨量、水位、流量、水溫、含沙量等屬性。其中,每個維表包含1組由底層映射到一般高層的屬性概念,如行政區劃維表由屬性省、市、縣形成一種層次,即:省-市-縣;地理信息維表由屬性地形、地貌、地質形成一種層次,即:地形—地貌—地質。水文數據倉庫星形邏輯模型如圖2所示。建立邏輯模型后,其中的水文數據是隨著時間變量動態變化的,降水量、水位、流量、水溫等會有不同的變化,實際操作中,可根據不同預測預報模型的應用需求,采取不同的數據分析方式。若對河道來水量進行預報,就要重點考慮水位、流量等屬性在空間維度上的變化情況,以及河流上游、下游一定距離間的水位、流量相關關系,建立對應函數關系。若做中長期水文預報,就要對各水文測站的歷史數據在多層次的時間維度上,根據所建立的回歸分析函數,選擇合適的預報因子進行分析。若對降雨徑流過程進行預報,就需要對流域的全面屬性,如降雨、徑流量、地理信息等在時間維度和屬性維度上進行多維立體分析,得到模型對應函數關系,確定計算參數,進行計算和驗證。
2.3創建數據倉庫
2.3.1元數據庫
在水文數據倉庫中,定義倉庫對象的水文監測數據就是元數據。在水文時間、空間信息中用于描述水文數據集的內容、質量、表示方式、空間參考、管理方式以及數據集的其他特征。由目錄信息和詳細信息兩個層組成。
2.3.2創建水文數據倉庫
數據庫水文數據倉庫數據庫可以在關系數據庫中按照通用的建立數據庫的方法進行創建。把水文數據倉庫數據庫中設計的表創建好,數據類型依據原始數據庫中的各個表和字段的數據類型設置。將從業務系統或外部系統中獲得的數據,轉換和清洗成數據倉庫需要的格式和形態,并在規定的時間內裝入數據倉庫。
2.4水文數據分析
水文數據通過聯機分析處理可以用不同的格式組織和提供數據,以滿足水文數據分析的需求?;诙嗑S數據模型,通過分析對象主題來對數據進行組織,并根據需求添加不同的數據集市的數據。其結果可以作為簡單數據挖掘的結果,也可以作為深度數據挖掘需要的預處理數據集合。
3結語
由于水文數據量大,影響預測的因素多,相比傳統的水文預測方法,數據挖掘技術可以智能地從大量的、不完全的、有噪聲的、模糊的數據中提取出有用信息,建立起誤差小、精度高的水文預測模型。利用數據倉庫從歷史數據中挖掘水文現象所隱含的價值,完全可以滿足水文決策和服務的需求,但是水文數據倉庫模型的應用也需要我們在實踐中反復的試驗和驗證,根據河流的不同特性,找到符合實際的參數設置,最終得到接近真實的預測預報結果。
參考文獻
[1]艾萍,宋海波,馮鵬.一種支持水文信息組織數據倉庫的模型[J].信息技術,2013,27(07),27-30.
[2]尹濤,關興中,萬定生.數據挖掘技術在水文數據分析中的應用[J].計算機工程與設計,2012,33(12),4721-4725.
【關鍵詞】港口 數據倉庫設計
數據倉庫是一個新的概念,數據倉庫的設計能夠明確任務的主題,對港口的數據進行統一全面的概括,保證數據的更新、可靠。能夠實現當前與歷史數據的聯機處理以及報表處理,依據不同的角度對數據進行分析,明確數據中的隱藏信息,使港口經營管理決策能夠有科學的依據。
1 港口數據倉庫概述
對港口的業務流程進行分析主要是對港口數據倉庫的概念模型進行明確,這對于港口數據倉庫建設的效果有著至關重要的影響。港口生產是港口企業生存發展的重要活動,處于核心位置,因此港口數據倉庫的實施要先從港口生產開始。
1.1 分析生產業務
港口生產主要是為了提高港口人力、設備的使用效率,高效、安全、優質的實現陸運以及航運網絡中的貨物以及旅客的轉運。
1.2 分析數據源
港口生產業務是多個部門進行開展的,不同部門有各自的數據庫,在港口信息化建設快速發展的今天,數據庫中數據數量逐漸增多,面對大量的、復雜的數據,如果不能科學高效的利用,就會使得信息資源被浪費,進而造成數據災難,為了更加科學合理的使用港口數據資源,需要明確港口的具體情況,建立完善的港口數據倉庫,實現數據的獲取、儲存以及輸出工作。港口的原始數據主要有業務數據以及遺留的數據,這些數據被保存在信息管理系統的數據庫中和單獨的平面文件中。數據倉庫設計中,需要明確其關鍵技術以及目標,實現多維數據模型,為管理層提供科學的決策依據。
2 港口數據倉庫設計分析
2.1 明確任務主題
在港口管理人員看來,工作中關心的主要維度和指標有時間、地點、貨物號、船號、貨主號、貨物的重量、吞吐量、金額、以及交易的次數等。在明確數據倉庫主題以及模型構建過程中需要以這些內容作為出發點,詳細了解管理人員的需要以及港口業務的流程,明確港口數據倉庫的運營分析、客戶分析、船舶進出港分析、貨物進出港分析、設備資產管理等主題。其口的經營是港口工作中最基本的活動,也是各項分析工作開展的前提和基礎,因此本文主要以經營分析主題進行數據倉庫的設計。
2.2 建立數據模型
進行港口數據倉庫設計建設一般需要3級數據模型的方法,主要有概念模型、邏輯模型以及物理模型。這3級數據模型分別與數據倉庫中的信息包圖設計、星形圖設計以及物理數據模型設計相對應。
首先是設計概念模型,也就是分析需求,在和用戶的交流中,了解建立數據庫的數據源,使建立后的數據模型容易被理解,并且能夠實現數據的查詢以及映射,能夠為數據倉庫使用者的決策提供依據。根據當前港口生產的實際情況,需要數據倉庫能夠提供一定的功能,主要有比較分析不同時間、地點、貨主的生產情況;交易中,哪些貨主以及貨物的數量大,并且港口獲利較多;貨主通常使用何種船只、運輸的貨物種類以及存放地點等。
數據倉庫具有多維性,原有的數據流程圖已經不能滿足分析的需要,而超立方體的直觀性不強,數據的采集以及表示都有一定的難度。因此可以使用信息包的方法進行多維數據的表示,根據用戶需要建立信息包,通過二維表格對信息需求的多樣性進行表示。
其次是設計邏輯模型,完成了信息包表的建設后,需要將信息包表轉化為星形圖。首先對指標實體進行定義,主要包括數據和邏輯指標。星形圖中的數據指標是信息包圖中的指標對應,信息包表中,不同維度的最低級類別能夠被歸入邏輯指標中,得到的數據、邏輯指標共同組成了星形圖中的指標實體。然后是維度實體,與信息包圖中的維度對象相對應。設計完指標以及維度實體后就需要對二者的關系進行設計,他們是一對多的關系。
最后是設計物理模型,上述工作完畢后,需要對數據倉庫中的事實表以及維度表的物理結構及關系進行明確。
邏輯設計后的星形圖能夠更加便利對物理數據結構進行定義,實現指標實體與維度實體向事實表以及維度表的轉化。事實表主要包括星形圖中心的指標量和星形圖角上的維度實體中的主碼值。不僅要建設物理數據結構,還需要明確數據標準,了解命名的約定,其數據種類、限制條件等。定義實體,星形圖能夠對面向主題的數據倉庫的共享實體進行明確,對其屬性進行完整定義。還需要明確實體的特征,有值的長度、種類。
3 數據倉庫的生成
完成數據倉庫模型建設后,就需要將原有的信息數據導入到數據倉庫中,利用數據轉換服務實現異種數據源之間的轉化,進行數據的抽取、處理以及裝載。依據主題從原始數據庫中抽取出與主題相適應的數據,對于不一致的數據要進行轉變,達到數據倉庫的統一規定,并將數據按照數據倉庫的格式進行載入。
4 結束語
在長期的信息化作業中,港口企業積累了大量的數據,怎樣將這些數據轉化為實用的知識,作為管理人員的決策依據就是當前需要解決的重要問題,數據倉庫的設計與建設能夠為港口企業的發展提供良好的環境氛圍,充分挖掘數據了解潛在內容,促進港口企業實現良好的發展與進步。
參考文獻
[1]韓蕾.數據倉庫和OLAP在港口物資管理中的應用[J].電腦知識與技術,2014,18:4117-4120.
[2]黃曉穎,李亞芬,王普.基于數據倉庫的學科建設決策支持系統的設計[J].計算機工程與設計,2010,23:4995-4998.
[3]劉益江,毛寧,陳慶新.一種評估數據倉庫設計質量的方法[J].計算機技術與發展,2012,09:161-165.
作者簡介
葉艷霞(1983-),女,河北省廊坊市人。碩士學位?,F供職于天津港信息技術發展有限公司。
關鍵詞 數據倉庫;OLAP;數據分析;決策
中圖分類號:TP3 文獻標識碼:A 文章編號:1671-7597(2013)19-0063-01
當下信息技術快速發展,用戶對于信息處理的需求越來越高,這些主要包括的是基于數據庫技術的迅速發展以及當前社會對于數據庫管理系統的廣泛應用。在這樣一個基本情況下人們希望對其進行高層次分析,以便于激增數據背后隱藏著的許多重要信息,以便更好地利用這些數據,更好的利用這些數據達到不同的目的,于是數據倉庫技術和OLAP技術就應運而生了。
1 數據倉庫OLAP特征
1.1 數據倉庫的基本特征
1)數據倉庫面向主題。筆者所說的數據倉庫是從整體、全局的角度來衡量的,這些主題在企業中是有相關的關聯作用的,和以往傳統的操作型系統進行相關的對比,這樣的作用在一個完整的企業或組織中固有的業務主題下,是作為處理的主體來運行執行的,我們所知的傳統的操作型系統是就針對組織與此相關一段時間內的業務中,統計以及分析的工作相對而言,其主要的作用是圍繞應用和針對具體業務的各個方面設計和解決問題的,這是一個相對于比較科學的方法和相關途徑。
2)數據倉庫的非易失性。在一般的數據倉庫中,數據主要是從事務操作型數據中依次抽取出來的,這樣的做法反映了在早期的一段時間內歷史相關性的數據,而其本質就是基于快照的統計和不同時間點相關的數據庫快照集合以及綜合和重組,所以在進行處理時一旦事務操作型的相關數據進入數據倉庫,我們所能做的就是只要數據沒有超過數據倉庫的數據存儲期限,我們對此一般不對數據進行更新操作,只進行簡單的查詢工作。
1.2 OLAP的基本概念
OLAP是指分析人員、執行人員或者管理人員對信息數據有深刻認識的相關工具,它保證訪問過程的迅捷性,并且可以訪問各種可能的數據信息;除此之外,訪問手段的交互性以及訪問數據的相關一致性支持復雜的分析操作工作,其使用優勢是操作側重決策支持,并提供直觀的查詢結果,數據倉庫系統的主要應用OLAP的特征可以概括為多維性、分析性、快速響應性、共享性和信息性。
1)OLAP的多維性。多維性一直是OLAP的關鍵屬性,然而事實上,筆者認為,多維法人分析性是分析企業對于相關數據的最有效也是最安全的方法,甚至可以說是OLAP的核心所在;這只要是由于系統必須提供對相關數據進行分析的多維分析,這就包括了對多重層次維和層次維完全的支持性工作。
2)OLAP的可分析性。OLAP的系統的連接可以直接接到其他外部分析的工具上,如在現實生活中的意外報警等。筆者認為其如果可以使用戶在工作中無需編程就達到可以定義新的專門計算,并且將其進一步作為分析參考的一部分,就可以使用戶理想的方式給出適合自身的報告,這個報告能處理與應用有關的任何邏輯分析和統計分析,這樣用戶就可以在OLAP平臺上進行簡單、易懂的數據分析,并且得到最終結果。
2 淺析數據倉庫與OLAP的關系
數據倉庫進一步發展是伴隨著信息化不斷普及產生,隨之而來的就是OLAP的進一步發展,OLAP作為一種在功能上多為查詢和分析的工具,是數據倉庫功能上的進一步發展,而支持管理中決策的過程就是建立數據倉庫的目的,所以基于在數據倉庫中的大量數據得以有效利用的很重要的保障;OLAP的出現無疑解決了這一問題,也是OLAP和數據倉庫兩者具有不同概念的基本分析點,但是在事實上這二者又是密不可分的,數據倉庫是一個大規模的數據庫,其包含了企業所有的歷史的數據,這樣的數據庫主要的用途是在企業在決策中提供分析和支持的數據,而OLAP技術則是在數據倉庫的基礎上進行聯機的技術性分析,中途運用聯機分析和可視化工具對于相關數據進行迅速的評價,將復雜的查詢結果快速的反饋給查詢用戶,幫助他們做出正確的決策,而數據倉庫是側重于管理和儲存主要用于決策主體,OLAP則是進行數據分析并且是多維性的,所以,筆者認為,OLAP和數據倉庫可以有效結合,以便于解決更多的問題。
3 基于數據倉庫的OLAP的核心技術
3.1 OLAP維和度量
筆者運用一個簡單實例進行闡述,在這里我們先假定某個個體商店,我們都知道有一些在商業上常見的因素就會影響他的銷售業務和利潤的額度,舉一些例子:如商品的品牌、進貨的月份等;在這里對于某一常見的商品,通常在一定情況下也許他只是想知道該商品在各大商場以及各個時間段的具體銷售情況,這樣的情況可能是針對于對某一特定的商店,可能商家想知道的是各商品在各段時間的具體銷售的基本情況,商家迫切的需要決策的相關信息支持來幫助制定相關具體的銷售政策,這里,特定的商店以及特定的時間和特定的產品都是筆者所說的維;由此推出的維有自己固有的相關屬性:在進行決策支持時這些屬性是非常有用的。
3.2 MOLAP以及ROLAP技術
1)ROLAP技術。在一次簡單的查詢操作中,用戶和分析人員可以應用存儲在維表中的用戶習慣描述也就是元數據,來說明一個查詢需求,這樣做的好處是可以獲得查詢對象的事實值以及對數據的多維描述;和數據對應維上的維成員,并且在這種ROLAP模式中而這種需求可被ROLAP依靠維表轉換成維的代碼或值,完成用戶的最終需求以及對于數據信息請求。
2)MOLAP及時。筆者在這里介紹的OLAP系統在具體實施實現時,這種OLAP系統就是基于多維的,如果采用多維數據庫存儲OLAP顯示數據,即我們所說的MOLAP。我們介紹的多維數據庫可在此系統中直觀地表達當前現實世界中多點對多點的關系。
4 結束語
當前,世界經濟一體化的趨勢越發明顯,隨著跨領域產業和跨國公司的出現,傳統的數據庫操作技術已不能滿足企業決策主題的需求,因此企業決策所需要的信息量會越來越大,所需要處理的信息量也會越來越大。而當前的OLAP技術正好具有這樣一個靈活分析的功能,能夠直觀的進行數據操作和分析,并且還具有結果可視化表示等突出優點,這樣的技術有利于幫助用戶迅速做出正確的判斷,使用戶在進行大量復雜數據的分析變得輕松而高效,從而為企業的決策支持提供很多服務以及平臺。因此,筆者認為有效的構建和使用數據倉庫以及OLAP技術能為企業做出科學決策提供更優越的平臺。
參考文獻
[1]華冠萍.數據倉庫、數據挖掘及OLAP之兩兩關系[J].福建電腦,2007(8).
為了屏蔽各種源系統的差異性,該系統設計并實現了經營分析系統與數據源系統(如BOSS系統)間的接口。同時,依據實體-關系建模理論,遵照第三范式,設計并實現了中國移動經營分析系統數據倉庫底層實體-關系邏輯數據模型,對經營分析系統中的指標進行了重新梳理,從而避免了歧義的產生,同時構建了數據質量管理體系。
兩種系統各司其職
中國移動經營分析系統分為每級經營分析系統和分級體系管理兩個部分。
每級(一級和二級)經營分析系統建設主要包括:ETL子系統、數據倉庫子系統、OLAP和數據挖掘子系統、與源系統接口子系統、指標子系統和邏輯模型子系統等。分級體系管理包括一級與二級經營分析系統間的接口管理、數據質量控制體系等內容。接口管理方面對有關的抽取數據內容給出了詳細的定義和描述,數據質量控制體系則給出了有關的詳細數據定義口徑,并給出了一些數據質量運算方法。
六大創新
該經營分析系統主要創新點如下:
1.首次提出了分級式數據倉庫理論 針對移動通信數據規模大、變化快的特點,中國移動提出并實現了分級式數據倉庫體系結構,設計了分級式數據倉庫的構建方法,并解決了相關的技術、業務難題。
2.建設了世界上最大的數據倉庫系統 基于分級式數據倉庫理論,中國移動建成了世界上最大的數據倉庫,目前容量約為842TB。
3.國內首次設計并完成了面向移動通信行業的數據倉庫邏輯模型 移動通信數據包含了來自計費、客服、網管等各類異構數據資源的復雜數據,這些復雜數據之間還包含著繁瑣的業務邏輯關系。針對移動通信數據資源和業務邏輯關系的特點,中國移動提出了面向移動通信數據倉庫的統一建模方法,并在經營分析系統中實現了統一建模機制。
4.國內首次大規模采用了OLAP、數據挖掘等先進技術 根據經營分析系統數據的特點,中國移動把數據倉庫劃分為客戶、賬務等主題域。同時緊密結合目前的市場經營活動和市場部門的需求,選定了客戶分析等九大經營分析主題。這些經營分析主題反映了目前中國移動通信市場上比較有代表意義的經營分析業務的需求,也提供了比較豐富的業務應用。
5.國內首次提出并實現了數據倉庫的數據質量管理體系 在結合移動通信數據特點的基礎上,針對數據質量的過程性特點,提出有針對性的數據質量保障方法,提出了在分級數據倉庫系統中數據質量的管理流程,并從業務統一和方便實現的角度,提出了進行實際的數據質量檢查時所應遵從的原則。
6.國內首次建立了數據倉庫建設、應用體系 在國內首次大規模地應用了數據倉庫技術,構建了完整的抽取、轉換和加載(ETL)、存儲、分析、挖掘過程,并建立了完整的業務應用體系。
經營分析系統從2001年開始規劃,2003年底建成世界最大的數據倉庫,提高了標準化程度,統一了邏輯模型和指標解釋;豐富了分析手段,包括報表分析、即席查詢、OLAP分析和數據挖掘分析。截至到2005年7月1日,全國31個省市有9648個用戶在使用經營分析系統,年訪問量約為4,399,388人次。
收獲頗豐
中國移動經營分析系統實現和應用的主要分析功能如下:
1.關鍵指標展示 宏觀反映企業整體運營情況,使移動公司決策層能夠及時了解并把握企業生產經營的最新整體情況,從而準確高效進行科學分析和決策。
2.客戶分群 客戶分群是深入了解客戶、提供針對的基礎。
3.市場分析 為中國移動市場人員開展市場活動提供基于多種方法與手段之上的數據依據。
4.客戶服務分析 綜合展現中國移動客戶服務各方面的素質。
5.營銷分析 為各公司的市場營銷決策提供有力的支撐。
6.財務賬務分析 清晰展現中國移動的運營收入與支出情況,追蹤中國移動收入的主要來源和成本的主要去向。
7.數據業務分析 綜合展現新興數據業務市場的發展變化情況。
8.綜合統計分析 系統都能夠以靈活的方式提供自定制模型、輔助定制模型或方法的綜合分析。
經營分析系統在各個方面體現了比較顯著的效益和成果。
1.降低成本 例如經營分析系統中的重入網分析,浙江省溫州2月份就可以節約成本113.8935萬元。推廣到全國,可節約成本約130000萬元。
2.增加收入 在經營分析系統的用戶離網分析方面,僅山西移動客戶離網分析一項就可增加收入26880萬元,推廣到全國,每年可增加收入約800000萬元。
3.社會效益 中國移動經營分析系統提供了靈活的OLAP分析和挖掘方法,提高了企業市場營銷人員的日常工作效率,從而提高了企業核心競爭力;提高了企業決策速度,從以前的一個月決策周期提高到現在的一周;改善了營銷模式,使市場得到全面深入開發,促進了企業的快速發展,并且提高了客戶服務質量,增加了客戶滿意度,增加了社會效益。
中國移動的經營分析系統是國內第一個大規模建設數據倉庫的典型案例,帶動了國內一批系統集成商、業務開發商和應用咨詢廠商的發展,填補了國內在數據倉庫大規模建設方面的技術空白,促進了國內數據倉庫技術、OLAP技術和數據挖掘技術的發展,極大地推動了中國在數據倉庫方面的信息化水平。
數據倉庫技術在電信運營商中的應用
隨著市場競爭的加劇,電信運營商迫切需要加強企業自身的管理水平,提升市場競爭力。而電信運營商的信息化過程,無疑對于提升企業的管理水平奠定了重要的技術基礎。通過信息化手段,能夠對企業的內部管理和外部經營情況進行深入的了解,實現精細化的管理和營銷工作。
與其他行業一樣,電信運營商的信息化工作,也涉及到企業的方方面面,不僅包括ERP、CRM等內部管理體系,也包括外部的供應鏈管理、合作伙伴管理等內容。
電信運營商在信息化方面具有比較好的基礎,國內電信運營商基本完成了對業務系統的電子化過程,例如移動通信運營商能夠為用戶提供基本的通話詳單和賬單等服務。而大量關于客戶和產品方面的數據,為后續的信息化過程提供了基礎。
電信運營商的這些信息,如果加以收藏和整理,將是一筆難得的寶藏,能夠為企業的決策和市場經營提供有力支撐。
整體而言,企業的信息化管理過程中,數據管理是企業信息化管理的較高境界,因為數據涉及到企業生產、管理的各個方面,很多經營異常等問題都可以及時通過數據分析發現。而在信息化技術中,數據倉庫技術是數據整理和分析的較好的技術。
1.對海量數據的整理提供了基本的方法
數據倉庫提供了海量數據進行存儲的基本方法,通過數據倉庫邏輯模型的設計,對企業的數據資源進行了形式化的描述和整理,為企業業務應用奠定了基礎。
2.引入了數據挖掘等數據分析技術,能夠提供更深的分析
在數據倉庫技術中,引入了OLAP、數據挖掘等分析性技術,提供了更深入的數據分析手段,可以比較深入地分析出企業運營的各種信息。
3.通過數據質量的提升,監控上游的各個源系統
在數據倉庫系統中,會接收各個業務系統的數據,通過對這些數據的質量進行監控,就可以及時發現上游各個業務源系統的運營異常,提升企業的業務監控能力。
?新聞?
山東積極推進涉農信息共享
由山東信息化工作領導小組辦公室、省信息產業廳主辦,山東網通公司聯合有關部門和單位共同承建的山東省農業與農村信息綜合服務平臺于7月24日正式開通。同時,先后斥資160多億元的山東省村村通寬帶工程取得重大突破,除極少數偏遠地區外,山東將提前兩年,于2006年底前全面實現村村通寬帶。(山東省信息產業廳 韓旭東)
太極為大興政府服務
近日,太極計算機股份有限公司中標大興政府綜合服務辦公樓智能化改造工程。工程具體建設內容包括智能化系統總集成IBMS、綜合布線系統、樓宇自控系統、綜合安防系統等十余個系統及機房工程等總體規劃、系統調試、軟件開發等。 (郭瑩)
地理信息技術論壇將召開
中國科學院主辦、北京超圖地理信息技術有限公司具體承辦的“2006中科院地理信息技術自主創新論壇”將于9月召開,中國科學院將對我國地理信息技術自主創新歷程進行全面的總結和回顧。 (郭瑩)
遠特通信推出FAX99電子傳真
北京遠特通信技術有限公司日前推出FAX99電子傳真業務。使用該業務,用戶可以通過電子郵件收發傳真來取代傳統的傳真號碼發傳真,獲得高效、節能、無紙化的辦公環境。 (郝)
同方簽約也門國際機場
近日,同方正式與也門薩娜國際機場簽約,承接其新候機樓智能化工程,合同金額達2140萬美元。(汪蔚)
三星搭建B2B商橋
前不久,在2006年三星全國行業商大會上,三星行業大客戶部正式發表了行業商政策―“Power Partner Portal”系統,即三星B2B商橋。這是一個可以給商提供支持的在線即時溝通平臺。 (汪蔚)
美的集團資金管理上臺階
日前,美的集團資金管理項目一期成功驗收。該系統于2004年底由浪潮集團承建,涉及美的集團三級結算中心共20個結算部門,服務對象覆蓋全部下屬單位及集團財務部預算管理中心和融資管理中心。 (陳超)
[關鍵詞] 數據倉庫商業智能系統架構
一、引言
數據倉庫在整個商業智能項目中起到核心的作用,就好比人的大腦,如果人沒有聰明的,思維清晰的大腦,不可能做出明智的決定一樣。由于數據倉庫的設計決定著數據倉庫是否能滿足業務的需要和業務擴展的需要,所以數據倉庫的設計成為整個商業智能項目中最為關鍵的過程。本文根據某制造型企業的信息化建設項目,論述項目實施過程中數據倉庫的設計過程和需要注意的一些問題。
信息技術的高速發展為企業提高自身競爭力帶來了巨大空間:信息技術不但使企業獲取需要的信息,而且也促進企業對信息的再利用,以此營造企業的競爭優勢。而商業智能是將企業運作中涉及到的數據有效的轉化為信息、知識和智慧,通過適當的方式展現給決策者,以幫助企業提高決策能力和運營能力以增強企業核心競爭力。正是在這個背景下,企業決定實施商務智能。
二、商業智能項目概述
公司選用BusinessObject XI軟件作為展現工具,數據倉庫選用oracle 9i企業版(9.2.0.6),總體架構如下:
下面就以上的架構圖進行簡要說明:
1.源服務器。主要為企業內現有正在使用的業務系統,為數據倉庫的主要的數據來源。包括BAAN的ERP系統,電子商務平臺,SLIM4物流系統,包裝系統,還有一些外部數據源。例如EXCEL表。
2.DW服務器(dataware)。DW服務器存儲數據倉庫的相關數據。根據數據特性的不同。有可以劃分到不同的區域。采用oracle 9i企業版。操作系統采用HP UNIX。用關系表存放數據。
3.DI服務器(data intergrator)。整個的etl(轉換,清洗,加載)功能可以劃分為調度和具體實現。DI服務器完成etl調度功能以及一部分具體的實現。采用DI XI。操作系統采用Window 2000 server。
主要的功能為運行etl任務。
DI可以通過作業方式管理ETL工作,定時執行預定義的ETL作業。DI自帶ETL調度服務。
我們可以DI服務器上設定etl各個任務運行的時間、運行的周期以及執行次序。然后根據可以預先設定的etl各個任務的流程、運行的時間、運行的周期以及執行次序,定期的自動地運行etl任務。
DI的各種配置信息都放在DI儲備庫中。DI儲備庫是一套數據,包括了工作流信息等??梢源娣旁谀硞€關系型數據庫上。
4.BO服務器(business objects)。BO服務器提供查詢和分析服務。它從數據倉庫中獲取報表分析所需的數據,從為BO儲備庫中獲取相關的。為不同的業務分析人員提供分析報表和多維分析功能。同時擔負著用戶權限管理、登錄認證、文檔管理等功能。采用BO XI 企業版。操作系統采用Window 2000 server。
BO的各種配置信息都放在BO儲備庫中。BO儲備庫是一套數據,包括了語義層、報表、用戶、權限信息等。可以存放在某個關系型數據庫上。
5.Web服務器。提供b/s結構的查看分析報表功能。由web服務器和java應用服務器構成。web服務器采用Aphace,提供了通過網頁訪問本系統的方式。
java應用服務器采用Tomcat,提供jsp處理能力。
在web服務器和java應用服務器部署有bo的前臺java應用程序。
6.DI管理客戶端。部署了DI的客戶端程序:包括Data Integrator Designer、Repository Manager、Server Manager、Web Administrator等。
7.BO應用客戶端。部署了DI的客戶端程序:包括Designer、Desktop Intelligence等。
8.IE客戶端。通過IE查看分析報表的客戶端。
三、數據倉庫的設計
1.數據倉庫邏輯設計。本系統按ETL數據轉換層次把數據倉庫邏輯上設計為如下的層次:臨時存儲區、數據清洗區、數據轉換區、基礎數據區、星型數據區、數據中心。其中要注意的是一條數據的etl處理流向有必須經過的區域包括:臨時存儲區、基礎數據區或星型數據區、數據中心。在其他的區域不一定存在。
(1)臨時存儲區。存放有源系統中剛抽取過來的數據。其中主要特點有:基于源系統數據結構的數據存儲、僅含本次加載的數據、簡單的數據裝載、同個實體多套數據結構。
大部分來自每個源系統的數據文件在源數據區將對應惟一找到一個惟一屬于自己的幾乎相同的數據結構(1對1的關系),以保障源數據裝載簡單易行。
(2)清洗區。存放有對臨時區經過了清洗的數據。其中主要特點有:基于源系統數據結構的數據存儲、僅含本次加載的數據、簡單的數據裝載、同個實體多套數據結構、錯誤的數據經過了修正,例如修改錯誤的日期。
(3)基礎數據區?;A數據區是整個系統的核心,存儲來自各種源數據系統的數據(主要是當前數據及包含部分歷史變更數據),具有統一的結構。以范式結構為主??梢蕴峁┎樵?。其中主要特點有:①單套數據結構。大部分來自數據轉換區的實體在中央倉庫區將對應唯一找到一個屬于自己的數據結構(1對1的關系)。②數據結構和業務系統數據結構不同營銷分析系統物理數據模型與業務系統數據模型的差異體現。③較復雜但具有共性、穩定性的轉換規則。④性能一般。基礎數據區的數據量大,操作復雜,關聯動作多,是數據轉換優化的重點。
(4)星型數據區。按星型結構組織的事實表的區域。包括了原子級別的事實表和聚集的事實表。原子級別的事實表的一行與基礎區中的相關表中的一行對應,是最細粒度的數據。數據聚合就是對原子級別的事實表或基礎區數據進行聚合計算形成聚合表。本區域設立的主要的目的是提高查詢分析的速度。其中主要特點有:①按星型結構組織,即一個事實表跟若干個維表關聯。②數據有冗余。
(5)存儲過程。進行etl處理的相關的存儲過程。
(6)數據中心。數據中心中的數據是從業務系統中抽取的,經過清洗的,仍按原業務系統中規則存儲的操作型數據。
該數據中心建成后,數據應和業務系統中同步,新開發系統如果要在業務系統中取數據,將不再直接連接業務系統,而是連接到此數據中心上。數據中心中的數據抽取到數據倉庫后所有數據仍然保留,不做刪除。
2.數據倉庫物理設計
(1)表空間設計。其中tce為temp(臨時區),clear(清洗區),extract(轉換區)。Basic為基礎區,star為星型區,ods為數據中心。Tceidx為tce區的索引存放表空間。basicidx為基礎區索引存放表空間,star為星型區的索引存放表空間。這樣設計主要為了把邏輯意義的區分開,也為性能考慮可以在表名前加前綴作為區分表所在的區。其中數據庫中所有的業務表全部放在一個用戶下,以方便在各個區之間加載轉換。
(2)歸檔設計。由于數據在數據倉庫中頻繁加載刪除和插入等操作,如果選用歸檔模式會使數據庫產生大量日志。如果歸檔將嚴重影響性能.而且數據倉庫對數據恢復的要求不高。所以決定采用非歸檔模式。
(3)安全性設計。數據庫中所有的業務表全部放在一個用戶下,以方便在各個區之間加載轉換。再建一個用戶用于展現,對所有的業務表只有只讀權限。
(4)備份恢復。這里采用每2天一次冷備份和一周一次邏輯備份。可以接受恢復兩天前的數據,然后通過etl重新從源數據庫中獲取最新數據。
(5)參數設計。由于數據倉庫經常刪除、插入,很少更新的特點,相對一般業務系統,加大塊的大小,增加preused和減少prefree。
四、結束語
以數據倉庫和數據挖掘為基礎的的建設是一個過程,并非一蹴而就。在這個過程中,業務需求和信息基礎設施規劃兩者都不可或缺。這其中科學規范的項目實施也是關鍵。我們有理由相信,隨著企業商務智能系統的實施與應用,企業競爭力將會大大增強。同時,隨著市場經濟的發展,商務智能系統在國內的應用也將越來越廣泛。
參考文獻:
[1]William H. Inmon著:數據倉庫[M]. 機械工業出版社,2006,8
關鍵詞:數據倉庫;首都機場(BCIA);數據中心(DC);邏輯架構
中圖分類號:TP311.13 文獻標識碼:A文章編號:1007-9599 (2011) 15-0000-01
Beijing Capital International Airport's Data Warehouse
He Zhiwu
(Beijing Capital International Airport Co.,Ltd.Information Technology,Beijing100621,China)
Abstract:Based on industry definition and development of data warehouses,this paper,the capital's airport design ideas and data center functions to achieve a basic overview of the module.
Keywords:Data warehouse;Beijing Capital International Airport (BCIA);Data Center(DC);Logical framework
一、引言
數據倉庫是決策支持系統和聯機分析應用數據源的結構化數據環境,研究和解決從數據庫中獲取信息的問題,是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的。數據倉庫的特征在于面向主題、集成性、穩定性和時變性。而首都機場的數據倉庫―我們叫做數據中心是在統一航空業務數據標準基礎上,理清航空業務及相關信息管理制度與流程,補充缺失的運行數據,改善航空業務信息多頭現狀,提升航空業務數據質量,并為相關部門提供全面的航空業務信息實時監控與分析展現能力。
二、BCIA數據中心設計目標
數據中心(DATA CENTER,簡稱DC)的總體目標是在公司層面,統一規劃建設面向公司各項業務的操作型數據庫(OLTP)和分析型數據庫(OLAP),建立一個高性能、穩定可靠,具有開放性、可擴展性的數據中心,完成應用系統的數據與決策支持有價值的外部數據的集中整合,保證數據一致性、準確性,提供輔助決策的全局數據視圖。在此基礎上通過數據分析技術,建立高效、易用、實用、靈活的面向主題的全方位、多層次的智能決策支持系統。數據中心是為BCIA信息管理平臺提供完整、標準、統一、面向業務應用
系統和決策支持服務的數據基礎平臺。系統定位如下:(1)建立統一標準、規范的數據平臺用于數據的集中、加工、匯總。(2)統一規劃建設。(3)業務數據的查詢、比對及分析。(4)充分考慮系統的可擴展性,提供高度開放的軟硬件平臺。(5)以數據中心為平臺,為各級用戶提供統一信息門戶,實現信息訪問的集成與統一。(6)滿足對數據統一、標準、完整及更新處理性能和可靠性的要求。(7)支持管理和決策、面向主題的、集成的、與時間相關的、穩定的、持久的特性要求。
三、BCIA數據中心架構
基于業界通行的數據中心設計方法論,BCIA數據中心平臺總體邏輯系統架構可劃分為兩個平臺:數據中心平臺(操作數據處理)、數據分析平臺(分析數據處理),整體邏輯架構包括以下四個層次:數據采集層、數據整合層、應用分析層、信息展現層,實現對整個數據中心平臺前后端所有部件、操作、流程管理。數據中心的四個層次的功能如下:
(一)數據采集層。抽取、采集來自BCIA業務系統的數據和其它外部數據源中的數據,提供原始數據的分離、清洗、轉換等處理,最后加載到數據中心中,實現數據的整合與提煉。BCIA數據中心與傳統的數據倉庫系統有一個非常大的差異,BCIA數據源包括實時與非實時兩部分數據。
(二)數據整合層。數據整合層包括兩個層面:一方面為業務部門提供數據維護(包括數據補錄、數據修正、數據校核)、數據交互、實時運行監控等服務;另一方面為整個BCIA提供面向主題的數據存儲與管理環境,使系統能夠提供高效、靈活的查詢、統計和聯機分析處理功能。在這一層采用關系型數據庫技術,管理和生成分析應用所需的細節數據和各種粒度的匯總數據,形成企業級數據體系化環境,是數據中心平臺的數據存儲中心,所有來源于各業務系統的明細數據以及用于分析的集成匯總數據都存儲在這里。為公司的數據應用,如運行、經營、市場分析、決策等提供數據基礎。同時,我們采用多維數據庫技術,建立BCIA數據中心平機分析處理(OLAP)平臺,為滿足復雜的多維分析及預測的需求,將分析所用的數據從關系型數據庫中提取到多維數據庫中。多維數據庫中的分析用數據包括匯總數據、經過其他預處理的數據等,其數據結構與關系型數據庫中明細數據的結構是完全不同的。這些數據是只讀的,是為不同類型用戶的分析、預測和決策需求服務的。
(三)應用分析層。該層集中了BCIA數據中心平臺的所有主要應用部件,構成數據信息綜合利用的引擎:如OLAP分析、數據展現、決策支持處理、報表定制與分發、模型管理等。
(四)信息展現層。通過企業信息門戶,將應用分析層上構建的各類數據應用通過統一的平臺展現給公司數據中心平臺各類用戶。同時提供數據分析結果的表達、共享與傳遞的功能,是信息服務的主要平臺,主要包括信息展現與人機交互、信息等。
四、BCIA數據中心安全保障
從多方面綜合考慮的系統安全架構,是一個能夠從網絡層到系統層,再從系統層到業務層的全方位的安全管理架構,從而滿足系統的安全需求。對于數據中心平臺的建設,從大的方面要結合BCIA企業安全體系的標準(如系統安全、網絡安全等);從產品與應用級,建議數據中心平臺安全架構應包括數據安全管理、數據倉庫相關產品從后端安全管理、前端的安全集成、用戶權限管理等幾個方面。具體來說應包括以下各部分安全機制:
(一)底層安全:操作系統安全機制;數據庫安全機制。
(二)后臺應用安全:ETL應用安全機制;模型設計與模型管理安全機制。
(三)前端應用及數據管理安全:OLAP模型訪問安全機制;報表查詢安全機制;數據維護模塊與運行監控模塊數據安全機制;數據維護與運行監控操作安全機制;補錄系統安全機制;集成Portal安全機制。