時間:2023-02-05 22:55:39
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇企業數據存儲方案,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
人們對數據存儲備份一詞并不陌生,然而對備份的真正內涵并不完全了解。在一般人腦海里,往往把備份和拷貝等同起來,把備份單純看作是更換磁帶、為磁帶編號等一個完全程式化的、單調的操作過程。其實不然,因為除了拷貝外,還包括更重要的內容即管理。備份管理包括備份的可計劃性,磁帶機的自動化操作、歷史記錄的保存以及日志記錄等。事實上,備份管理是一個全面的概念,它不僅包含制度的制定和磁帶的管理,而且還能決定引進備份技術,如備份技術的選擇、備份設備的選擇、介質的選擇乃至軟件技術的挑選等。
有些人往往也把雙機熱備份、磁盤陣列備份以及磁盤鏡象備份等硬件備份的內容和數據存儲備份相提并論。事實上,所有的硬件備份都不能代替數據存儲備份,硬件備份只是拿一個系統、一個設備等作犧牲來換取另一臺系統或設備在短暫時間內的安全。若發生人為的錯誤、自然災害、電源故障、病毒侵襲等,引起的后果就不堪設想,如造成所有系統癱瘓,所有設備無法運行,由此引起的數據丟失也就無法恢復了。事實證明,只有數據存儲備份才能為人們提供萬無一失的數據安全保護。
隨著網絡應用規模的擴張和計算機應用的深入、企業數據存儲量呈爆炸性增長,企業用戶的存儲系統日益龐雜,存儲管理的成本也在大幅上升。數據備份、災難恢復和存儲資源管理等存儲理念正在得到用戶的接受,網絡存儲也逐漸得到更廣泛的應用。目前市場上的存儲產品主要有磁盤陣列、磁帶機與磁帶庫、光盤庫等,其中磁帶設備以其技術成熟、價格低廉、產品線齊全、使用方便等優點占據了存儲市場的重要地位。
企業數據存儲的三種方式
在企業剛剛建立初期,用戶的數據規模并不大,存儲需求也很簡單,只是要把相關數據存放在某一地方即可。而存放數據的最終目的不僅是為了能夠安全保存,還必須保證數據可以隨時被調用。我們最早都是采用一種稱之為“DAS(Direct Attached Storage,直接外掛存儲)”存儲方式的一種方案。這種存儲方案的服務器結構如同PC機架構,外部數據存儲設備(如磁盤陣列、光盤機、磁帶機等)都直接掛接在服務器內部總線上,數據存儲設備是整個服務器結構的一部分,同樣服務器也擔負著整個網絡的數據存儲職責。DAS這種直連方式,能夠解決單臺服務器的存儲空間擴展、高性能傳輸需求,并且單臺外置存儲系統的容量,已經從不到1TB,發展到了2TB,隨著大容量硬盤的推出,單臺外置存儲系統容量還會上升。此外,DAS還可以構成基于磁盤陣列的雙機高可用系統,滿足數據存儲對高可用的要求。從趨勢上看,DAS仍然會作為一種存儲模式,繼續得到應用。
NAS(Network Attached Storage,網絡附加存儲)方式則全面改進了以前低效的DAS存儲方式,它是采用獨立于PC服務器,單獨為網絡數據存儲而開發的一種文件服務器。NAS服務器中集中連接了所有的網絡數據存儲設備(如各種磁盤陣列、磁帶、光盤機等),存儲容量可以較好地擴展,同時由于這種網絡存儲方式是NAS服務器獨立承擔的,所以,對原來的網絡服務器性能基本上沒什么影響,以確保整個網絡性能不受影響。它提供了一個簡單、高性價比、高可用性、高擴展性和低總擁有成本(TCO)的網絡存儲解決方案。
SAN(Storage Area Network,存儲域網絡)與NAS則是完全不同,它不是把所有的存儲設備集中安裝在一個專門的NAS服務器中,而是將這些存儲設備單獨通過光纖交換機連接起來,形成一個光纖通道的網絡,然后這個網絡再與企業現有局域網進行連接,在這種方案中,起著核心作用的當然就是光纖交換機了,它的支撐技術就是Fibre Channel(FC,光纖通道)協議,這是ANSI為網絡和通道I/O接口建立的一個標準集成,支持HIPPI、IPI、SCSI、IP、ATM等多種高級協議。在SAN中,數據以集中的方式進行存儲,加強了數據的可管理性,同時適應于多操作系統下的數據共享同一存儲池,降低了總擁有成本。
選擇合理數據存儲方案
企業存儲應用的體系結構主要有DAS、NAS和SAN三種模式,三種模式從體系架構的邏輯上看,有明顯的區別。一個企業存儲具有以下幾方面的要求: 性能、安全性、擴展性、易用性、整體擁有成本、服務等等。由于企業用戶的存儲系統構建并不是一蹴而就的事情,會經歷從單機邁向網絡化存儲的過程,因此就存在DAS、NAS和SAN三種存儲方案供企業用戶進行不同的選擇。
1. 選擇DAS方案
DAS直連式存儲依賴服務器主機操作系統進行數據的I/O讀寫和存儲維護管理,數據備份和恢復要求占用服務器主機資源(包括CPU、系統I/O等),數據流需要回流主機再到服務器連接著的磁帶機(庫),數據備份通常占用服務器主機資源20%~30%,因此許多企業用戶的日常數據備份常常在深夜或業務系統不繁忙時進行,以免影響正常業務系統的運行。直連式存儲的數據量越大,備份和恢復的時間就越長,對服務器硬件的依賴性和影響就越大。這種方案主要在早期的計算機和服務器上使用,由于當時對數據存儲的需求并不大,單個服務器需要的存儲能力就可以滿足日常數據存儲需求,因此在低檔網絡應用中相當普遍。
2. 選擇NAS方案
NAS作為一個網絡附加存儲設備,NAS設備內置優化的獨立存儲操作系統,可以有效、緊密地釋放系統總線資源,全力支持I/O存儲,同時NAS設備一般集成本地的備份軟件,可以不經過服務器將NAS設備中的重要數據進行本地備份,而且NAS設備提供硬盤RAID、冗余的電源和風扇以及冗余的控制器,可以滿足保證NAS的穩定應用。
NAS設備主要用來實現在不同操作系統平臺下的文件共享應用,與傳統的服務器或DAS存儲設備相比,NAS設備的安裝、調試、使用和管理非常簡單,采用NAS可以節省一定的設備管理與維護費用。NAS設備提供 RJ- 45 接口和單獨的IP地址,可以將其直接掛接在主干網的交換機或其他局域網的Hub上,通過簡單的設置(如設置機器的IP地址等)就可以在網絡即插即用地使用NAS設備,而且進行網絡數據在線擴容時也無需停頓,從而保證數據流暢存儲。
NAS數據存儲方案是基于局域網而設計的,按照傳統的TCP/IP協議進行通信,面向消息傳遞,以文件的I/O方式進行數據傳輸。在LAN環境下,NAS已經完全可以實現異構平臺之間的數據級共享,比如Windows NT、Linux、Unix等平臺的共享。基于這種種原因,NAS存儲方案對于企業來說的使用和維護成本就相當低,完全可以由現有網管員擔當。
3. 選擇SAN方案
由于SAN是通過一個單獨的通常是基于光纖通道的SAN網絡把存儲設備以及服務器相連,如此當有海量數據的存取需求時,數據完全可以通過SAN網絡在相關服務器和后臺的存儲設備之間高速傳輸,對于LAN的帶寬占用幾乎為零,而且服務器可以訪問SAN上的任何一個存儲設備,提高了數據的可用性。在對性能和可靠性要求較高的場合,采用先進的SAN數據存儲網絡,可以使數據的存儲、備份等活動獨立在原先的局域網之外,從而將減輕LAN的負載,保證原有網絡應用的順暢進行; 同時SAN網采用光纖傳輸通道,可以得到高速的數據傳輸率。
SAN方案簡化了管理和集中控制,這對于全部存儲設備都集中在信息中心,是非常有現實意義的。SAN將企業的存儲和服務器平臺分開,可以實現24 x 7不間斷的系統可用性和集中管理,在這個平臺的基礎上,還可以應用一套統一的災難恢復解決方案,同時可經濟高效地擴展存儲環境。因此SAN非常適用于非線性編輯、服務器集群、遠程災難恢復、因特網數據服務等多個領域。
企業數據存儲的發展趨勢
關鍵字:“數字湖南”;DAS;NAS;SAN;虛擬化存儲
0 前言
地理空間框架是“數字湖南”的核心、重要基礎與支撐。而地理空間框架由地理信息數據組成;因此,解決了地理信息數據的存儲問題,也就解決了“數字湖南”數據的存儲問題。地理信息數據的主要特點是:數據量龐大且增長迅速;數據格式繁多且不易轉換;數據安全性要求高。為滿足以上要求,地理信息數據的存儲必須做到:足夠的數據存儲容量;較高的數據傳輸效率;兼容異構平臺;可充分利用局域網內各種存儲設備,減少數據多重拷貝;簡化數據備份與管理,提高數據備份、恢復效率;最重要的是高可靠的數據安全特性。
為了更好地管理快速增長的地理信息數據,需要對“數字湖南”數據中心的網絡存儲系統進行統籌規劃;考慮未來技術發展趨勢和快速增加的數據量,應以滿足“十二五”期間的數據存儲管理需求為目標,進行數據中心網絡存儲方案設計。本文在研究當前存儲主要技術、發展趨勢以及地理信息數據存儲現狀的基礎上,制定了“數字湖南”數據中心的內網數據網絡存儲方案。
1 當前主流存儲技術
目前,應用較多的網絡化存儲系統主要是表1所列的三種:
從表1可以看出,只有SAN較適用于地理信息數據的存儲。
虛擬化存儲和云存儲是未來存儲技術的發展方向。存儲虛擬化是為存儲用戶提供統一的虛擬存儲池;即將品牌、級別不同且分散的存儲產品統一到一個(或幾個)大的存儲池下,用戶看見的不再是孤立的、分散的系統,而是一個統一的整體;它方便用戶更好地使用存儲資源,提高存儲資源利用效率。虛擬化存儲是提高網絡存儲系統可管理性的核心技術之一,也是目前研究的熱點。目前主要有以下三種虛擬化存儲技術:
由表2可見由于基于主機和基于存儲的方法對初建者吸引力最大;但兼容性差。基于路由器或交換機的方法更為適合于互操縱性要求高的企業;前者具有更高可擴充性。
目前,云存儲由于安全性遠遠達不到地理信息數據的保密要求,故不予考慮。
2 數據中心數據存儲方案設計
現以某地理信息中心為例設計數據存儲方案。
2.1 數據中心數據存儲需求
該中心2001年建成了采用DAS方式連接的數據存儲系統,數據容量為1.5TB。雖然數據存儲系統經過幾次升級擴容,存儲容量擴大到10TB以上,但仍為DAS連接;無法滿足中心的數據存儲備份需求。主要存在以下問題:存儲總容量太小;數據的安全性、一致性和完整性面臨多方威脅;存儲資源浪費現象嚴重;網速太慢。
因此,數據中心數據存儲系統建成后,應具備如下性能:數據容量60TB;采用易管理、省投資、可擴展的集中化存儲架構;較高的存儲備份速度;較好的可管理性;高可靠性;完善的災難恢復計劃;連續地提供數據查詢、檢索和分析、計算的功能。
2.2 存儲技術選型
通過第2節的分析已確定了SAN技術比較適合地理信息中心的數據存儲備份,下表對IP-SAN與FC-SAN兩種技術進行了一般性比較。
從表3中可以看出FC-SAN目前比較適合地理信息數據存儲。
從第2節中已知基于交換機的虛擬化技術與其他虛擬化技術相比具有較高的安全性、易使用、設備便宜,較好的互操作性,較易實現故障接替等優點,故采用FC-SAN+基于交換機的虛擬化存儲構成池化存儲是該地理信息中心的最佳數據存儲方案。
2.3 數據存儲架構
數據存儲結構拓撲圖如下:
3 方案評價
該方案的特點是:
1.采用基于交換機的虛擬化存儲;采用了性價比較高的硬件設備,故成本較低。
2.存儲網絡采用了FC-SAN,傳輸速率較高。
3.采用了虛擬化存儲技術,整個存儲系統整合為一個存儲池,設備利用率高。4.采用了合理的RAID技術,提高了磁盤容錯能力。
4 不足之處是沒有備份和容災。
綜上所述,該方案提供了一個可行的高性能、任務關鍵性數據存儲中心環境。
“私有云”是針對處于防火墻內的有限人群提供托管服務專有計算網絡架構,其優點是:構筑在防火墻后,數據安全性較高、服務質量穩定,不影響現有IT管理的流程,大大降低了成本。 隨著云存儲技術的不斷發展,未來“數字湖南”數據中心數據架構存儲可以考慮采用“私有云”方式。
參考文獻:
[1]時成閣,《網絡存儲導論》[M],華東大學出版社,2007-1.
【關鍵詞】網絡數據;存儲備份系統;解決方案
隨著社會的發展,科技水平的提高,網絡技術應用于各個領域,同時網絡結構也趨于復雜,從而影響著網絡數據的安全與共享。網絡數據存儲備份系統要不斷完善與發展,才能適應社會發展的需求。本文將通過對DAS、NAS與SAN技術的分析與研究,提出網絡數據存儲備份系統的解決方案。
一、DAS、NAS、SAN技術的概況
(一)DAS、NAS、SAN技術的涵義
DAS即直接附加存儲或磁盤陣列,DAS將直接連接在服務器或客戶端的數據存儲設備上,它的中心為服務器,通過服務器或客戶端實現存儲,主要是由硬件組成的。NAS即網絡附加存儲,NAS具有特殊性與獨立性等優勢,它是一種專用的數據存儲服務器,它具備獨立的系統軟件,從而保證存儲的優化,同時其具有共享功能,能夠提供跨平臺的文件。NAS的中心為數據,通過存儲設備和服務器的分離,實現了對數據的集中管理,進而利于寬帶的高效釋放。SAN即存儲局域網,SAN是一種共用的、高速的專用存儲網絡,其存儲設備主要分布在服務器的末端。SAN是一種專用的高速光纖網絡,其光纖通道是由PRID陳列連接形成的,同時SAN的架構需要專用的光纖交換機與集線器[1]。
(二)DAS、NAS、SAN技術的比較
關于DAS與NAS技術的比較主要表現在以下幾方面:在安裝方面,DAS的安裝相對復雜,一般情況下需要兩天時間;NAS的安裝相對便捷,通過獨立安裝,在十分鐘左右便可以完成。在文件共享方面,DAS不具備跨平臺文件共享的功能,因此,各個系統平臺的文件存儲需要分別進行;NAS具備跨平臺文件共享的功能,因此可以實現文件共享。在操作系統方面,DAS不具備獨立的存儲操作系統,其應用依賴于服務器或客戶端,因此,DAS極易造成網絡的癱瘓與數據的丟失;NAS具備獨立的存儲操作系統,從而能夠保證其寬帶的釋放,利于網絡的正常運行。在存儲數據結構方面,DAS的數據存儲模式相對分散,因此,不利于網絡管理人員的管理,同時也增加了維護的費用;NAS的數據存儲模式相對集中,因此,其便于網絡管理人員對數據的集中管理,其維護的成本也相對較少。關于NAS與SAN技術的比較主要體現在以下幾方面:在設計理念方面,NAS擁有專用的數據存儲設備,同時可以直接聯網,是一項獨立的系統存儲平臺;SAN需要存儲在局域網,不具備獨立的設備。在安裝方面,NAS安裝十分便捷,即插即用;SAN的安裝需要在服務器或存儲設備上添加光纖網卡。在文件共享方面,NAS具備跨平臺文件共享的功能,因此可以實現文件共享;SAN具有獨立的數據存儲池,因此,不同系統平臺的數據可以在同一存儲設備中進行存儲。在存儲距離方面,NAS可以滿足長距離、不同區域數據存儲的需求;SAN的存儲距離由光纖傳輸距離決定,因此,SAN可以進行短距離的數據存儲。
二、網絡數據存儲備份系統的解決方案
網絡數據存儲備份系統采用NAS存儲技術,其具有以下特點:網絡快,其網絡訪問為雙千兆以太網;容量大,其容量為4U高度和10顆熱插拔的硬盤;實現了文件共享,并可以跨平臺、跨主機;安全性,其具有權限安全管理功能,并能夠對系統進行全天候的監控。
(一)NAS的系統存儲
在E-mail存儲方面,其系統存儲完全能夠滿足萬人用戶的需求,NAS在E-mail存儲中其容量可以達到200GB。在光盤數據下載方面,NAS的數據傳遞可以滿足100個并發的需求。
(二)NAS的系統安裝與維護
在硬件安裝方面,NAS的系統安裝可以保持原有網絡不變,將其連接到網絡的交換機上,在連接電源便實現了安裝;在軟件安裝方面,NAS的系統安裝可以在局域網的服務器上進行安裝,在軟件運行后,NAS將被自動搜索,再打開設置窗口,便可以對NAS進行設置。同時,NAS系統中可以安裝防病毒的相關軟件,進而保證其數據的安全性[2]。
(三)本方案的優點
本方案有眾多的優點,主要優點如下:
應用了負載均衡技術,NAS根據并發量的不可控性,應用了負載均衡技術,從而數據的讀取由負載均衡軟件控制,并提升了并發訪問的速度。
NAS自身的優勢,如:安全性、便捷性與擴展性等,NAS可以即插即用,其安裝十分便捷,其管理不需要專業的人員,在應用過程中,減輕了服務器的負荷,保證了網絡的高效,其安全性與共享性能夠保證數據的安全,即便網絡存在故障。
具有較快的響應與較多的并發用戶。NAS的獨立性與優化性,主要體現在其系統存儲平臺的獨立與存儲操作系統的優化,從而NAS利用網絡數據傳輸率的提升,利于用戶響應時間的降低。在并發用戶較多的情況下,NAS的性能愈加突顯,它能夠滿足較多的并發用戶的需求。
實現了跨平臺的文件共享。NAS的跨平臺文件共享,節約了用戶的費用,可以對不同文件格式的資料進行存儲,同時也可以在不同的系統上對數據進行訪問。
同時具有便捷性與安全性。NAS在安裝與維修方面十分便捷,不僅不需要輔助的軟件,還不需要網絡服務的停止,并且在安裝時,不需要改變網絡架構,進而利于用戶投資與成本的控制。NAS可以保證數據的完整性與安全性,主要是將源數據變成了日志文件,從而利于文件系統的恢復[3]。
總結:綜上所述,網絡數據存儲備份系統的完善直接關系著系統數據的安全,文中分析了DAS、NAS、SAN存儲技術,其中NAS技術具有諸多的優勢,因此,網絡數據存儲備份系統解決方案中運用了NAS技術,形成了跨平臺的網絡數據存儲系統,這一方案具有實用性、可靠性與擴展性等,不僅控制了成本,還提高了網絡的性能。
參考文獻:
[1]賴晨捷.華能太倉電廠數據存儲備份系統解決方案探討[J].電力技術,2010,2(04):26-27.
調查顯示
中小企業購買需求增加
然而,IBM卻在此時再度發力中低端市場,正式啟動了將輻射40多個城市的2009 IBM企業信息架構全國巡展。IBM希望通過該巡展與其合作伙伴和客戶共同探討應對當前信息化挑戰的一體化信息架構解決之道。與此同時,IBM利用其在IT領域的整體優勢,為中小企業客戶定制了六個中小型信息系統解決方案,以滿足不同類型企業的新興存儲需要。
IBM此次巡展首要著力點就在中小企業市場。IBM系統與科技事業部大中華區系統存儲部總經理侯淼介紹說,2009年上半年整體市場回暖,很多市場調查報告都顯示中小企業客戶購買需求增加。IT系統中日益增多的設備和飛速增長的非結構化數據都對中小企業的信息架構提出了全新的挑戰。很多中小企業決定著手解決信息存儲方面的諸多問題,而且他們不只希望獲取單純的存儲技術,而是希望獲得融匯了業務和IT洞察力的綜合信息系統解決方案。
找準市場需求
對癥下藥
席卷全球的國際金融危機難免給各行各業帶來影響,但是這并不代表市場需求減少,IT廠商關鍵是要找準市場需求,對癥下藥。IBM針對中小企業在此階段對信息保留和信息高可用方面的典型需求,充分發揮自身在IT領域的整體技術優勢,為中小企業客戶提供了6款融合服務器、存儲、軟件等多種元素的特色解決方案,基于存儲向客戶交付獨特的系統整合價值。
中型數據保護及備份方案:采用DS4000或DS5000作為核心數據存儲,利用IBM帶庫和備份軟件實現自動的數據保護,利用一站式方案解決數據存儲建設中的在線數據和離線數據存儲問題;
小型數據快速備份及恢復方案:利用Tivoli Storage Manager(TSM) FastBack,配合 DS3000/DS4700,確保主站點與災難恢復站點之間的數據安全轉移,可對任何類型數據損失進行即時恢復,并消除了備份窗口、手工備份/還原過程及遠程辦事處對磁帶的使用,實現了靈活的擴展和統一的管理;
數據中心系統高可用解決方案:由Power和System x服務器與存儲構成,采用服務器集群加雙存儲的高可靠結構;
高性能計算環境下的高性能存儲:由x86集群、高性能I/O服務器、高性能SAN存儲陣列與帶庫、TSM備份系統、并行文件系統及x86登錄服務器構成,可確保優異的持續帶寬、集中的SAN存儲系統及統一的并行文件系統和數據管理策略;
存儲系統整合解決方案:由DS4700/DS5000配以SVC(存儲虛擬化)構成,憑借SVC的卓越性能,可實現高速的存儲訪問及強大的存儲整合能力;
存儲全系統融合方案:利用DS5000、N系列或Diligent重復數據刪除軟件及8Gb SAN交換機,成就高性能的存儲系統,滿足企業在容量、性能、穩定性和安全性要求的同時,確保未來的存儲需求,并可交付全面的數據備份和災備功能以及法規遵從能力。
此外,IBM力求從多方面幫助中小企業降低成本:首先,在初期購買價格上給予更多優惠,部分軟件支持免費;其次,通過產品創新為企業節能省耗,如DS5000系列集成了靈活的主機接口、第二代XOR引擎、8Gbps光纖控制器,并可支持多種磁盤驅動器,成為目前中端市場最為靈活的存儲系統。
360度渠道拓展
此次巡展,IBM不僅新推出6款組合解決方案,還匹配了全面的渠道支持計劃和區域覆蓋策略,推動合作伙伴將IBM的創新存儲價值帶給客戶。
關鍵詞:在線備份;異地容災;數據保護
中圖分類號:TP309.3文獻標識碼:A文章編號:1009-3044(2008)36-2918-03
The Research and Application on Remote Backup of Financial System
GAO Ning
(Financial department,JiuJiang university,Jiujiang 332005,China)
Abstract: In the course of building Accounting informationization,how to take full advantages of colleges resources,how to build Disater and Backup System which is in accordance with the facts of the college,how to keep the business consistency and the data integrality then improve the service level of the college informationization.In this paper,introduced the disater and backup system about the long-range data storage、data backup、data recovery and so on,and given Disater and Backup Systemwhich is matched with the finacial system for our college.
Key words: online backup; disaster recovery; data protection
1 異地備份的意義
近十年來,互聯網技術及其應用極大的推動了我國企業和組織機構的信息化普及,企事業單位內部的信息系統建設已初具規模,包括企業員工的PC、服務器到數據中心。伴隨而來是的在信息化過程中,大量的辦公文檔、設計文檔、電子郵件、數據表等都儲存在計算機系統上,而且這些數據維系著整個企事業單位的運營,數據的價值對企事業單位而言已經成為企業最重要財產。從右邊一項調查數據可以看出,存儲在計算機系統上的數據面臨著種種威脅,異地備份容災的已突顯其出重要性。特別是在美國9.11事件以后,重要信息數據的異地備份保護更是引起了大家的廣泛關注。我們國家即于2005年頒布了《重要信息系統數據災難恢復指南》,并在2007年成為國標。
雖然近年來數據備份的重要性得到了大部分企業管理者及IT管理者的認識,但由于國內信息化發展比國外晚,大部分公司,特別是高校對數據備份還未有效的重視。然而由于不少企業并沒有真正意識到容災備份的重要性,對災難性事件對企業的影響準備不足,當數據丟失的意外事件發生時后悔莫及。盡管在信息化程度較高的地區,部份公司內部的數據備份方案得到實施,然而這只是解決了公司數據安全的一部分,并沒有解決公司數據在本地的一些威脅,如:計算機被竊、發生意外火災等公司本地的數據意外破壞。不管是已經有無實施數據備份項目的公司,異地備份都是解決數據安全的重要部分。
2 異地存儲備份系統介紹
異地存儲備份系統主要預防不可抗拒或不可預知的事件帶來的數據不可用性,可將災難造成的數據不可用性減到最小,即當災難發生時,異地存儲備份系統保證:
1)數據在遠程場地存有完全一致和可用的拷貝,數據延遲時間控制在可接受的時間之內;
2)應用可以在遠程現場及時運行。
由上可知,異地存儲備份系統的核心就在于在異地將災難化解:一是保證數據中心的數據安全;二是保證業務的連續性。異地存儲備份系統的關鍵技術包括網絡技術、存儲備份技術、數據復制和應用的遠程切換技術。
異地數據存儲備份有很多種類型,從業務不間斷級別來分析,異地存儲備份方案有冷異地存儲備份、溫異地存儲備份和熱異地存儲備份三種類型。
一般來說,異地存儲備份應用的要求越高、異地存儲備份距離越遠,實現異地存儲備份方案的成本也越高。根據系統需求和投資情況,最終選擇了基于廣域網的溫異地數據存儲與備份方案。
數據存儲與備份
溫異地數據存儲備份主要有兩種實現方式,一種基于硬件的遠程數據鏡像和復制;另一種是基于軟件的遠程數據鏡像和復制。
基于硬件的數據鏡像和復制是通過磁盤陣列控制器來獲得主、副存儲子系統之間同步/異步數據鏡像的能力。其優點是對主機的資源占用很小,能保證業務正常運行下的I/O響應;缺點是占用大量的磁盤陣列資源,降低存儲設備的性能,而且僅能實現數據的遠程復制,對于應用的切換還需要軟件來實現。另外,這種方法比較依賴硬件環境,就是說在異地站點要配置和本地站點相同的硬件才能完成異地存儲備份功能,成本相對較高。
基于軟件的數據鏡像和復制是通過軟件形式實現的數據異地存儲備份方法。現在有許多公司都有這種基于跨平臺存儲管理軟件的異地存儲備份解決方案。基于軟件的數據鏡像和復制不依賴于存儲硬件,中心可以靈活地選擇任何廠家的磁盤陣列,便于保護投資。同時,其設備管理簡單、價格相對硬件實現更為便宜、兩個現場間的距離不限、主機資源占用也不大。
3 系統災難備份/恢復體系設計
災難備份/恢復方案可以滿足用戶對于計算機系統、數據的最高保護要求,保證即使發生斷電,火災等嚴重災難時,用戶業務也可以7x24小時的連續運行,同時確保業務數據在主中心和備份中心得到及時的更新,保證用戶數據最大的完整性。
通過進行重要業務數據的遠程同步實現用戶重要業務數據的遠程異地存儲,為實現業務系統的遠程正常運作奠定堅實的基礎;容災系統的關鍵就是遠程生產數據的自動復制,由于用戶的應用均為基于數據庫的聯機事務處理(OLTP)業務系統,所以業務數據遠程復制的關鍵就是確保數據庫數據的完整性、連續性,實時性和可恢復性。基于現有情況,根據容災需求,我們主要考慮以下災難備份/恢復方案:
通過最新存儲產品磁盤陣列,可以實現主數據中心和備份中心的操作系統、文件系統、數據庫、應用程序的實時遠程拷貝復制。主、備中心磁盤陣列本身就可以通過陣列上的微處理器完成數據的實時同步功能,將災難發生時關鍵數據的損失降至最低,而且不需要主機干涉或占用主機資源,可以做到災難發生的同時實現應用處理過程的恢復。
圖1 惠普公司XP陣列
1) 磁盤陣列容災方式結構簡介
目前HDS在高端存儲有個產品:USP和NSC1這兩個產品目前被兩大服務器廠商HP和SUN所OEM和銷售,是業界穩定性和性能最高的存儲產品主數據中心和備份數據中心的結構基本一致:采用HDS系列磁盤陣列作為中心存儲,所有主機通過光纖與磁盤陣列相連。磁盤陣列上運行TrueCopy容災軟件。主中心與備份中心之間的磁盤陣列物理上通過兩條光纖通道直聯,采用磁盤陣列上的容災軟件TrueCopy做到兩地數據實時同步。兩套磁盤陣列之間數據一致性依靠磁盤陣列本身的專用軟件來完成,完全不依賴主機系統,也不影響本地應用的響應速度。
此方案最大的優勢就是對主機應用完全透明,所有數據復制工作由磁盤陣列硬件層完成,不需修改應用,而且可以保證大量數據復制的性能。由于磁盤陣列數據復制原理是利用磁盤遠程鏡像功能,所以可以保證主數據中心關鍵業務數據和備份中心關鍵業務數據的完全一致,而且容災系統實現起來非常簡便。還可以充分利用現有服務器設備,實現應用系統和重要數據的災難恢復功能。由于容災距離,用戶環境和業務需求也十分適合于使用磁盤陣列實現存儲硬件層的災難備份恢復方案。而這種容災方案的主要限制就是由于在磁盤一級進行數據復制,對應用系統完全透明,所以相比應用層和數據庫層的容災方式,復制的數據量較大,對光纖數據鏈路傳輸質量和傳輸帶寬要求較高。
2) 基礎設施
① 在硬件平臺方面,從網絡帶寬、主機處理能力、SAN存儲性能等各個方面強調高配置,為系統高性能打下了堅實的基礎;
② 在系統平臺的配置方面,強調系統平臺自身的先進性和系統配置、整合方面的不斷優化。如:ORACLE RAC集群的配置、WebLogic集群的配置、連接池的優化配置、采用數據分區技術、數據庫配置參數優化等等;
③ 最后強調運用先進的測試手段,來驗證系統的高性能。
3) 應用架構
針對“學校備份中心”的特點,結合目前最新的構造復雜信息系統的技術,“學校備份中心”應該采用目前成熟和先進的多層架構體系,從而使系統具有很高的性能及擴展性。
4) 數據存儲
數據存儲采用成熟的存儲局域網技術( SAN),滿足高性能存儲需求和擴展性的需求。SAN的最大特點就是可以實現網絡服務器與存儲設備之間的多對多連接,而且這種連接是本地的高速連接。SAN架構的優勢在于:強大的擴展性、多種存儲設備的集中和新架構支撐下的新型數據應用方式。
5) 備份容災建設的關鍵技術
容災系統主要包括數據保護和應用切換兩大方面,其中最基礎也是最重要的是數據保護部分。下面是幾種主要的數據保護技術。
需要保護的數據包括各種業務數據以及重要的歷史數據等,一般為數據庫數據。除了要將這些數據存放在高可用的存儲設備上之外,最重要的是這些關鍵數據應該在異地之間保持一致,以使災難發生后,系統可以盡快恢復。
在實際的容災系統中,由于系統的環境不同,安全性要求不同以及采用的軟硬件產品不同,數據復制過程中的工作機制也不盡相同。概括地講,數據復制地工作機制主要包括同步和異步兩種。
同步遠程鏡像是指通過遠程鏡像軟件,將本地數據以完全同步的方式復制到異地,每一本地的I/O事務均需等待遠程復制的完成確認信息,方予以釋放。同步鏡像使遠程拷貝總能與本地機要求復制的內容相匹配。當主站點出現故障時,用戶的應用程序切換到備份的替代站點后,被鏡像的遠程副本可以保證業務繼續執行而沒有數據的丟失。但它存在往返傳播造成延時較長的缺點,只限于在相對較近的距離上應用。
異步遠程鏡像保證在更新遠程存儲視圖前完成向本地存儲系統的基本I/O操作,而由本地存儲系統提供給請求鏡像主機的I/O 操作完成確認信息。遠程的數據復制是以后臺同步的方式進行的,這使本地系統性能受到的影響很小,傳輸距離長,對網絡帶寬要求小。但是,許多遠程的從屬存儲子系統的寫沒有得到確認,當某種因素造成數據傳輸失敗,可能出現數據一致性問題。為了解決這個問題,目前大多采用延遲復制的技術,即在確保本地數據完好無損后進行遠程數據更新。以異步為數據復制手段,其切換時間相對同步復制較長但卻是防范災難范圍更廣泛的異地遠程災備模式。
4 結束語
綜上所述,此方案的優勢就是對主機應用完全透明,所有數據復制工作由磁盤陣列硬件層完成,不需修改應用,而且可以保證大量數據復制的性能。由于磁盤陣列數據復制原理是利用磁盤遠程鏡像功能,所以可以保證主數據中心關鍵業務數據和備份中心關鍵業務數據的完全一致,而且容災系統實現起來非常簡便。還可以充分利用現有服務器設備,實現應用系統和重要數據的災難恢復功能,確保了系統和數據的安全,保證了學校系統正常運行。
參考文獻:
[1] 金崇英.在線備份和異地容災軟件的設計與分析[J].計算機應用與軟件,2008,8(25).
[2] 蓋國強.循序漸進Oracle數據庫管理、優化與備份恢復[M].北京:人民郵電出版社,2007,1.
云存儲興起
自亞馬遜首次推出簡單存儲服務(S3)存儲目錄(Storage Bucket)以來,一些科技公司一直在關注如何把更常見的數據類型存儲在云端。存儲目錄可以在成本、訪問以及可擴展性這三個方面提供獨特的功能。存儲目錄包含有存儲對象,用戶可以借助一種可高度擴展、與位置無關的HTTP協議,通過網絡實現對存儲對象的訪問。然而在形式上,存儲目錄技術與企業存儲完全不兼容,它不僅需要一種外來存儲協議,還需要其對延遲和不穩定的性能有很強的容忍性,這對主流的企業應用來說完全行不通。
這種情況為存儲廠商帶來了機會,不過挑戰也隨之而來。最早的云存儲公司希望利用存儲目錄的模式,以云的獨特功能來應對IT挑戰。乍一看,這似乎是很容易完成的任務,但是這需要在兩方面進行重大改進:一方面是將傳統基礎架構和云連接起來,另一方面是充分利用云,改善數據和應用程序的訪問。由此產生了第一代基于云的存儲方案,包括專用應用軟件、協作解決方案、備份解決方案、數據歸檔,以及連接云的存儲設備(這種硬件可以臨時使用本地存儲來縮短延遲,并使用云的外來存儲協議實現傳統存儲的訪問功能)。
與云集成的企業存儲
目前,如何將云與企業核心應用的主數據結合起來,還沒有得到人們的重視。由于這些數據是企業中最寶貴的無形資產,因此對于它們的存儲也有著更苛刻的要求,想利用彼此特性不相容的云來滿足這些要求,無疑困難重重。
與云集成的企業存儲作為一類新的技術,有望解決云訪問特性和企業存儲需求不一致的問題。其辦法是先提供企業級主存儲,然后,利用云計算技術使這種主存儲具有一些獨有功能,其應用范圍絕不只是增加容量這么簡單。事實上,云會從根本上改進每一項存儲功能,并且擴展存儲功能和存儲深度。
雖然乍一看,這種存儲可以很簡單地連接到云(見圖1),但其實它要復雜得多。新型技術可以對數據存儲每個字節的放置進行優化,然后借助云所具備的隨時隨地訪問、安全以及近乎無限擴展的特性,從而增加主存儲的持續性以及功能性。
相比以往連接到云的硬件和軟件,本地存儲系統對存儲的每字節數據,將具有更加全面的管理功能,而不是純粹在充當一種緩存或傳輸設備。本地存儲系統會以最佳方式存儲數據,并且不斷進行優化,使高度活躍的數據存放在系統的高速存儲系統中(見圖2)。
CES應對存儲生命
周期的挑戰
CES將會對存儲方法帶來重大而深遠的影響,云和主存儲系統的集成,使主存儲系統能為物理資源有限的設備、系統或數據中心帶來前所未有的功能和數據管理應用。這樣可以大幅減少甚至消除遷移和處理存儲數據的需求。
企業中的數據和信息管理的生命周期可能極長,再加上需要對數據做一些必要的處理,因此,整個過程既復雜又費錢。生命周期始于主存儲系統,可能牽涉許多不同的獨立的存儲系統和技術,在企業中造成完全孤立的IT系統,如備份、歸檔和災難恢復。對于這些獨立的IT系統和存儲孤島,云帶來了新的機會,有望降低其復雜性和擁有成本。不過就算擁有新的技術,每個IT系統仍然是獨立的孤島,仍然面臨著巨大的成本挑戰。這使得數據生命周期的管理需要付出極高的成本(見圖3)。
把云和數據的主要創建源結合起來是個不錯的方式,這樣可以在數據創建時操縱每個部分的業務數據,從而消除這些孤立的系統,達到節省成本、把云集成技術推到主存儲市場前沿的目的。這種解決方案究竟能夠解決什么樣的數據問題?以下是幾個例子:
保留 數據一旦創建,就可以保留起來,用于歸檔和合規;然后,在合適的時候將數據傳送到云端,不需要另外的應用軟件、存儲設備和IT流程。同時,所有數據在一個整合的訪問點,可確保可視性和可訪問性。
保護 用于數據保護的數據副本(快照和克隆)可以遷移到云端,從而實現對主數據的保護。通過利用將快照自動放置在企業內部、云端或者兩者兼有的功能,CES陣列能提供具有多重優點的備份,比如長時間、低成本、全球分散、內部可訪問等,而且不需要傳統的備份磁帶和異地磁帶。此外,基于市面上現有的解決方案,不管從內部副本恢復數據,還是從外部副本恢復數據,其速度都比傳統的本地和異地恢復快得多。
災難恢復 在“保護”、“保留”的同時,主數據仍可定期與云同步,以便創建異地副本;如果方法得當,異地副本可以永久取代原本復雜的災難恢復技術,擯棄磁帶和物理傳輸,并且提供主存儲庫,其中的恢復數據可以從任何地方訪問。這樣可以充分利用高度虛擬化的托管型災難恢復,從而節約大量傳統備份基礎設施。
這些例子并非輕而易舉就能成立,但其優點則可以大幅改變數據存儲和管理的方法,并且把多種技術精簡為只需要一個數據存儲和管理陣列。
CES的核心要求
雖然CES在創新和產品差異化方面還需改進,不過交付CES的需要注意以下幾點。盡管每項功能單獨看起來似乎很簡單或很普通,但是這些功能的有機整合將會在數據存儲方面帶來巨大的突破,(如圖4)。
為主存儲而生
CES是為確保主存儲的性能和高可用性而設計的。與以往一樣,主存儲必須包括雙控制器,這種模式專為不間斷操作、企業組件和冗余吞吐量而設計。此外,如今追求性能是創新的原動力,用戶一方面需要高I/O介質(固態硬盤),還要求出色的緩存方案,以便不斷提供最佳性能,同時能夠自動對數據分層并遷移到磁盤,以便最大限度地減小存儲成本。
天生就有主存儲功能
另外,CES要有最先進的主存儲功能,它們需要完全集成在陣列里。這類功能包括內部陣列虛擬化(可以降低復雜性,把所有磁盤匯集成易于使用的單一存儲資源)、自動精簡配置、快照克隆技術、靈活復制以及企業級管理和可視性。目前連接到云的存儲設備往往過于依賴云連接,這類系統并不能提供隨時可用的主存儲功能。
力求陣列之外的創新
最后,交付CES絕不僅僅是讓云成為存放非活躍數據的地方。云需要獨特的集成,不具實力的廠商也許能提供額外容量,但是它們根本無力改進和擴展陣列,以處理復雜的生命周期問題。創新的集成將不僅能夠實現容量擴展,還能夠提供簡易的、隨時可用的備份,無縫的異地數據保護,隨時隨地的災難恢復,以及不被運營商綁定的、開放的、全面的性能和容量優化。這些功能的組合將使得單一個物理設備就能跨越物理邊界,滿足數據存儲生命周期的所有要求。
CES將是來自云的最有影響力的存儲技術。它必將解決數據中心中最復雜的存儲任務,其中除了更換或添加主存儲陣列外,對基礎架構不會有太多的改變,CES還將有望大幅改變存儲的總體擁有成本,并引發創新。但是廠商是否注意整合企業內外的數據,并使用云和企業存儲這個組合來應對數據管理生命周期的挑戰,長遠來看將關系到廠商能否取得差異化的優勢。
鏈接
CES相關廠商
目前只有少數幾家廠商真正在交付CES方面有所突破,不過有幾家廠商已經開始往CES方向穩步前進。在各大廠商中,惠普的3PAR在這方面走得比較靠前。不久前,3PAR的團隊CloudAgile計劃,致力建立創新的云合作關系。HDS最近也進軍CES領域,它將收購的BlueArc(網絡附加存儲即NAS)和Panasas(向外擴展的文件存儲)與日立內容平臺(Hitachi Content Platform)聯系起來。但是對各大廠商來說,仍有大量工作要做,當然也有大好機會。這些傳統廠商已邁出了第一步,即把各自的主存儲與自家的“私有云”集成起來,預計下一步將是與公共云集成。
人們通常認為數據存儲是成本最低的IT開銷之一。隨著磁盤價格的猛跌,以及支持大規模部署的新存儲網絡技術和差異化成本的多層存儲技術的出現,數據存儲的性價比已經達到了一個非常理想的程度,但是存儲消耗總量的增速卻抵消并且超過了單位成本的降幅。
賽門鐵克數據中心基礎包括Veritas NetBackup、Veritas Storage Foundation、Veritas Server Foundation和Veritas i3應用性能管理等解決方案,它們取代了以往保護關鍵信息和應用并確保它們可用性所需要的幾十種不同的工具。
為什么需要改進存儲管理?
現在許多企業數據中心和存儲網絡所面臨的情況是由多種因素導致的。由于業務和法規的要求,企業關鍵信息是以幾何級速度增長,并且通過電子郵件、電子商務和電子系統不斷涌入數據中心,而這種情況預計在未來還將持續下去。
對于不斷增加并被存儲的企業數據流必須進行管理。存儲的數據量越大,需要進行的管理、資本費用以及運營開支也就越多。隨著存儲成本在企業的IT資本和運營開銷方面的影響越來越顯著,企業正尋找方法來盡可能減少這些因素。
現在的企業網絡架構一般都是由分散和移動系統構成的異構網絡,并且采用了多層存儲架構。大多數數據中心的設備都來自多家UNIX廠商,并且有更多的數據中心采用了Linux和Windows兩種操作平臺。該領域的企業正在尋找新的工具和最佳實踐來減少它們存儲網絡的成本和復雜性。
Veritas Storage Foundation包括了Veritas Volume Manager、Veritas File System、和Veritas CommandCentral Storage。Veritas Storage Foundation核心包括了一個名為VxFS的文件系統,并集成了名為VxVM的數據存儲管理器/存儲虛擬系統。
Storage Foundation是一種管理企業存儲的高性能、可擴展的工具集,它可以在所有主流UNIX平臺上提供一個共享的用戶接口。這些UNIX平臺包括:Solaris、HP-UX、AIX和Linux (RedHat 和 SuSE)。
存儲基礎管理服務器
存儲基礎管理服務器(Storage Foundation Management Server,簡稱SFMS)是一種改變存儲管理的免費技術。通過結合SMFS和Storage Foundation,IT企業可對其存儲環境擁有前所未有的可視能力和控制能力。
通過單獨、安全和基于WEB的平臺,IT企業可以查看跨應用程序、服務器和存儲資源的獨特資源。
CIO負責管理運行Storage Foundation的服務器,可以通過安全的、基于WEB的用戶界面迅速查看企業中是否有應用程序面臨威脅(比如:磁盤故障、復制鏈接問題、路徑故障)。管理員可以迅速修復這些問題(所有恢復工作都通過同一個控制臺)并且消除對企業造成威脅的隱患。
集中存儲和數據管理:虛擬化
對于連接到服務器的在線存儲訪問,VxVM數據存儲管理器通過兩種方式進行控制:一種是直接進行控制,就像對磁盤驅動那樣;而另一種方式是則是作為邏輯單元(簡稱:LUN),比如存儲網絡上的磁盤陣列。
通過與主操作系統中的適配卡和設備驅動的協同工作,VxVM組織這些設備的模塊存儲并以類似磁盤驅動的虛擬存儲設備與上一級進行交互。
由VxVM表示的虛擬存儲設備在文件系統和實用程序看來就像是類似磁盤驅動的模塊存儲設備。這種類似磁盤驅動的數據存儲設備具有很大的優勢,因為幾乎所有的存儲實用程序、文件系統、數據庫管理系統都可以處理存儲在磁盤驅動上的數據。通過像磁盤驅動那樣的工作,應用程序和數據管理系統便可使用這些存儲設備,而無需投入額外精力或者進行任何修改。
多層存儲功能
Storage Foundation的動態存儲分層(Dynamic Storage Tiering,DST)功能可以允許IT經理將時間較為久遠、或者不經常使用的信息轉移到便宜的存儲層中,而無需改變用戶或者應用程序訪問這些文件的方式。
關鍵詞:計算機;網絡存儲;發展方向
中圖分類號:TP333 文獻標識碼:A 文章編號:1006—8937(2012)23—0095—02
1 網路存儲技術簡介
①DAS(Direct Attached Storage,直接附加存儲)技術。在企業開始時,用戶的存儲規模和要求都不大,只是把相關的數據存儲在一個特定的地方。不僅數據存儲的最終目標是能夠安全保存,而且還必須保證數據可以隨時調用。DAS的直接連接,可以解決單臺服務器的存儲空間擴展,高性能傳輸的需求,和一個單一的系統外部存儲容量引進大容量硬盤,一個單一的外部磁盤存儲系統容量將上升。此外,DAS還可以構成一個以高可用性磁盤陣列為基礎的雙機系統,以滿足數據存儲的高可用性要求。在網絡帶寬足夠的情況下,服務器本身成為數據I/O的瓶頸。之前絕大多數存儲系統都屬于這種類型。
②NAS(Network Attached Storage,網絡附加存儲)技術。NAS的方式全面改善了以前低效的DAS存儲,它是獨立于PC服務器、文件服務器,單獨為網絡數據存儲。 NAS是一個集中的存儲,易于管理和維護。NAS技術分開數據處理,處理和存儲數據的設備已經不再是一個主機的附屬物,成為網絡中的一個獨立的實體存在。這種存儲技術,存儲設備由于不直接與服務器連接,存儲容量是很容易擴展的,因而NAS具有良好的靈活性和可用性。但其主要缺點是:增加網絡流量,成為用戶傳輸數據的瓶頸。
③SAN(Storage Area Network,存儲域網絡)技術。SAN是一種新型的數據存儲技術。它是傳統SCSI技術與網絡技術相結合的產物。具有高可擴展性,可管理性和容錯好處。SAN技術能有效地克服以上兩種技術的功能缺陷,以實現企業數據存儲的高可靠性,高可擴展性和高度集中性。加強數據管理,降低總成本。存儲設備已經不再是一個私人設備和網絡接入到任何存儲設備的主機,所以在網絡上的主機可以通過主機總線適配器(HBA)訪問。SAN技術不僅提供大容量存儲的數據,還可以緩解大量的數據傳輸。SAN對企業網絡數據存儲局域網的影響,已成為一種必然趨勢。
④虛擬存儲技術。要形成一個大容量的內存在使用虛擬存儲、存儲器和外部存儲器,這種技術被稱為虛擬存儲。虛擬存儲技術迄今為止沒有統一的標準,其虛擬化存儲的拓撲,主要表現在兩個方面:對稱與不對稱。對稱式虛擬存儲技術是虛擬存儲控制設備與存儲軟件系統,交換設備集成為一個整體,內嵌在網絡數據傳輸路徑。非對稱虛擬存儲技術是指虛擬存儲控制設備獨立于數據傳輸路徑。虛擬存儲既克服物理設備的局限性,又具有物理設備在高性能、高可用性、充分利用等方面的優勢,因此該技術也得到了廣泛的應用。
2 不同網絡存儲技術的選擇
DAS這種技術已經比較原始,存儲系統是計算機系統的一部分,大多以存儲設備形式出現。此方案使數據相互隔離,容易形成數據島嶼。NAS和SAN與傳統網絡存儲技術相比而言,無論是從網絡傳輸帶寬、數據共享性還是從存儲容量的可擴充性、數據的一體化和安全性等方面來說,其優越性是不言而喻的。所以,現在眾多的用戶在對其存儲技術進行選擇時,其首選已經不再是DAS了。
①選擇NAS技術。如圖1所示NAS設備主要用于不同的操作系統平臺下的文件共享應用,NAS作為一個網絡附加存儲設備,可以是有效的,緊密的釋放系統總線資源,全力支持I/O存儲。與傳統的服務器或DAS存儲設備NAS設備安裝、調試、使用和管理非常簡單相比,使用NAS可以節省一定的設備管理成本。應用NAS存儲技術的企業,維護成本低,使用可以發揮現有網絡優勢。NAS比較適合中小型企業的數據存儲。
②選擇SAN技術。如圖2所示,SAN通常是基于光纖通道SAN網絡存儲設備和服務器連接到這樣一個大的數據訪問需求,數據通過SAN網絡之間的服務器和后端辦公存儲設備。局域網的帶寬消耗幾乎為零,而且服務器可以訪問SAN上的任何存儲設備,數據具有可用性。性能和可靠性要求應用場合使用先進的SAN數據存儲網絡、數據存儲、備份和原有的局域網絡,這將減少網絡負荷,以確保現有網絡順利應用無關的其他活動。SAN網絡采用光纖傳輸通道,高速數據傳輸速率。因為以上特點,SAN非常適用于服務器集群,遠程災難恢復,互聯網數據服務等領域。
③選擇虛擬存儲技術。虛擬存儲技術提供了更好的存儲資源管理方案不同類型的存儲設備,可集中管理和使用,保護用戶以前購買的存儲設備。存儲技術可以用來解決浪費的存儲空間,它集成了多種分布式的存儲空間,形成一個連續尋址的邏輯存儲空間,打破了單個物理磁盤的容量限制。存儲池自動重新分配數據和高效的快照技術降低容量需求,并極大地提高存儲資源利用率。
3 網絡存儲未來的發展方向——云存儲
云存儲是未來計算機網絡存儲的發展方向。顧名思義,云存儲是伴隨著云計算應運而生的。云存儲這種商業模式共享了服務器的數量,大大提高了其服務的使用率。以下討論了云存儲所應用的相關技術。
①應用存儲技術、網絡寬帶技術。可以通過應用存儲技術來減少云存儲中服務器的數量、數據傳輸鏈路。從而使系統建設成本的降低,其可以減少單點故障和性能瓶頸服務所造成的系統故障,可以減少,并最終以確保整個系統高效,穩定運行。是可以存儲應用程序、服務器和存儲設備的集合。寬帶不僅關系到速度,但也有一些相關技術,例如協議、通信技術,半導體技術和網絡技術。分布在全國和世界的云存儲系統,用戶通過寬帶接入設備來連接云存儲。為了獲得足夠的數據帶寬,真正享受到云存儲服務的網絡帶寬用戶,他們必須有足夠的發展。
②存儲網絡化管理技術、存儲虛擬化技術。存儲虛擬化允許多個存儲設備,以實現統一管理,部署和監控的目標。在虛擬云存儲環境,用戶的存儲設備的詳細信息和物理位置是透明的。虛擬存儲統一通過云來實現統一管理,用戶感知、查詢許多不同的信息資源和服務。
③集群技術、分布式文件系統。云存儲系統是由多個不同的存儲設備,通過集群技術,分布式文件系統技術來實現,可提供同類服務,可以提供數據訪問的性能。
4 結 語
隨著計算機系統和網絡的不斷發展,計算機網絡存儲的方式也越來越多。文章對網絡存儲的技術進行相關的討論,并且分析了相關存儲技術所應用的情形。云存儲以其在擴展性、高效性、安全性等方面的優勢,將成為未來網絡存儲的發展趨勢。所以文章也對云存儲進行了相關的討論。
關鍵詞:數字圖書館;信息數據;安全;存儲
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2012)14-3226-02
數字圖書館是未來圖書館發展的方向,也是一個國家和地區文化科技的知識寶庫,隨著數字圖書館建設的不斷加快,全方位信息服務水平的不斷深入,信息數據資源不斷增多,館藏信息數據的安全保護也提升到了一個新的高度。
信息數據安全保護有兩層方面的含義:一是數據自身的安全保護,主要是指采用現代加密算法對數據進行主動保護,如數據保密、數據完整性、雙向身份認證等。二是數據存儲的安全保護,主要是采用現代先進的信息存儲手段對數據進行主動保護,如通過磁盤陣列、數據備份、異地容災等手段保證數據的安全。數據自身的保護是一種被動的防護,必須基于可靠的加密算法與安全體系來進行,而數據存儲的防護是一種主動的防護措施,是將數據本身或者其中的部分以及全部內容在某一點的狀態以特定的格式保存下來,以防數據源出現丟失或毀滅等其他各種原因不可用時,可及時準確的將數據備份內容進行恢復的技術。
1數據安全保護技術的現狀
在說明現狀之前,請看二個真實的例子:
1)2007年5月,藍色巨人IBM遭遇了一起令人尷尬的數據丟失事件,一批存有IBM員工和客戶賬戶信息等敏感信息的數據備份技術磁帶在運送到紐約西切斯特郡過程中意外丟失后又神秘消失了,由于其中只有一部分磁帶對信息進行了加密處理,因此剩余磁帶中的信息都面臨隨時泄露的風險,這就迫使IBM不得不在當地報紙刊登廣告,希望有人能歸還這些磁帶。
2)2008年初,瑞典公共圖書館Stockholm的一臺電腦上發現了一個帶有軍方機密信息的U盤,其中包括Improvised Explosive De? vices(簡稱IED,一種可在安全距離有效地引爆起獲的簡易爆炸裝置)和阿富汗國內地雷分布等數據信息。隨后該U盤被人交給了瑞典國內發行量最大的晚報《Aftonbladet》,并由后者移交給了相關政府機構。
這兩起案例雖不涉及圖書館行業,但其中的危害還是讓我們認識到單純的數據存儲保護不能夠完全的保證系統數據源的安全,即時已經備份了的數據也會面臨安全性問題。數據存儲保護的最終目的就是快速、準確的將信息恢復至某一時刻的狀態,猶如時光機器,可以將信息的歷史狀態完全記錄并進行回放,無疑是一劑可以隨時服用的“后悔藥”。但是,一旦這劑“后悔藥”別人也能服用甚至被銷毀,那么數據存儲保護技術還能保護你的數據嗎?
結合數字圖書館來說,館藏信息數據主要分為三類:一類是館內信息,包括歷史沿革、館藏圖書機讀目錄等。二類是自建信息,包括科研信息收集庫、館內讀者個人信息、資源服務跟蹤信息等。三類是購買信息,包括各種電子資源等。就目前所知的的解決方案,大體可以分為物理保護與邏輯保護兩種形式:1)物理保護主要確保存儲備份的介質在儲存與運輸時時的完整性與可靠性。2)邏輯保護主要指備份數據不會被解密,不會被非法的、非授權的訪問讀取。數據備份技術加密是也解決方法的另一種途徑,但在執行數據備份技術任務時會對客戶端的性能造成影響,通常在30%~50%之間,因此后臺加密技術只有在多核CPU普及后才獲得了長足的發展。
2圖書館信息數據保護之道:備份、容災走向融合
在云平臺、智能共享愈演愈烈之時,未來圖書館信息數據將怎樣發展?諸多解決方案供應商均了對未來發展趨勢的預測,除了云平臺、虛擬化以及大數據等熱門詞匯毫無懸念地位居其中之外,數據容災首次得到專門"對待",預測的結果表現出了現有數據備份方式將會改變,簡單化保護管理將成為未來數據災難備份技術的重要發展趨勢。
我們認為,未來的所有產業都將基于信息技術,產業的核心動力在于信息技術的發展,產業隨著信息技術的量變或質變而變化。結合到圖書館行業,筆者認為未來的圖書館更多的是數字圖書館,實體的紙質圖書館將僅限于城市內綜合館的一部分,信息化的數據資源將是圖書館內容的主體,數據信息將越來越重要,相應地,對災難備份方案的要求和重視程度也越來越高。如果因為災備方案的缺失,硬件故障致使整個系統宕機,長時間無法恢復,所有圖書信息服務業務被迫停止,急需查找的資料或書籍而連不上本地區數字圖書館,進而影響到決策或某項商業活動,所造成的危害根本無法用數字去衡量。
但由于成本方面和技術普及需要時間等客觀因素,目前采用的備份方案或只能夠備份數據,或只能夠備份系統,更有的是僅僅只針對某些應用程序的備份,災難來臨需要數據恢復時又需要備份方案中配套的專門恢復軟件,當需要多個備份方案同時進行時就造成了相關資源和經費的浪費并增加了數據管理的復雜性。2012年2月1日,根據Acronis 2012年全球災難復原指數(Disaster Re? covery Index, DRI)顯示,全球仍有32%的中小企業采用3種或3種以上的備份、容災解決方案。無獨有偶,筆者在與圖書館同行交流當中了解到甚至有同時使用4、5種備份、容災解決方案的。
眾所周知,數據備份的目的是為了恢復,而最關鍵的步驟也是恢復。然而這么多種的災難備份解決方案,卻沒有增加數字圖書館在遭遇數據災難時恢復的信心。由于要從多種不同的備份環境中恢復需要的數據非常繁瑣,圖書館行業甚至是所有相關產業都迫切希望能夠擁有一種能夠在各種物理平臺、各種數據庫、多種虛擬以及云端平臺環境中使用的“通用恢復平臺”。
面對這種需求,有的數據災難恢復方案商已經開始有所研究,主要方法是在“通用恢復平臺”上集成多種備份恢復技術,已優良的用戶界面和傻瓜式的操作來以降低管理的復雜性。如一些方案商提出了災難備份恢復一體融合的理念,戴爾在它推出的以“流動數據架構”為核心的智能數據管理解決方案實際上就是“存儲備份容災一體化”的雛形:“流動數據架構”通過以“適合的地點、適合的時間、適合的成本、適合的數據”,為客戶優化存儲基礎架構,更智能的數據管理策略提供有力的幫助。戴爾認為現有的數據存儲有五大問題:1)存儲架構缺乏靈活性,擴展成本居高不下。2)存儲架構效率低下,存儲性能和容量浪費驚人。3)數據保護成本昂貴。4)維護和管理成本等隱性成本偏高。5)信息監管成本越來越大。針對這些問題,當然主要的是存儲上的問題戴爾提出了通過流動數據來幫助用戶實現高效IT和降低存儲成本。在“流動數據構架”中,通過使用內容感知的重復數據刪除技術,幫助用戶實現存儲數據的壓縮,在存儲空間不變的情況下,最大化的利用存儲容量。而虛擬存儲技術則是一個在虛擬環境下的高效存儲技術,能夠使用戶的存儲效率最大化。利用自動分層技術則能幫助用戶實現數據的自動化存儲問題,它能自動分辨出高使用率數據和低使用率數據,實現高低數據之間的自動流動,讓信息數據可在主存儲、備份及容災系統之間自動流傳。
當然在這方面有所成就的不止戴爾一家,包括國際廠商的惠普、EMC,國內廠商的浪擎、清華等都加強了在存儲和災難備份方面的一體化整合,包括服務器、網絡以及存儲的災備一體化融合解決方案層出不窮,簡單化管理、智能化、自動化必然是數據信息保護行業的大勢所趨。
然而,就目前國內中小數字圖書館經費和技術條件的實際情況,對那些服務對象為綜合大館的以硬件為基礎的一體化災難備份恢復解決方案只能“望洋興嘆”。在這種情況下,部分方案提供商以其敏銳視角開始為這部分用戶提供了單純利用軟件來對數據信息進行備份的方案,以能夠確保服務中斷后可最大限度的快速恢復,例如SIMPANA軟件,它是Comm Vault一體化信息管理(Sin? gular Information Management)軟件套件的品牌名稱,它提供了數據保護、歸檔、復制、資源管理和搜索模塊,并利用統一的一套源代碼無縫的結合在一起,能共享相同的服務功能。再如愛數的云落地戰略,它的核心就是云計算平臺,它直觀的展示了“一個中心,多個基本點”的思想。平臺戰略以Tx3系統中心為中心,多業務應用節點為基本點,戰略的核心是Tx3云平臺,目前的業務應用節點包括愛數備份軟件、愛數備份存儲柜、愛數AnyShare等應用產品。總的來看,這些方案提供商就是圍繞著云平臺在進行軟件活動,提供“軟件即服務”的功能,用戶可根據自己的實際需求靈活添加功能模塊,這就是云計算中的“按需付費”。
3數字圖書館云時代需要更高級的業務連續性與數據保護
云計算是什么?這個答案眾說紛紜,我的理解是云計算實際就是資源服務,是一種把在單獨各個機房的各種資源整合到一起,并能通過互聯網提供給更多的人使用的一種新技術,這個資源包括服務器的運算資源、存儲空間資源、軟件資源和數據信息資源。使用的人不需要知道服務器在哪里、空間在哪里、軟件安裝在哪里、數據信息存儲在哪里,在任何地點、任何時間只要有互聯網就能夠使用,用專業的話就是提供:更低的成本,更快速的交付,更多樣性的服務,它不是特定的技術,而是一種服務理念,是通過按需彈性擴展和用戶自助服務實現IT服務的便捷性和自動化。
因為云計算有著這么多的優異特點,很多企業都構建了自己的“私有云”,而數字圖書館行業也逐步開始在構建自身的“私有云”,因此如何在云時代實現數據的備份和恢復,在各種“私有云”之間實現異地容災,都是新一代數字圖書館構建時要考慮的重要問題。
目前,較為有效的云環境數據安全解決方案還不多,調研報告顯示,云計算以及云端的數據安全發展大致分為三個階段:首先是準備階段,該階段主要進行的是新技術的儲備和新概念的推廣,相關解決方案和商業運行模式尚在接觸、摸索中,用戶對云的認知度較低,大多持觀望態度;其次是起步階段,該階段內一些較成熟的案例逐漸顯露,用戶對云的了解和認可程度也在不斷提高,逐漸有新的方案提供商介入進來,根據自身的理解,涌現出大量的多種各樣的解決方案;第三是成熟階段,云的相關產業鏈和行業生態鏈基本成型,各提供商解決方案開始趨于成熟穩定,用戶通過云計算取得良好的效果,并成為信息系統不可或缺的組成部分。而現在我們認為剛剛進入準備階段,各種解決方案尚在摸索,不過其中不乏其佼佼者,比如國內信息安全廠商椒圖科技近日就在北京召開了JHSE安全云解決方案會,首次向外界公布了椒圖科技在云計算方面的安全理念,并著眼于云計算基礎架構平臺建設提出了體系化的安全云解決方案,再如總部在北京的全球信息安全解決方案的領先供應商SafeNet也了一個應用在云計算網絡應用模式上的數據安全方案,通過該方案,組織機構可確保“云”模式下敏感數據的安全。還有飛康CDP的持續數據保護方案,該方案針對“云”模式下的數據提出了以數據持續保護、系統快速恢復、備份和容災一體的解決方案。這些方案都對數據信息的災備有一套自己的做法,其飛康CDP的連續保護技術最具特色,主要特點是:
1)在整個數據的生命周期過程中都能提供強有力的保護,它不僅僅是保護數據,還保護數據環境和系統;
2)該技術在使用過程中對云環境的基礎架構沒有影響,對已有的系統架構也沒喲改變的要求;
3)提供了一套全面災難防護手段,能夠防范各類邏輯方面和物理方面的災難,確保能夠實現本地云環境的全面恢復;
4)具有開放式架構的特點,能夠兼容大多的云存儲設備;
5)在數據恢復時,具有可以人工選擇數據恢復某一個項目的技術;
6)在云端環境下,主機可以做到全天連續備份;
7)具有多種復制策略(連續復制模式、壓縮模式、基于時間增量模式、基于數據增量模式等策略可以單獨使用也可以組合使用);
8)輕易實現從私有云、公有云環境的本地持續數據保護及不同地域間的云平臺環境的的云飄移。
總的來說,在當今不斷變化的“云”環境下,只有經過驗證的解決方案才能夠提供精細、持續的安全保護控制,用戶希望能夠充分利用“云”的優勢,而不必以犧牲安全為代價,云的普及離不開數據安全,保證系統與數據安全勢必任重道遠。
4數字圖書館的數據保護任重道遠
數字圖書館的數據安全包含的內容很多,該文僅僅是從存儲角度來論述一個數字圖書館數據信息的保護方式,其他的如網絡攻擊方面,有人員管理方面等沒有進行論述,這些也是數據保護的一個重要內容。總的來說如何進行數據保護不僅僅是圖書館工作者所思考的問題,也是IT行業共同關注的問題。因此數字圖書館數據保護建設要統一考慮,長遠規劃,保證技術的先進性和可擴展性,在技術上要適應新的網絡動態變化,建立適應的安全保障體系,同時要加強安全管理,增強館員的安全意識,這樣才能保證數字圖書館順利發展。
參考文獻:
[1]劉正偉.海量數據持續數據保護技術研究及實現[J].計算機研究與發展,2012(S1).
[2]中小企業數據備份、容災走向融合[I].微電腦世界,2012(3).
[3]梁曉歡.數據庫安全、虛擬化和云計算——現代IT領域數據保護所面臨的三大關鍵技術挑戰[J].電腦與電信,2011(4) .
[4]馬驍宇.企業數據保護和存儲安全解決方案[J].科協論壇:下半月,2011(8).
[5]宋愛林.高校圖書館公共機房數據保護綜合方案研究[J].圖書館界,2010(1).
[6]田全紅.淺析新一代數據保護策略在云計算時代的應用[J].甘肅科技,2011(17).
操作型BI可提高報表、分析、與信息的速度,從而做出更快的操作型決策并采取行動。對操作型事務或需求做出業務響應的時間通常被稱為“行動期”。行動期可以是幾秒鐘,幾分鐘或者幾個小時,這依賴于業務需求。因此,一般考慮的大多是操作型“適時”(right-time)商業智能,而非操作型實時(real-time)商業智能,因為對給定的業務進程而言需要確定合適的行動期,而不是盡可能將行動期減少到接近實時。
操作型適時商業智能進程
操作型適時商業智能進程主要分為四類:適時數據集成、操作性商業智能報表、操作型商業智能績效管理(BI-PM)和決策自動化。
1、適時(Right-time)數據集成
適時數據集成是企業數據集成架構中的一個組件。該架構包含了數據集成應用、機制、技術與服務,提供聯合的一致的企業范圍的商業數據視圖。該架構中的適時組件收集用于操作型商業智能應用分析的可執行的商業事件。
數據集成有三個主要的集成機制:數據合并,數據聯合與數據傳播。數據集成可以采用其中一種或多種。
數據合并――數據合并是從多個源系統捕獲數據并將這些數據集成到單一的長期的目標數據存儲中,如數據倉庫。目標數據存儲包含高潛伏期的數據,典型的用于戰略與戰術BI進程。這些數據通過批處理方式的數據集成應用而建立,它以計劃好的一定的時間間隔從源系統中提取數據。在數據合并期間,可能會通過數據轉換機制對數據進行重新格式化、轉換、清洗。隨著源系統中的數據出現變化,變化數據捕獲機制可能會被使用以使這些更新體現到目標數據存儲中。抽取、轉換與加載(ETL)就是一種支持數據合并的技術。
數據聯合――數據聯合對一個或多個源系統提供一個單一的虛擬視圖。當商業應用事務向這個虛擬視圖提交查詢請求時,數據聯合引擎從相關的源系統中檢索數據,并將它集成到虛擬視圖中,進行查詢,同時將結果發送到提出請求的商業應用。顧名思義,數據聯合總是從源系統中按照需求進行數據的檢索。當數據從源數據文件中進行檢索時,需要完成必要的數據轉化。企業信息集成(EII)是一種支持聯合方式進行數據集成的技術。Sybase Avali就是其中一種產品,它提供EII方式的數據聯合。
數據傳播――數據傳播應用將數據從一個系統拷貝到另一個系統。這些應用通常是在線操作,將數據“推送”到目標方,也就是說,它們是時間驅動的。源系統的更新或其他事件可以同步或異步傳播到目標系統。同步傳播要求源系統與目標系統在同一個物理事務中同時更新。不論使用哪種同步類型,數據傳播保證數據向目標方的發送。這種保證是數據傳播的一種核心的獨特的特征。多數同步數據傳播技術支持在數據源與數據目標之間的雙向數據交換。企業應用集成(EAI)與企業數據復制(EDR)是支持數據傳播的兩種技術。EAI驅動的Sybase RepConnect與EDR驅動的Sybase Replication Server(復制服務器)是支持數據傳播的兩類產品的例子。
數據集成應用所采用的方式依賴于商業與技術需求。應用可能聯合使用數據集成機制與技術,也就是說,一個使用混合方式的數據集成解決方案包含幾種數據集成機制是相當普遍的。
2、操作性商業智能報表
許多企業一直在做操作型報表。然而,由于數據源不斷增加,企業生成統一及時的操作型報表的困難也在增加。數據聯合與EII 技術可以在此有所作為,為多個分散的數據源提供一個單一的虛擬視圖。對操作型商業智能報表應用而言,數據看起來有一個單一的數據存儲,但實際上它們仍然存儲在原始的源系統中。EII服務器的作用就是訪問不同的數據源以滿足基于虛擬業務視圖的聯合查詢。
一種常用的解決操作型商業智能報表的源數據質量問題與性能負荷的方法是將詳細的BTx數據通過適時數據集成合并到操作型數據存儲(ODS)中。使用ODS,在任何時候都可以進行批處理、在線與即席操作型報表,而不會直接影響操作型應用的性能。它也提供一個單一的集成的操作型數據的視圖,允許數據被清洗、轉換為更易使用和閱讀的格式。另一種解決方案是將BTx源數據傳播到第二個同樣的拷貝。復制拷貝通常是一個實時拷貝,因此除用于操作型商業智能報表之外,也可被用于災難恢復。當然,該方法的問題就是,不能支持源數據的清洗與轉換,因此不能處理那些必須通過多個分散的數據存儲生成報表的情況。而最終將使用哪種方法將由商業與技術需求來決定。可以肯定的是一個企業的數據集成架構應該支持所有三種方法。
3、操作型商業智能績效管理(BI-PM)
除了就商業運行生成報表之外,商業用戶也希望監測并分析那些操作以識別操作型事務,防范操作型問題,以及評估每日業務趨勢。這些任務由操作型商業智能績效管理(BI-PM)來支持實現。
BI-PM應用,從簡單的商業績效的圖形化顯示,到復雜的由方法學驅動的顯示實際績效與計劃績效對比的記分卡都有。多數操作型BI-PM應用努力為各級經理與用戶提供易于使用的圖形化顯示,而不是提供為商業分析員使用的復雜的記分卡。一些操作型圖形顯示通過對操作型結果與數據倉庫的趨勢數據進行比較,或者對操作型結果與已經由最佳商業實踐所定義的商業規則進行評估,而將度量顯示置入到商業環境中去。
除了生成圖形顯示或記分卡之外,操作型BI-PM進程也可以對用于分析的操作型應用所提交的動態查詢進行處理。欺詐監測、風險管理與客戶市場營銷就是這些需要在在線BTx進程運行期間從分析進程得到快速響應的應用的例子。在多數情況下,分析型進程要求處理大量的數據。分析呼叫數據記錄與網絡報警等的電信應用就是此種類型的應用。金融與銀行也是通常需要在操作型進程中分析大量數據的商業領域。
4、決策自動化
由操作型BI報表與績效管理應用生成的報告與度量可能以桌面或移動設備上可交互的圖形顯示的形式通過電子郵件或打印的報告到商業用戶。問題是,各級經理與用戶常常沒有時間或技能去訪問、分析這些信息并基于此做出行動。因此決策自動化在此被引入以解決該問題。
決策自動化有多種形式,主要的形式有四種:一是BI警告。BI應用自動比較操作型BI度量與用戶定義的商業目標與規則。基于這種比較,應用可能發送一個警告給商業用戶,提醒他們可能存在一個潛在的問題或一個需要采取動作的問題。該警告可能通過圖形顯示、呼叫器、移動設備或電子郵件發送給商業用戶,這取決于該問題的緊迫性以及用戶當時所使用的接口類型。二是BI引導的分析與程序。提供了對警告的擴展,對提出警告的商業問題提出額外的支持信息。三是BI驅動的建議,自動評估警告、商業問題或商業需求,就解決該情形所需的行動給出建議。四是BI驅動的決策,評估警告或商業問題并自動采取行動修復這個問題。
操作型BI環境
操作型BI環境主要有三個組件:首先是數據集成服務組件,提供適時數據集成。其次是數據管理服務組件,存儲、管理、處理商業信息與操作型智能。第三是分析服務組件,支持操作型BI報表、操作型BI績效管理與決策自動化。數據集成服務組件必須與IT系統的企業數據集成架構全面緊密的集成,這樣,數據集成機制、技術、服務與產品才可以標準化。一個有效的集成基礎架構是操作型BI項目成功的一個關鍵因素。數據管理服務組件支持傳統的商業智能方式,數據從源系統流入到操作型數據存儲(ODS)或者企業數據倉庫(EDW),然后進入一個或多個數據集市以進行更詳盡的分析。在操作型BI中,ODS及其下面的數據集市可以達到相當大規模,也可以承擔高度復雜的分析。
對一個大規模的階段性存儲、ODS或數據集市中的數據進行處理和分析,是一些新型的BI硬件與軟件技術關注的方向。這些技術各式各樣,可能包含BI與數據倉庫工具、BI加速器、專門的數據庫技術等等。不論如何,所有這些技術的目標都是一致的――提高BI進程的性價比。這些提高使對新的操作型BI項目的判斷變得有所不同。判斷這些技術的價值需要詳盡的評估,也可能會進行概念驗證的基準測試。Sybase IQ就是這種技術之一。
Sybase 操作型BI解決方案
作為全球最大的致力于信息管理和信息移動技術的企業級軟件公司,Sybase始終為新一代Business Intelligent(BI)提供核心的解決方案,所提供的產品與專業服務可將數據轉化為信息、知識與智慧,以使企業提高市場份額,減少客戶流失。同時,Sybase還與其它領先的BI供應商締結合作伙伴關系,為各類行業市場提供完整的BI解決方案,包括金融、政府、通訊、醫療衛生以及零售等行業。本文將對Sybase 操作型BI解決方案(Operational BI)進行評述,目的不是要提供一個深入的產品指南,而是對解決方案的主要特征進行概述,同時介紹Sybase是如何支持操作型BI環境的。
1、數據管理服務組件
Sybase可提供操作型BI數據管理與數據集成。它不僅開發了管理BI信息的產品,還開發了數據庫設計產品。Sybase IQ與Sybase PowerDesigner則是其中兩個關鍵的產品。
Sybase IQ
Sybase操作型BI解決方案的基石是Sybase IQ關系型數據庫系統。該產品于1995年從Expressway收購而得,從那時起,它就穩步贏得客戶的青睞。對高性能的BI信息管理能力的需求使得該產品更加引人關注。今天,全球使用Sybase IQ的客戶超過750家。
Sybase IQ與傳統的關系型數據庫最關鍵的不同之處就是,它是專門為高性能的分析型進程設計的。該性能通過存儲數據的方式:列存儲,而不是傳統關系型數據庫中的行存儲而獲得。
Sybase IQ列存儲模型提高了性能,因為查詢中檢索的只是列,從而減少了系統I/O。通過為每一個列的訪問分配線程,允許進行并行的查詢,而進一步提高了性能。這對涉及到多個列的復雜查詢尤其有利。列存儲模型的另一個好處就是它允許極高效率的數據壓縮。例如,西班牙Telefonica管理著70TB的原數據,它們存儲到Sybase IQ中,只有15TB。同時,他們發現,查詢的運行速度比傳統的解決方案能快到200倍。
從BI應用外部來看,Sybase IQ數據庫跟其他的關系型數據庫并沒什么兩樣。該產品支持標準的SQL,提供各種功能如存儲過程、函數等。應用接口支持ODBC、JDBC、OLEDB、Web 服務器。運行環境包括Linux、Windows、Unix等。Sybase IQ數據庫的非結構化數據選項支持存儲大型二進制對象,比如文本與多媒體數據等。
另外,Sybase還提供了一個可選的Sybase IQ Multiplexing功能,允許一個單一的Sybase IQ數據庫被多個計算機節點共享。這進一步提高了大型數據庫與工作負載的性能與可擴展性,服務器、處理器、硬盤可以按照需要加入到該配置中。該解決方案支持傳統供應商如HP、IBM、Sun等公司提供的硬件與操作系統軟件。
Sybase PowerDesigner
Sybase PowerDesigner是一個行業領先的企業模型工具,他將商業分析與數據庫設計加入到傳統的軟件生命周期。它聯合使用了大量的建模機制。包括業務進程建模、數據建模、基于對象的UML建模、以及XML建模。它支持主要的行業開發環境如JAVA、Eclipse、,而且支持超過60個關系型數據庫產品包括Sybase IQ、IBM DB2、Oracle、Microsoft SQL Server等。
PowerDesigner提供了一個元數據管理功能,支持需求管理、影響分析、文檔、數據映射、SOA驅動的項目的綜合管理、基于角色的安全等等。它通過團隊協作,以及將商業需求同商業與數據模型進行聯結和同步的功能強化了商業與IT的結合。
2、數據集成服務組件
Sybase支持數據集成機制中的數據聯合和數據傳播方式。即Sybase Avaki EII支持數據聯合,Sybase Replication Server支持數據傳播。而數據合并與ETL則由Sybase第三方合作伙伴如Business Objects、IBM Ascential與Informatica提供支持。
Sybase Avaki EII
Sybase Avaki EII是Sybase公司于2005年5月通過收購Avaki公司而獲得。就像其他EII產品,Sybase Avaki EII提供了一個分散數據的虛擬商業視圖。對于BI應用,使用一個虛擬視圖,分散的數據看起來是存儲在一個單一的SQL關系型表中。當應用基于該視圖提交一個SQL語句時,EII服務器訪問與操作適當的數據源,組合成一個查詢結果集,將結果集返回到應用。EII Server將SQL 進程智能地分配到源系統中,以減少需要從給定的源系統中檢索的數據量。
Avaki EII支持的數據源包括純文本文件(包括XML、NFS等)、關系型數據庫、商業應用(例如JCA、Web服務器、或由iWay Software等公司提供的第三方連接器)。
該產品包含了有別于其他競爭對手的特征:
?服務視圖,隨時可用,它包含支持更深入的數據轉換與分析的嵌入式程序邏輯。除了Sybase 提供的服務視圖之外,開發人員可以使用JavaScript編寫他們自己的視圖。服務視圖與SQL視圖使用基于Eclips的Avaki Studio開發工具進行管理。
?Avaki EII集成框架允許服務視圖與外部應用如數據質量與ETL工具、定制的代碼等等進行交互。
?一個集成的緩沖工具允許結果提前預存(基于管理員定義的參數),以提升查詢性能?Sybase Avaki EII提供了一個有價值的EII功能,可以直接被BI報表與分析型應用使用,或者與Sybase IQ數據庫配合使用時由Sybase IQ應用使用。
Sybase Replication Server
Sybase Replication Server支持數據變化從源系統到目標系統的數據傳播。在Sybase 操作型BI環境中,目標系統將會是Sybase IQ信息管理環境。其他目標系統包括那些Sybase RepConnect與EnterpriseConnect支持的系統。RepConnect 允許數據變化傳播到消息產品而EnterConnect支持第三方數據庫系統。
對非結構化數據進行存儲,除了考慮易用性、性能和安全因素以外,還要考慮與智能挖掘相關技術相結合。
大數據要求用戶不僅要對傳統商業智能軟件進行改造,還要對企業已有的業務系統基礎架構進行改造。
大數據面臨的最大挑戰是大規模、實時的關聯性分析。對于存儲來說,高吞吐、低延遲的要求會越來越高,內存、閃存的重要性也會越來越高。
中國石油研究院總工程師賴能和表示:“我們擁有9萬個CPU、25PB存儲。在油氣勘探數據處理方面,我們面臨的主要挑戰是數據量和計算量非常大,數據來源單一,處理流程非常復雜,單個文件的容量就達100TB。我們對存儲的投資已超過了服務器。”
中國的大數據應用已經起步。記者采訪了金融、互聯網、教育、制造等行業的一些敢于“吃螃蟹”的用戶。
精準營銷效果佳
大數據最先從互聯網行業興起,互聯網企業在大數據應用方面的一些成功經驗值得其他行業借鑒。以攜程旅行網(CTRIP)為例,它的大數據應用目前正處于快速發展階段,已經在很多方面進行了有益嘗試,包括細化網站平臺的流程,優化業務運營,支持業務成長的決策,解決部分傳統方法難以解決的具體問題。攜程旅行網高級副總裁、研發中心總經理葉亞明(Eric Ye)給記者舉了兩個例子:在飯店推薦和航班查詢方面,攜程就利用其數據精細化工具來計算業務的投資回報率(ROI);攜程還通過機器學習的方法識別用戶,進一步改善針對用戶的推薦結果,解決“查詢不到匹配酒店”等難題。
利用大數據為企業決策提供支持或者實現精準營銷是企業中常見的大數據應用。東方航空公司就是一例,它開展大數據研究和應用已經有很長時間,并且采購了大數據一體機專門解決大數據的相關問題。目前,東方航空公司的大數據應用主要集中在營銷業務領域,包括渠道分析、航線分析、航班后期走勢分析、航線上客速度分析等。在東方航空公司,大數據處理和分析的益處顯而易見,它能提供更準確、更實用、更全面的數據分析和展現,形成統一的營銷數據分析門戶,更好地為東方航空公司營銷的各個環節提供決策支持,使精準營銷成為可能。
中國傳媒大學高性能計算中心主任魯永泉博士和他的團隊近年來一直致力于打造中國首個動漫產業的云平臺,并且已經了VSO虛擬工作室平臺。此平臺集虛擬工作室、動漫渲染、在線交易等眾多功能于一身,是真正能夠落地的動漫云平臺。據魯永泉介紹,他們已經將大數據用于動漫云平臺,平臺的主要功能是對動漫云的用戶行為進行分析,為運營人員制定更加精確的營銷和服務策略提供支持。
追求高性價比
為滿足大數據的應用需求,存儲平臺究竟應該如何搭建呢?不同行業的用戶針對不同應用會進行不同的搭配。攜程已經建立了一個具有一定規模的Hadoop集群,其大數據應用就基于此集群。“為這個集群選擇相應的存儲方案時,我們綜合考慮了I/O吞吐性能、性價比、計算密集型還是存儲密集應用型等諸多因素。”葉亞明介紹說,“目前,我們標準的存儲配置是基于SATA硬盤,配合JBOD、數據傾斜調整、機架感知等可靠技術的應用,實現存儲和計算的優化。面對一些特殊應用,我們還會采用不同的內存存儲,如HBase節點中的內存比例會稍高,而Hive/PIG等節點中的內存比例則有所調整。”
東方航空公司對于大數據存儲的要求很明確,不僅要性能卓越,可擴展性強,還要實現安全保護,能夠實時響應,實現負載均衡等。東方航空公司下一步將考慮引入對非結構化數據的處理。針對非結構化數據的存儲,東方航空公司除了會考慮易用性、性能和安全性等因素以外,對于與智能挖掘相關的技術也十分關注。東方航空公司選擇大數據解決方案秉承的原則是:業務驅動,信息技術引領,追求更高性價比。
目前,南華期貨股份有限公司在大數據方面的應用還不夠深入,但數據的采集和積累是其一直堅持在做的重要工作。南華期貨積累的數據主要包括兩年以上的全市場逐筆Tick行情數據、近10年的主力合約分鐘數據、全部客戶的交易和結算數據、詳細的網絡訪問日志等。“我們的大數據應用主要集中在針對高端客戶的數據服務和有針對性的交易指導方面。接下來,我們還會依托實時交易數據分析,向客戶推送有針對性的咨詢服務等。”南華期貨股份有限公司總經理助理顧松表示。
談到大數據對存儲的需求,顧松表示,核心需求主要體現在容量、可靠性和速度三方面。針對不同的應用,上述三個需求重要性的排序也會有所變化:比如在逐筆Tick行情數據處理中,重要性的排序是可靠性、容量、速度;在網絡訪問日志中,重要性的排序為容量、速度、可靠性。顧松特意強調了存儲可擴展的重要性:“當前,我們為每個應用都估算了具有一定冗余的存儲容量,所以可擴展性的重要性并沒有凸顯出來。不過隨著應用的發展和后續數據遷移、備份需求的增加,存儲的可擴展性和重復數據刪除等技術就會顯得更加重要和必要。”
長安汽車股份有限公司副總裁馬軍最想找的是懂算法的人,希望依靠更先進的算法實現數據的自動抽取,從而提升數據采集和分析的效率。他認為,公司現有的存儲平臺不會成為瓶頸。
魯永泉也表示,其動漫云平臺對存儲沒有特別的要求:“大數據意味著大存儲,而能夠滿足大數據需求的存儲,比如HDFS等的設計理念不再強調單個存儲的可靠性,而是強調利用建立副本等軟件的方式來確保數據的安全。至于性能方面,大型分布式系統的單個存儲節點的性能高一點固然很好,但其實對整體性能的影響不大,反而需要在網絡優化方面多下些功夫。”
容量、性能同步擴
華為跨界到IT領域,其重要的資本就是在網絡領域多年積累的自主研發能力和過硬的產品品質,而華為最擅長的無阻塞交換網絡技術也讓華為在服務器、存儲和大數據解決方案的開發中顯得游刃有余且特色鮮明。華為OceanStor 9000大數據存儲系統在標準性能評估機構SPEC的SPECsfs2008基準測試中再次刷新記錄,其性能領先友商產品3倍多。參與測試的華為OceanStor 9000的配置為100個節點,在NFS網絡共享協議環境下的性能達到5030264 IOPS,位居業界第一。同時,OceanStor 9000的橫向擴展架構保證了系統的線性擴展能力,在不中斷業務的情況下,每增加一個新節點,容量和性能即可線性增長。
關鍵詞:會計電算化信息系統;數據結構;優化
一般而言,會計數據的存儲必須遵守五大原則,即存儲共享設計原則、存儲集約化原則、存儲規范化原則、存儲完整一致性原則和安全性原則,以下通過對會計記賬憑證存儲結構的設計方案分析,研究如何充份合理地運用數據存儲規范化技術來優化會計數據儲存結構。在會計電算化的總賬系統中,記賬憑證一般包括憑證號、制單日期、摘要、科目名稱、借方金額、貸方金額、附件、制單、審核、記賬等項目,根據以上記賬憑證的輸入格式,對記賬憑證文件的數據結構進行分析:
一、記賬憑證文件的數據存儲結構設計分析
上述這種結構屬于第一范式的關系,它和手工記賬憑證的項目基本是一一對應的,該結構中的關鍵字是憑證號和科目名稱,而且每一個字段都是不可分割的。但是,從這個案例也可以看出一些不足之處,憑證文件中的這一個經濟業務屬于一借多貸,這張會計憑證經填寫完保存后,包含若干條記錄,對于每一條記錄而言,要么是借方金額,要么是貸方金額,不可能存在同時有借方金額和貸方金額的記錄,所以,每一條記錄的借方金額或者貸方金額字段總是有一個字段是空的,對于數據存儲空間來說就相當于每一條記錄要浪費12B的存儲空間,則就這一張憑證八條記錄就要浪費96B存儲空間。可想而知,當系統中的憑證越多,記錄越多,那么浪費的存儲空間就越大。為了減少存儲空間的浪費,可以對該方進行改進,將每條記錄中的“借方金額”和“貸方金額”字段合并為一個字段,叫做“金額”,并在“金額”這個字段上增加一個“借貸標志”的字段,以此來表示金額的借貸方向。
二、記賬憑證文件數據存儲結構設計的改進
從上面例子可以看出,每一條記錄都不再存在空值字段,而且每一條記錄的“借貸標志”和“金額”兩個字段共占14B,而之前沒有改進結構中,每一條記錄的“借方金額”和“貸方金額”兩個字段共占24B,經過改進后的方案每一條記錄就節約了10B空間,整個例子中的這張會計憑證在數據庫中的八條記錄就節約了80B空間,那么整個會計電算化系統中存儲的憑證越多,數據庫中節約的存儲空間就越大。上述改進后的結構已經相對優化,但是仔細分析就會發現依然存在不足,改進后的數據存儲結構雖然不存在空字段了,都有卻還有很多存在重復記錄值的字段,如憑證號、制單日期、摘要、附件張數、制單、審核、記賬等都是重復的值,這樣的設計結構還不能滿足第二范式的要求,像有些非主要的屬性就并不完全是依賴于其主碼的,比如“摘要”依賴于“憑證號”。所以,還能對該方案進行最終的整改。
三、記賬憑證文件數據存儲的最終結構設計
經過對改進后的結構分析可知,在記賬憑證文件中,每張記賬憑證都存在兩種內容,一種是只有每張憑證都存在一個制單日期、憑證號、附件張數等固定的內容,另一種是每張憑證都存在會計科目名稱、摘要、金額等卻是非固定的內容。這樣一來我們就可以將會計憑證文件里的內容分成兩個類:一類是“憑證固定內容文件”,用來存放每一筆與經濟無關的內容,如憑證號、制單日期、附件張數、制單、審核、記賬等,另一類文件是“憑證變化內容文件”,用來存放第一筆與經濟業務之間存在對應關系的內容,如科目名稱、摘要、借貸標志、金額等,這樣一來,會計憑證文件的結構可最終設計如下:1.憑證固定內容文件.記賬憑證文件名稱:JZPZGD.DBF,各數據字段如下表1所示:2.憑證變化內容文件。記賬憑證文件名稱:JZPZBH.DBF,各數據字段如下表2所示:在最終的結構設計中可以看出,對于會計憑證的固定內容文件來說,每一筆經濟業務只對應一條記錄;而對于憑證變化內容文件來說,每一筆經濟業務要同時對應多條記錄,即一筆經濟業務會涉及到多少會計科目就對應多少條數據記錄,兩類文件能過“憑證號”作為關聯字段建立數據聯系。這種采用兩類文件形式來存放記賬憑證的數據結構設計,其優點是具有很大靈活性,可以表示不同的會計分錄形式,可以是一借一貸的簡單分錄,也可以是一借多貸或一貸多借的復合分錄,同時還可以節約存儲空間。上述所研究的方案憑證文件里列示的字段都是最基本字段,在實際工作中,會計信息文件所要列示的字段文件遠遠要多于最基本的字段,通常需要保存更多的信息,如支票號、結算單據號、外幣的金額、匯率、數量、單價、部門代碼等各種輔助核算信息,雖然要保存的信息比較多,但其原理是一樣的,只需要增加若干字段,使得憑證文件能最大限度的保存會計核算和管理所需的信息就可以了。
四、結語
在進行會計電算化信息系統的關系數據庫設計時,在結構設計分析時必須進行關系的規范化設計,規范化的過程是逐步消除關系模式中不合適的函數依賴過程,盡量簡化依賴關系,使數據庫模型中的各個關系模型達到某種程度的分離,提高存儲效率。
參考文獻:
[1]李偉,朱衛東.若干會計數據存儲問題及對策研究.中國管理信息化,2008.
[2]付榮彪.會計電算化系統設計及實現.吉林大學,2008.
[3]李毅波.數據結構與算法學習系統的設計與實現,中南大學,2012.