真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 神經網絡文本分類

神經網絡文本分類

時間:2023-06-07 09:26:12

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇神經網絡文本分類,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

神經網絡文本分類

第1篇

關鍵詞:競爭型神經網絡;分類;訓練誤差;特征向量

文本分類數是據挖掘的一個重要研究領域,國內外的眾多學者已經進行了比較深入的研究,取得了不少研究成果。常見的文本分類技術有最小距離方法、樸素貝葉斯方法、KNN方法、支持向量機方法(SVM)、模糊c均值(FCM)算法和等,現在有很多學者把神經網絡的方法應用到分類算法中,在這些分類算法中,神經網絡的文本分類更具有優越的性能。袁飛云利用SOINN自動產生聚類數目和保留數據拓撲結構的兩項能力,尋找更有效的單詞和設計更有效的編碼方式,提出了基于自組織增量神經網絡(SOINN)的碼書產生方法;申明金利用自組織特征映射神經網絡(SOM)以無監督方式進行網絡訓練,具有自組織功能的特點,利用自組織特征映射神經網絡對不同產地金銀花進行分類;彭俊等將不同空氣質量等級下的各空氣指標作為原型模式,通過輸入樣本模式,利用競爭網絡的競爭特點得到勝者,以此得出空氣質量等級;郝曉麗等通過篩選基于輪廓系數的優秀樣木群,來尋找最佳初始聚類中心,并將該改進算法用于構造徑向基函數神經網絡分類器和快速有效地確定隱含層節點徑向基函數中心及函數的寬度,從而提高了分類精度;孫進進利用神經網絡技術中的自組織映射SOM)網絡對我國主要機場進行聚類分析評價,得出我國主要機場分為8層的主要結論;劉艷杰在非監督的自組織映射神經網絡的基礎上進行了一定的改進,構建了有監督的神經網絡分類模型;李楊將神經網絡與群體智能算法、云計算相結合的方法,實現對不同規模農業數據集的分類,提出基于神經網絡分類器的設計與優化方法。而競爭型神經網絡的自組織、自適應學習能力,進一步拓寬了神經網絡在模式分類和識別方面的應用。競爭型神經網絡依靠神經元之間的興奮、協調、抑制或競爭的作用來進行信息處理,可在訓練中無監督自組織學習,通過學習提取數據中的重要特征或內在規律,進而實現分類分析的功能。

1競爭型神經網絡的描述

1.1競爭型網絡的結構

競爭學習網絡的結構如圖1所示,該網絡具有R維輸入和s個輸出,由前饋層和競爭層組成。圖中的llndlstll模塊表示對輸入矢量P和神經元權值矢量w之間的距離取負。該網絡的輸出層是競爭層,圖中的模塊c表示競爭傳遞函數,其輸出矢量由競爭層各神經元的輸出組成,這些輸出指明了原型模式與輸入向量的相互關系。競爭過后只有一個神經元有非零輸出,獲勝的神經元指明輸入屬于哪類(每個原型向量代表一個類)。

1.2競爭型神經網絡的原理

競爭型神經網絡在結構上,既不同于階層型的各層神經元間非單向連接,也不同于全連接型。它有層次界限,一般是由輸入層和競爭層構成的兩層網絡。兩層之間各神經元實現雙向全連接,沒有隱含層,有時競爭層各神經元之間還存在橫向連接。在學習方法上,不是以網絡的誤差或能量函數的單調遞減作為算法準則。而是依靠神經元之間的興奮、協調、抑制、競爭的作用來進行信息處理,指導網絡的學習與工作。

網絡在剛開始建立的時候,輸入層和輸出層之間的連接權值已經開始了,如果與競爭層某一神經元對應的矢量子類別屬于線性層某個神經元所對應的目標類別,則這兩個神經元的連接權值為1,否則二者的連接權值為0,這樣的權值矩陣就實現了子類別到目標類別的合并。在建立競爭型網絡時,每類數據占數據總數的百分比是已知的,這也是競爭層神經元歸并到線性層的各個輸出時所依據的比例。

1.3存在的問題

競爭型神經網絡按Kohonen學習規則對獲勝神經元的權值進行調整,通過輸入向量進行神經元權值的調整,因此在模式識別的應用中是很有用的。通過學習,那些最靠近輸入向量的神經元權值向量得到修正,使之更靠近輸入向量,其結果是獲勝的神經元在下一次相似的輸入向量出現時,獲勝的可能性更大;而對于那些與輸入向量相差很遠的神經元權值向量,獲勝的可能性將變得很小。這樣,當經過越來越多的訓練樣本學習后,每一個網絡層中的神經元權值向量很快被調整為最接近某一類輸入向量的值。最終的結果是,如果神經元的數量足夠多,則具有相似輸入向量的各類模式作為輸入向量時,其對應的神經元輸出為1;而對于其他模式的輸入向量,其對應的神經元輸出為0。所以,競爭型神經網絡具有對輸入向量進行學習分類的能力。

例子:以競爭型神經網絡為工具,對下面的數據進行分類:

運用Matlab編程實現,發現網絡的訓練誤差能達到要求,最后也能實現很好的分類效果。運行結果如圖2所示。

有運行結果可以看到,訓練誤差達到要求,分類結果也很合理。

但是在實際應用過程中,我們發現,當對于訓練數據的數據特征十分明顯的時候,本文設計的網絡模型可以對訓練的數據進行合理有效的分類,但是,當訓練數據的特征不太明顯區分的時候,本文設計的訓練模型的分類效果就不是太有優勢,所得到的分類結果就不能達到我們預期的效果。

我們利用競爭型神經網絡對數據樣本進行分類,其中參數設置為學習效率0.1,網絡競爭層有4個神經元,運用Matlab編程實現,發現結果如下:

例子:我們利用本文設計的網絡分類模型進行對數據分類處理:進行分類處理數據的樣本數據如下所示:

通過運行學習發現訓練誤差較大,分類結果也達不到要求。

2改進的方法

2.1問題分析

通過比較分析我們發現,上面的數據樣本沒有明顯的分類特征,所以,以競爭型神經網絡進行分類,其輸入向量僅僅依靠數據本身的固有的特征時不夠的,但我們可以把數據樣本看作是二維數據,假設同符號的特征值為1,不同符號的特征值為2,于是一個新的訓練樣本就確定了,即成為三維數據模型。

2.2改進的算法

第一步:給定數據集X=[X1,X2……,Xi),對網絡進行初始化,隨機給定網絡競爭層與輸入層間的初始權向量wj(=wj[w1j w2j…wnj];j=1,2,…,m xp;wijE(0,1));給定輸出層與競爭層間的連接權值wjo=1/m,o=1,2,…P (P表示第二隱層和輸出層的連接權矢量)。

第二步:創建競爭型神經網絡,首先根據給定的問題確定訓練樣本的輸入向量,當學習模式樣本本身雜亂無章,沒有明顯的分類特征,網絡對輸入模式的響應呈現震蕩的現象,不足以區分各類模式時,在創建網絡之前,提取訓練樣本的特征值,設置輸入樣本的特征向量,然后再創建網絡模型,并根據模式分類數確定神經元的數目,最后任取一輸入模式Ak。

第三步:計算競爭層各神經元的輸入值si:

第四步:對本文建立的網絡進行訓練學習,網絡訓練最大次數的初始值設置為230,當訓練誤差大于預期的設定值的時候,可以嘗試增加訓練的最大次數,按“勝者為王”(Winner Takes All)原則,將訓練網絡中獲得最接近預期值的神經元作為勝者,輸出狀態設置為1,沒有獲勝的神經元的輸出狀態設置為0。如果有兩個以上神經元的sj相同,取左邊的為獲勝單元。

第五步:獲勝神經元連接權修正如下:

第六步:另選一學習模式,返回步驟3,直至所有學習模式提供一遍。

第七步:如果不滿足要求,則返回到最初的訓練狀態,反復訓練直至訓練網絡中神經元獲得最接近預期值,最終的訓練結束。

第八步:根據測試樣本利用Matlab編寫程序進行仿真實驗。

通過實例訓練,我們發現本算法和改進前的算法相比,改進后的算法訓練誤差卻大大降低,已經達到了訓練的精度要求,同時也很好地實現了分類要求。

第2篇

一種基于H264的改進的運動估計三步搜索算法

一種新的基于多描述編碼的應用層組播系統

基于屬性理論的教師教學質量動態評估

RIP和OSPF路由協議在Click軟件路由器中的實現

面向集裝箱字符識別的預處理算法

基于身份與位置分離策略可選的多宿主研究

基于分層Petri網的倉儲管理建模與驗證

一種基于云模型數據填充的算法

高速公路的匝道與可變限速聯合模糊控制

MPLS網絡中LSP模型改進研究

軟件組件的共代數語意

基于主被動連接的P2P節點識別算法

FARIMA網絡流量預測模型的研究與改進

基于H.264的視頻監控系統關鍵代碼實現與優化

PAIS中過程挖掘技術的研究

安慶氣溫的多重分形消除趨勢波動分析與預測

基于WordNet和Kernel方法的Web服務發現機制研究

一種新型的實時調度算法

基于反饋的高職網格資源共享方案研究與實現

面向目標檢測的高光譜圖像壓縮技術

基于單源多段圖方法的多目標決策算法與應用

基于Gram-Schmidt過程的支持向量機降維方法

基于AHP-FCE的供應商選擇問題研究與應用

對IPSec中AH和ESP協議的分析與建議

一種基于混沌優化的混合粒子群算法

多軟件分時段租賃系統構想及其實現

SCTP協議分析與仿真研究

數碼輸入法字碼本的自動獲取技術

SVM和K-means結合的文本分類方法研究

二群協同的人工魚群優化算法

基于特征匹配的漸變紋理圖像合成算法

三元Box樣條構造方法的實現

基于二元語義的語言加權取大改進算法的研究

面向TD協議棧的內存管理技術研究

隨機Petri網性能計算軟件關鍵技術的研究

基于Petri網的Web服務動態組合

BP神經網絡預測算法的改進及應用

移動自組網中基于推薦的信任模型

基于BPEL和QoS的動態Web服務組合框架研究

面向目標檢測的高光譜圖像壓縮技術

基于單源多段圖方法的多目標決策算法與應用

基于Gram-Schmidt過程的支持向量機降維方法

基于AHP-FCE的供應商選擇問題研究與應用

對IPSec中AH和ESP協議的分析與建議

一種基于混沌優化的混合粒子群算法

多軟件分時段租賃系統構想及其實現

SCTP協議分析與仿真研究

數碼輸入法字碼本的自動獲取技術

SVM和K-means結合的文本分類方法研究

二群協同的人工魚群優化算法

基于特征匹配的漸變紋理圖像合成算法

三元Box樣條構造方法的實現

基于二元語義的語言加權取大改進算法的研究

面向TD協議棧的內存管理技術研究

隨機Petri網性能計算軟件關鍵技術的研究

基于Petri網的Web服務動態組合

BP神經網絡預測算法的改進及應用

第3篇

P鍵詞:網絡流量;分類模式;端口識別;統計特征

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2017)03-0052-02

1 概述

隨著信息化時代的到來,計算機網絡以飛快的速度發展起來,用戶規模呈現出爆炸式的增長趨勢,且對網絡的通信質量要求越來越高;與此同時,基于網絡的各種軟件也層出不窮,大量不同類型的應用軟件導致了在網絡中傳輸的數據類型的差異性較之以往大大增加了,傳輸的復雜性也隨之提高。在此情況下,如何提供一種更加符合網絡現狀的管理方法,向用戶提供更加符合其需求的通信服務成為了當前計算機網絡領域研究的重點內容。在諸多的研究課題中,對網絡流量的科學分類受到了廣泛的關注,通過高質量的流量分類,可以追溯用戶的活動情況,從而在一定范圍內判斷當前數據的傳輸狀況,并可在此基礎上實現對網絡資源的QoS(Quality of Service)調度,進而為網絡的維護和后續擴張提供可靠的依據。除此之外,流量分類還可在網絡安全、用戶識別、寬帶流量計費等方面發揮重要的作用。

傳統的流量分類方式是由IANA提出的基于端口號的識別方式,該方式在以往應用服務種類不多的情況下是較為實用的,即根據熟知端口號識別有限數量的不同類型的應用服務進程,但隨著網絡規模的飛速增長,尤其是隨著P2P對等網絡的大發展,使得用戶數據的類型與日俱增,眾多的進程啟用了大量的隨機端口號,這對數據流量的識別是非常不利的,未來必須加以改進。

第二種方式是基于特征字段識別的,在早期該字段并沒有得到充分的利用,而目前隨著數據類型識別需求的不斷提高,該字段也被越來越多的通信服務所采用,但隨之而來的問題是該字段位于IP數據報的首部,這意味著需要在網絡層解決數據類型的差異問題,在通信過程中該數據報經過的路由器將不得不花費大量的資源和時間來解析和識別該字段,這勢必會拖慢網絡通信效率,同時增加網絡擁塞的風險。目前在P2P對等網絡中此方法使用較多,但對于實時性要求較高的通信服務而言,此方法導致的通信時延過高,并且會隨著應用層服務的改變而失效,表1給出了這兩種流量分類方式的對比分析。

表1 兩種傳統的流量分類方法對比

2 基于機器學習方法的流量分類

隨著網絡的發展,傳統方式已經無法勝任對數據流量進行合理的分類工作,這導致了數據沖突、資源耗費、通信延遲、通信效率不斷降低等一系列問題。因此,有研究人員將人工智能領域內的機器學習機制引入到流量分類工作中,針對網絡流一些屬性的統計信息進行識別,以提高流量分類的準確性和快捷性,效果較為顯著,其算法過程如圖1所示:

圖1 基于機器學習方法的流量分類流程

算法步驟如下:

1)通過統計方法獲取流量的特征屬性最優組合集

流量屬性集通過統計形成網絡流的數據包的包頭信息得到。在進行統計分析之前,為了減少計算量,提高分析精確度,應對數據包信息進行篩選的預操作,其目的是將與分類需求相關的屬性盡可能的保留下來,反之則篩除,從而形成所謂的最有屬性集合,隨后在針對此集合進行分析,實現事半功倍的效果。在此特征選擇的過程中可以采用多種優化算法,如快速統計過濾法FCBF、順序前進法SFS、相關性特征選擇CFS和遺傳算法GA等。

2)采用機器學習方法進行分類

機器學習屬于人工智能領域內的一個分支,也存在多種不同的優化算法,目前在流量分類工作中得到應用的優化算法有K-近鄰K-NN、樸素貝葉斯方法NB、支持向量機SVM等。其中K-NN方法是最早得到應用的一種優化算法,分析結果較為準確,但缺點是計算量偏大,且魯棒性較低,受干擾影響較大,這對實時性和穩定性要求都很高的網絡通信而言無疑是一大障礙,因此其應用規模相對有限;NB算法也是早期在網絡流量分類得到應用的機器學習方法,其缺點在于算法得出的分析結果的質量高低存在一定的不可知性,若樣本選取的合理,則該算法相對可靠,若樣本分布質量不高,則該算法得出的分類結果往往也偏離真實情況;SVM可取得較高的分類準確率,但必須事先標記流量的應用類型,因此不能適應完全意義上的實時分類。

基于流統計特征的機器學習分類方法收到的外界干擾較小,且不需要執行繁瑣耗時的數據報首部解析工作,對于P2P網絡中出現的大量端口號也可以不受其影響,平均準確率比以上其他算法都要好,能夠準確的識別多個不同類型的數據流量,同時對于異常流量(如非法的數據流量)也可以實現一定程度的識別和判斷。但其缺點是敏感度過高,對于網絡的動態變化往往會出現過度響應,將原先正常的數據流量標注為異常點,從而導致系統的誤判,另一方面,該算法實現起來也相對復雜,需要進一步改進。

3 混合模式的流量分類方案

3.1 方案流程分析

本設計將傳統的分類方法和機器學習機制有機結合,對端口識別的流量分類模式進行改進,形成了一種新型的混合型流量分類方法,既保留了基于端口號識別模式的簡單、低開銷的優點,又有效地利用了機器學習機制的自適應性強、準確性高的優勢,明顯地改善了網絡流量分類的效率和可靠性,算法流程如圖2所示。

圖2 改進后的流量分類算法流程

混合模式的流量分類方案具體實現過程如下。

1)對流量樣本采用屬性選擇方法選出最優屬性集,降低算法輸入向量維數。

2)與常用協議的默認端口號匹配,實現粗分。若匹配成功則可不必啟用機器學習機制進行后續的分類,節約了工作量。

3)進入細分環節,此環節是為了進一步提高對流量分類的精確性而設定,主要采用基于自組織映射網絡的分類方法來完成。根據輸出標簽確定某一流量類別分布在port flow映射圖或non-port flow映射圖上。結合訓練樣本,確定輸出映射圖中相應區域的流量類型。

3.2 自組織映射

在本環節,采用深度學習算法中著名的神經網絡算法來實現進一步的優化,該算法具有識別能力強、自適應度高等優點,非常適合用來對數據流量進行準確分類,可以很好地解決對非線性曲面的逼近,其收斂速度遠高于傳統分類方法。

自組織映射SOM網絡是神經網絡中的一種常用算法,屬于無人監督的競爭型神經網絡,該網絡中的各個節點模擬為神經元節點,而在該網絡中傳輸的各個信息狀態則模擬為神經信號;該算法最大的特點就是將高維的輸入流量樣本以拓撲有序的方式變換到二維的離散空間上,其輸出分類結果可以直觀的以棋盤狀的二維平面陣顯示。根據此規律,可將SOM網絡用于對輸入的數據包特征信息的分類工作中,實現樣本的自動聚類,同時可方便的識別新的數據類型和異常數據類型,其具體過程如下:

設輸入樣本[X=(x1,x2,…,xn)T],權向量為[Wj=(wj1,wj2,…,wjn)T(j=1,2,…m)],

其中n為輸入樣本的維數,m為映射圖神經元數量。對樣本和權向量進行歸一化處理,得到[X]和[Wj],通過SOM神經網絡執行以下兩個步驟

1)選擇競爭占優的神經元

[dj*=minj∈1,2,…,mX-Wj] (1)

2)計算該類神經元和與之相鄰的其他節點的網絡權值

[Wj*(t+1)=Wj*(t)+η(t)N(t)(X-Wj*(t))] (2)

式(2)中,t為學習次數,[η(t)]為學習成功率,[N(t)]為獲勝的鄰域。

做完了準備工作后,SOM網絡就可將所有權值W轉化為在[-1,1]區間的隨機數,并根據此選擇一個流量樣本n,解析其特征屬性并送至神經網絡的輸入接口,設置初始t=0,因此有N(0)和[η(0)]。輸出層各神經元通過式(1)全局搜索最接近的優勝神經元j*。按式(2),對j*及其鄰域內的所有神經元調整權值,然后縮小鄰域[N(t)],減小學習率[η(t)],重新調整鄰域內神經元的權值直到學習率衰減為0。當算法運行到這一步時,若流量樣本集合不為空集,則可繼續執行下去,在非空集合內隨機選擇一樣本,重新執行本輪的學習過程,直至所有樣本均完成訓練,此時就可生成一張完整的流量類別映射圖,最后根據樣本激活神經元的位置可判斷流量類別,實現數據流量的精確分類。

4 結束語

目前,在網絡流量分類的研究工作中,更多地傾向于將優秀的智能算法同以往傳統的分類方法相結合的研究路線,其中

很多優化算法仍舊處于起步階段,從理論上看,基于流統計特征的機器學習的方法自適應性強,可擴展性好,可靠性也有足夠的保障,應用在流量分類領域內是非常合適的,但其計算量較大仍舊是該算法推廣過程中遇到的主要障礙,相信隨著人工智能領域研究的不斷突破,會出現更多的優秀方法應用在網絡流量分類工作中,進一步增強流量分類的工作效率,為廣大用戶提供更高|量的數據通信服務。

參考文獻:

[1] 徐鵬,劉瓊,林森.基于支持向量機的Internet流量分類研究[J].計算機研究與發展,2009,46(3): 407-414.

[2] 王琳.面向高速網絡的智能化應用分類的研究[D].濟南:濟南大學,2008.

[3] WITTEN I H,FRANKE.DATA MINING:practical machine learning tools and techniques[M].New York: SF Morgan Kaufman,2005:168-171.

第4篇

【關鍵詞】工程項目管理;計算機網絡;群體決策支持系統;管理信息系統

自80年代,我國工程項目管理事業得到了飛速發展,工程項目建設過程中的質量、進度和成本得到有效控制。施工企業的經營管理水平和項目經理部的施工現場管理水平有了較大的提高。特別是《建設工程項目管理規范(GB/T50326一2001)》[1]的為我國的工程項目管理逐步向制度化、規范化、信息化邁進提供了保證。但由于我國的工程項目管理起步較晚,在管理的信息化和管理手段的現代化方面距全面實現計算機輔助管理及咨詢決策尚有較大差距。

1 系統主要功能

CPMMIS的基本功能包括工程項目現場管理信息系統、公司的信息管理系統、公司的咨詢決策系統三大部分,三個系統運行在一個共享信息的網絡平臺上。該系統的工作流程與目前工程項目管理的實際情況一致。它既能用于公司內部管理(局域網),也能用于現場項目部的管理(單機或局域網),還能夠通過與Internet連接,實現公司對項目部的適時管理;具有一定的決策支持功能。

1.1 工程項目現場施工管理系統

工程項目現場施工管理的主要工作可以概括為“三控兩管一協調”,因此該部分主要是為各項目部提供輔助管理的功能模塊(日常管理、質量管理、進度管理、成本控制與結算管理、合同管理、生產要素管理等模塊),為正確作出決策提供保證,并按規定格式形成報表。

1)日常管理子系統:主要完成施工準備期、施工期、交(竣)工驗收及保修期的項目管理工作。主要收集設計信息;施工準備階段的管理信息(法律法規與部門規章、市場信息、自然條件);工程概況信息(工程實體概況、場地與環境概況、參與建設的各單位概況、施工合同、工程造價計算書);施工信息(施工記錄、施工技術資料);項目管理信息(項目管理規劃大綱、項目管理實施規劃);施工過程項目管理各專業的信息(進度控制、質量控制、安全控制、成本控制、現場管理、合同管理);生產要素信息(材料管理、構配件管理、工器具管理、人力資源、機械設備);項目結算信息;組織協調信息;竣工驗收信息;考核評價信息;項目統計信息等。日常管理子系統的另一項工作是及時收集和處理從監理、業主、分包、設計、材料供應等單位送交的報告資料。為了及時、規范地處理這些報告,系統設置了大量的知識庫、模板庫、素材庫,運用基于神經網絡的群體決策支持技術[2、3],幫助現場管理人員及時有效地處理有關報告資料。

2)質量管理子系統:主要完成質量目標確定;項目質量計劃編制;項目質量計劃實施。施工合同簽訂后,項目部應索取設計圖紙和技術資料,指定專人管理并公布有效文件清單。單位工程、分部工程和分項工程開工前,項目技術負責人應向承擔施工的負責人或分包人進行書面技術交底。對工程測量、材料的質量、機械設備的質量、工序質量、特殊過程質量、工程變更及施工中發生的質量事故應進行有效控制和處理。同時建立和維護質量檢驗評定標準、進行原材料質量檢驗、現場施工質量檢查、分項(單元)工程質量數據收集,分項工程、分部工程、單位工程、工程項目的質量評定,施工質量文檔管理,質量報表與統計圖形輸出。另外,還包括質量安全事故分析處理功能模塊,如事故調查分析、事故檢驗分析、事故評價、事故處理等。

3)進度管理子系統:包括項目初始進度(總進度、單項工程進度、分部工程進度、關鍵工序施工進度)數據的建立和維護、網絡計劃的形成和優化、計劃進度輸出、實際進度統計、進度的動態跟蹤管理。在施工方案選擇、施工進度計劃編制和施工平面圖設計中,系統運用了基于神經網絡的施工方案決策支持系統。

4)成本控制和結算子系統:包括各類計量結算項目編碼和查詢(如清單項目、工程變更項目、工程索賠項目、其他需要結算的項目)。系統能根據每月分部分項成本的累計偏差和相應的計劃目標成本余額預測后期成本的變化趨勢和狀況,根據偏差原因制定改善成本控制的措施,控制下月施工任務的成本。并能用對比法分析影響成本節超的主要因素。在確定施工項目成本各因素對計劃成本影響的程度時,可采用連環替代法或差額計算法進行成本分析。

5)合同管理子系統:包括合同分類、合同目錄一覽表、合同文本管理(如各類合同條款的建立、修改、查詢)、分包工程管理、工程變更管理、工程索賠管理、工程暫停及復工管理、工程延期及工程延誤的處理以及爭端的調解等。另外還能完成合同數據統計、匯總、查詢、打印,與合同管理有關的資料的收集與分析。

1.2 公司信息管理系統

公司的信息管理部分主要完成對各個項目的日常、質量、進度、成本控制與結算、合同管理等方面的監控,以使項目管理活動真正處于“過程管理”狀態中。并且通過制定各類各樣的工作標準、模板、制度、規定,使項目部的管理工作的標準化和規范化。經現場項目部分析、整理的信息傳送到公司的服務器后,經過驗證、接收、分類,公司的服務器保存這些信息,公司各部門在公司局域網上進行操作,并及時將公司的審批、簽認的意見反饋給項目部。由于公司的數據主要是來自于工地,故采用Internet或磁盤設備傳送方式在工地和公司網絡間進行數據通訊,以解決工地與公司的信息共享問題。同時,這種工地與公司協同工作的模式也是今后工程項目管理信息化的必然趨勢。由于本系統是運行在Internet/Intranet上,在公司內部或公司與工地項目部間還可以利用本系統各種信息,就某一個主題進行討論。

第5篇

關鍵詞:短文本;信息抽取

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2012)15-3691-02

近年來,大量短文本,如電子郵件,網絡聊天,網絡博客等已經成為信息交流和情感溝通手段,深刻改變了我們的生活習慣和溝通方式。中文的自由短文在比如網絡輿情與公安預警等很多領域都有廣闊發展前景,雖然英文信息提取技術得到很好研究應用,中文的信息抽取研究較晚,但也取得了一些效果。孫斌在他的博士論文[1]中提出了一種對事件抽取的研究,并且提出了一種InfoX的原型系統。對人民日報語料庫中調職、辭職和任命三個事件,召回分別為50%,44%,42%,精度為75%,47%,54%,取得了一些成績。

但相對長度短,結構各異的中文短文本的提取技術研究則相對更少。

1中文信息抽取方法的研究

目前對中文信息抽取方法的研究主要有以下四種。

1.1基于頻繁的詞集的方法

該方法的基本思想是,利用關鍵字出現在多少確定,雖然關鍵字在一個短文中出現的次數少,但是在總的預料中依然會出現很多次。Sebastiani利用該方法對數字圖書館中關于摘要部分進行了適當的比較[2],最后指出這個方法比較適合中文短文本的分類,但對于噪聲大的短文準確度依然不高。

1.2模板匹配法

指在一些特定的模式指導下對于某類事件的識別和抽取,而這個特定的模式是可以通過人工或自動方法來取得的。采用這個方法來進行事件抽取的IE系統一般由兩個模塊組成分別是信息抽取模塊和模式獲取模塊。

1.3基于語義的方法

song等人提出了一種基于空間概念[3]和流動的信息分類的方法。該方法利用概念之間的關系來確定的語義關系,并使用此語義關系來指導分類,以達到短文本分類結果,這個方法能夠得到比一般的向量空間模型好的效果。zelikovitz等提出了一個使用潛在語義索引來對短文本分類方法[4]。該方法定義了潛在的語義索引詞之間的語義聯系,從而提高了文章分類的準確性。

1.4基于本體的信息抽取

在CNKI中就是使用這種信息抽取的方法,主要原理是,利用本體這個概念抽取出關鍵字,然后在計算本體概念中這些字詞之間的相似度[5]。本體論描述某個領域中所有事物和事物之間的關系,但只有這些認識能得到一個很好的信息抽取嗎?答案是否定的。即使我們已經知道了客觀世界中某些事物有一定屬性,該事物也有一定的屬性(例如,狗有四條腿,是一種哺乳動物),我們仍然不知道這一段文字中提取文字說明是本體(狗),以及哪些文字或段落描述這個事物(狗)的屬性,更不能由此推理知道短文介紹的是一種哺乳動物。

由此可知信息提取的現有技術不能滿足要求。無論從可擴展性和準確性方面,中文短文本信息提取還有待進一步研究。尤其是存在如精度不高,可擴展性不強,高緯度的數據問題等。如何高效、準確提取信息成為短文本信息抽取技術的發展難點,由此文中提出了一種基于中文的HNC的短文本信息提取,過濾,分類,聚類,模板生成算法的開發和研究。

單個短文本由于信息有限,其有價值信息和相關屬性有效特征都很難挖掘,因此,我們所說的中文自由短文本信息抽取一般都是針對整個短文本語料,從大量的短文語料庫中進行信息抽取,通過詞與詞之間的相關性,挖掘有價值的信息。這樣就是因為短文挖掘不是對某個短文而是對語料庫而言,所以我們使用的抽取技術與傳統信息處理技術是不同的,相應的關鍵技術也有較大差異。

2短文本信息抽取流程

圖1顯示了本文研究的短文本信息抽取流程。

首先,我們進行信息的收集,這些信息來源很多比如先確定大量BBS、QQ聊天信息、論壇等諸如此類有大量短文本網站,然后根據當前熱點確定監控內容從而再確定需要跟蹤的熱點。采用信息自動收集和人工干預模式相結合的網絡信息采集,對網絡采集到的信息要進行初步處理,即過濾掉某些與熱點無關的文本和語句;按主題自動分類、聚類、淺層語義分析等。

其次,利用HNC知識和語義詞典,對經過預處理的信息進行深層語義分析(句類分析),包括:主語義塊的識別、命名實體識別、語義消歧、指代解析等。最后經過概念建模、語義模板生成、模板匹配得到最終的短文本的結構化信息。

根據圖1,提出了如下5點主要技術。

(1)短文本語義詞典的構建

語義詞典在自然語言處理研究中占有相當關鍵的位置。首先從語料庫中抽取待聚類詞的上下文相關的詞,并利用信息增益對特征詞進行選擇,然后借鑒信息檢索模型中的TFIDF計算特征向量中每一個特征的權重,最后將構造好的待聚類詞的特征向量作為自組織映射神經網絡SOM的輸入,經過網絡的迭代計算將不同類別的詞映射在SOM輸出網格的不同結點。

(2)短文本多余信息過濾

短文本多余檢測與一般文本多余檢測最大的不同在于前者要求具有實時性比較高,要求系統能在有限時間內快速處理、更新的短文本語料,這就要求短文本多余檢測比一般文本多余檢測具有更好的擴展性和更高的效率。

圖1

(3)識別短文本中有特定含義的字符串

隨著社會發展出現了越來越多的新的詞語,在短文本語料庫中就有這些詞,我們指的短文本定含義的字符串也叫有意義串指的就是這些新的縮寫語、術語、詞匯等。對短文本語料中有意義串的挖掘,不僅能幫助有關部門及時掌握當前社會輿情,民生關注,社會熱點,從而發現社會問題,為維護社會穩定制訂相關政策等提供依據,還為語義模板的構造的提供了素材。

根據HNC理論和有意義串局部原理合并同義詞和近義詞,構造四個二維表:文件-詞二維表。

時間-詞二維表。

主題-詞二維表

地點-詞二維表。

(4)語義標注

實驗采用HNC和語義角色相結合的語義標注策略。

第一步,語義塊感知和句類假設。

第二步,句類檢驗。運用句類知識對假設的句類進行合理性分析,最終判定句子的句類;

第三步,分析語義塊構成。在句類確定的前提下,對各個語義塊的內部語義結構進行分析。

(5)關于短文本語義的分類聚類算法的設計

由于短文本中關鍵詞出現的次數不多,即難從“理解”的層次處理用戶需求。針對這些問題,本文設計了根據分類原理研究的基于語義的分類聚類算法。

通過以上分析和流程,可得到如下效果:

(1)適用了互聯網中大量中文短文本信息自動聚類、主題檢測、自動獲取、專題聚焦的算法。(2)實現了網絡輿情監測和分析需求,對帖吧、聊天室等分析研判后,生產出標準化的人、事、物、組織、地點等信息的情報產品。為公安全面掌握輿情動態,做出正確決策,提供分析依據。(3)F-指數有明顯提高。從而達到一定效果。

參考文獻:

[1]孫斌.繼承—歸納機制及其在對象系統和信息提取技術中的應用[D].北京大學博士論文,2000,6.

[2] F.Sebastiani. Machine Learning in Automated Text Categorization. ACM。Computing Surveys, 2002,34(1):1-47.

[3] D.Song,P.D.Bruza. Based on Information Inference.In proceedings of the 14th International Symposium on Methodolog- ies for Intelligent Systems,2003: 297-306.

第6篇

關鍵詞:Web文本挖掘 特征提取 文本分類 文本聚類

中圖分類號:TP39 文獻標識碼:A 文章編號:1007—3973(2012)009—083—02

1 引言

隨著計算機、互聯網的迅猛發展,近幾年來,互聯網已離不開人們的生活。網頁上的內容以網頁文本的形式存放信息,但網頁文本具有半結構化的特點。因此,當今熱門的研究方向便是如何快速有效地從Web上獲取信息和知識。Web挖掘綜合了數據挖掘技術和Web技術,因此,Web文本挖掘不但對經典的數據挖掘技術有著繼承,也發揚著自身的各種特性。

2 什么是Web數據挖掘

Web挖掘是利用數據挖掘、文本挖掘、機器學習等技術從Web頁面數據、日志數據、超鏈接關系中發現感興趣的、潛在的規則、模式、知識。Web挖掘的目標是從Web的超鏈接結構、網頁內容和使用日志中探尋有用的信息。Web挖掘通常被劃分為三種主要類型(如圖1):Web內容挖掘、Web結構挖掘和Web使用挖掘。

3 什么是Web文本挖掘

3.1 文本挖掘

文本挖掘主要應用于文本摘要的自動獲取、文本分類、垃圾郵件過濾、知識庫構建、搜索引擎等領域。文本挖掘是從非結構化文本數據中,發現有效、新穎、有潛在價值、并可理解的文本模式的非平凡過程。

3.2 Web文本挖掘

Web文本挖掘是從Web文本的數據中發現潛在的隱含知識。挖掘對象是Web文本。Web文本挖掘涉及領域廣泛,是一門交叉性學科。

4 Web文本挖掘的基本流程

Web文本挖掘通常由以下幾個步驟完成(如圖2):獲取Web文本集、Web文本預處理、Web文本特征表示、Web文本特征提取、Web文本挖掘、質量評價、獲得知識模式。

5 Web文本挖掘的相關技術

5.1 Web文本集的獲取

Web文本集的獲取主要通過網絡蜘蛛。網絡蜘蛛能在各站點之間漫游并根據某種策略獲取遠程數據,之后保存獲取到的文本集,便于接下來深入的分析工作。

深度優先和廣度優先是網絡蜘蛛獲取文本一般使用的兩種策略。網絡蜘蛛從起始頁開始,順著每一個鏈接一直抓取下去,處理完后再轉入接下來的起始頁,繼續對鏈接進行如此地抓取,這種方式是深度優先,其優點是比較容易實現。網絡蜘蛛先抓取起始網頁面里的所有鏈接,然后選擇其中的一個鏈接,繼續抓取在此頁面里的所有鏈接,一直按照這種抓取方式迭代訪問下去,這種方式是廣度優先,其優點是可以并行處理,提高網絡蜘蛛的抓取速度。

5.2 Web文本預處理

Web頁面除了包含網頁的內容信息之外,還包含一部分與主題內容信息無關的信息,這種信息稱作“噪音”。因此,為了更好地分析文本內容,應該將“噪音”信息予以過濾。網頁過濾的目的是去掉網頁上包含“噪音”的內容,保留網頁中包含主題信息的內容塊,最終達到消除冗余、精簡數據的目的。

5.3 Web文本的特征表示

不同于數據庫中的結構化數據,Web文本中的數據是半結構化的。這些半結構化數據不符合現有數據挖掘所要求的格式規范,因此無法直接使用數據挖掘技術對其進行挖掘。所以在挖掘之前,需要對Web文本中的數據以結構化的形式進行特征表示,作為半結構化文本和Web挖掘的中間表示形式。

用一定的特征項(詞條)來表示半結構化的文本信息,這一過程就稱作特征表示。其常用的模型有:布爾模型、向量空間模型、概率模型等。向量空間模型是近幾年來應用較多而且效果較好的模型。它將每個文本看成是由一組詞條(T1,T2,…,Tn)構成,對于每個詞條(Ti),都根據它在文本d中的權重賦予權值Wi。

因此,對于所有的需要被挖掘的文本都能用特征向(T1,W1(d),T2,W2(d),…,Tn,Wn(d))表示。其中,Wi(d)被定義為詞條Ti在文本d中出現的頻率tfi(d)的函數,即:Wi(d)= (tfi(d))。Wi(d)的常用函數一般有:對數函數、布爾函數、平方根函數及TFIDF函數。TFIDF函數使用較為普遍。

此函數的優點是可以過濾掉常見的詞語,保留重要的詞語。缺點是沒體現出Web文件的位置信息和html文本的結構特點,因此應當考慮在Web文本中不同html標簽結構下賦予不同的權重。

5.4 Web文本的特征提取

特征表示之后,我們會發現,向量空間的維數異常大,因此需要進行降維工作。目前選取的方法是先構造一個評價函數,然后對特征集中的每一個特征項進行評估,得到一個評估分,最后對所有的特征項按照各自的評估分進行排序,設定一個閾值作為選取高評估分特征項的數目,最終結果作為選出的特征子集。詞條頻度、文本頻度、信息增益、互信息、幾率比、期望交叉熵是一般使用的評估函數。

5.5 Web文本分類

文本分類是一種有指導的機器學習,通常分為以下兩個階段:

(1)訓練階段:1)根據已有的類別,確定類別集合C={c1,…,ci,…,cm};2)選擇一些具有代表性的Web文本,得到訓練文本集合S={s1,…,sj,…,sn};3)對于S中的每個訓練文本,確定它的所屬的類別ci;4)抽取訓練文本sj的特征,得到特征向量V(sj);5)統計S中所有文本的特征向量,確定其代表的類別集合C中每個類別的特征向量V(ci)。

(2)分類階段:1)計算測試文本集T={d1,…,dj,…,dn }中每一個待分類文本dj的特征向量V(dj),再計它算與每個V(ci)的相似度sim(dj, ci);2)將相似度最大的類別選擇作為dj所屬的類別。當計算的類別與預定義類別不匹配時,則應當對預定義類別進行修改,再重新進行以上過程。

計算sim(dj, ci)時,求兩個特征向量之間的夾角余弦是常用的方法,即:

sim(dj, ci)=

支持向量機、神經網絡、最大平均熵、最近K—鄰居和貝葉斯方法也是常用的分類算法。

5.6 Web文本聚類

基于內容的Web文本聚類是Web內容挖掘的重要組成部分,它以Web頁面內容為挖掘對象,以頁面中詞語信息作為特征,利用無監督的方法,在沒有訓練樣本的情況下,自動產生分類結果。

根據聚類結果不同,可將聚類方法劃分為:層次聚類法和平面聚類法。

(1)層次聚類過程:1)對于文本集合D={d1,…,di,…,dn},以每一個文本di作為一個聚類中心ci,形成文本的聚類集合C={c1,…,ci,…,cn};2)計算C中每對聚類的相似度sim(ci, cj);3)選取相似度最大的兩個聚類合并成一個新聚類cr,構成文本的一個新的聚類集合C={ c1,…,cr,…,cn—1};

重復以上步驟,根據所需的聚類數目和相似度的閾值,得到最終的聚類結果。

(2)平面聚類過程:1)確定聚類數目n,計算D中每個文本特征向量V(di);2)從D中抽取n個文本形成聚類中心S={s1,…,sj,…,sn};3)依次計算D中剩下的文本與各聚類中心的相似度sim(di, sj);4)根據設定的相似度閾值,聚集文本在聚類中心周圍,最終形成聚類結果。

平面劃分法運行速度較快,它將文本集合水平地分割為若干個聚類,而不是層次化的嵌套聚類,但它必須先確定聚類數目取值。另外,種子選取的好壞程度對聚類結果的影響較大;層次聚類對文本集合中的每一個文本進行了多次遍歷,是最常用的聚類方法,具有很高的準確度。

6 Web文本挖掘模型

本文在設計挖掘模型的過程中提供信息表示與導航的功能。為了使用戶能夠清晰、明了地查詢和瀏覽自己感興趣的信息,并更快速地接受信息,可以使用可視化圖形界面的信息表示與導航技術,如圖3。

7 結束語

Web挖掘是Web技術中一個重要的研究領域,Web文本挖掘又是Web挖掘的重要代表,它是數據挖掘研究領域中的一個重要課題,也是Web技術和數據挖掘技術相結合的新技術,并應用于網絡知識發現的過程。Web文本挖掘為網絡智能化奠定了基礎,也使得網絡上大量的具有價值的信息得到了充分的利用。

參考文獻:

第7篇

關鍵詞:數字圖書館;計算機技術;應用模塊;數據挖掘;網格技術

1數字圖書館概述

“數字化”的生活模式伴隨著科技的發展應運而生,人們也越來越適應并習慣了這種生活模式,數字圖書館的出現使得人們對它的需求越來越高,同時它也直接關系著當代圖書館的生存與發展。而數字圖書館的概念是由美國的一位學者在研究圖書館的時效性時提出來的,它就是一個信息化的平臺,擁有著全球性的知識資源和媒體內容,一方面能夠使用戶及時的了解到全球的訊息,另一方面用戶使用搜索功能可以搜索到一些多樣化的信息。而其中關鍵性技術的應用與研究成為了當今國內外IT界和圖書館界研究的熱門技術。而評價一個國家信息基礎設施好壞的標志之一就是數字圖書館的建設。數字圖書館作為一種高新技術的產物,涉及到了以下技術:數字化處理技術、超大規模數據庫技術、網絡技術、多媒體信息處理技術、信息壓縮與傳送技術、安全保密技術、自然語言理解技術等。本文主要介紹了網絡技術、數據挖掘技術、Agent技術。

2數據挖掘技術的應用研究

2.1數據挖掘的基本概念

數據挖掘也可以叫作數據庫中的知識發現,它是指從大量的數據中通過算法搜索隱藏于其中信息的過程。其一般與計算機科學有關,可以通過統計、在線分析處理、情報檢索、機器學習、專家系統及模式識別等多種方法來實現所要達到的目標。數字圖書館的數據挖掘對象是挖掘出其中的大型數據庫、數據倉庫以及大量的網絡信息空間,通過對這些數據的統計分析和總結,可以找到數據間內在的關系,進而可以預測到未來發展的趨勢。數據挖掘涉及到了很多前沿的學科,比如數據庫、數理統計、人工智能、神經網絡等,這是當今國際上最高端的技術研究之一了。

2.2數據挖掘技術的方法

2.2.1數據挖掘數據挖掘是一種面向數值數據的方法,它是用人工智能、機器學習、統計學、數據庫的交叉方法在一個較大的數據集中發現模式的計算過程,是一門跨學科的計算機科學分支。它的目標是從一個數據集中提取信息,然后將其轉換成可理解的結構,以此進一步使用。數字圖書館的建設基礎就是數據挖掘,利用多種數據挖掘算法,通過數字處理和研究數字模型的變化,以此來進行總結得到數據的變化情況。

2.2.2基于Web的數據挖掘Web數據挖掘是數據挖掘在Web上的應用,它是利用數據挖掘技術抽取出與Web有關的一些感興趣的、有用的資源信息、行為及模式,涉及到了多個研究領域的技術,在挖掘內容的過程中,我們一般從以下兩個角度進行著手分析:一是對文本文檔進行挖掘,二是挖掘多媒體文檔。在調整數字圖書館的網頁時一般都用追蹤和個性化使用記錄的全面追蹤這兩種模式來保證給用戶提供個性化的服務。

2.2.3文本數據挖掘文本數據挖掘是指從文本中挖掘出有一定價值的信息和知識的計算機處理技術,挖掘的對象的數據類型全是由文本類型組成的,在對巨量文本信息進行自動化信息分析與處理所使用的方法是利用數據挖掘算法和信息檢索算法來實現的。文本挖掘方法主要包含以下幾種:文本分類、文本聚類、信息抽取、摘要、壓縮。為了能夠更加更好的豐富圖書館的信息量,處理好文本的摘要和數據,提高數據挖掘的精確度,可以利用文本數據的挖掘和傳輸來實現。

2.3利用數據挖掘實現數字圖書館的個性化服務

實現數字圖書館的個性化服務是通過把挖掘技術應用到數字圖書館建設中,一方面可以通過提高數字圖書館的建設標準來增強各方面的服務質量,另一方面還可以有效的鞏固信息資源的建設力度。在信息用戶掌握信息使用的行為、習慣、偏好等時,個性化的服務可以為用戶提供滿足其所需要的一些相關服務,主要是兩個方面:一是個性化,二是主動服務。其原理是根據不同的用戶不同的需求使用不同的服務辦法來進行針對性的服務,系統不需要用戶去做什么就可以給用戶提供相對應的服務,通過簡化用戶的操作來達到個性化服務。個性化服務主要表現在以下幾個方面:數據挖掘服務、個人書架、個性化檢索、信息分類定制及推送、虛擬咨詢服務等。

3網格技術的應用

3.1網格技術在數字圖書館中的應用

在數字圖書館的建設中,網格技術是一種不可或缺的技術,為了確保數字圖書館的完整性和較好的服務性,就要利用網絡來調節因數字的變化而造成的改變,而數字圖書館建設擁有良好基礎的前提就是在網格技術應用過程中要結合信息資源建設網絡基礎設施,并在后期結合相關的Web技術方法,以圖書館的基礎架構作為基礎,搭建一個良好的可以實現資源信息共享的信息技術平臺,整合網絡各方面的資源,在統一管理的基礎上實現良好的信息服務。

第8篇

[關鍵詞]面向主題 Web信息融合 模型 技術

[分類號]G354

1、引言

隨著Web2.0技術的發展,企業運作日益向Inter-net擴展,企業Web信息的容量和多樣性呈爆炸式增長,Web信息日益成為企業決策的重要依據。由于Web信息具有半結構化和非結構化的特征,Web信息的急劇增長在為人們獲取所需信息和知識帶來更多機遇的同時也帶來了更大的挑戰。傳統搜索引擎的性能已達到極限,其基于關鍵詞匹配排序來檢索Web信息的工作原理存在檢索結果信息冗余和不精準的問題,無法滿足用戶基于主題查詢的需求,更無法適應企業決策的需要。信息融合借鑒人腦的工作原理,利用計算機對具有相似或不同特征的多源數據和信息進行處理,為用戶提供統一的信息視圖和可綜合利用的信息。信息融合技術已在生物、經濟和軍事等領域得到廣泛應用。信息融合技術為Web信息處理提供了新的途徑,但其研究成果主要針對結構化數據。

現有Web信息融合研究主要集中在多源Web信息檢索融合和多Web文檔的知識融合兩方面,對應于傳統信息融合中的數據級融合和特征級融合,不支持信息的多維度和多粒度查詢與綜合分析,遠遠不能滿足用戶從Web有效獲取信息進行決策的需要。

2、國內外研究綜述

2.1 信息檢索融合

信息檢索融合將多個搜索組件的文檔結果集視為多源證據,綜合利用和聲效應、撇取效應和/或黑馬效應,基于綜合評分或排序對多源結果集中的文檔進行優化組合,為用戶提供更高質量的搜索結果。采用的主要方法包括:

2.1.1 基于統計的方法 分為評分融合和排序融合兩類。評分融合算法根據各源(即搜索組件)的性能賦予其權重,用線性組合計算出現在多源結果集的文檔的綜合評分,將綜合評分最高的N個文檔返回給用戶,如WebFusion算法。基于排序的融合算法對多源結果集按相關度排序后采用輪循的方式從結果集抽取文檔返回給用戶,如SR融合算法。

2.1.2 基于人工智能的方法 主要是利用人工神經網絡等人工智能技術進行文檔聚類與模式識別。如文獻利用人工神經網絡自組織映射(sOM)算法對Web網頁進行聚類,識別各類主題之間的關系,從而實現搜索結果的聚合。

2.1.3 基于統計和人工智能的混合方法 基于統計的方法中文檔評分函數的形式,文檔的內容、鏈接和結構三方面各自的權重,以及各搜索組件的權重對融合結果有很大影響,通常結合人工智能的方法確定,如文獻采用模式識別和啟發式學習調整搜索源權重。

2.2 基于多文本的知識融合

基于多文本的知識融合將搜索結果集中的多個文檔視為多源證據,主要利用語義本體和自然語言處理技術分析多個文檔,利用基于邏輯的規則、基于本體的映射與合并消除其中的知識冗余、知識不完整性和知識沖突,為用戶提供具有一致性的知識。根據處理對象的結構化程度可分為半結構化文本的知識融合和非結構化文本的知識融合。

2.2.1 半結構化文本的知識融合 主要對XML格式的信息進行融合。如文獻采用語義本體技術構建了面向半結構化信息(XML格式)的知識融合模型,文獻提出了一種將融合規則與知識庫相結合的對半結構化信息進行融合的方法。

2.2.2 非結構化文本的知識融合 主要對HTML格式和其他文本格式的信息進行融合。大致可分為兩類:一是基于Web的本體學習,從網頁學習本體概念及概念間關系、獲取概念屬性和填充本體實例;二是多文檔的自動摘要系統,核心問題是摘要旬的抽取與融合。

2.3 面向決策的信息融合

這方面的研究成果很少。中國科學院Yu L等人提出面向Web挖掘的信息融合工具――Web倉庫,設計了Web倉庫體系結構和EFML處理模型,在信息的融合上采用中介模型。但作者的討論僅限于Web倉庫的概念模型與工作機制,沒有深入討論具體的信息融合模型與方法。

2.4 研究現狀總結

總結國內外研究現狀,Web信息檢索融合的研究成果相對成熟。由于半結構化文本實現模式(Sche-ma)映射相對容易,結合融合規則和知識推理可以獲得較好的半結構化文本知識融合效果。較困難的是非結構化文本的知識融合,原因在于機器理解自然語言仍有難度,目前的自動摘要系統會產生較大的信息損失。基于文本的語義標注進行知識融合是解決問題的一種途徑。現有Web信息融合算法基本上都是面向Web查詢設計的,不支持多粒度與多維度查詢,無法滿足決策支持的需要。面向主題的Web信息融合模型與技術是亟待研究和解決的問題。

3、面向主題的Web信息融合模型設計

面向決策的信息融合必須支持信息的多粒度與多維度查詢和分析,其關鍵基礎是多維信息模型的構建,并通過維度的分類關系(即對維度繼續細分得到新的子維度)反映信息的多粒度特征。由于Web信息融合的對象,即Web信息,具有半結構化和非結構化特征,無法直接用于決策支持,其關鍵是找到一種有效的方法,根據決策主題對相關Web信息進行融合且融合的結果能按多維信息模型進行組織,同時在多維信息模型的基礎上可以進一步進行信息的多粒度、多維度融合,以滿足決策支持的需要。基于上述原理設計的面向主題的Web信息融合模型如圖1所示:

3.1 Web倉庫模型

包括Web文檔本體模型、Web倉庫信息結構模型、基于代數的操作語言三個方面,具體原理如下:

3.1.1 Web文檔本體模型建立Web文檔本體元模型,設計包括Web文檔本體元模型、Web文檔概念層、Web文檔屬性層(包括概要屬性、鏈接與結構屬性、內容屬性和信任屬性)、Web文檔實例的四層結構框架模型,為非結構化信息向結構化信息的轉換提供語義范式,并利用該本體的元模型機制實現面向不同主題的擴充。

3.1.2 Web倉庫信息結構模型 采用多維信息模型組織信息,以本體概念為中心,將本體的屬性映射為維度,將本體概念的繼承與包含關系映射為維度的分類關系,設計Web模式,構建事實表和多個維表的星型結構。利用語義模型到多維信息模型的映射關系將Web文檔本體實例裝載入Web倉庫。

3.1.3 基于代數的操作語言 利用語義模型到代數系統的映射將基于語義的查詢轉換為面向關系模型的查詢,設計基于代數的操作語言和映射算法將基于語義的查詢等操作映射到代數系統的集合操作;設計基

于一階謂詞邏輯的概念和屬性約束,用一階謂詞邏輯的子句歸結方法判定組合約束的真假實現選擇運算。

3.2 Web信息融合功能模型

該模型為具有反饋優化機制的“信息檢索融合――屬性級融合――概念級融合――決策級融合”的四級融合功能模型,基于Web倉庫實現Web信息的多粒度與多維度融合。其基本工作原理是:首先利用面向主題的信息檢索融合技術檢索Web網頁,利用本體學習技術從Web網頁生成本體實例,并裝載入Web倉庫;然后根據用戶的查詢分析需求,在Web倉庫已有多維度信息的基礎上,進一步利用本體概念的多粒度關系和本體實例的合并消重算法,在屬性層級、概念層級或綜合概念與屬性層級實現信息的鉆取、切片、切塊和旋轉等操作,實現Web信息在屬性級、概念級、綜合概念與屬性的決策級進行多粒度、多維度融合,以提供滿足用戶需求的信息融合結果。

3.2.1 功能模型 具有自我優化機制的閉環結構信息融合功能模型,定義各級功能實現的輸入輸出及各級功能的依賴關系,具有基于評估反饋的自我優化機制,能夠分析評估反饋結果與各級融合參數和融合規則的關系,并能根據評估反饋結果實現融合參數和融合規則的自動或半自動調整。

3.2.2 主要算法 主要包括與功能模型相對應的各級融合算法以及本體實例填充算法。①與功能模型相對應的各級融合算法:在已有信息檢索融合算法的基礎上引入信任評價機制,綜合信息源信任度、文本相似度和搜索組件權重三個方面的信息檢索融合算法;基于多文檔的相同概念相同屬性的屬性值歸并融合算法;基于本體概念上下位關系的屬性級多粒度融合算法;基于本體屬性合并的概念級多粒度融合算法;基于圖理論、本體概念合并、本體屬性合并和本體實例消重的決策級融合算法。②本體實例填充算法:把每個文檔視為本體實例,重點解決本體實例概念和屬性的學習問題,其中概要屬性如所在站點、創建時間等概要信息通過URL和HTTP響應信息獲取;鏈接與結構屬性通過文本分析器分析獲取;信任屬性由人工賦初值后基于反饋機制調整;設計基于SOM和層次凝聚的聚類算法獲取實例概念及概念間關系,設計基于文檔模板匹配和句法模式分析的算法獲取內容屬性。

3.3 人機交互接口

負責用戶與融合功能模型層之間基于語義進行交互,其實現形式是語義瀏覽器。語義瀏覽器以圖形化的方式顯示本體,用戶通過對本體進行操作來表明面向主題的查詢與分析需求,用戶請求被封裝成基于語義的形式后提交給融合功能模型層,融合功能模型層返回查詢分析結果給用戶并且可以讓用戶追蹤到融合的相關原始Web信息。

4、原型系統實現

面向服裝行業企業主題,滿足服裝行業按企業和產品進行綜合分析決策的需要,構建Web信息融合原型系統。該系統架構如圖2所示:

主要包括數據中心、融合功能、系統管理、應用開發接口和用戶接口五個部分,信息源為Web文檔。整個系統基于Tomcat+MySQL+Jena實現。Web文檔模型本體和服裝本體采用Protege工具構建并存儲在MySQL數據庫中,通過Jena的ARQ查詢引擎采用SPARQL查詢語言進行查詢;融合規則的前項和后項以數據表的形式存儲在MySQL數據庫中;Web倉庫則采用MySQL數據倉庫引擎InfoBright實現。Web倉庫模式依據服裝本體的“概念――屬性”關系建立,目前根據“企業”和“產品”概念建立了兩個事實表,并分別根據“企業”概念和“產品”概念的屬性建立了以事實表為中心的維表,實現了本體實例填充算法和基于概念上下位關系的多粒度融合算法,用戶能夠根據不同概念和屬性粒度實現融合結果的查詢。按產品分級(服裝產品――男裝――休閑襯衫)檢索的融合結果如圖3所示:

第9篇

關鍵詞 欺詐識別; 數據挖掘; 機器學習; 分類

1 引言

隨著世界經濟的不斷增長和信息技術的迅猛發展,全球的信用卡使用量持續上升,信用卡已成為支付領域的主要媒介。截至2004年底,美國的信用卡發行規模達到6.57億張,平均每個家庭擁有6.3張信用卡。在零售業的所有客戶支付工具中,借記卡和貸記卡的交易額已經超過了總交易額的50%,大有取代現金和個人支票交易的趨勢。而我國從2003年開始,各大銀行都把信用卡的發行作為業務重點,宣傳戰、產品戰、地域戰隨處可見,信用卡規模急速擴大。發達國家的經驗顯示,隨著發卡量的增大,信用卡的欺詐風險將直線上升,由于信用卡欺詐而給銀行造成的損失也將居高不下。據Visa和MasterCard兩大信用卡聯盟的統計,全球信用卡欺詐涉及金額已超過100億美元[1]。如何加強對信用卡欺詐的識別和防范,將成為銀行風險控制的一個焦點。

對于處于“跑馬圈地”階段的我國銀行業,能否未雨綢繆,及時的建立一套信用卡欺詐識別和防范體系,既是我國信用卡業務健康發展的重要保障,又是一項兼有前瞻性和現實性的有益探索。

2 信用卡欺詐風險與欺詐識別模型研究

信用卡的欺詐風險是指持卡人由于遭人冒申請、盜領、偽造、失竊等原因而發生損失的風險。由于欺詐風險所造成的損失絕大部分都由發卡行承擔,因此對信用卡欺詐的識別和防范是銀行風險控制的一項重要內容。

從欺詐者在信用卡交易中的不同角色進行分類,信用卡欺詐可以分為商家欺詐、持卡人欺詐和第三方欺詐[2]。商家欺詐來源于合法商家的不法雇員或者與欺詐者勾結的不法商家。在現實中,商家雇員有條件接觸到顧客的卡信息,甚至持卡離開顧客的視線,這都給不法雇員帶來了復制或保留卡信息的機會。持卡人欺詐是由不道德的真實持卡人進行的,通常是持卡人充分利用信用卡的責任條款,在收到貨物后稱沒有進行交易或者沒有收到貨物。第三方欺詐是目前信用卡欺詐的主要形式,是指不法分子非法獲取他人信息,并利用這些信息偽造或騙領信用卡進行交易。由于非法獲取信息的渠道較多,欺詐方式也不盡相同。

按照不同的欺詐手段,信用卡欺詐又可以分為身份盜竊欺詐、未達卡風險、遺失被竊風險、道德風險、欺詐犯罪風險五種[3]。

由于信用卡欺詐帶來了巨大的風險和損失,因此銀行一直在尋求一個行之有效的欺詐識別模型。最初是利用業務人員的經驗知識對欺詐交易進行手動識別,但是隨著信用卡發卡量的大幅增長和交易量的不斷提高,信用卡欺詐愈演愈烈,且由于欺詐手法的不斷翻新,業務人員很難迅速有效的從海量交易記錄中覺察出欺詐交易。這時,需要有一個能對持卡者和信用卡交易進行快速判斷的模型或系統來輔助業務人員的工作,而基于判別分析和回歸分析的統計方法能通過給持卡者或信用卡交易進行信用評分的方式來識別欺詐交易,得到了廣泛的應用。近年來,數據挖掘技術的興起使人們開始關注基于數據挖掘技術的信用卡欺詐識別模型。利用數據挖掘中的分類方法,可以通過建立一個分類模型來準確的將欺詐交易和非欺詐交易區分開來,從而為欺詐防范和風險控制提供決策支持。人工神經網絡[4][5][6]、決策樹[7]等分類算法在欺詐識別上都進行了有益的嘗試,取得了較好的預測效果。但是單一分類器的分類效能相對有限,不能得到一個很高的分類準確率,本文試圖利用組合分類器來建立一個更為準確的信用卡欺詐識別模型。

3 組合分類器與AdaBoost算法

實踐中人們發現,分類算法實際上對樣本集是敏感的,也就是說,在不同的訓練樣本和測試樣本上,或者是在相同樣本的不同特征空間上,同一分類器會有不同的表現。沒有哪種分類算法是最優的,但是將多個分類器組合起來卻能有效的提高分類的精度[8]。

所謂組合分類器是指幾個分類器通過某種策略組合在一起對某個事例進行分類。組合的策略可以是模型組合,可以是不同的算法組合,也可以通過對樣本取樣,變化事例空間,構造不同的分類器,然后按照一定的加權方法對分類器進行組合,得到最后的分類器。組合分類器的應用,克服了單一分類器的諸多缺點,如對樣本的敏感性,難以提高分類精度等等,在字符識別[9]、文本分類[10]、面部表情識別[11]等領域已經獲得了較好的應用效果。

AdaBoost[12]是Boosting算法的一種,其主要思想是給每一個訓練樣本分配一個權重,表明它被某弱分類器選入訓練集的概率,初始時權重設為1/m,m為樣本個數。用一個弱分類算法在訓練集上進行訓練,訓練后對樣本權重進行調整,訓練失敗的樣本權重增大,訓練成功的樣本權重減少,使分類算法能在下一輪訓練中集中力量對訓練失敗的樣本進行學習。然后,在權重更新后的訓練集上繼續訓練,不斷調整樣本權重,循環往復,從而得到一系列的弱分類器。這些弱分類器就構成組合分類器,組合分類器最終預測結果的產生采用了有權重的投票方式,而權重就是各個弱分類器的準確率。這種方法不要求單個分類器有高的識別率,但經過多分類器融合的組合分類器則具有了高的識別率。

AdaBoost算法過程如下:

在多數情況下,只要每個分類器都是弱分類器,即分類準確率超過50%,比隨機猜想好,那么組合分類器的訓練誤差就能隨著T的增大而變得任意小,同時,在T很大的情況下也很少會發生過擬合(Over fitting)現象。

4 基于AdaBoost的信用卡欺詐識別模型

4.1 建模思路

信用卡欺詐者的消費行為習慣通常與真實持卡人會具有較大的不同,而持卡人的賬戶數據和交易數據在很大程度上能反映和刻畫消費習慣和模式,因此可以將賬戶資料和交易資料作為輸入變量來建模。

由于欺詐交易只是少數,因此樣本集中存在著兩類樣本的不對稱分布(Skewed Distribution)問題。首先要對樣本進行處理,并進行必要的數據預處理過程,然后再進行模型的訓練。

AdaBoost是通過弱分類器在樣本集上的多次訓練來得到組合分類器的,這里選擇C4.5決策樹算法作為其中的弱分類算法。為了比較AdaBoost算法與單分類器的分類效能,本文分別利用C4.5算法和C4.5+AdaBoost來建模,得到一個基于C4.5算法的單分類器和一個基于AdaBoost的組合分類器。

4.2 實證過程

本文以國外某商業銀行的信用卡真實交易數據為研究對象,從數據庫中抽取679位信用卡持有人的21,858條交易記錄構成樣本集。其中非欺詐交易19948筆,欺詐交易1910筆,分別將其Fraud屬性標記為0和1。僅根據交易的相關信息是很難準確判斷是否為欺詐交易的,因為消費習慣和模式與持卡人的特征屬性有較大的關聯關系。因此本文將描述持卡人特征的一些屬性也參與建模,這樣每個樣本就有了62個屬性。再根據業務經驗,去掉與欺詐無關或相關性極小的屬性,最終確定35個相關屬性作為模型輸入。

從樣本數量分布上看,兩類樣本存在著嚴重的不對稱分布問題,如果直接在這樣一個樣本集上進行模型訓練,會使模型偏向非欺詐交易,識別欺詐交易的能力變差。為此,這里采用減少多數樣本(Under-sampling)的方法,即從非欺詐交易樣本中隨機選取與欺詐交易數量大致相當的部分樣本,來與欺詐交易樣本組成一個兩類樣本數量相當的樣本集。同時,將這一樣本集按照7:3的比例分成訓練集和測試集,分別用作模型的訓練和測試。

實證研究以Windows XP為平臺,數據存儲在MS SQL Server 2000中,實驗工具為WEKA數據挖掘軟件。WEKA是由新西蘭Waikato大學的研究人員開發的一個數據挖掘工具(cs.waikato.ac.nz/ml/weka/),目前的最新版本是3.4.7。其中包含了大量的數據挖掘算法,能進行數據的預處理和分類、聚類及關聯規則分析,也具備較好的可視化展示能力,十分實用。

4.3 實證結果分析

在信用卡的欺詐識別研究中,存在兩類錯誤,一類是把欺詐交易錯誤預測為非欺詐交易,可以稱之為第一類錯誤或者False Negative錯誤,另一類是把非欺詐交易錯誤預測為欺詐交易,稱之為第二類錯誤或False Positive錯誤。從圖1的混淆矩陣看,第一類錯誤率(False Negative Rate)為 ,第二類錯誤率(False Positive Rate)為 。由于僅用準確率 只能反正模型的總體準確率,而不能全面反映模型對兩類樣本的不同預測能力,因此本文采用兩類錯誤率來評估模型。

圖1 混淆矩陣

模型訓練完成后在測試集上進行測試,結果如表1所示。

表1 模型測試結果

第一類

錯誤率第二類

錯誤率兩類錯誤率

平均

C4.5單分類器14.49%18.50%16.50%

AdaBoost組合分類器9.25%8.55%8.90%

實證結果表明,基于AdaBoost組合分類器的欺詐識別模型比基于C4.5決策樹單分類器識別模型具有更精確的預測能力,兩類錯誤率都有較大幅度的下降。

5 結論與展望

實證研究表明,基于客戶資料和交易相關數據并利用AdaBoost算法建立的信用卡欺詐識別模型能較為準確的預測交易是否為欺詐交易。如果基于這一模型建立銀行的信用卡欺詐識別系統,就能使銀行在信用卡交易發生后的較短時間里預測出交易的欺詐可能性,從而能有目的的采取一系列反欺詐策略,在欺詐者造成較大損失之前就積極加以防范,有效的降低銀行的風險。

但是,本文提出的欺詐識別模型還存在一定的不足之處,需要在今后的研究中加以改進。首先,本文對樣本不對稱分布的處理采取了減少多數法,這樣雖然能得到一個分布對稱的樣本集,但是損失了很多多數樣本的信息。其次,本文沒有考慮到兩類錯誤的不同代價問題。在欺詐識別問題中,將欺詐交易預測為非欺詐交易和將非欺詐交易預測為欺詐交易在代價上相差很大,這就要求模型在第二類錯誤率相對合理的情況下具有極低的第一類錯誤率。

參考文獻

[1]

陳雷. 國際信用卡欺詐與預防[J]. 中國信用卡, 2004, (6): 43-47

[2]

苗繪. 信用卡欺詐及其防范[J]. 金融教學與研究, 2005, (4): 31-35

[3]

陳建. 信用卡的反欺詐管理[J]. 中國信用卡, 2005, (8): 20-24

[4]

E. Aleskerov, B. Freisleben, B. Rao. CARDWATCH: A Neural Network-Based Database Mining System for Credit Card Fraud Detection. Proc. of the IEEE/IAFE on Computational Intelligence for Financial Engineering, 1997: 220-226

[5]

M. Syeda, Y. Zhang, Y. Pan. Parallel Granular Neural Networks for Fast Credit Card Fraud Detection.

Proc. of the 2002 IEEE International Conference on Fuzzy Systems, 2002

[6]

盛昭瀚,柳炳祥. 一種基于粗集神經網絡的欺詐風險分析方法[J]. 應用科學學報, 2003, (2): 209-213

[7]

A. Kokkinaki. On Atypical Database Transactions: Identification of Probable Frauds using Machine Learning for User Profiling. Proc. of IEEE Knowledge and Data Engineering Exchange Workshop, 1997: 107-113

[8]

T. G. Dietterich. Ensemble Methods in Machine Learning[A]. In: Springer-Verlag. Workshop on Multiple Classifier Systems.Lecture Notes in Computer Science [C]. 2000, 1857(1): 1-15

[9]

L Xu, C. Krzyzak, C. Suen. Methods of Combining Multiple Classifiers and Their Applications to Handwriting Recognition [J]. IEEE Trans on Systems, Man and Cybernetics, 1992, 22(3): 418- 435

[10] Robert E. Schapire, Yoram Singer. BoosTexter, A boosting-based system for text categorization[J]. Machine Learning, 2000, 39(2/3): 135-168

第10篇

[關鍵詞] 改進CBA算法; 煤礦安全預警; 數據準備

1 前言

在數據挖掘領域中,分類技術的應用最為普遍,利用分類計數,可以根據一組類別已知的數據來確定分類模型,并在此基礎之上對新數據類別進行預測。當前,分類技術在圖像處理、醫療診斷以及文本分類等領域中被廣泛應用。實踐中較為常見的分類方法主要有決策樹、關聯分類以及貝葉斯等,其中關聯分類算法簡單易用,精準度較高,在各個領域中備受關注。近些年來,隨著相關研究的日益深入,有些研究人員在分類算法基礎之上提出改進方案,經過改進的分類算法的效率有顯著提升,分類效果更佳優越。本文將對煤礦安全預警管理中對改進的分類算法的應用展開探討。

2 改進的CBA算法

關聯規則挖掘發現(CBA)大量數據中項集之間有趣的關聯或相關聯系。如果兩項或多項屬性之間存在關聯,那么其中一項的屬性就可以依據其他屬性值進行預測。它在數據挖掘中是一個重要的課題,最近幾年已被業界所廣泛研究。最著名的關聯規則發現方法是R?Agrawal提出的Apriori算法。關聯規則挖掘問題可以分為兩個子問題:第一步是找出事務數據庫中所有大于等于用戶指定的最小支持度的數據項集;第二步是利用頻繁項集生成所需要的關聯規則,根據用戶設定的最小置信度進行取舍,最后得到強關聯規則。CBA分類算法的主要思路為:先依據關聯算法Apiori,將右部為類別的關聯規則確定下來,此種規則就是CAR規則;之后,通過排序及測試等環節將最適合的CAR確定下來,并用其對訓練集進行覆蓋。CBA分類算法主要包括規則生成算法CBA-RG以及分類器構造算法CBA-CB。

經過數據的預處理以及離散化后的決策信息表S=(U,C∪D), U={x1,x2,…,xn}為訓練的樣本集,C={?琢1,?琢2,…,?琢n}則為決策屬性集。

3 改進CBA算法在煤礦安全預警中的應用

3.1 煤礦井下安全監測預警系統

鑒于煤礦生產過程的特殊性,普遍在井下設置安全預警系統。煤礦井下安全預警系統主要組成部分包括:煤礦井下分站、傳感器、執行器構成的工作站點、相應的環境參數及生產參數等,其中,環境參數主要涉及到煤礦井下的瓦斯、風速、一氧化碳、負壓、溫度、濕度、通風狀況、粉塵濃度以及煙霧情況等;生產參數主要涉及到煤倉煤位、帶式輸送機的啟動及停止、水倉水位、壓風機風壓以及相關機電設備的啟動及停止等。煤礦井下安全預警系統的各個構成部分自身具有一定獨立性,可以獨立開展相應的工作,與此同時,還可以與小分站進行掛接,對煤礦生產過程中的居于安全生產環節實施監測,從而在一定程度上促進了系統應用范圍的進一步擴大。

對于煤礦井下安全監測預警系統而言,數據庫是一個極為關鍵的構成部分,其主要發揮存儲功能,用來對安全監測系統所監測到的相關數據以及重要操作事件參數進行保存,對于用戶而言,可以從自身實際需求出發,對保存期限進行靈活設定,數據庫為用戶開展二次開發以及追述事件創造了便利條件。在數據維護方面,可以進行定時更新及保存設置,從而可以將超出所設置的保存期限的相關信息資料自動予以刪除。

在實踐當中,對煤礦安全預警造成影響的因素相當多,諸如煤礦井下礦壓、粉塵濃度、水、火以及瓦斯等因素都會在一定程度上給煤礦安全預警造成影響。借助關聯規則挖掘技術,可以針對上述影響因素記錄集合開展相應的數據挖掘。

3.2 數據準備

在煤礦生產領域中所采用的智能井下安全預警系統,可以完成煤礦作業過程中的實時數據采集工作,所采集到的實時數據具有顯著特點,數據多維性、數據異構性、不完全性、隨機性以及模糊性等,井下安全預警系統所采集到的實時數據無法直接開展數據挖掘,必須先進性前期處理,利用面向空間數據的概化法對采煤、煤層瓦斯含量、工作面日產煤量以及煤層厚度等相關的屬性指標進行挖掘。根據我國煤礦安全規程的相關要求,以危險性程度為依據,可以將礦井劃分為三大等級,分別是較弱、中等以及嚴重等三個等級。以開采深度為依據可以將數據庫細分為三個子庫,第一個子庫開采深度在-150m到120m范圍之間,子庫二開采深度在-200m到-150m之間;子庫三的開采深度則低于-200m。對三個子庫分別進行關聯規則挖掘,以子庫一為例,將開采深度排除考量范圍,數據子庫詳見下表所示。

設support=15%,利用Apriori算法確定大項集,在此基礎之上設confidence=70%,確定強規則,即:{瓦斯含量為2.0m3/t―危險等級為1}以及{瓦斯含量為2.5m3/t―危險等級為2};如果設定support=2%,confidence=70%,則所得出的強規則為:{瓦斯含量為3.5m3/t―危險等級為3}。雖然該規則的支持度相對有限,然而對安全危險等級影響較大的相關因素對于煤礦安全隱患的準確預測極為關鍵。在D2以及D3中同樣采用該方法,可以推導出有效的挖掘規則。

4 結語

本文首先介紹了改進的CBA算法,之后對改進的CBA算法在煤礦安全預警管理中的應用情況進行闡述。根據挖掘結果可以得知,煤礦生產過程中,井下瓦斯含量是對煤礦安全造成威脅的主要因素。對于數據庫管理人員而言,以所得出的挖掘結果為依據,對可能有瓦斯、一氧化碳濃度超標等因素所導致的井下安全隱患實施監控和指揮,對于突發及意外狀況及時采取相應措施加以控制,在必要情況下,可以利用視頻系統,這樣就好比有專家親臨現場進行指揮,以便對煤礦作業過程中井下所存在的各種安全隱患進行準確預測,并及時采取對策加以解決。

[參考文獻]

[1] 陸光義,馮仁劍,萬江文.一種基于粗糙集和神經規則法的數據挖掘新方法[J]. 計算機與現代化. 2005(10).

[2] 尹輝,李振軍,尹政.基于CMAR算法的水平加權多分類關聯規則挖掘[J]. 山東師范大學學報)自然科學版). 2008(02).

[3] 栗繼祖,王金云.煤礦安全事故預警、監控與應急響應關鍵技術研究[J]. 太原理工大學學報. 2009(02).

第11篇

關鍵詞:負選擇算法; 人工負選擇分類; 反饋學習

中圖分類號:TP391 文獻標識碼:A 文章編號:2095-2163(2013)05-0061-05

0引言

“負選擇(Negative selection,NS)”是免疫系統中自體/非自體區分機制的基礎。負選擇過程是指在T細胞發育過程中,在其表面通過隨機遺傳重排產生了對于特定抗原決定基高度特異的抗原識別受體來識別抗原的過程。T細胞在胸腺成熟的過程中,生物免疫系統將與自體蛋白質相結合的T細胞消除,保留未結合的T細胞,從而確保T細胞在體內循環時不會識別自體細胞[1]。負選擇算法(Negative Selection Algorithm,NSA)模擬了免疫系統識別自體和非自體細胞的負選擇過程,首先隨機產生候選檢測器,然后與自體樣本數據集進行識別判斷,生成非自體檢測器,最后使用非自體檢測器對非自體數據進行識別[2],完成自體與非自體數據的分類。負選擇算法作為人工免疫系統的核心算法之一,其研究成果涉及諸多領域,例如入侵檢測[3]、數據分類[4]聚類[5]和異常檢測[6,7]等,但仍存在以下兩個問題:一方面,負選擇算法中記憶細胞數量選擇的不當會對識別精度產生一定的影響;另一方面,由于負選擇算法在匹配過程中通常使用K連續位匹配規則,該規則的特殊性使得負選擇算法帶來的檢測器在其覆蓋空間出現交集,因而檢測器集合整體覆蓋空間較低的問題。

在負選擇算法中,記憶細胞數量的不同會對算法的識別精度產生影響。由于在傳統的負選擇算法中,記憶細胞數量是固定值,無法比較判斷當前記憶細胞數量是否為最佳值。為了解決記憶細胞數量選擇不當對識別精度的影響,本文通過開展記憶細胞數量對識別準確率的影響的研究,提出一種通過反饋學習思想進行記憶細胞數量的優化,從而達到最佳分類效果的方法。

覆蓋空間出現交集在將負選擇算法應用于分類的過程中體現為“交叉識別”現象。“交叉識別”現象指樣本數據未被分配到任何類別。與此對應的“識別洞”現象,是指樣本被標記為多個類別,其時則無法判斷應屬哪一類別。為了解決傳統負選擇算法存在檢測器覆蓋空間出現交集、整體覆蓋空間較低的問題,本文提出一種通過記憶細胞識別半徑的自動化調整,減少檢測器覆蓋空間交集,提高整體覆蓋空間的方法,避免了“交叉識別”和“識別洞”現象的出現。其中,解決“交叉識別”現象的方法是縮小識別半徑,避免被多種記憶細胞識別。解決“識別洞”現象的方法是增大識別半徑,擴大記憶細胞覆蓋空間。

全文共分為五部分,其內容具體安排為:第一部分引言,主要介紹了生物免疫系統的負選擇原理,以及課題的研究背景和研究意義,又給出了本文主要研究內容和文章結構。第二部分相關工作,首先分析了負選擇算法的國內外研究現狀,然后介紹了常用的文本分類算法和基于人工免疫系統的分類算法。第三部分人工負選擇分類,首先對負選擇算法的原理進行了系統描述,提出負選擇算法待解決的問題,其次介紹人工負選擇分類算法的具體流程,然后對其中每一部分進行具體論述,并針對負選擇算法中出現的問題提供了詳細解決方案。第四部分實驗結果與分析,針對提出的新算法在兩個方面的改進分別進行了試驗,證明算法改進后的正確性和優越性。全文第五部分則是論文的結論及對下一步研究工作的展望。

1相關工作

負選擇算法已廣泛應用到數據分類聚類、異常檢測、網絡入侵檢測等諸多領域。劉錦偉等人[8]通過分析已有實值負選擇算法檢測率不高的原因,提出一種通過鑒別邊界自體樣本以提高對“識別洞”的覆蓋率的改進負選擇算法,并采用人工合成數據集2DSyntheticData和實際Biomedical數據集對算法進行驗證,結果表明,該算法針對夜晚視頻進行目標檢測是準確有效的,對于實現智能交通系統的全天候監控有現實意義;汪慧敏等人[9]為解決基于負選擇的異常檢測算法中檢測器數目和檢測器對非我空間的覆蓋二者之間的矛盾問題,采用粒子群優化算法(PSO)來優化負選擇算法中隨機產生的檢測器的位置,從而實現利用較少的檢測器就能達到對非我空間的更大覆蓋;仲巍[10]在分析了影響負選擇算法性能的因素后,提出了一種基于切割的負選擇算法,算法中使用新型的元素定義標準和匹配規則,結合一種多級檢測器生成思想,有效解決了負選擇算法中檢測效率及檢測率低下等問題。同時設計了基于層次型的檢測器組織策略和基于優先級的檢測器管理策略,并提出了一套快速檢測器更新機制,可動態修改檢測器信息,而且減少了環境變動時所造成的系統開銷;曹霞[11]提出了一種應用于入侵檢測系統的實值負選擇改進算法,該算法通過估算“非自體”空間大小和優化抗體分布來產生最優化抗體集合,從而提高系統的檢測率和降低誤報率。國外很多研究學者對負選擇算法也展開了研究。Bereta等人[12]將負選擇算法與免疫K-means算法相結合應用于數據分析和聚類,研究首先對原始數據進行負選擇,使用進化的負選擇檢測器生成一組人工樣本。然后將原始數據與人工樣本相結合來構建訓練數據,并使用免疫K-means算法訓練得到記憶細胞以用于數據聚類,取得了較好的聚類效果;Fernando Esponda等人[13]提出一種通用框架用來分析正負選擇在近似匹配背景下的不同,該框架可以應用于異常入侵檢測,例如,檢測在局域網中異常TCP連接或者檢測執行程序的系統調用中的異常模式;Laurentys等人[14]提出了一種基于人工免疫系統的負選擇算法原理的故障檢測系統的設計方法——多操作算法。

常用的文本分類算法包括貝葉斯分類、神經網絡分類、支持向量機、TFIDF算法、粗糙集方法和模糊集(Fuzzy Set)方法等[15]。其中,基于人工免疫系統的分類算法的研究已獲得了豐碩成果,例如,Alves等人提出的基于規則的模糊規則歸納算法(Induction of Fuzzy Rules with an Artificial Immune System,IFRAIS)[16];邱小寧對IFRAIS 算法進行了改進,在IFRAIS 算法的規則進化研究中對抗體的克隆選擇過程增加了抗體抗原間的交叉,以提高分類準確率,提出了抗體抗原交叉的規則歸納算法(Induction of Rule with Antibody-Cross-Antigen of Artificial Immune System, IRAA),并通過實驗對改進算法進行了驗證[17];Watkins在克隆選擇和有限資源人工免疫系統等基礎上提出了人工免疫識別系統(Artificial Immune Recognition System,AIRS)分類器模型[18,19];彭凌西等人對AIRS進行了改進,提出了一種基于免疫的監督式分類算法,有效減少了記憶細胞數量,提高了分類準確率[20];劉芳等人提出了一種基于免疫克隆算法的搜索機制以及Michigan方法模型的規則提取和分類方法——免疫克隆分類算法(Immune Clonal Algorithm for Classification,ICAC)[21];K.lgawa等人對負選擇算法進行了改進,將負選擇算法應用于多類別分類問題,并提出一種“裁剪”的思想來減弱噪聲對分類結果的影響[22]。

2人工負選擇分類器

首先對基于人工免疫系統的負選擇算法進行介紹,負選擇算法借鑒了生物免疫系統中胸腺T細胞生成時的“負選擇”過程,其主要算法流程如圖1所示。

在產生檢測器階段,負選擇算法隨機產生候選檢測器,并判斷其是否與“自體”樣本數據集中每個數據進行匹配,若與任一數據匹配,則將該檢測器從候選集合中刪除,反之,不與任一“自體”數據匹配的候選檢測器加入“非自體”檢測器集。在檢測階段,將待檢測數據與“非自體”檢測器集合中的“非自體”檢測器進行匹配,若有任一“非自體”檢測器可識別該數據,則認定該數據為“非自體”數據,即異常數據,反之,不與任一“非自體”檢測器相匹配的數據即可認為是“自體”數據,即正常數據。本研究將傳統負選擇算法中的“非自體”檢測器定義為“記憶細胞”,如果被記憶細胞識別,表明樣本不屬于該類別。相反,如果無法被記憶細胞有效識別,表明樣本屬于該記憶細胞所代表的類別。

人工負選擇分類器對負選擇算法進行了改進,其總體流程如圖2所示。算法的主要思想是在學習過程中通過訓練數據集獲得可用來識別非自體數據的記憶細胞,然后使用反饋學習的思想來調整記憶細胞數量,獲得可進行預測的最終非自體記憶細胞集合。最后,在預測分類過程中對待分類數據進行預測分類。

2.1學習過程

傳統的負選擇算法過程中,記憶細胞的識別半徑會影響產生的記憶細胞數量(即非自體檢測器數量)。其中,識別半徑指隨機生成的檢測器(即記憶細胞)能夠識別樣本的最大距離,本文采用歐氏距離計算,在系統初始化時設定。記憶細胞數量的不同會對算法的識別精度產生影響。在傳統的負選擇算法中,由于記憶細胞數量是固定值,無法判斷比較當前記憶細胞數量是否為最佳值。為了解決這一問題,本文在算法的學習過程中增加了反饋機制,通過當前記憶細胞數量對識別精度的反饋信息來調整決定記憶細胞識別半徑的參數α,從而對記憶細胞數量進行優化,達到最佳分類效果的方法。

人工負選擇分類算法的學習過程主要由獲取最佳記憶細胞和反饋調整兩部分組成。學習過程旨在通過訓練數據集獲取記憶細胞,借鑒生物免疫系統的克隆和變異過程對記憶細胞進行優化,并通過使用記憶細胞對訓練數據進行識別的過程獲得反饋信息,同時根據反饋信息對記憶細胞數量進行調整,從而用數量適當的最佳記憶細胞來對待檢測數據進行分類預測,以達到提高識別精度的目的。具體過程如圖3所示。

在獲取最佳記憶細胞的過程中,首先設置識別半徑,然后設置“激活”等級,“激活”等級是指可被該檢測器識別的非自體數據的數量,激活等級的值為刺激水平值和次刺激水平值之和。刺激水平是指可被該檢測器識別,但不可被自體檢測器(即自體記憶細胞集)識別的非自體數據的數量,次刺激水平是指既可被該檢測器識別,又可被自體檢測器識別的非自體數據的數量。接著,判斷隨機生成的檢測器是否具有成為記憶細胞的條件,只有隨機生成的檢測器達到最低“激活”等級后才能成為記憶細胞。對于沒有達到最低“激活”等級的檢測器則需要進行克隆與變異。在克隆過程中,每一個未達到最低“激活”等級的檢測器將以一定的克隆數量(初始化時設定)完成克隆后加入檢測器集合。變異過程則是借鑒遺傳算法中的單點變異,設定變異率為一個常數,在系統初始化時設定,若隨機產生的變異概率低于變異率,則該檢測器發生變異。經過克隆和變異過程后將產生新的檢測器,如果這些新的檢測器達到最低“激活”等級,則作為最佳記憶細胞。

在反饋過程中,首先使用當前非自體記憶細胞集對訓練樣本數據進行預測分類,然后將其分類結果與訓練樣本數據的實際類別進行比較獲取分類準確率,并根據準確率調整決定記憶細胞識別半徑的參數α,即間接調整記憶細胞數量,重新獲取最佳記憶細胞。如此迭代循環,直至調整至最佳記憶細胞數量值,則將當前的非自體記憶細胞集作為最終非自體記憶細胞集對待分類數據集進行預測分類。

2.2預測分類過程

傳統負選擇算法在分類過程中存在兩種現象——“交叉識別”現象和“識別洞”現象。“交叉識別”現象指待分類樣本數據沒有被分配到任何類別。當所有記憶細胞都能識別該樣本時,表示該樣本不屬于現有全部記憶細胞所代表的任何類別,即現有記憶細胞無法判斷該樣本真正屬于哪一個類別;“識別洞”現象是指當樣本被標記為多個類別時,無法判斷屬于哪一個類別。當一種記憶細胞無法識別該樣本時,表示該樣本屬于該類別。若多種記憶細胞無法識別該樣本,則空間中即出現一個無法識別樣本的“空洞”。

第12篇

關鍵詞:大數據環境;會計;云服務平臺

在大數據環境下,企業最為重要的資源是各種信息和內部數據[1].隨著企業的交流,企業內部會產生大量數據,如何篩選和利用大數據,從而提取出有效數據則會為企業帶來不可估量的產業價值.以會計信息系統為對象,面對海量的會計數據需求的壓力與日俱增.考慮到會計數據的獲取成本高、處理效率低以及挖掘周期長等原因,現階段構建的會計信息系統無論在會計數據處理方面還是提供有效科學的決策方面都缺乏競爭力.因此,本文利用云計算處理技術來幫助構建高效的大數據處理平臺,這不僅可以完善會計信息系統的各項功能,而且還能夠提供更有效的商業決策,具有較高的應用價值.

1大數據環境下會計云服務平臺構建的可行性分析

在企業內部構建基于大數據環境的會計云服務平臺的前提條件就是進行系統的可行性分析,首先論證開發此平臺的理論是否科學合理,然后對于后期的構建和維護成本進行預算,最后估計該服務平臺的經濟效益.

1.1理論可行性分析利用連續性隨機變量期望的定義方式[2],構建基于企業的會計方面的大數據(用Y表示),其數學表達式為Y=∫ρ(x)dx(1)其中,ρ(x)表示會計大數據的概率密度函數,利用式(1)得到會計大數據的客觀信息,然后利用有效會計大數據V修正客觀會計大數據:V=Yr(2)其中,該表達式的價值系數為r∈[0,1],而且當r=1時,V=Y,此時會計大數據可認定為具有價值;當r=0時,V=1,則表示只有一條會計大數據具有價值.知識數據K與有價值的會計大數據V的關系為K=∫iVdV(3)其中,參數i表示有價值信息的知識轉化參數.具體來講,會計信息處理系統會針對客觀數據Y進行分類、篩選、整理以及深度挖掘處理,然后自動生成決策信息K.本文設計的會計云服務平臺就是擴大會計數據的處理范圍,利用先進的信息處理技術來分析和挖掘會計大數據,并提供有效的企業決策.因此,在可行性方面,該平臺有較好的可行性.

1.2經濟可行性分析企業可以將內部的會計數據全部存儲在專業云端平臺上,任何授權的機構可以通過云端獲取到所需的會計數據,這樣將大大減少企業成本[3].首先,在前期構建會計云服務平臺時,企業可以節約一部分存儲成本;其次,企業也無需在投入系統擴展以面對高峰期數據服務需求.需要說明的是,企業應用的高端服務器的應用率不到20%,因此借助于云端平臺企業將不再受到存儲容量以及高端服務器的使用限制,從而進一步地節約成本;最后云計算服務提供商可以為企業提供具有不同應用層次的服務,而企業只需按照服務級別付費即可,無需購買多余設備,這也節約了一些硬件成本.利用云計算技術來構建會計云服務平臺不僅可以加快數據傳輸速度,而且還支持多數據格式相互轉換,讓企業的工作人員可以隨時隨地通過網絡訪問云端,并從中獲取到所需的數據信息,從而加強了企業內部的相互交流和協作,保障了部門之間的資源共享,整體上提高了工作效率.因此,本文設計的大數據環境下會計云服務平臺具有良好的經濟可行性.

2平臺體系架構設計

按照層次來分,基于大數據環境的會計云服務平臺主要包括數據輸出展示層、數據加工存儲層以及數據獲取層等,并且將大數據安全機制以及標準化方式應用到整個云服務平臺當中,具體平臺整體框架圖如圖1所示.其中云服務平臺主要由系統的存儲設施、網絡設施以及相應的操作系統構成,其工作模式為云計算提供的服務模式,因此該系統的基礎運行環境還是由云計算服務提供商來提供的.該系統的數據獲取層主要功能為從企業內部或者外部獲取所需的會計業務類型數據、財務管理類型數據以及公開的企業會計信息數據等;系統的數據加工存儲層主要功能為統一整合會計大數據,然后將加工后的數據保存在相應的數據庫中,比如關于客戶信息的會計數據、銷售類型的會計數據以及人力資源類型的會計數據統一存儲在基礎數據庫中,而關于知識庫、模型庫以及方法庫等信息數據統一存儲在分析類型的數據庫中,從而為后續的分析使用提供相應的數據支持.數據輸入輸出層的主要功能為利用多種數據挖掘技術來分析和處理會計數據,并從不同模塊中輸出處理后的會計數據.

2.1會計大數據加工存儲會計大數據加工存儲功能就是利用存儲器收集、整理以及存儲不同來源和不同類型的會計大數據,并構建不同的數據存儲庫.當然還可以參照大數據的中高度維度和粒度分析會計大數據,并利用ETL工具轉換原始的大數據,并將轉換后的數據存儲在不同維度表中以便進行有效的調用和管理.加工存儲的工作重點在于如何幫助簡化數據的結構化、非結構化以及半結構化等特點,從而顯著提高數據的可存儲性、可傳輸性、可表示性以及可處理性等[4].與此同時,還可以將人工智能技術以及Hadoop架構技術應用到加工存儲功能中,這不僅可以有效去除數據的冗余度,優化數據結構和存儲成本,而且還能夠優化大數據的非關系類型,為后續的可視化顯示提供便利.

2.2會計大數據分析輸出會計大數據的分析輸出功能主要是在現有數據挖掘技術的基礎上改進數據挖掘技術,將現有的財務分析模型、數據判別方法以及運算方式進行統一整理,并進行集成化處理,從而實現對于分布式數據庫中的會計大數據進行數據挖掘以及多維分析處理等,然后再利用操作交互界面顯示數據挖掘結果,從而滿足企業的數據需求.一般來講,系統的實時性分析工具可以使用Oracle公司的Exadata軟件,還可以利用Hadoopl軟件來處理半結構化或者非結構化數據[5].

3平臺功能構建

3.1財務綜合分析本文在基于大數據的財務綜合分析功能中添加了哈佛分析功能,從而為企業提供會計數據分析、財務分析、企業戰略分析以及企業發展前景分析等功能.具體來講,在企業戰略分析過程中,專門設立基于企業經營、行業發展以及競爭決策等功能[6].在整個行業發展過程中,企業可以通過分析市場需求、行業特點、企業競爭力以及企業發展戰略等方面找到該企業的生存和發展策略,比如在企業產品、企業技術以及企業員工等方面進行突破,并利用大數據技術挖掘企業的潛在價值.

3.2財務綜合決策大數據技術的應用為平臺的財務綜合決策提供了海量的會計數據,而且該綜合決策也不能再單一依賴于決策者的經驗和基本財務數據來進行判斷,因此該平臺的綜合決策更多地依賴于數據的收集、分析、整理以及應用水平.具體的財務綜合決策分析流程如圖2所示,該平臺使用的數據源主要來自于互聯網、社會化網絡、物聯網以及移動互聯網等,當然還可以從企業內部系統、工商管理部門以及銀行等機構獲取.財務綜合決策系統規范處理大數據的同時還可以利用數據分析和挖掘技術來挖掘和篩選出相關的出納、審計以及稅收等信息,然后利用可視化技術、基于文本分析技術、智能搜索技術以及智能化技術等幫助進行財務決策.圖2財務綜合決策分析流程

3.3財務綜合預測在財務綜合預測過程中,應該根據內部企業資料、外部環境因素以及財務綜合分析的結果進行分析,并利用基于單變量和多變量的線性回歸方式來預測未來企業的財務狀況,為企業規避風險和提高利潤提供幫助.營業成本預測技術利用作業成本技術將分配成本方案應用到各個作業中,然后利用聚類分析方法來分析各個因素對于成本的影響,最后根據以往成本和營業數據來選擇與之相似的營業趨勢模型,從而更好地預測企業未來成本.財務風險預測技術利用了周首華等學者提出的F計分模型來預測企業未來財務風險,還可以利用Kalman濾波技術以及BP神經網絡模型來針對企業的財務狀況進行智能預警.比如利用Kalman濾波技術以及BP神經網絡模型來構建財務預警動態模型,從而提供智能動態預警功能.由于財務危機的誘因就是企業財務狀況惡化,而企業經營不善又是財務狀況惡化的主導因素,內部和外部因素是財務惡化的推動器,公司財務管理力度不強又是財務惡化的內在原因,因此本文從上述4個方面收集相關企業數據資源,然后利用會計大數據技術來分析企業的經營環境,從而更好地整理出準確反映企業財務風險的因素.財務動態預警分析體系可以將各項指標進行量化處理,從而構建合理的綜合指標監測體系,然后進行財務預警,并針對相關企業財務風險及時進行提示和報警.

4平臺核心功能的測試分析

4.1測試營業收入和營業成本預測情況會計云計算服務平臺根據從2000年到2013年的營業成本和營業收入數據來自動預測未來5年的財務狀況,其具體的平臺營業收入和營業成本預測圖如圖3所示.本文設計的預測模型預測該企業的2010年的營業收入約為417.34億元,企業實際的營業收入為386.87億元,其誤差率約為7.8%;預測模型預測2011年企業的營業收入為545.57億元,企業實際的圖3會計云平臺營業收入與成本預測營業收入為549.01億元,其誤差率約為0.6%;預測模型預測2012年企業的營業收入為674.11億元,企業實際的營業收入為680.67億元,其誤差率約為0.96%;預測模型預測2013年企業的營業收入為781.24億元,企業實際的營業收入為783.11億元,其誤差率為0.23%,從中不難看出,除了2010年的預測誤差較大之外,其余幾年的預測誤差都比較理想.考慮到2010年企業的營業收入小于預測的營業收入,究其原因,主要是因為新醫改政策帶來的企業結構調整,當然宏觀經濟環境、相關政策法規以及市場整理都對企業的營業收入產生了一定的影響,在這之后企業及時進行戰略調整,所以在2011年企業的營業收入有了顯著提高.以企業在2010年的營業收入作為觀測對象,點擊可以詳細查看企業不同產品在不同區域的銷售柱狀圖,如果點擊收入還能夠查看不同產品的銷售記錄.如果點擊營業成本點,還可以查看該行業的營業成本關系,具體數據通過點擊營業成本選項.

4.2測試3項費用預測情況本文設計的預測模型預測2010年企業的銷售費用為28.57億元,企業實際的銷售費用為30.56億元,其誤差率為5%;預測2011年企業的銷售費用為32.69億元,企業實際銷售費用為32.46億元,其誤差率為0.67%;預測2012年企業銷售費用38.36億元,企業實際銷售費用為45.21億元,其誤差率為2.9%;預測2013年企業銷售費用43.83億元,企業實際銷售費用為45.26億元,其誤差率為2.8%.預測模型關于企業的財務費用和管理費用的預測示意圖如圖4所示.圖4會計云平臺3項經費預測從圖4中不難看出,企業的2010年與2012年的銷售費用和管理費用存在較大的誤差,主要原因是在2010年和2012年有很多企業進行整合,因此在報表合并時會產生高昂的銷售費用和管理費用.企業在2011年財務費用增加的主要原因是大量匯兌造成的,而且2012年企業恢復正常,利用內部融資方案來盡量降低相關財務費用.正是由于預測模型的匯率與實際匯率存在一定的誤差,從而造成了預測模型在2010年和2012年產生較大的誤差率.上述這些因素都是突發性的,而會計云服務平臺無法應對,這也是平臺設計的缺陷.

4.3財務預警預測分析測試會計云服務平臺利用Z值模型來預測集團財務狀況.Z=1.2X1+1.4X2+3.3X3+0.6X4+X5(4)其中當Z<1.80時,企業存在嚴重的財務危機,預測一年內會出現破產;當1.80<Z<2.66時,企業存在一般財務危機;當Z>2.66時,企業沒有存在財務風險,預計企業不會出現財務危機.該平臺還專門設定自動報警功能,當Z值一旦低于1.80時,系統會自動提醒企業注意.從表1可以看出:集團Z值主要受到X這一因素的影響,而且系統會實時觀測這個影響因素.本文專門針對預測結果和企業具體運行數據進行分析比對,從中發現該集團在年初會出現一定的財務危機,主要是因為年初或者月初的銷售計劃剛剛開啟,企業比較容易陷入財務危機.尤其是企業在2012年中上旬出現財務報表造假現象,而該預測系統預測企業在該年3月或4月出現財務危機,企業實際情況與預測情況相符;但是企業在2014年3月并沒有出現財務危機,這與預測的結果有一定出入,因此預測模型還需進一步改進。

5結論

在大數據時代,會計部門將面臨海量的企業數據,這已經成為會計部門重要工作之一.通過大數據技術以及云計算技術等,可以幫助挖掘和分析會計大數據的特點,為進一步解決數據資源匱乏、信息孤島以及企業決策困難等問題提供一體化的解決方案,從而有效管理企業數據,為企業管理者提供科學合理的決策.

參考文獻:

[1]成靜靜,喻朝新.基于云計算的大數據統一分析平臺研究與設計[J].廣東通信技術,2013(1):6-10.

[2]何曉行,王劍虹.云計算環境下的取證問題研究[J].計算機科學,2012(39):105-108.

[3]孫琪華.新形勢下高校財務信息化建設的思考[J].會計之友,2013(12):77-79.

[4]徐立冰.云計算和大數據時代網絡技術揭秘[M].北京:人民郵電出版社,2013:2-7.

主站蜘蛛池模板: 万山特区| 五常市| 丁青县| 丹巴县| 彭水| 玉山县| 得荣县| 隆尧县| 大新县| 元阳县| 轮台县| 九龙城区| 汪清县| 宝清县| 泰顺县| 宜春市| 通渭县| 遂川县| 银川市| 合山市| 桂阳县| 永定县| 通州市| 乳源| 娱乐| 府谷县| 新邵县| 文昌市| 鄂托克旗| 清远市| 江山市| 漾濞| 灵山县| 登封市| 呼和浩特市| 贵南县| 阳西县| 北宁市| 息烽县| 松江区| 梁河县|