時間:2022-03-17 23:08:25
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據挖掘技術,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
關鍵詞:數據挖掘;神經元;方法;應用;發展
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9599 (2012) 12-0000-02
一、引言
伴隨信息技術的迅猛發展,數據庫規模與應用的不斷擴大,大量數據隨之產生。新增的數據包含了重要的信息,人們希望更好地利用這些數據,并通過進行更高層次的數據分析,為決策者提供更寬廣的視野。
現今,很多領域已建立了相應的數據倉庫。但人們無法辨別隱藏在海量數據中有價信息,傳統的查詢方式無法滿足信息挖掘的需求。因此,伴隨著數據倉庫技術不斷發展并逐漸完善的一種從海量信息中提取有價潛在信息的嶄新數據分析技術------數據挖掘(Data Mining)技術應運而生。
二、數據挖掘概念
數據挖掘技術從1990年左右開始,發展速度很快,數據挖掘技術的產生和不斷發展可使得人們對當今世界的海量數據中隱藏著人們所需要的商業和科學信息等重要信息進行挖掘。數據挖掘運用到交叉學科,涉及到,包括Database、AI、Machine Learning、人工神經網絡(Artificial Neural Networks)、統計學(statistics)、模式識別(Pattern Recognition)、信息檢索(Information Retrieval)和數據庫可視化等,因此數據庫目前還沒有明確的定義。通常普遍認可的數據挖掘定義是:從數據庫中抽取隱含的、以前未知的、有潛在應用價值的模型或規則等有用知識的復雜過程,是一類深層次的數據分析方法。
三、數據挖掘方法
由于數據挖掘技術研究融合了不同學科技術,在研究方法上表現為多樣性。從統計學角度上劃分,數據挖掘技術模型有:線形/非線形分析、回歸/邏輯回歸分析、單/多變量分析、時間序列/最近序列分析和聚類分析等方法。通過運用這些技術可以檢索出異常形式數據,最后,利用多種統計和數學模型對上述數據進行解釋,發掘出隱藏在海量數據后的規律和知識。
(一)數據挖掘統計
統計學為數據挖掘技術提供了判別方法與分析方法,經常會用到的有貝葉斯推理(Bayesian reasoning; Bayesian inference)、回歸分析(Regression analysis)、方差分析(Analysis of Variance,簡稱ANOVA)等分析技術、貝葉斯推理是在估計與假設統計歸納基礎上發展的全新推理方法。貝葉斯推理在與傳統統計歸納推理方法相比較,所得出的結論不僅根據當前觀察得到的樣本信息,還將根據推理者過去相關的經驗和知識來處理數據挖掘中遇到的分類問題;回歸分析是通過輸入變量和輸出變量來確定變量之間的因果關系,通過建立回歸模型,根據實測數據求解模型的各參數,若能很好的擬合,則可根據自變量進一步預測。統計方法中的方差分析是通過分析研究中估計回歸直線的性能和自變量對最終回歸的貢獻大小,從而確定可控因素對研究結果影響力的大小。
(二)聚類分析(Cluster analysis )
聚類分析(Cluster analysis)是將一組研究對象分為相對同質的群組(clusters)的統計分析技術。 同組內的樣本具有較高相似度,常用技術有分裂/凝聚算法,劃分/增量聚類。聚類方法適用于研究群組內的關系,并對群組結構做出相應評價。同時,聚類分析為了更容易地使某個對象從其他對象中分離出來的方法用于檢測孤立點。聚類分析已被應用于經濟分析(Economic analysis)、模式識別(Pattern Recognition)、圖像處理(image processing)等多種領域。
(三)機器學習(Machine Learning)
機器學習方法經過多年的研究已相對完善,通過建立人類的認識模型、模仿人類的學習方法從海量數據中提取信息與知識,在很多領域已取得了一些較滿意的成果。因此利用目前比較成熟的機器學習方法可以提供數據挖掘效率。
(四)數據匯總
數據庫中的數據和對象經常包含原始概念層上的詳細信息,將數據集通過數據立方體和面向對象的歸納方法由低概念層抽象到高概念層,并對數據歸納為更高概念層次信息的數據挖掘技術。
(五)人工神經網絡(Artificial Neural Networks)
神經網絡是一種模范動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型。近年來在解決數據挖掘中遇到的問題越來越受到人們的關注,源于人工神經網絡具有良好的自組織自適應性、并行處理、分布式存儲和高容錯等特性,并通過調整內部大量節點之間相互連接的關系,達到處理信息的目的。
(六)遺傳算法(Genetic Algorithm)
遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優解的方法,是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。遺傳算法可直接對結構對象進行操作,不存在求導和函數連續性的限定,能自動獲取和指導優化的搜索空間,自適應地調整搜索方向。遺傳算法已被人們廣泛地應用于多種學科領域。
(七)粗糙集
粗糙集是一種刻劃不完整性和不確定性的數學工具,能有效地分析不精確,不一致(inconsistent)、不完整(incomplete) 等各種不完備的信息,還可以對數據進行分析和推理,從中發現隱含的知識,揭示潛在的規律。粗糙集理論應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
四、數據挖掘技術發展趨勢
當前,數據挖掘技術不斷創新與發展,數據挖掘技術開發研究人員、系統應用人員所面對的主要問題:高效、有效的數據挖掘方法和相應系統的開發;交互和集成的數據挖掘環境的建立以及在實際應用中解決大型問題。
五、小結
數據挖掘技術涉及到多種學科技術,如:數據庫技術、統計學、機器學習、高性能計算、模式識別、神經網絡、數據可視化、信息檢索及空間數據分析等。因此,數據挖掘是非常有前景的研究領域,隨著數據挖掘技術的不斷發展,它將會廣泛而深入地應用到人類社會的各個領域。
參考文獻:
[1]羅可,蔡碧野.數據挖掘及其發展研究[J].計算機工程與應用,2002
[2]趙丹群.數據挖掘:原理、方法及其應用[J].現代圖書情報技術,2000
[3]劉毅勇.情報分析智能輔助決策方法及其軍事應用[M].北京:國防大學出版社,2001
[4]唐曉萍.數據挖掘技術及其在指揮控制系統中的應用[J].火力與指揮控制,2002
[5]Alex Berson,Stephen J.Smith,Data Warehousing,Data Mining,&OLAP[M], McCraw-Hill Book Co,1997
[6]吳修霆.SAS數據挖掘技術的實現[J].微電腦世界,2000, Vol.14:pp44-45
[7] INDERPAL BHANDARI, EDWARD COLET, JENNIFER PARKER, ZACHARYPINES, RAJIV PRATAP, KRISHNAKMAR RAMANUJAM. Advanced Scout: Data Mining and Knowledge Discovery in NBA Data. Data Mining and Knowledge Discovery,1997,1:121~125
關鍵詞:數據挖掘 技術研究 前景分析
中圖分類號:TP39 文獻標識碼:A 文章編號:1674-098X(2014)05(c)-0034-01
數據挖掘技術對各個不同應用領域中的傳統數據進行分析研究,提取其中存在的有價值的信息。隨著科技信息的快速發展,人們對信息分析技術的要求越來越高,現階段如何從大量的數據中挖掘出自己所需的知識日益重要。數據挖掘技術是在傳統數據分析系統的基礎上建立起的新數據處理技術。
1 數據挖掘技術分析研究
1.1 數據挖掘的背景
當今社會信息技術的廣泛利用提高了生產的能力,在企業、工程建設和科學研究中數據挖掘技術被逐漸利用,數據挖掘技術的優點在被逐漸推廣,作為新興的技術被廣泛使用。在信息時代的激烈競爭中,提高數據的利用效率問題顯得日益重要,企業在激烈的市場競爭中要想結合數據挖掘技術的作用使得數據信息作為企業有利的競爭手段,只有充分利用數據挖掘的技術才能夠高效的為企業的良好發展打下一個堅固的基礎。面對社會競爭中的各種挑戰,數據挖掘技術是在傳統數據分析基礎上升級的一項高效技術,其優勢已經適應社會的競爭理念正在被完善利用。
1.2 數據挖掘的功能分析
數據挖掘的主要任務是對數據分類以及對信息的預處理數據預測進行分析,其中信息預處理是以由兩個或兩個以上的變量值進行分析,得出兩者之間存在的規律,稱之為信息預處理。數據預處理有簡單處理和復雜處理,的目的是對數據庫中的隱藏知識進行研究分析,結合相關重要的參數使得挖掘出的數據更符合應用的要求。數據的預測是結合歷史的數據總結出數據的規律,對同一類型的數據進行比較,可以運用數據的預測方式使得挖掘技術更好的展現。
1.3 數據挖掘的概念
數據挖掘技術是一門新的計算機應用技術中的技術,在近幾年的發展中逐漸吸引了大量相關工作者的關注,科學挖掘技術會給企業減少一些不必要的投資,使自身能夠獲得一定的利益回報。數據挖掘技術在企業中的利用會逐漸提高,由于新技術的使用會給企業帶來豐厚的利益,使得企業之間廣泛運用數據挖掘技術,隨著數據挖掘技術在運用中的不不斷升級和挖掘技術的完善發展,促使數據挖掘技術在各個行業中被逐漸重視。結合數據庫技術和系統分析技術的運用,保障相關工作人員對挖掘出的數據的透徹理解,挖掘技術的運用要求保證數據的準確有效性,對挖掘出的數據價值作出合理的分析,使挖掘數據具有一定的科學價值。
2 數據挖掘技術的流程展現
2.1 數據挖掘的應用
數據挖掘技術能夠為企業的運行帶來顯著的利益,使得很多企業都在利用數據挖掘技術為自身的經濟利益作出保障。企業在發展中為了穩定的長期發展,從而利用數據挖掘技術了解客戶的特點,從中得到一定的經濟利益,結合數據的特點可以針對性的為客戶提供所需的服務。企業根據數據挖掘技術可以找到符合自己所需的客戶進行產品銷售,增加更多的經濟利益。數據挖掘技術運用多個領域,可根據不同領域的特點采用數據挖掘減少利益的損失,開闊領域的發展前景。
2.2 數據挖掘的結構
數據挖掘技術從數據庫到技術的運用過程中有不同的運行步驟,在確定業務對象問題方面可根據數據的準備對所有業務對象進行分析研究處理,保障數據的質量從而為進一步的分析工作做準備。在數據的轉換方面應建立一個針對性的分析模型,挖掘數據的成功關鍵因素,對所得的數據進行預處理,完善挖掘技術的措施,使數據分析工作自動順利的運行。在數據挖掘技術的結果分析上,應對數據結果做出正確的評估,與知識理念共同分析,完善數據挖掘技術的每一步結構。
3 結語
隨著信息的高速發展,使得數據系統越來越復雜,數據類型的要求也越來越多,使用合理有效的數據挖掘技術能夠將傳統數據的作用更好發揮。數據挖掘技術是一個有潛力的發展領域,在社會利益的競爭中被不斷完善運用,每年都會有更高效的數據挖掘技術產生,市場中對數據挖掘技術的要求日益嚴格。數據挖掘技術在高速的社會發展下面臨著諸多挑戰,對數據挖掘技術必須作出優化處理措施,維護數據挖掘中的各種問題產生解決問題,完善數據挖掘技術的運用,使數據挖掘能夠長久的在未來發展。
參考文獻
[1] 黃天航.面向數字城市規劃的數據倉庫構建中主題信息的組織與提取研究――以大北京區域規劃為例[C]//規劃創新:2010中國城市規劃年會論文集,2010.
[2] 吳亮,符定紅.基于距離擴散的審計信息系統異常數據挖掘算法研究[J].長春理工大學學報(社會科學版),2012(2).
[3] 楊靜,申艷光,邢麗莉.數據倉庫與數據挖掘的研究與應用[C]//2006北京地區高校研究生學術交流會――通信與信息技術會議論文集(下),2006.
關鍵詞 Web數據挖掘;技術模型;具體解析
中圖分類號:TP393 文獻標識碼:A 文章編號:1671-7597(2014)03-0055-01
Web框架下的數據挖掘,主要經由對數據挖掘類技術的現實利用,從網絡供應的服務,以及現有的網絡文檔中,發覺并提煉信息。數據挖掘含有的對象不同,可以將現有的Web挖掘,分為三個類別:Web框架下的內容挖掘、Web框架下的信息挖掘、Web帶有的結構挖掘。
1 新穎的內容挖掘
伴隨信息技術延展,Web框架下的數據類別也在遞增,從本源層級上來講,主要涵蓋了圖像類、文本類、聲音類、元數據類、視頻類等。在不同類別的數據以內進行挖掘,就構造出了多媒體屬性的數據挖掘。
1) Web框架下的文本挖掘。數據挖掘,應指代在很不完備的、數目偏多的、很含糊的、帶有雜聲的、帶有隨機特性的數據內,將其中潛藏著的各類別信息及關聯知識,予以提煉。若數據挖掘的目標對象,只歸屬于文本,便構造出文本屬性的數據挖掘。挖掘對象,涵蓋著半結構類、非結構類、結構化框架下的數據;而非結構化屬性的數據,是側重的挖掘成分。
在IR這一領域中,文檔采納了空間向量模型這一獨有的形式,空間配有的向量,便歸屬于文檔。對文檔含有的特征集,予以提煉時,常常會多遍掃描,而獲取到特征向量,其現有維數非常高,這就增添了必備的處理時段。所以,在沒能影響到現有匹配結果及關聯分類的根基上,需要對原有的特征子集,予以選取。選取時,先對某個特有函數,創設構造,然后對這一子集中含有的特征進行評判,將評判價值偏高的那些特征,選取出來,歸結成特征子集。常常見到的評價函數,歸屬于交叉熵等。
對文本類別的數據去挖掘時,所接納的模型質量類評價方法,和慣用的挖掘方法很近似,分類算法之內,樸素貝葉斯這一類別的算法,很常見。評判現有的模型質量,主要涵蓋著分類帶有的準確率、分類帶有的正確率、慣用的信息估值。
中文框架下的信息編碼,是偏復雜的,這一類別的編碼,在Web內,較為常見的,歸屬于BIG5屬性的編碼、GB類別的碼、HZ類別的碼等。對帶有中文類碼的HTML,采納數據挖掘,要對這一類別的編碼標準予以辨識,并更替成帶有統一性的慣用指標,然后才可挖掘。
2)對Web框架下多媒體挖掘,予以解析。在數據挖掘內,多媒體屬性的挖掘,是一個凸顯出來的挖掘領域,它從多媒體屬性的數據庫內,提煉出潛藏著的知識。多媒體屬性的數據挖掘,帶有廣義性,涵蓋著對聲音、多樣的視頻以及各類別圖像的挖掘,同時涵蓋著文本類數據挖掘。
進行多媒體屬性的數據挖掘,要先凝練得來必備的信息,然后對慣用的挖掘方式,予以挖掘。對網頁中潛藏著的多媒體類別數據,凝練屬性時,要對HTML類別的標簽信息充分利用。
2 Web框架下的結構挖掘
這種構架,被當成Web,因為它沒能由HTML類別的頁面,單純堆積而構造出來,而是在Web含有的頁面間,有著各類別的關系,而能在現有的Web之間,架設出橋梁,因此歸屬于超鏈。超鏈能對現有的Web類頁面關聯,選取出適宜的表征形式,如引用類的關系和繼承類的關系等。但是對于現有的Web框架下搜索工具,不會顧及到Web結構,仍然把這種Web,當成獨立框架下文檔的集中。Web現有的結構挖掘,是經由對引用解析類技術與服務類技術的可行利用,對Web框架下的結構銜接進行分析,將其中可用的所有模式,予以提煉。進行這一類別的結構挖掘時,其潛藏著的結構對象,既可以是現有的Web頁面構架,也可以是現有Web頁面搭配的超鏈。前者含有針對性,帶有特定的應用層級內目的,而后者存在著普遍價值。
Web框架下的結構挖掘,把Web當成了獨有的有向圖,Web含有的頁面,當成頂點,而圖含有的邊,歸屬于超鏈。然后經由對圖論的現實利用,對Web框架下拓撲結構去解析。常常見到的算法,歸屬于發覺相似頁面、發覺虛擬社區、分出頁面類別、發覺地理位置。結構挖掘算法,通常可分出兩類,一類歸屬于查詢無關,一類歸屬于查詢相關。采用查詢相關這一算法時,需要對各類別的查詢,進行超鏈解析,獲取到一次值的精準指派;接納查詢獨立框架下的算法時,要對各類別的文檔,去進行一次值的精準指派。
3 Web框架下的信息挖掘
對現有的交易及關聯商務,都是經由Web去予以落實。因此,在各類別的服務器方,會產出數目偏多的數據,它們由服務器所產出,并存留在服務器配有的日志文件內,另外,還會產出很多數目的用戶信息,如注冊類的信息。對這些數據解析以后,可以讓現有的商家,更好地明晰客戶信息,從而對現有市場以及現有商品,進行更精準的決策;對于供應網絡類服務的人員,可以整合起總括的站點,以便供應出帶有個性化的新服務。
Web框架下信息挖掘,帶有如下特性:當用戶訪問到既有網絡,可對用戶現有的活動及關聯行為,予以推測。挖掘方法可分出以下兩類:
原始數據,經由網絡服務器搭配的日志文件,選用獨有的處理方法,對其進行歸整,然后再去挖掘。
把網絡服務類日志,現有的文件,經由圖表去展示,然后去挖掘。通常情形之下,只要對原始屬性的數據,予以處理后,便可對舊有的數據挖掘,予以采納,以便獲取到挖掘目的。
數據清除流程終結以后,制備出事務標識類模塊,對登錄項含有的日志,分出邏輯類別。采用這樣的事務標識,是為了讓各類別的用戶,都能產出帶有一定含義的聚類。因此,這種事務標識含有的目的在于,將總括的大事務進行歸整,以便分出幾個分支屬性的小事務。在這一過程中,可以分解出多樣步驟,或者是接納合并擴展這樣的形式,從而產出最適宜的事務。
4 結束語
Web框架下的數據挖掘,是新產出的技術,關涉到各類別的多樣技術,正處于初始時段中。國內對這一層級進行的研究,數目還是偏少,對于Web含有的中文信息的關聯挖掘技術,沒能制備出完善方案。但是,對Web框架下數據挖掘技術現有的研究,具有明顯的實用價值和商業價值。
參考文獻
[1]薛鴻民.Web數據挖掘技術研究[J].現代電子技術,2006(08).
關鍵詞:數據倉庫;數據挖掘
中圖分類號:TP392文獻標識碼:A文章編號:1009-3044(2007)15-30631-02
On Data Warehouse and Data Mine
SHENG Wei-xiang1,LONG Jia-li2
(1.Department of Science & Law,Jiangxi Vocational College of Politics and Law,Nanchang 330013,China;2.College of Automation, Nanchang Hangkong University,Nanchang 330036,China)
Abstract:The Data Mine is a burgeoning technology,the research about it is developing flourishly.In this paper,it expatiates and analyses the concepts of Data Warehouse andData Mine.Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.
Key words:Data Warehouse;Data Mine
隨著信息時代的不斷進步,社會正處于數據技術飛速發展的良好狀態。但是,在數據信息極度膨脹的同時,并非所有的數據都可被利用,大量的數據浪費,造成各種損失,所以有必要將這些數據轉化為有用的信息。而傳統的數據處理方法越來越不能滿足使用要求,迫切需要一種從大量數據中搜索集中并去偽存真的技術。20世紀80年代后期至今,高級數據分析――數據挖掘(Data Mining,簡稱DM)發展起來,是開發信息資源的一套科學方法、算法以及軟件工具和環境,是集統計學、人工智能、模式識別、并行運算、機器學習、數據庫等技術為一體的一個交叉性的研究領域[1]。
1 數據挖掘
1.1數據挖掘定義及實現過程
數據挖掘就是用來發現隱含的、事先未知的、潛在的有用知識,提取的知識可以表示成概念、規律、模式等形式。其挖掘對象不僅可以是數據庫,也可以是文件系統或組織在一起的數據集合,更主要的是數據倉庫[2]。簡單的說,數據挖掘是提取或“挖掘”知識。目前,數據挖掘是可以從統計學、數據庫和機器學習等三個方面進行定義。從統計學的角度,數據挖掘是指分析所觀察的數據集以發現可信的數據間的未知關系并提供給數據擁有者可理解的、新穎的和有用的歸納數據[1]。從數據庫的角度來看,數據挖掘是指從存儲在數據庫、數據倉庫或其他信息倉庫中的大量數據中發現有趣的知識的過程[1]。從機器學習的角度,數據挖掘定義為從數據中抽取隱含的、明顯未知的和潛在的有用的信息[1]。可以理解為,數據挖掘是一個從已知數據集合中發現各種模型、概要和導出值的過程。圖1表示的是典型的數據挖掘系統的結構。
過程表述如下:從數據庫或數據倉庫等資源庫中收集數據,并進行信息的初步篩選;根據用戶對數據信息的要求,由服務器提取并傳輸有用的數據;為了對已經采集到的數據進行更有效的分配,數據挖掘引擎對數據進行特征化、關聯、分類等操作;然后將精確劃分的數據信息進行模式評估,從而使搜索僅限制在感興趣的模式上,通過圖形用戶界面,用戶可以方便的與數據挖掘系統之間通信,實現對數據的使用。
1.2數據挖掘分類
數據挖掘是一個交叉性的學科領域,涉及數據庫技術、統計學理論、機器學習技術、模式識別技術、克視化理論和技術等。由于所用的數據挖掘方法不同、所挖掘的數據類型與知識類型不同、數據挖掘應用的不同,從而產生了大量的、各種不同類型的數據挖掘系統。掌握數據挖掘系統的不同非類,可以幫助用戶確定最適合的數據挖掘系統[1]。
圖1 典型的數據挖掘系統的結構
(1)根據所挖掘數據庫類型的不同來分類:有關系型數據挖掘系統、對象型數據挖掘系統、對象-關系型數據挖掘系統、事務型數據挖掘系統、數據倉庫的數據挖掘系統,等等。
(2)根據所挖掘的知識類型來分類:分為特征化、區分、關聯、分類、聚類、孤立點分析(異常數據)和演變分析、偏差分析、相似性分析等分類。
(3)根據所采用技術的分類:有自動數據挖掘系統、證實驅動挖掘系統、發現挖掘系統和交互式數據挖掘系統。
(4)根據數據挖掘方法來分類:如面向數據庫的方法、面向數據倉庫的方法、機器學習方法、統計學方法、模式識別方法、神經網絡方法等。
(5)根據數據挖掘應用的分類:有金融數據的數據挖掘系統、電信行業的數據挖掘系統、DNA序列數據挖掘系統、股票市場數據挖掘系統、WWW數據挖掘系統等等,不同的應用通常需要集成對于該應用特別有效果的方法。因此,普通的、全功能的數據挖掘系統并不一定適合特定領域的數據挖掘任務。
1.3數據挖掘任務
數據挖掘任務有6項:關聯分析、時序模式、聚類、分類、偏差檢測、預測[3]。
關聯分析是從數據庫中發現知識的一類重要方法。若兩個或多個數據項的取值之間重復出現并且概率很高的時候,就存在某種管理,可以建立起這些數據項的關聯準則。
通過時間序列搜索出重復發生概率較高的模式。這里強調時間序列的影響。
數據庫中的數據可以劃分為一系列有意義的子集,即類。在同一類別中,個體之間的距離較小,而不同類別的個體之間的距離偏大。聚類增強了人們對客觀現實的認識,即通過聚類建立宏觀概念。
分類是數據挖掘中應用最多的任務。分類是找出一個類別的概念描述,它代表了這類信息的整體,即該類的內涵描述。一般用規則或決策樹模式表示。該模式能把數據庫中的元組影射到給定類別中的某一個。
數據庫中的數據存在很多異常情況。從數據分析中發現這些異常情況也是很重要的,應該引起足夠的重視。偏差檢測的基本方法是尋找觀察結果與參照之間的差別。觀察常常是某一個領域的值或多個域值的總匯。參照是給定模型的預測、外界提供的標準或另一個觀察。
預測是利用歷史數據找出變化規律,建立模型,并用此模型來預測未來數據的種類、特征等。近年來,發展起來的神經網絡方法,如BP模型,實現了非線性樣本的學習,能進行非線性函數的判別。分類也能進行預測,但是分類一般用于離散數值;回歸預測用于連續數值;神經網絡方法預測兩者都可用。
2 數據倉庫概述
數據倉庫對不同的使用者、不同的操作范圍,它有不同的意義。被譽為數據倉庫之父的W.H.Inmom將數據倉庫(Data Warehouse)定義為[4]:是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策。對于數據倉庫的概念可以從兩個層次予以理解,首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。
數據倉庫具有以下特征:
(1)數據是面向主題的
傳統的數據倉庫只是單純的數據的集中,在處理不同事務時執行不同的操作。而現今的數據倉庫是有較強主題組織性的,高層次地將數據歸類,去除無用的數據。
(2)數據的集成性
因為數據的來源是多方面的,必須根據一定的規則將所有的數據進行重新構造,即數據的集成。
(3)數據的相對穩定性
數據倉庫中的數據是歷史數據,具有一定的借鑒性,不會有大的變動。
(4)數據的不易失性(長期性)
數據倉庫只是物理式的、篩選式的存放數據,不會改變數據本身的性質,那么其數據結構必定包含有時間效果,這樣才能更好的體現歷史數據的趨勢預測性。
3 數據倉庫與數據挖掘的關系
既然數據倉庫的唯一功能是向終端用戶提供信息以支持決策者,數據挖掘體現了數據倉庫的一個最重要的應用。與其他查詢工具和應用系統不同,數據挖掘過程向終端用戶提供提取隱藏的、非同等常的信息的能力。這種信息雖然很難提取,但能提供更大的商業和科學利益,也能使對“數據倉庫和數據挖掘”的投資產出更高的利潤[5]。
從數據倉庫的觀點,數據挖掘可以看作是聯機分析處理的高級階段。但是作為更高級的數據分析技術,數據挖掘比數據倉庫的匯總分析要詳細和深入的多。數據倉庫技術的發展與數據挖掘有著密切的關系。數據倉庫的發展是促進數據挖掘越來越熱門的原因之一。但是,數據挖掘并不一定要有數據倉庫的支持,即數據倉庫并不是數據挖掘的必要條件,因為有很多數據挖掘可直接從操作數據源中挖掘信息,同時,數據挖掘仍然經常被看做是數據倉庫的后期市場產品,因為那些努力建立起來的數據倉庫有最豐富的數據資源可供挖掘。顯然,數據倉庫被更為廣泛地接受將使人們對數據挖掘更感興趣。
從數據倉庫中直接得到進行數據挖掘的數據有許多好處。數據倉庫的數據清理和數據挖掘的數據清理差不多,如果數據在導入數據倉庫時已經清理過,很可能在做數據挖掘時就沒必要再清理一次了,而且所有的數據不一致的問題都已經得到解決了。
數據挖掘庫可能是數據倉庫的一個邏輯子集,而不一定非得是物理上單獨的數據庫。但如果數據倉庫的集中資源已經很緊張,那最好還是建立一個單獨的數據挖掘庫。
為了數據挖掘庫,也不是一定要建立一個數據庫。因為建立一個巨大的數據倉庫,要把各個不同資源的數據集中在一起,并解決所有的數據沖突問題,然后把所有的數據導入一個數據倉庫內,是一項非常巨大的工程,比較麻煩,需要時間和金錢的花費。如果只是為了數據挖掘,可以把一個或幾個數據庫導到一個只讀的數據庫中,就把它當作數據集合,然后在這上面進行數據挖掘。其中如何抽取、集成、篩選并準備數據以解決其最為緊迫的業務問題,將是分析人員在進行數據挖掘時所面臨的最大挑戰。解決這些問題,不僅是數據挖掘過程中的一個艱巨任務,而且需要耗費大量的時間。盡管在數據挖掘中并非一定要有數據倉庫的支持,但數據倉庫的確為數據集成和準備提供了一個好辦法。
4 總結
構造在數據倉庫平臺的數據挖掘具有很強的實用性,效率很高,節省資源。目前,數據倉庫和數據挖掘技術在科學研究、市場流通、企業管理等應用方面已經達到了一定的水平。隨著信息化的加強,數據倉庫的多維化和數據挖掘的效率化將更有效的結合起來,促進整個信息產業的發展。
參考文獻:
[1]焦李成.等.智能數據挖掘與知識發現[M].西安:西安電子科技大學出版社.2006.8:1-7.
[2]Dustin R Callaway.精通Servlets[M].北京:清華大學出版社.2002:20-45.
[3]陳文偉.等.數據挖掘技術[M].北京:北京工業大學出版社.2002.12:1-6.
[4]鐘飆等.數據倉庫與數據挖掘技術概述[J].計算機與網絡.2003.2:11-15.
當今是一個信息技術飛速發展的時代,人們在日常的生活和工作中產生的數據量越來越大,要讓人們理解和接受這些錯綜復雜的數據,數據研究工作者需要采用數據挖掘技術來解決這一難題。本研究就對數據挖掘技術進行分析,并對當前運用較多的關聯規則挖掘算法進行探討。
【關鍵詞】數據挖掘 關聯規則算法
數據挖掘是對數據進行理解分析,對數據中隱藏的知識進行挖掘發現的技術,所以也稱為數據庫中的知識發現(KDD)。數據挖掘技術在近幾年來的研究越來越深入,這是數據研究工作者經過長期在大量的應用過程中探索研究的成果。在數據挖掘技術中的關聯規則是應用較為廣泛的一種算法,數據研究工作者在大量數據中獲取微量信息時,關聯規則能發揮其重要的價值。本研究在對數據挖掘技術相關概念進行分析的基礎上,對關聯規則中的集中常用算法進行探討,以期為數據研究工作這提供可靠參考。
1 數據挖掘技術介紹
1.1 數據挖掘技術的概念
數據挖掘技術是一門包容性以及開放性較強的跨領域數據信息揭示學科,這項技術能從大量含有噪聲,且模糊不確定的實際業務數據中進行計算,在這些數據中對當前尚未發現,或者沒有被明確認知的具有一定價值的知識信息進行揭示。在進行數據挖掘中的業務數據形式不是單一固定的,是復雜多樣的,所以數據挖掘得出的分析結果形式能以多種形式表現出來,可以是具有較強邏輯性的數學表達式,也可以是容易被一般用戶理解的結果。且數據挖掘技術在科學研究、市場分析等領域均得到了廣泛的應用。
1.2 數據挖掘技術分類
數據挖掘功能的分類主要是根據數據挖掘功能的不同進行的,當前的數據挖掘技術主要有關聯規則挖掘技術、分類挖掘技術、孤立點挖掘技術以及聚類挖掘技術等。本研究主要對關聯規則挖掘算法進行詳細探討。
2 關聯規則挖掘算法
2.1 關聯規則種類介紹
關聯規則按照不同的標準,能用各種不同的方法分成不同類型。將關聯規則分為挖掘頻繁項集、閉頻繁項集、被約束頻繁項集、極大頻繁項集,是根據挖掘模式的完全性分類的;將關聯規則分為多層和單層關聯規則,以及單位和多維關聯規則是根據規則所涉及的數據進行分類的;將關聯規則分為量化關聯規則和挖掘布爾型規則是根據規則處理值類型分類的;將關聯規則分為序列模式挖掘、頻繁項集挖掘以及結構模式挖掘是根據俄關聯規則挖掘模式進行分類的;將關聯規則分為興趣度約束、知識類型約束、數據約束,是根據規則所挖掘的約束類型分類的。
2.2 P聯規則挖掘算法分析
2.2.1 Apriori算法分析
關聯規則算法中的挖掘完全頻繁項集中,Apriori算法該類型中最具有應用價值,影響力最大的算法。Apriori算法主要有兩個步驟:
(1)發現所有的頻繁集;
(2)生成強關聯規則。
在Apriori算法中的第一步是最為重要的步驟,該算法的核心思路是,給定一個數據庫,在第一次數據庫掃描中找出所有支持度大于等于最小支持度的項目組成頻繁1―項集,也就是L1,1―項集C1,由L1進行連接得到;接著進行第二次數據庫掃描,將C1中所有支持度大于等于最小支持度的項集組成頻繁2―項集,也就是L2,候選2―項集C2由L2連接得到。以此類推,直到找出最大項頻繁集。即在進行第N次數據庫掃描時,找出CN-1中所有支持度大于等于最小支持度的項集組成頻繁N―項集,即是LN,N―項集CN要由LN連接得出,一直到找不出新的選集為止。在這里還要用到Apriori算法性質,即是頻繁項集是頻繁項集的子集,非頻繁項集是非頻繁項集的超集。在Apriori算法中對數據庫的掃描次數需要大于最大頻繁項集的項數。
Apriori算法的操作具有兩個明顯的缺點。(1)該算法的使用需要對數據庫進行多次掃描,因此在讀寫操作上會花費很多的時間,從而增加挖掘算法的時間成本,這種成本的增加不可小覷,因為它是有數據庫存儲數據的增加,以幾何級數上升的成本;
(2)Apriori算法會出現眾多的候選頻繁集,頻發集的產生量在每一步都很大,這會使算法在廣泛度和深入度上的適應性較差。
2.2.2 FP―growth算法分析
FP―growth算法是關聯規則算法中屬于深度優化的一種算法,這種算法是深度優化算法中較新且具有較高成效的,不同于Apriori算法本質的常用算法。FP?―growth算法的基本基本步驟有兩個:
(1)先將頻繁模式樹FP―tree生成;
(2)在生成的FP―tree頻繁模式樹中搜索頻繁項集。
(1)需要將項集關聯信息保留住,并采用一棵頻繁模式樹(FP―tree)用來容納壓縮后的數據庫;
(2)再將壓縮后的FP―tree再分散為幾個小的條件數據庫,再分別對這些數據庫進行信息挖掘。FP―growth算法相較于Apriori算法,只需要對數據庫進行兩次掃描,不需要多次掃描,大幅度減少了挖掘算法的時間成本;也不會出現大量的候選項集,大幅度減少了頻繁集的搜索空間。也就是說FP―growth算法能明顯提高時間和空間效率。但是該算法也有缺點,在對龐大且松散的數據庫進行挖掘處理過程中,不管是遞歸計算還是信息挖掘都需要占據大量的空間。
3 總結
綜上所述,本研究對對數據挖掘技術概念和分類進行了簡單的介紹,并對關聯規則的種類進行了詳細的分析,對關聯規則中常用的兩種算法FP―growth算法和Apriori算法進行了詳細的分析。兩種算法都還存在各自需要改進缺點,怎樣在挖掘過程中提高挖掘效率,滿足人們對挖掘系統的需求,這將是數據研究工作者仍然需要突破的重難點。
參考文獻
[1]毛國君.數據挖掘技術與關聯規則挖掘算法研究[D].北京:北京工業大學,2015.
[2]張弛,王本德,李偉等.數據挖掘技術在水文預報中的應用及水文預報發展趨勢研究[J].水文,2015,27(02):74-77,85.
[3]魏陵博,付先軍.基于Aprio關聯規則挖掘技術分析歸心經中藥與抗心律失常藥理作用的相關因素[J].中西醫結合心腦血管病雜志,2014(05):517-518.
[4]付先軍,周永紅,王中琳等.基于頻繁項集與關聯規則挖掘技術探索王新陸臨床用藥及處方配伍規律的初步研究[J].中國中醫藥信息雜志,2015,17(09):92-94.
[5]郭濤,門瑞.關于數據挖掘技術與關聯規則挖掘算法的研究[J].無線互聯科技,2014(10):150-150,264.
【關鍵詞】數據挖掘 數據分類算法
在當前的時代背景下,很多的行業都引入了大數據挖掘的理念,這既給計算機產業帶來了發展機遇,也帶來了挑戰。因為想要做好大數據挖掘的相關工作,就一定要掌握數據分類算法,而數據分類算法可稱得上是數據挖掘中的一道難關。隨著數據分析的研究不斷深入,人們開發了多種多樣的分類算法,用以不斷減輕其難度。通常都是以數據分類器為基準,進行相應的數據分類,包括決策樹類、Bayes類、基于關聯規則類以及利用數據庫技術類,本文將對它們進行簡單的闡述。
1 決策樹分類算法
1.1 傳統算法
C4.5算法作為傳統的數據分類算法,有著很明顯的優點,如規則簡單易懂,實際操作易于上手。但是隨著計算機的不斷普及,數據的規模變的越來越龐大,其復雜程度也是日漸增長。C4.5已經逐漸無法滿足新時期的數據分類處理工作了。并且由于決策樹分類算法的規則,決定了在數據分類的過程中,要對數據進行多次重復的掃描和排序。特別是在構造樹的時候,這種缺點更加明顯。這不僅會影響數據分析的速度,也浪費了更多的系統資源。對于大數據挖掘來說,C4.5更加無法勝任,因為C4.5算法的適用范圍十分有限,只能夠處理小于系統內存數量的數據,對于內存無法保留的過于龐大的數據集,C4.5甚至會出現無法運行的情況。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而來,在其基礎上做了一些技術性的完善,例如增強了數據的排序技術,并采取了廣度優先的處理策略。這使得SLIQ算法能夠很好地記錄數據處理的個數,并具有相當優秀的可擴展性,為處理大數據提供了基礎條件。但是SLIQ算法也存在一些缺點,由于它是以C4.5算法為基礎的,因此在進行數據處理時,仍需要將數據集保留在內存中,這就導致SLIQ算法的可處理數據集的大小受到了限制。即數據記錄的長度一旦超過了排序的預定長度,SLIQ算法就很難完成數據處理和排序的工作。
(2)SPRINT 算法是為了解決SLIQ算法中數據集大小受到內存限制的問題而開發出來的。SPRINT 算法重新定義了決策樹算法的數據分析結構,改變了傳統算法將數據集停留在內存中的做法。值得一提的是,它沒有像SLIQ 算法那樣講數據列表存儲在內存當中,而是將其融合到了每個數據集的屬性列表中,這樣既避免了數據查詢時重復掃描造成的速度緩慢,又釋放了內存的壓力。特別是在進行大數據挖掘時,由于數據的基數過大,在每個數據集的屬性列表內尋找所需數據能夠大大節省分析的時間,對數據進行分類的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點,對于不具有可分裂屬性的數據列表,由于它只能在數據集內進行分析,結果可能不是十分準確,導致其拓展性受到了限制。
2 其他分類算法
2.1 Bayes分類算法
Bayes分類算法是利用概率統計學而開發出來的一種算法,在目前數據分類中應用比較廣泛。但是其缺點也比較明顯,由于Bayes分類算法需要在分析之前對數據的特性做出一定的假設,而這種假設往往缺少實際數據的理論支持,因此在數據分析過程中就很難做到準確有效。在此之上,TAN算法又被開發出來,它是為了提高Bayes分類算法的假設命題的準確率,也就是降低了NB任意屬性之間獨立的假設。
2.2 CBA分類數據算法
基于關聯規則的分類算法就是CBA分類數據算法。這種算法一般需要用到數據構造分類器,在數據分析的過程中,先搜索到所有的右部為類別的類別關聯規則,這被稱為CAR;然后再從CAR中選擇合適的數據集。CBA算法中主要用到的是Apriori算法技術,它能夠使潛在的數據關聯規則呈現到表面,方便進行歸納整理。但是由于其在進行數據分類時容易出現疏漏,因此經常采用設置最小支持度為0的辦法來減少遺漏的數據,這就造成了算法的優化作用不能完全發揮,降低了運行效率。
2.3 MIND和GAC-RDB算法分類算法
在大數據挖掘的背景下,未來數據分類算法的發展方向應當是以數據庫技術為基礎的的分類算法。盡管很久之前就已經有一些專門研究數據庫的人員發現并提出了基于數據庫技術的分類算法,但是并沒有得到實際運用。因為在進行數據挖掘和數據分析的時候,很難將其與數據庫的系統集成,目前來說,MIND和GAC-RDB算法還能夠較好地解決這個問題。
2.3.1 MIND算法
MIND算法與決策樹算法有些相似,都是通過構造數據分類器來進行數據分析。但是MIND算法采用了UDF方法和SQL語句來與數據庫系統實現關聯。在進行數據分析時,UDF方法能夠大大縮短對每個節點的數據特性進行分析的時間,這樣就在為數據庫的集成提供了理論基礎。SQL語句是通過對數據集的屬性進行分析,以便從中選擇出最合適的分裂屬性,然后給數據排序,這樣就節省了數據分類的時間。但是MIND算法還不能直接在數據庫系統中實現查詢功能,更重要的是,該算法的維護成本過高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基礎上進行了更多的改進,能夠充分利用數據庫系統進行聚集運算,也就是實現了數據庫系統的集成。該算法擁有分類準確,分析迅速,執行更快的優點,同時可拓展性也比較出色。更重要的是,它可以充分利用數據庫提供的查詢功能,從而避免了重復掃描數據集的現象,縮短了分析的時間,節約了系統資源。只要在自動確定參數取值的技術上進行一些改進,該算法就能很好地勝任大數據挖掘的數據處理工作。
3 總結
大數據挖掘是時展的潮流,因此數據分類算法的重要性也將隨著顯現。通過分析幾種不同的算法,能夠在數據分析速度、可擴展性和結果的準確性上進行比較,從而選擇最適合的數據分類算法。它們都在不同程度上有著各自的優缺點,因此要繼續深入研究以開發出更好的分類算法。
參考文獻
[1]錢雙艷.關于數據挖掘中的數據分類算法的綜述,2014(13).
[2]劉紅巖.數據挖掘中的數據分類算法綜述,2002(06).
關鍵詞:數據挖掘;數據庫;預處理技術
中圖分類號:TP311.131
隨著計算機和互聯網的普及應用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業甚至在計算機應用的基礎上,提出了無紙化辦公的理念,在實際應用的過程中,計算機需要存儲大量的數據,對于企業用戶來說,很多數據具有私密性,如果這些數據泄露出去,將會給企業的發展帶來嚴重的影響,甚至造成巨大的經濟損失。受到特殊的歷史因素影響,我國的經濟和科技起步較晚,與西方發達國家相比,存在較大的差距,雖然經過了多年改革開放的發展,我國已經成為了世界第二大經濟體,計算機的應用水平也有了很大的提高,但是在尖端的數據挖掘等領域中,研究的還比較少,而數據挖掘等技術,能夠在很大程度上影響數據的利用效率,對于實際的工作來說,具有非常重要的作用。
1 數據挖掘的預處理技術簡析
1.1 數據挖掘預處理技術的概念
數據挖掘技術是隨著數據庫的發展,逐漸形成的一門學科,在計算機出現的早期,受到其性能和體積的限制,能夠存儲的數據很少,不需要考慮數據的利用效率,但是隨著晶體管和集成電路的使用,計算機的性能得到了極大的提高,相應的存儲設備也有了很大的進步,計算機能夠處理的任務越來越復雜,存儲的數據越來越多,現在我國建成了多個大型數據存儲中心,存儲的數據量非常巨大。對于如此多的數據,如何篩選出自己想要的,成為了很大專家和學者研究的問題,在傳統的數據應用中,通常都是利用檢索技術,根據輸入的關鍵詞,在數據庫中進行逐個的匹配,如果數據庫的存儲量較小,檢索的效率就比較高,而對于現在的海量存儲來說,逐個匹配顯然需要很長的等待時間。數據挖掘的預處理技術,正是在這種背景下出現的,所謂預處理技術,就是在數據挖掘之前,對數據進行一定的整理,通常情況下,數據挖掘主要面對現有的數據庫或者互聯網上海量的數據,如果在數據庫中進行挖掘,那么可以對數據庫進行一定的修改,如完善數據分類的方式等,而在互聯網上進行數據挖掘,顯然就需要優化挖掘的方式,或者縮小數據挖掘的范圍等。
1.2 數據挖掘預處理技術的特點
與正常的數據挖掘技術相比,如何增加相應的預處理環節,無疑可以極大的提高數據挖掘的效率,如在數據庫中進行數據的挖掘,傳統的挖掘方式下,通常都是利用檢索技術,輸入指定的關鍵詞后,與數據庫中的信息進行對比,這樣逐條的進行檢索,就可以找到自己想要的數據,如果數據庫存儲的信息量較大,那么利用這樣的挖掘方式,顯然需要很長的等待時間。如果增加相應的預處理環節,如在數據庫中添加索引,對數據庫中的數據進行分類,那么在輸入相應的關鍵詞后,首先與索引進行匹配,然后在指定類別的數據中進行對比,這樣的方式,顯然極大的提高了數據挖掘的效率,目前使用的數據庫中,大多采用了這樣的預處理技術,取得了很好的應用效果。受到特殊歷史因素的影響,我國數據庫相關技術水平較低,目前我國建設的大型數據庫,都是與國外的技術公司合建的,通過實際的調查發現,現在我國還無法自主生產外部存儲設備,市面上的存儲設備,都是從外國引進的,但是在實際數據庫的建設中,在外國存儲設備的基礎上,我國也進行了大量數據挖掘等技術的研究。
1.3 數據挖掘預處理技術的發展
從某種意義上來說,數據挖掘技術是隨著互聯網和數據庫的應用,根據實際使用的需要,逐漸形成的一門技術,在互聯網發展的初期,網絡上的資源有限,而且受到計算機性能的限制,沒有太多的娛樂項目,只能瀏覽一些商業網站等,隨著計算機的普及應用,互聯網有了很大的發展,現在已經建成了覆蓋世界范圍的因特網。據最新的統計調查表明,我國的網民數量已經超過了6億,如果龐大的用戶群體,為我國互聯網的發展,提供了堅實的基礎,但是通過實際的調查發現,我國的實際網絡帶寬,還沒有達到世界平均水平,即使實際使用的網絡帶寬較低,我國互聯網內容的發展速度依然很快,現在網絡上出現了各種各樣的網站,極大的提高了網絡建設水平。在實際的網絡瀏覽中,面對如此大的信息量,如何找到自己想要的信息,成為了一個實際問題,為了解決這個問題,出現了搜索引擎,只要輸入相應的關鍵詞,搜索引擎就可以很快的找到大量相關內容,然后進行必要的篩選,就能夠得到相應的數據,但是隨著互聯網內容的豐富,除了傳統的文字信息外,還有視頻和音頻等數據,如何在這些數據中,進行相應的挖掘工作,具有較大的難度。
2 影響數據挖掘預處理技術的因素
2.1 預處理的方式
在實際的數據挖掘過程中,能夠影響挖掘效果的因素有很多,如數據量的大小、挖掘方式等,從某種意義上來說,數據挖掘就是數據的查找,從指定范圍或者未知范圍內,找到指定的數據,通常情況下,數據挖掘都具有很強的目的性,但是對于找到數據的量,并沒有明確的要求,尤其是隨著互聯網內容的增加,現在的數據挖掘中,都會附帶大量的相關信息。對于數據挖掘的預處理技術來說,預處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個一百條數據庫中進行挖掘,為了提高實際的效率,通常情況下會采用檢索的方式,根據輸入的關鍵詞,逐條的與數據庫的信息進行比對,這樣挖掘的效率具有很大的不確定性,如果要查找的數據排列比較考前,那么就需要很短的檢索時間,如果要查找的數據剛好在第一百條的位置,顯然就需要進行一百次匹配。如果采用索引的方式進行預處理,將這一百條數據根據自身的特點,分成十個類別,每個類別建立一個索引,那么在實際的匹配中,無論要查找的數據處于哪個位置,最多只需要十次匹配,就可以找到相應的數據,由此可以看出,預處理方式對于數據挖掘效率具有非常重要的影響。
2.2 數據量的大小
計算機經過了多年的發展,其自身的性能有了很大的提高,在實際的數據挖掘中,如果檢索的數據較少,即使不經過任何的預處理,仍然可以具有很高的挖掘效率,但是隨著數據庫自身的發展,企業用戶的數據庫容量越來越大,在數據庫中查找指定的數據,需要較長的時間,要想很好的解決這個問題,必須對數據挖掘的方式等,進行相應的優化。通過實際的調查發現,目前我國使用的數據庫,大多都是國外的技術公司設計的,為了方便數據庫的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問題,同時可以提供優質的軟件服務。目前市面上的數據庫,大多對數據挖掘技術進行一定的優化,如增加索引環節等,通過這些技術的使用,很好的提高了實際的挖掘效率,但是這些預處理技術,并沒有考慮到數據量的大小,如一些大型的數據庫中,要想建立索引機制,本身就需要很長的時間,雖然在建立索引后,就可以直接的使用,即使數據庫中發生變化,也不需要重新建立,只要根據數據的情況,將其存儲到指定的分類中即可。
2.3 操作人員自身的素質
對于實際的數據挖掘工作來說,操作人員自身的素質,也可以在很大程度上影響挖掘的效率,經過了多年的完善,數據挖掘技術已經成為了一門單獨的學科,計算機專業的學生,要進行相應知識的學習,但是通過實際的調查發現,現在的數據挖掘主要針對互聯網上的內容,而互聯網日新月異的發展,給數據挖掘帶來了很大的難度。在這種背景下,如果沒有足夠的工作經驗,顯然很難完成相應的數據挖掘工作,因此剛畢業的大學生,數據挖掘的效果較差,即使能夠完成相應的工作,也需要較長的時間,雖然這些學生在學校中,能夠學習到大量的數據挖掘知識,為了提高教學的效果,老師還會講解一些數據挖掘的實例,但是實際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數據挖掘經驗,在實際的工作中,必然會總結一些相應的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時間,提高數據挖掘的準確性,對于數據挖掘工作來說,具有非常重要的作用,從某種意義上來說,數據挖掘的預處理技術,指的就是這些從實踐中總結出來的技巧,然后進行科學、系統的分析,應用到實際的挖掘中。
3 我國數據挖掘預處理技術應用中存在的問題
3.1 沒有意識到預處理技術的重要性
在傳統的數據挖掘中,由于數據庫自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數據,因此不需要預處理技術,隨著數據庫自身的發展,計算機的性能也有了很大的提高,在很長一段時間內,硬件的發展速度都要領先于軟件,因此數據檢索具有很高的效率,近些年互聯網的普及應用,在很大程度上改變了這種現象,尤其是云計算等理念的出現。在互聯網海量數據中進行挖掘,依靠單獨的計算機,很難具有較高的效率,在這種背景下,如何優化數據挖掘技術,成為了很多專家和學者研究的問題,預處理技術就是根據實際工作的需要出現的,受到特殊的歷史因素影響,在數據庫的建設等方面,我國要落后西方國家很多,雖然近年來我國投入了大量的人力和物力,研究數據挖掘等技術,但是并沒有取得明顯的效果。正是受到自身技術水平的限制,使得我國數據建設中,對數據挖掘的預處理技術,沒有足夠的重視,導致很大數據庫中,還采用傳統的檢索等方式,沒有任何的預處理技術,在很大程度上影響了數據挖掘的效率,雖然一些數據庫中集成了相應的功能,但是通過實際的調查發現,在實際使用的過程中,并沒有啟用相應的功能。
3.2 沒有針對性的預處理方式
由于現在的數據挖掘,主要針對互聯網上海量的數據,而互聯網上的數據非常復雜,尤其是近些年網絡的發展,出現了文本、視頻、音頻等各種各樣的信息,在這些信息中進行數據的挖掘,顯然具有較大的難度,而且互聯網的數據量較大,即使借助相應的搜索引擎,依然需要很長的挖掘時間,對于現在使用的一些數據挖掘預處理技術,只有在一些特定的情況下,才能夠發揮出一定的作用。數據挖掘預處理技術出現的時間較短,目前還沒有形成統一的認識,不同學者根據實際工作的需要,提出了不同的預處理方式,通過實際的調查發現,這些預處理方式的應用,都具有一定的局限性,在特定的數據挖掘中,可以明顯的提高挖掘的效率,但是對于其他數據的挖掘,就無法起到相應的作用。受到我國數據挖掘技術水平的限制,并沒有意識到這點,在實際數據挖掘的工作中,通常都是隨意的采用預處理方式,這樣顯然無法最大成都上提高數據挖掘的效率,有時候反而會降低工作的效率,目前西方發達國家的數據挖掘預處理中,都會根據每次工作的實際情況,針對性的設計一個預處理的方式。
4 數據挖掘的預處理技術應用措施
4.1 重視數據挖掘的預處理技術
考慮到我國的數據庫建設中,很多都沒有采用相應的預處理技術,在很大程度上影響了數據挖掘的效率,要想很好的解決這個問題,必須對預處理技術給予足夠的重視,在數據庫的設計時,就對預處理的方式等進行考慮,如果是購買的數據庫服務,那么就要根據自身的實際情況,對預處理技術提供一定的要求,這樣可以極大的提高挖掘的效率。通過實際的調查發現,西方國家的預處理技術水平之所以比較高,主要就是由于其重視,在實際的挖掘工作中,對于能夠提高工作效率的所有細節進行完善,并總結相關的經驗,方便下次的使用,正是這種供求雙方的重視,使得西方發達國家的預處理技術快速的發展。我國要想提高自身的數據挖掘預處理技術,必須根據自身的實際情況,借鑒外國一些先進的經驗,最大程度上完善預處理技術,要想達到這個目的,首先應該提高對預處理技術的重視程度,無論是實際的操作人員,還是管理人員和開發人員,都應該重視預處理技術的應用,然后從自身的工作角度出發,對其進行一定的完善。
4.2 提高工作人員自身的素質
數據挖掘預處理技術的應用,需要實際的操作人員,而不同工作人員,由于自身經驗等不同,工作的效率會有一定的差距,如剛畢業的大學生,即使在學校中的成績較好,掌握了足夠的預處理知識,還是無法很好的完成相應的工作,尤其是近些年信息技術的發展,互聯網上海量數據的挖掘,具有很大的難度。而且不同數據的挖掘,預處理方式等也應該具有一定的差異,通過實際的調查發現,目前我國的數據挖掘工作人員自身的素質普遍較低,無法根據實際的工作情況,針對性的選擇一種預處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個問題,必須提高工作人員自身的素質,在實際的招聘過程中,盡量聘請一些具有豐富經驗的人員。對于現有的工作人員,可以通過定期培訓等方式,讓其了解到最新的數據挖掘理念,以及預處理技術的重要性等,如果條件允許,還可以與一些先進的企業進行交流,學習先進的預處理技術,這樣在提高預處理技術水平的同時,還可以對數據庫的其他的技術,進行一定的優化。
4.3 采用針對性的預處理方式
經過了多年的發展和完善,數據挖掘的預處理技術已經非常普遍,目前的很大數據庫建設中,都會采用預處理技術,甚至在日常的數據搜索中,也開始使用預處理技術,但是通過實際的調查發現,根據實際需要數據的不同,數據挖掘的環境、方式等會具有較大的差異,而這些條件的變化,必然需要不同的預處理方式。而目前我國的數據挖掘中,顯然還沒有意識到這點,為了提高實際的工作效率,雖然會采用一定的預處理方式,但是預處理的方式,并不會根據數據挖掘的不同,進行針對性的變化,沒有真正的達到預處理的目的,在一些特殊的數據挖掘中,由于預處理方式的不當,甚至會降低工作的效率。由此可以看出,在實際的數據挖掘中,預處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對性的預處理方式,對目前已有的預處理方式進行總結、分類,根據需要數據的情況,針對性的選擇,如果人員的自身素質較高,還可以設計一個新的預處理方式,以此來最大程度上提高數據挖掘的效率。
5 結束語
通過全文的分析可以知道,隨著近些年計算機和互聯網的普及應用,數據的挖掘、存儲、調用等技術越來越重要,受到特殊的歷史因素影響,我國科技起步較晚,與西方發達國家相比,在數據挖掘等領域中,具有明顯的差異,雖然經過了多年改革開放的發展,這種差距在逐漸的減小,但是很難在短時間內趕上發達國家的技術水平,在這種背景下,要想快速的提高我國數據挖掘預處理技術,必須結合我國數據挖掘的實際情況,借鑒西方國家先進的經驗,完善目前的預處理技術。
參考文獻:
[1]鄭繼剛,謝芳.多媒體圖像挖掘的關聯規則挖掘[J].紅河學院學報,2009(05):44-47.
[2]謝邦昌,李揚.數據挖掘與商業智能的現況及未來發展[J].統計與信息論壇,2008(05):94-96.
[3]林建勤.數據挖掘主要問題的對策研究[J].貴陽學院學報(自然科學版),2007(02):1-4.
[4]陳娜.數據挖掘技術的研究現狀及發展方向[J].電腦與信息技術,2006(01):46-49.
[5]李菁菁,邵培基,黃亦瀟.數據挖掘在中國的現狀和發展研究[J].管理工程學報,2004(03):10-15.
[6]鄭斌祥,杜秀華,席裕庚.一種時序數據的離群數據挖掘新算法[J].控制與決策,2002(03):324-327.
[7]臧洌.人工神經網絡在混沌觀測時序數據處理中的應用[J].數據采集與處理,2001(04):486-489.
關鍵詞:web網絡數據;挖掘技術;實現
中圖分類號:TP393.09
時間就是金錢,效率就是生命。在當今這個競爭日趨激烈的社會中,誰能快速有效的找到并掌握信息誰就能夠在激烈的環境中占據強大優勢。互聯網作為一個我們任何熱獲取知識和有效信息的重要工具,在我們日常的生活和工作中具有非常重要的作用。我們在日常的生活和工作中,利用互聯網挖掘對我們有效的數據的時候,必須掌握一定的技術和技巧,這樣我們既可以得到我們所需要的資料和信息,又能在激烈的競爭環境中占得先機。
1 網絡數據挖掘技術簡介
當今社會是一個網絡蔓延的社會,我們的日常生活和工作學習都離不開網絡的大力支持,在網上我們可以找到我們所需的相關信息,網絡數據挖掘技術是一門在網上快速的提取我們所需的有效信息的一種技術手段,通過網絡數據挖掘技術我們可以節約我們獲取信息的時間,提高我們的日常工作效率。對于我們的日常生活來講,利用網絡數據挖掘技術在網上獲取我們所需的有效信息,可以為我們節約非常多的生活時間,讓我們有更多的時間和精力去處理個人生活問題,有效的幫助提高我們的生活質量。在工作中,我們利用網絡數據挖掘技術可以為我們節約大量的時間,有效的提高我們的工作效率,對于一些特殊的行業來說,獲取信息的準確與否會直接影響企業的未來發展甚至是命運,對于這些行業來講,他們必須保證自己在第一時間獲取信息,提前進行準備或者直接下手,為以后面對激烈的行業競爭打下堅實的基礎。
Web數據挖掘技術是一項非常綜合性的技術,我們可以把它認為是一項計算機技術,也可以把它理解為一項數據處理技術,之所以這樣是因為這項技術在應用的過程中,既要有一定的計算機應用技術作為基礎,又要熟練掌握一些相關的數據處理技術。在web數據挖掘技術應用的過程中,人們需要對一些挖掘算法進行反反復復的利用,建立一定的數據模型,最終按照建立的數據模型在網絡上準確獲取我們所需要的有效信息。Web數據挖掘技術是一項在互聯網中獲取自己需要的有效信息的一種技術手段,我們可以從數學的角度來理解這項技術,我們把我們現在掌握的有效信息作為一個信息集合P,把我們想要得到的有效信息作為另一個集合C,這樣我們就得到一個映射:P--C,而從P-C的這個過程就需要我們利用web挖掘技術進行信息的挖掘和篩選。Web數據挖掘技術從本質上講是一門數據獲取技術,是由我們在日常生活和工作中的數據挖掘技術發展而來的,以前我們在獲取數據進行有效數據挖掘的時候是建立在紙質的文件上的,而web數據挖掘技術是建立在網絡技術和計算機技術的基礎之上,是計算機技術和網絡技術高度發展形成的一個產物。我們在利用web數據挖掘技術進行數據挖掘時,首先要對現有的信息進行總結歸納,得出其中所蘊含的關鍵信息,然后利用數據挖掘這種技術手段對我們所需信息進行深度挖掘的一個過程。利用web數據挖掘技術可以很好的解決我們日常工作中所需要的各種數據問題,幫助我們提高工作效率。
2 web數據挖掘技術的基本原理
我們把要得到的有效數據看做是一個集合,把我們目前掌握的已知數據也看作是一個集合,WEB數據挖掘技術的作用就是將這兩個信息有機的聯系在一起,我們首先在WEB網站中輸入我們所需信息的關鍵詞,首次輸入的時候力求做到全方位輸入,也就是說我們輸入的關鍵詞要盡可能的囊括我們所需信息的各個方面,如果在搜索后我們發現,在WEB網站中沒有與我們所需信息完全吻合的數據信息,我們就將我們所要得到的信息進行簡化,所謂簡化不是一味的刪除關鍵詞,而是對各個關鍵詞進行逐字分析,弄懂其包含的意義,然后結合我們實際的工作需要,將關鍵詞進行有效的排序,排在前面的將作為我們首先要輸入的關鍵詞,直至出現與我們所需信息一致的信息為止,對于我們在首次的搜索過程中沒有體現出來的關鍵詞,我們要進行單獨的處理,然后將他們有機的融合在一起即可。在數據挖掘完成后,我們還需要進行數據整理,將得到的信息進行有機的整理也是數據挖掘技術的一個重要組成部分,根據我們工作的性質和目的,結合我們的實際工作過程,將我們挖掘到的信息整理成我們所需的那種形式表達出來,這就是整個WEB數據挖掘技術的過程。
3 web數據挖掘的分類
每個概念每項技術都有其歸屬,網絡數據挖掘技術也有不同的分類標準,按照挖掘對象進行分類我們可以將web數據挖掘分為web內容的挖掘、web結構的挖掘、wab使用記錄的挖掘三類,下面對這三類web數據挖掘技術進行簡要介紹。
3.1 web數據內容挖掘
Web數據內容挖掘我們從其字面意思上就可以對這種挖掘有個大致的了解。所謂web數據內容挖掘的針對對象就是對web網站中實際數據內容進行深度挖掘,我們可以進行網頁信息的深度挖掘,也可以根據我們的需要進行網頁數據格式的挖掘,從網頁信息的角度考慮,我們可以在網頁上實際的選擇我們真正需要的數據內容,或者將幾個網頁的數據內容進行有機的結合;從網頁數據格式的角度考慮,我們可以挖掘我們需要的那種數據格式,網頁格式包括音頻、視頻、文本、圖片等等,以提高我們工作效率和工作質量為原則,我們可以根據我們的實際需要選擇最理想的web數據挖掘內容。
3.2 web數據結構挖掘
Web結構挖掘是另一種web數據挖掘的分類,所謂web結構挖掘實際上是一種鏈接數據挖掘,我們可以利用鏈接分析來達到我們數據挖掘的目的,也就是說我們在web中輸入我們所需要的信息的關鍵詞,在網頁上就會自動的彈出很多的鏈接供我們進行自由選擇,我們根據我們的世界需要進行鏈接的點擊和數據的獲取。我們對所得到的網頁進行有效的分類通過分類來達到網頁之間數據對比和相似度分析的目的。在我們的日常工作中利用web結構挖掘進行工作的地方有很多。例如無論我們是大學畢業還是在評職稱的過程中,都是我們每個人的必經之路,我們所寫的論文在發表之前都要進行,以達到檢測相似度的目的,這個就是對web數據結構挖掘的一個很好的利用。
3.3 web使用記錄挖掘
Web使用記錄挖掘是除了web數據內容挖掘和web數據結構挖掘以外的另一種非常重要的數據挖掘形式。Web數據內容挖掘和web數據結構挖掘都是對web網頁進行挖掘的一個形式,web使用記錄挖掘與他們不同,web使用記錄挖掘是建立在web數據內容挖掘和web數據結構挖掘基礎上的一種挖掘形式,是用戶與網路服務器在進行交互的過程中形成的一種數據挖掘形式,web使用記錄挖掘的對象包括很多,它包括計算機注冊的信息、服務器的登錄次數和日志等等。Web使用記錄挖掘從本質上講是對wab數據內容挖掘和web數據結構挖掘的二次挖掘,是對它們所蘊含的數據的又一次過濾,幫助我們過去更加有效的數據信息。
Web數據內容挖掘、web數據結構挖掘、web使用記錄挖掘是我們在日常的數據挖掘中經常用到的三種挖掘形式,在它們之間也有一定的聯系,他們三者相輔相成,我們可以根據自己的實際工作需要選擇合適的方法進行數據挖掘,也可以綜合利用三種挖掘形式進行數據挖掘。
4 web數據挖掘技術的實現
在我們的互聯網上蘊藏著大量的信息供我們選擇,在互聯網上找到真正適合我們的有效信息目前已經成為了一個難題,通過網絡開發人員的不斷努力,目前XML是我們解決這個問題的一個重要的技術。XML可以將不同位置、不同結構形式、不同內容的數據有機的結合在一起,幫助我們進行web數據挖掘的實現。Web數據難以整理主要是有web數據的特點造成的,其中異構數據庫環境、半結構化的數據結構、是web數據兩個最重要的特點,web數據的這兩個特點,導致在不同位置、不同結構的數據很難有機的集合在一起,而XML很好的為我們解決了這一點,XML形象的被我們稱作是數據的中介機構,它的出現可以有機的將不同形式、不同格式的數據內容建立一一對應的關系,幫助我們把不同的數據有機的柔和在一起,供我們方便使用。隨著web數據挖掘的應用日趨廣泛,這種XML技術被逐漸完善,通過軟件開發人員的不斷努力,目前,XML技術已經具有操作簡單、高效率、通用率高等諸多優點,而且,XML還實現了國際化,我們可以在世界網絡范圍內進行web數據的挖掘,擴大了我們的知識范圍,為方便我們日常工作,提高我們獲取有效信息的效率做出了巨大的貢獻。下面對web數據挖掘技術的實現步驟進行簡要描述:第一,用戶輸入已知的樣本,作為獲取數據的已知條件;第二,根據數據內容,歸納數據特征,并利用一定的數據統計方法準確的計算他們的權值。第三,獲取大量的網絡信息,也就是在搜索引擎中輸入我們要查找信息的關鍵詞,在網頁中顯示出很多的信息供我們選擇,這些信息包含不同的數據特點,數據格式;最后,利用事先計算好的數據特征,對現在獲取的大量信息進行匹配,并要求計算機將最吻合的信息反饋給用戶。這就是web數據挖掘技術的實現過程。
5 結語
Web數據挖掘技術是目前數據處理行業的一個重要的技術,我國任何行業的發展與進步都需要大量的數據,我們在日常生活和工作中也都需要從web中獲取大量的有價值數據,web數據挖掘技術可以有效的幫助我們進行數據獲取,在為我們節約時間的同時獲取大量有價值的數據供我們日常生活和工作所用。Web數據挖掘技術是一項由計算機技術和數據挖掘技術共同組成的復雜技術,這項技術的出現和不斷完善,對我們的日常生活起到了非常重要的作用,為提高我們的生活質量和工作效率做出了巨大的貢獻。
參考文獻:
[1]高燕,胡景濤.web數據挖掘原理、方法及應用[J].現代圖書情報技術,2012(03):51-53.
[2]王玉珍.web數據挖掘分析與探索[J].計算機發展與應用,2009(6):73-76.
[3]范亞芹,劉穎.web數據挖掘的原理與實現技術[J].吉林大學學報,2006(8):370-373.
[4]高月,梁本亮.淺談網絡信息挖掘[J].通信電源技術,2005(2):30-33.
1、數據挖掘技術的應用及特點
數據挖掘技術是一種新型的技術,在現代數據存儲以及測量技術的迅猛發展過程中,人們可以進行信息的大量測量并進行存儲。但是,在大量的信息背后卻沒有一種有效的手段和技術進行直觀的表達和分析。而數據挖掘技術的出現,是對目前大數據時代的一種應急手段,使得有關計算機數據處理技術得到加快發展。數據挖掘技術最早是從機器學習的概念中而產生的,在對機器的學習過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機械的操作辦法。而沒有指導性學習的辦法一般不從這些環境得出反饋,而是通過沒有干預的情況下進行歸納和學習,并建立一種理論模型。數據挖掘技術是屬于例子歸納學習的一種方式,這種從例子中進行歸納學習的方式是介于上述無指導性學習以及較少使用歸納學習這兩種方式之間的一種方式。因此,可以說,數據挖掘技術的特征在出自于機器學習的背景下,與其相比機器主要關心的是如何才能有效提高機器的學習能力,但數據挖掘技術主要關心如何才能找到有用、有價值的信息。其第二個特征是,與機器學習特點相比較而言,機器關心的是小數據,而數據挖掘技術所面臨的對象則是現實中海量規模的數據庫,其作用主要是用來處理一些異常現象,特別是處理殘缺的、有噪音以及維數很高的數據項,甚至是一些不同類型數據。以往的數據處理方法和現代的數據挖掘技術相比較而言,其不同點是以往的傳統數據處理方法前提是把理論作為一種指導數據來進行處理,在現代數據挖掘技術的出發角度不同,主要運用啟發式的歸納學習進行理論以及假設來處理的。
2、數據挖掘技術主要步驟
數據挖掘技術首先要建立數據倉庫,要根據實際情況而定,在易出現問題的有關領域建立有效的數據庫。主要是用來把數據庫中的所有的存儲數據進行分析,而目前的一些數據庫雖然可以進行大量的存儲數據,同時也進行了一系列的技術發展。比如,系統中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結果的分析能力,而查詢的結果仍舊由人工進行操作,依賴于對手工方式進行數據測試并建模。其次,在數據庫中存儲的數據選一數據集,作為對數據挖掘算法原始輸入。此數據集所涉及到數據的時變性以及統一性等情況。然后,再進行數據的預處理,在處理中主要對一些缺損數據進行補齊,并消除噪聲,此外還應對數據進行標準化的處理。隨后,再對數據進行降維和變換。如果數據的維數比較高,還應找出維分量高的數據,對高維數數據空間能夠容易轉化為檢點的低維數數據空間進行處理。下一步驟就是確定任務,要根據現實的需要,對數據挖掘目標進行確定,并建立預測性的模型、數據的摘要等。隨后再決定數據挖掘的算法,這一步驟中,主要是對當前的數據類型選擇有效的處理方法,此過程非常重要,在所有數據挖掘技術中起到較大作用。隨后再對數據挖掘進行具體的處理和結果檢驗,在處理過程中,要按照不同的目的,選擇不同的算法,是運用決策樹還是分類等的算法,是運用聚類算法還是使用回歸算法,都要認真處理,得出科學的結論。在數據挖掘結果檢驗時,要注意幾個問題,要充分利用結論對照其他的信息進行校核,可對圖表等一些直觀的信息和手段進行輔助分析,使結論能夠更加科學合理。需要注意的是要根據用戶來決定結論有用的程度。最后一項步驟是把所得出的結論進行應用到實際,要對數據挖掘的結果進行仔細的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結論和原先看法的矛盾有效解除。
3、數據挖掘技術的方法以及在電力營銷系統中的應用和發展
數控挖掘技術得到了非常廣泛的應用,按照技術本身的發展出現了較多方法。例如,建立預測性建模方法,也就是對歷史數據進行分析并歸納總結,從而建立成預測性模型。根據此模型以及當前的其他數據進行推斷相關聯的數據。如果推斷的對象屬于連續型的變量,那么此類的推斷問題可屬回歸問題。根據歷史數據來進行分析和檢測,再做出科學的架設和推定。在常用的回歸算法以及非線性變換進行有效的結合,能夠使許多問題得到解決。電力營銷系統中的數據挖掘技術應用中關聯規則是最為關鍵的技術應用之一。這種應用可以有效地幫助決策人員進行當前有關數據以及歷史數據的規律分析,最后預測出未來情況。把關聯規則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關數據進行關聯規則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關聯信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統的應用中,時間序列挖掘以及序列挖掘非常經典、系統,是應用最為廣泛的一種預測方法。這種方法的應用中,對神經網絡的研究非常之多。因此,在現實中應用主要把時間序列挖掘以及神經網絡兩者進行有效地結合,然后再分析有關電力營銷數據。此外,有關專家還提出應用一種時間窗的序列挖掘算法,這種方式可以進行有效地報警處理,使電力系統中的故障能夠準確的定位并診斷事故。此算法對電力系統的分析和挖掘能力的提高非常有效,還可判定電力系統的運行是否穩定,對錯誤模型的分析精度達到一定的精確度。
4、結語
目前,對數據挖掘技術在整個電力營銷系統中的應用還處于較低水平上,其挖掘算法的單一并不能有效地滿足實際決策需要。但是,由于數據挖掘技術對一些潛在的問題預測能力較強,特別是對電力營銷系統中較大規模的非線性問題,具有較強的處理能力,在未來的發展中會成為營銷領域中重要的應用工具。
作者:許敏 單位:國網福建省電力有限公司電力科學研究院客戶服務中心
關鍵詞:數據挖掘技術;銀行客戶關系管理系統;決策樹
中圖分類號:TP311.13
隨著社會的不斷發展和進步,企業逐漸轉變以往“以產品為導向”的做法,開始注重發掘客戶資源,通過分析客戶信息和把握客戶需求,提供方便便捷的服務渠道和售后服務,建立持久的客戶關系等措施,來加強對客戶關系的有效管理。客戶關系管理CRM的概念最早被美國GartnerGroup最早提了出來,目的在于建立一個系統,使企業在客戶服務、市場競爭、營銷等方面形成一個協調的關系實體,為企業贏得競爭的優勢。
1 銀行客戶關系管理系統
客戶關系管理(Customer Relationship Management,簡稱CRM)作為一種改善企業與客戶關系的管理模式,主要對業務處理流程及服務環節進行有效的整合和管理,使企業以較低的成本獲得較高的收益,最大限度地滿足客戶需求,提高企業的經濟效益和收益。隨著各領域對客戶關系管理理念認同的不斷擴大,CRM在銀行領域的實施也逐漸被一些大型銀行列入工作日程。銀行作為客戶密集型行業,日常的業務處理中積累了大量的客戶數據信息,但是缺乏數據管理與分析工具,很難有效地為決策提供幫助,建立CRM系統能夠有效地解決這些問題[1]。
基于數據挖掘技術的CRM系統能幫助銀行準確地發現目前具有潛在經濟效益的客戶,幫助銀行開拓符合消費者需求的新產品,為銀行留住原有客戶提供有效的方法和手段。利用數據挖掘技術對客戶數據信息進行挖掘和分析,能夠充分利用積累的數據資源,挖掘出其中的模式和規則,進一步深化和客戶的關系,發現潛在的客戶群體,提高競爭能力,降低投資風險,提高投資經濟效益。
2 數據挖掘技術
數據挖掘是指從大量的數據中提取有用的信息和知識,用來指導實際決策的制定。數據挖掘通過對數據的綜合分析處理過程,發現潛藏在數據之間的關聯關系,從數據信息中推導并揭示出模式與未來趨勢。數據挖掘技術是銀行CRM系統采用的關鍵技術,通過數據挖掘和分析,了解把握客戶的消費偏好和行為模式,有助于決策者商業策略的制定和參考,使銀行最大限度地獲取利潤[2]。
數據挖掘技術從功能上主要包括分類分析、關聯分析、聚類分析等分析技術,廣泛應用于客戶分類和預測等。數據挖掘主要有以下功能:(1)分類分析。以訓練數據集的某一屬性為類別進行分類劃分,建立描述數據分類的模型,對其它數據集進行劃分。分類的方法有決策樹分類、貝葉斯分類、遺傳算法分類等,其中決策樹算法是數據挖掘分類的一種重要方法;(2)關聯分析。數據關聯是數據庫的數據之間中存在的―類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯分析的目的是找出數據庫數據中隱藏的關聯關系;(3)聚類分析。聚類是將數據庫中的記錄劃分為一系列有意義的子集。
3 數據挖掘技術在銀行CRM系統中的應用
近年來,數據挖掘作為一種發現大量數據中潛在信息的數據分析方法和技術,受到各界的廣泛關注。數據挖掘主要包括決策樹算法、神經元網絡算法、遺傳算法以及關聯規則挖掘方法等。其中,決策樹以其出色的數據分析效率高、形象直觀易懂等特點,廣泛應用在機器學習、知識發現等各領域。構建決策樹有多種算法,ID3和C4.5算法最具有代表性,都是基于信息熵的決策樹分類算法。ID3算法采用信息熵作為節點屬性的選擇標準,易偏向于具有較多取值的候選屬性。C4.5算法用信息增益率來選擇節點屬性標準,它繼承ID3算法的優點的基礎上增加了對連續屬性的離散化、對未知屬性的處理等功能,C4.5算法在商業、金融、醫療等各領域得到了成功的應用[3]。
3.1 決策樹C4.5算法描述
決策樹數據挖掘算法作為數據挖掘分類的一種重要方法,具有數據分析準確率高、穩定性好等特點。決策樹生成算法的輸入是一組帶有類別標記的實例,構造的輸出結果是一棵二叉或多叉的樹。C4.5算法構造決策樹的過程:計算數據集中每個屬性的信息增益率,選擇最大信息增益率的屬性作為當前的屬性節點,依據屬性的每一個取值構建一個分支,對該子節點所包含的樣本子集遞歸地執行上述過程,直到子集中的數據記錄的類別取值都相同,或沒有屬性可劃分,由此構造一棵決策樹。通過決策樹提取分類規則,對從根到葉子節點的每一條路徑獲取一個規則,形成規則集。將規則集顯示給用戶,把經過篩選過的認為可行的規則存入規則數據庫。
3.2 決策樹C4.5算法的應用
銀行在信貸業務中,積累了大量客戶信息和還貸情況等數據,在這些客戶數據的基礎上運用決策樹算法構造的簡單決策樹如下。當新客戶在銀行進行信貸業務時,系統運用決策樹所得到規則對新客戶進行分析,預測該客戶的行為屬于哪一等級,從而幫助銀行判斷是否允許該客戶貸款。
4 結束語
隨著時代的進步和發展,人們觀念的轉變以及我國銀行經營壟斷的局面逐漸被打破,銀行經營觀念開始從傳統的“以產品為中心”向“以客戶為中心”轉變。CRM作為一種改善企業與客戶之間關系的新型管理機制,能夠幫助銀行建立完善的客戶服務體系,優化銀行的業務流程,為客戶提供高質量服務。在銀行CRM系統中有效利用數據挖掘技術,通過對大量的客戶信息進行分析,找出各種數據之間的關聯性,為銀行高層決策者提供準確的客戶分類、盈利能力及潛在用戶等有用信息,指導他們制定最優的銀行營銷策略、降低運營成本、增加利潤及加速銀行的發展[4]。
參考文獻:
[1]陳建成.數據挖掘技術在客戶關系管理系統中的應用[J].電腦與電信,2007(02):41-43.
[2]左愛群,杜波.數據挖掘在銀行客戶關系管理系統中的應用[J].武漢工業學院學報,2006(25):52-55.
[3]劉耀南.C4.5算法的分析及應用[J].東莞理工學院學報,2012(19):47-52.
[4]孔德漢.數據挖掘技術在銀行業客戶關系管理中的應用[J].合作經濟與科技,2010(20):60-62.
作者簡介:杜麗英(1969-),女,吉林長春人,講師,碩士,研究方向:計算機應用。
1.1錄入正確的信息
由于數據挖掘技術的運算功能較強,常規的數據信息系統在實際的運算過程中,會消耗掉大量的時間,甚至由于數據龐大會對運算系統造成一定影響,在數據挖掘技術的作用下,不會出現這種問題,還能節省運算時間。另外,在對數據進行運算的過程中,不會出現數據丟失的現象。在大規模數據中,有些數據的應用價值不大,屬于垃圾數據,會影響系統的整體效率,利用數據挖掘技術,能夠保留精準的數據,摒除垃圾數據,為數據質量提供相應的保證。
1.2縮減數據處理時間
利用挖掘數據技術能夠進行數據的轉換,將雜亂的數據進行整合與處理,轉變為試用形式。從這些數據的角度進行分析,能夠進行科學化的調用,在進行數據的挖掘過程中,會對于不清楚的數據進行清理,保證得到數據的科學性。從各個不同的角度,對于數據的真實性進行考核,并將數據進行整合。也就是說,將分析的結果提供給管理人員,合理的運用到軟件工程中,進而縮減數據處理時間。
2數據挖掘技術在軟件工程中的應用路徑
2.1數據挖掘技術在軟件工程中的發展
首先,由于數據挖掘技術是立足于數據庫進行發展的,隨著技術的不斷發展與進步,已經從理論轉換為實踐應用,并且在實際應用中發揮著重大作用。另外,軟件工程是工程化的學科,能夠根據項目任務的差異、資金及客戶需求進行產品的研發。由于原有的工程軟件開發較為復雜,但經過發展迅速壯大,實際的應用性較強,會更多的被應用于項目當中,與此同時,利用數據挖掘技術主要就是對軟件工程的數據庫信息進行挖局,對于軟件工程的可持續發展有著重大的意義。
2.2挖掘信息
其次,軟件工程能夠對信息的挖掘進行掌控,實際的應用范圍較廣,軟件工程能夠將軟件開發時的信息進行統一,進而保證在進行軟件開發的過程中,能夠將數據進行及時更新,進而從根本上保證開發的質量,保證項目任務的順利實施。就目前實際情況進行分析,在數據挖掘中還包含著軟件開發更改的數據信息,能夠更加直觀的看出軟件內部的差異,還能夠利用這一特點及時發現運用過程中產生的問題,并結合實際情況,及時作出有效的解決措施,保證項目目標任務能夠順利完成。
2.3挖掘軟件漏洞
再次,數據挖掘技術中,最重要的一點就是對軟件漏洞進行檢測,在實際的運用過程中,能夠及時發現軟件開發中產生的錯誤,并進行修整與優化,及時找到處理的方法,在一定程度上保證軟件工程的安全等級與質量。另外,在利用數據挖掘技術對漏洞進行檢測的過程中,相關的技術人員要明確檢測的內容,還要立足于客戶基本需求,進一步找到相對應的測試內容,利用合理的方式對軟件進行測試,進而得到各方面都完美的方案。與此同時,由軟件工程對數據信息進行處理,在找到漏洞信息后,對多余的信息進行及時處理,進而從根本上保證數據信息的科學性與完整性。在實際的運用過程中,相關的工作人員要根據科學化的方案,合理的將數據挖掘技術運用到軟件工程中,利用合理化的方式對于軟件工程中的漏洞問題進行分析,及時找出錯誤根源,使操作者能夠更加容易進進行漏洞的挖掘與修復工作。就目前實際情況進行分析,數據庫挖掘技術主要就是將數據信息進行轉化,并進行整合存到信息庫中,再由相關的工作人員結合實際需求,對于軟件進行測試,查看是否存在漏洞,利用這種方式保證后續工作的順利開展,促進軟件工程的健康發展。
2.4挖掘軟件執行記錄
在數據挖掘技術的應用過程中,軟件執行記錄尤為重要,在進行數據挖掘的過程中,相關的技術工作人員要對數量進行合理分析,對于不同代碼之間的關系進行探究。使相關的工作人員能夠利用軟件系統的行蹤進行管理與探究,進而在一定程度上促進軟件工程的穩步發展。
2.5挖掘開源軟件代碼
最后,對于開源軟件代碼進行挖掘,能夠將其規劃到軟件工程中挖掘技術要運用的對象挖掘類型房中,由于開源軟件代碼技術通常都被應用到代碼克隆的檢測過程中,能夠更加簡單的對于代碼漏洞進行處理,通過這種方式在一定程度上提高了工作的高效性。
3結束語
綜上所述,在軟件工程項目中,合理化的運營數據挖掘技術,能夠有效促進軟件工程的發展,結合實際應用狀況進行分析,可以了解到數據挖局技術的發展空間廣闊,相關的技術人員要認識到其重要程度,并進行不斷改進,將內在的理論與外在價值進行充分挖掘。通過這種方式從根本上強化專業素質,將數據挖掘技術的作用發揮到最大化,促進軟件工程的健康長遠發展。
參考文獻
[1]龍艷.分析數據挖掘技術在軟件工程中的應用[J].科技風,2019(02):83.
[關鍵詞]電子商務;數據挖掘;路徑分析
隨著Internet的普及,電子商務的興起,人們的商務理念正在改變,電子商務的廣泛應用使企業產生了大量的業務數據,如何更快、更好地利用各種有效的數據更好地開展電子商務,這是目前電子商務急需解決的問題。
一、數據挖掘技術
20世紀90年代以來,隨著信息技術和數據庫技術的迅猛發展,人們可以非常方便地獲取和存儲大量的數據。面對大規模的海量的數據,傳統的數據分析工具(如管理信息系統)只能進行一些表層的處理(如查詢、統計等),而不能獲得數據之間的內在關系和隱含的信息。為了擺脫“數據豐富,知識貧乏”的困境,人們迫切需要一種能夠智能地自動地把數據轉換成有用信息和知識的技術和工具,這種對強有力數據分析工具的迫切需求使得數據挖掘技術應運而生。人們認識到數據庫中存儲的數據量急劇增大,在大量的數據背后隱藏著許多重要的信息,如果能把這些信息從數據庫中抽取出來,將為公司創造很多潛在的利潤。這種從海量數據庫中挖掘信息的技術,就稱之為數據挖掘。數據挖掘一般有以下四類主要任務:
(一)數據總結
數據挖掘能夠將數據庫中的有關數據從較低的個體層次抽象總結到較高的總體層次上,從而實現對原始基本數據的總體把握。
(二)分類
分析數據的各種屬性,并找出數據的屬性模型,確定哪些數據屬于哪些組。這樣我們就可以利用該模型來分析已有數據,并預測新數據將屬于哪一個組。
(三)關聯分析
數據庫中的數據一般都存在著關聯關系,也就是說,兩個或多個變量的取值之間存在某種規律性。通過挖掘數據派生關聯規則,可以了解客戶的行為。
(四)聚類
聚類分析是按照某種相近程度度量方法,將用戶數據分成一系列有意義的子集合。每一個集合中的數據性質相近,不同集合之間的數據性質相差較大。
數據挖掘的特點和性質對于企業而言,有助于發現其企業業務發展的趨勢,揭示已知的事實,預測未知的結果,并幫助企業分析出完成任務所需的關鍵因素,以達到增加收入,降低成本,使企業處于更有利的競爭位置的目的。
二、數據挖掘在電子商務中的作用
數據挖掘技術源于商業的直接需求,因此它在各種商業領域都存在廣泛的使用價值。電子商務是商業領域的一種新興商務模式,是指利用電子信息技術開展一切商務活動。當電子商務在企業中得到應用時,企業信息系統將產生大量數據,這些海量數據使數據挖掘有了豐富的數據基礎,同時高性能計算機和高傳輸速率網絡的使用也給數據挖掘技術提供了堅實的保障。因此數據挖掘技術在電子商務活動中有了更大的用武之地。下面介紹數據挖掘在以下電子商務幾個方面的作用:
(一)客戶細分
隨著“以客戶為中心”的經營理念的不斷深入人心,分析客戶、了解客戶并引導客戶的需求已成為企業經營的重要課題。通過對電子商務系統收集的交易數據進行分析,可以按各種客戶指標(如自然屬性、收入貢獻、交易額、價值度等)對客戶分類,然后確定不同類型客戶的行為模式,以便采取相應的營銷措施,促使企業利潤的最大化。
(二)客戶獲得
利用數據挖掘可以有效地獲得客戶。比如通過數據挖掘可以發現購買某種商品的消費者是男性還是女性,學歷、收入如何,有什么愛好,是什么職業等等。甚至可以發現不同的人在購買該種商品的相關商品后多長時間有可能購買該種商品,以及什么樣的人會購買什么型號的該種商品等等。也許很多因素表面上看起來和購買該種商品不存在任何聯系,但數據挖掘的結果卻證明它們之間有聯系。在采用了數據挖掘后,針對目標客戶發送的廣告的有效性和回應率將得到大幅度的提高,推銷的成本將大大降低。
(三)客戶保持
數據挖掘可以把你大量的客戶分成不同的類,在每個類里的客戶擁有相似的屬性,而不同類里的客戶的屬性也不同。你完全可以做到給不同類的客戶提供完全不同的服務來提高客戶的滿意度。數據挖掘還可以發現具有哪些特征的客戶有可能流失,這樣挽留客戶的措施將具有針對性,挽留客戶的費用將下降。
(四)交叉銷售
交叉銷售可以使企業比較容易地得到關于客戶的豐富的信息,而這些大量的數據對于數據挖掘的準確性來說是有很大幫助的。在企業所掌握的客戶信息,尤其是以前購買行為的信息中,可能正包含著這個客戶決定他下一個購買行為的關鍵,甚至決定因素。這個時候數據挖掘的作用就會體現出來,它可以幫助企業尋找到這些影響他購買行為的因素。
(五)個
當客戶在電子商務網站注冊時,客戶將會看到帶有客戶姓名的歡迎詞。根據客戶的訂單紀錄,系統可以向客戶顯示那些可能引起客戶特殊興趣的新商品。當客戶注意到一件特殊的商品時,系統會建議一些在購買中可以增加的其他商品。普通的產品目錄手冊常常簡單地按類型對商品進行分組,以簡化客戶挑選商品的步驟。然而對于在線商店,商品分組可能是完全不同的,它常常以針對客戶的商品補充條目為基礎。不僅考慮客戶看到的條目,而且還考慮客戶購物籃中的商品。使用數據挖掘技術可以使推薦更加個性化。
(六)資源優化
節約成本是企業盈利的關鍵。通過分析歷史的財務數據、庫存數據和交易數據,可以發現企業資源消耗的關鍵點和主要活動的投入產出比例,從而為企業資源優化配置提供決策依據,例如降低庫存、提高庫存周轉率、提高資金使用率等。
(七)異常事件的確定
在許多商業領域中,異常事件具有顯著的商業價值,如客戶流失、銀行的信用卡欺詐、電信中移動話費拖欠等。通過數據挖掘中的奇異點分析可以迅速準確地甄別這些異常事件。
由此可見數據挖掘在電子商務中有著重要的作用。在生活中采用數據挖掘的成功的例子很多。例如總部位于美國阿肯色州的WalMart零售商的“尿布與啤酒”的故事。WalMart擁有世界上最大的數據倉庫系統,它利用數據挖掘工具對數據倉庫中的原始交易數據進行分析,得到了一個意外發現:跟尿布一起購買最多的商品竟然是啤酒。如果不是借助于數據倉庫和數據挖掘,商家決不可能發現這個隱藏在背后的事實:在美國,一些年輕的父親下班后經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。有了這個發現后,超市調整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷售額。
三、電子商務中如何應用數據挖掘技術
數據挖掘在電子商務中有廣泛的應用。那么在電子商務中是如何應用數據挖掘技術的?
首先,從挖掘過程說,對在線訪問客戶數據的挖掘主要有兩部分:一部分是客戶訪問信息的挖掘,另一部分是客戶登記信息的挖掘。面對大量的訪問日志,首先要做的就是對數據進行清洗,即預處理,把無關的數據,不重要的數據等處理掉;接著對數據進行事務識別,通過對事務進行劃分后,就可以根據具體的分析需求選擇模式發現的技術,如路徑分析、興趣關聯規則、聚類等。通過模式分析,找到有用的信息,再通過聯機分析(OLAP)的驗證,結合客戶登記信息,找出有價值的市場信息,或發現潛在的市場。
其次,挖掘方法主要有以下幾種:
1.路徑分析
路徑分析是一種找尋頻繁訪問路徑的方法,它通過對Web服務器的日志文件中客戶訪問站點的訪問次數分析,挖掘出頻繁訪問路徑。例如:一客戶從某一站點訪問到某一感興趣的頁面后就會經常訪問該頁面,通過路徑分析確定頻繁訪問路徑,可以了解客戶對哪些頁面感興趣,(下轉第78頁)(上接第80頁)從而更好地改進設計,為客戶服務。
2.興趣關聯規則
當客戶訪問某一網頁時,一般會通過興趣詞條找出相關的興趣網頁通過鏈接繼續訪問,這種關聯產生的數據如果能夠按照某種策略進行挖掘分析,統計出客戶訪問某些頁面及興趣關聯頁面的比率,就可以很好地組織站點,實施有效的市場策略。
3.聚類分析
聚類分析是電子商務中很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好地幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。如通過對眾多的瀏覽“camera”網頁的客戶分析,發現在該網頁上經常花一段時間瀏覽的客戶,再通過對這部分客戶的登記資料分析,知道這些客戶是潛在要買相機的客戶群體。就可以調整“camera”網頁的內容和風格,以適應客戶的需要。
通過以上幾種數據分析的方法可以有效地對電子商務中的信息進行分析,從而更有效地開展電子商務。
目前,數據挖掘技術正以前所未有的速度發展,并且擴大著用戶群體,在未來越來越激烈的市場競爭中,擁有數據挖掘技術必將比別人獲得更快速的反應,贏得更多的商業機會。現在世界上的主要數據庫廠商紛紛開始把數據挖掘功能集成到自己的產品中,加快數據挖掘技術的發展。我國在這一領域正處在研究開發階段,加快研究數據挖掘技術,并把它應用于電子商務中,應用到更多行業中,勢必會有更好的商業機會和更光明的前景。
[參考文獻]