時間:2022-08-16 10:32:01
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據挖掘論文,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
數據挖掘技術是延伸和擴展了傳統分析方法,可以發現傳統分析方法不能發現的內容和規律,并且它將人們從單調、枯燥的閱讀專利文獻的工作中解放出來,使用計算機代替了人類勞動,這樣不僅提高了效率,而且提升了準確度。因此,數據挖掘作為一個專利分析的強有力工具被引入到專利分析中來,并且得到快速的發展應用。專利數據挖掘流程應考慮的問題:一是用數據挖掘解決什么樣的問題;二是為進行數據挖掘所做的數據準備;三是數據挖掘的各種分析算法。故專利數據挖掘的一般過程通常按照以下步驟來完成:領會數據挖掘的目的,獲取分析所用的數據集合,探索、清理和預處理數據,選擇要使用的數據挖掘技術,使用算法解決問題,解釋算法的結果。而其一般流程可簡化為三個階段:數據準備數據挖掘結果解釋和評價。本文采用簡化的流程進行實證分析。
二、石家莊地區制藥企業專利數據挖掘
本文對石家莊地區制藥企業的專利數據進行挖掘分析,挖掘對象是華北制藥集團公司、石家莊制藥集團有限公司、石家莊神威藥業股份有限公司、石家莊四藥股份、河北以嶺藥業股份有限公司、石家莊市華曙制藥集團、河北醫科大學制藥廠、河北圣雪大成制藥有限責任公司等地址在石家莊且具有一定代表性的藥企,希望通過這些藥企數據能夠找到石家莊地區制藥領域的核心組成,并能為藥企更好地發展提供有力的信息支持。IPC號是目前權威的專利技術主題的標識編碼之一,基本包含了各行各業的專利信息,是一個龐大的專利信息體系。目前國內外很多分析方法及技術大部分是基于專利的IPC分類號來分析專利技術主題的,此分析方法有一定的參考價值和科學性,而且對于具有大量專利信息的分析具有很好的總結概括效果。本文以專利全部IPC號為分析對象,并且構建IPC號之間的關聯規則,在最大程度上揭示隱含的專利技術關聯性,從而為石家莊地區制藥企業專利技術的發展提供參考。
1.數據準備。數據來源的準確與否是數據分析與挖掘的基礎,是數據分析與挖掘的根本。本文所使用的石家莊地區制藥領域專利數據由萬方數據公司提供,以制藥企業地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區制藥領域專利644條,分別分布在A、B、C、D、E、F、G、H八個大部。對專利數據庫中的644條專利進行篩選,根據“分類號”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區制藥領域沒有聯系或聯系很小,不宜保留。根據“申請人(專利權人)”字段的限制,剔除與石家莊地區制藥不相關或制藥企業地址不在石家莊地區的專利。最后篩選出590條最符合該領域特點的專利。由于IPC號在幾乎所有現存數據庫中均是以一個字段存儲一個專利的所有IPC分類號的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個專利一般都有好幾個分類號,而每個企業又研究大量的專利,所以在進行專利分析之前,需要對專利IPC號進行數據整理。由于過于細致的IPC分類號并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號的前4位。并將申請人與其對應的多條IPC號進行拆分,拆分后的數據項有773條,即顯示每個申請人對應的一條IPC分類號。
2.數據挖掘。本文數據挖掘過程將采用Excel和SQLsever2005軟件,首先對所得到的數據導入SQLserver2005進行挖掘,利用SQLserver2005可以直接進行IPC號的關聯規則挖掘,然后對專利信息進行分析。
3.數據挖掘結果與分析。基于關聯規則制作依賴關系網絡圖,可以更加直觀地看到各個IPC號之間的關聯和依賴狀態。
(1)以A61K、C12N、C12P、C07D、C07C為中心的核心專利技術群。這些專利的IPC分類號是關鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫用、牙科用等的配置品)是項集次數最多的,即支持度較高的,C12P(發酵或使用酶的方法合成目標化合物或組合物或從外消旋混合物中分離旋光異構體)、C12N(微生物或酶;其組合物)、C07D(雜環環合物,例如鄰氯芐星青霉素的合成)、C07C(無環和碳環化合物)通過專利相關知識我們已經知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領域的核心。這也是和石家莊地區制藥企業的核心領域相符合的。另外這些專利主題的相互關聯、依賴說明了石家莊地區制藥企業在該領域具有很好的布局網絡,在研發數量上也占有一定優勢,所以說是石家莊地區制藥企業的主要研究領域。
(2)以B65G、C12M為中心的輔助設備專利技術群。藥品的生產離不開設備的支持,所以設備方面的專利也能體現制藥企業的技術水平。在圖1中也能體現出來,專利間有著很強的依賴性和關聯性,在核心專利周邊有B65G(運輸或貯存裝置,例如裝載或傾斜用輸送機、車間輸送機系統、氣動管道輸送機)、C12M(酶學或微生物學裝置),這些是制藥的輔助技術手段,與中心專利是相互聯系的,也是制藥過程中必不可少的,在這些方面的提高有利于制藥核心領域的發展。先進藥品的研制離不開先進制藥設備支持,所以設備水平的提高也是關鍵的。如圖3所示,石家莊地區制藥企業在這一方面的技術依賴網絡也已經形成,說明在此技術領域也已經擁有較強實力。但與中心主要專利相比,輔助設備專利技術還是需要不斷提高的。
三、總結
1.1數據挖掘技術
關聯分析即找出兩個或以上變量之間同時出現的規律、因果結構,即通過其他事物可對某個與之相關的事物做出預測。數據挖掘關聯分析的主要作用就是分析海量數據中潛在的關聯規則,對于高校圖書館個性化服務而言,即從圖書館數據庫中發現相關的關聯規則,針對用戶的信息需求做出準確預測,提高信息推送的針對性,便于用戶獲取所需的信息。聚類即將數據庫中的一組個體按照相似性歸結為若干類型,應用于圖書館系統中,就是將相似的文獻集中在一起,用戶在搜索相關文獻時可以查閱更多其他相關內容,便于其總結、歸納;在個性化服務中還可以通過聚類匯總用戶所需的特定信息。分類與聚類相似,是按照分析對象的屬性建立類組,用戶查閱資料的過程中,每種信息的重要程度有所不同,通過分類可以將用戶所需求的知識分為高度需求、中度需求及低度需求。在高校圖書館個性化服務中要對用戶的使用規律做出預測,即根據用戶歷史查閱記錄對用戶所需的文獻種類、特征等做出預測。時序模式主要是通過時間段對用戶的訪問記錄、檢索過程做出標志,再通過時間序列將重復率較高的內容挖掘出來,以預測其下個信息需求,提高用戶查閱資料的便利性。
1.2圖書館中應用數據挖掘的必要性與可行性分析
圖書館應用數據挖掘技術的必要性體現在以下幾個方面:首先,信息化需求。用戶的借閱記錄、檢索記錄均存儲于圖書館數據庫中,需要利用數據挖掘技術將這些海量數據轉換為有用的知識信息,以便于館員做出決策。其次,圖書館的管理需求。傳統圖書館系統僅能為用戶提供簡單的訪問、檢索等功能,這些功能無法滿足圖書館個性化的技術要求,因此要利用數據挖掘技術將用戶借閱數據中隱含的關聯性發掘出來,從中發現有用的知識信息。最后,用戶服務的需求。數字化圖書館的發展越來越迅速,用戶通過圖書館獲得的資源也越來越豐富,如何從海量的信息資源中發掘出對用戶有用的知識信息,僅依靠傳統的圖書館管理系統無法解決這一問題,因此要利用數據挖掘技術對用戶的借閱記錄進行分析,從中獲得更多有價值的信息,以提高圖書館的服務質量及館藏利用率。而在圖書館個性化服務中應用數據挖掘技術也是可行的,一方面很多圖書館已具備比較好的物質條件及人才條件,這些均是圖書館個性化服務中應用數據挖掘技術的必要條件,而且政府在經濟方面、政策方面也為數據挖掘的應用提供了更多保障;另一方面,近年來數據挖掘技術也有了長足的發展,其足以為圖書館的個性化服務提供必要的技術支持。圖書館數字化發展過程中需要采集、購置更多的數據資源,而利用數據挖掘技術可以為圖書館資源建設提供指導作用,挖掘圖書館的歷史借閱記錄,可進一步了解用戶的借閱習慣、閱讀興趣及信息需求,并且可以對不同圖書之間的關聯性進行深入分析,圖書館員根據這些信息記錄、分析結果等提供指導,可以提高圖書資源分配的合理性,對館藏布局進行優化。由此可見,數字化圖書館個性化服務中應用數據挖掘技術十分必要。
2圖書館個性化服務的具體體現
高校圖書館個性化服務是指根據每個用戶的專業、愛好、研究方向、探索領域及特殊服務為其提供更具針對性的信息服務,幫助用戶查閱更加完整的信息資料,便于其學習、研究。高校圖書館個性化服務具體體現在以下3個方面:
①用戶可根據自己的需求定制相關信息,以保證其在圖書館中能夠查閱到相關資料;圖書館利用數據挖掘技術發現用戶的興趣愛好,為其定制個性化的訪問空間。用戶訪問圖書館數據庫時會將其興趣愛好間接地反映出來,如果用戶不感興趣,在頁面停留的時間會較短,停留時間較長則說明比較感興趣;利用用戶的瀏覽路徑信息時間即可將用戶對信息資源的感興趣程度發掘出來。
②提高圖書館資源利用率。利用數據挖掘技術可以識別圖書館網站內頻繁訪問的路徑及用戶訪問次數較多的頁面,可以將新書信息、重要的分類信息放在這些路徑上,從而向用戶主動推送其所需要的信息資源,提高圖書的利用率。
③優化鏈接結構,提高用戶應用的便利性。對Weblog進行挖掘,可以發現用戶訪問頁面的相關性,增加聯系比較密切的網頁之間的關聯性;發現用戶的期望位置,如果用戶訪問期望位置的頻率高于對實際位置的訪問頻率,則可在二者之間建立導航鏈接,優化站點。
④查新服務與定題服務。傳統圖書館主要通過查詢光盤數據庫、文獻數據庫等進行查新服務,而隨著網絡技術的不斷發展與應用,外部網絡信息及更新的速度遠遠超過圖書館內部網絡,因此要加強網絡平臺的建設,以保證服務結果的真實性與可靠性。數字圖書館在進行查新與定題服務過程中,可以利用可視化技術為用戶提供在線即時信息分析。
3圖書館個性化服務中數據挖掘技術的應用
圖書館個性化服務數據挖掘技術的應用流程如下:建立讀者數據倉庫——數據收集——挖掘算法的選擇——挖掘結果的顯示——對結果的評價。
3.1建立讀者數據倉庫
數據挖掘過程中,在確定了挖掘目標后,即開始進行數據準備,從大量數據中選擇一個與需挖掘目標相關的樣板數據子集。此時需要建立一個數據倉庫,其主要作用是將所有挖掘目標所需的數據保存其中,如果未建立數據倉庫直接進行數據挖掘,可能會導致挖掘失敗,因此數據挖掘的前期工作大部分用于準備數據,因此建立數據倉庫是一個至關重要的準備工作。高校圖書館個性化服務中應用數據挖掘技術,第一步就是建立用戶的興趣庫及圖書館自身的特色資源數據庫。用戶使用圖書館的過程中,必然會產生大量的借閱記錄,訪問圖書館網站會留下訪問記錄,這其中均潛藏了大量有意義的信息。
3.2數據收集
在建立用戶興趣庫及特色資源數據庫后,必須對這兩個數據庫中的數據進行分析、調整,以保證原始數據的質量,從而保證數據挖掘結果的質量。數據收集即數據的分析與調整可以分為數據抽取、數據清洗及數據轉換等3個步驟。其中數據抽取的主要作用是將與挖掘目標相關的數據信息搜索出來;數據清洗則是對數據進行噪聲消除、重復記錄的消除及推導計算缺值數據等。圖書館每天會產生大量的用戶相關的數據,并非所有的數據均對整個挖掘處理過程有正面作用,有些數據可能會對挖掘效果產生負面影響,因此剔除這些無用的數據十分必要。數據轉換的主要作用是精減數據維數,從初始特征中分析出真正有用的特征,通過數據轉換可有效減少數據挖掘時需要考慮的變量數。
3.3選擇算法及建立模型
數據挖掘過程中不同的算法可能會實現同一個任務,但過程卻大相徑庭,因此要根據數據的特點、實際運行系統的要求選擇適用的算法。有些用戶比較傾向于獲取描述型的、容易理解的知識,有些用戶則希望獲取預測型知識,因此要針對不同的用戶選擇對應的算法,之后就要進行數據挖掘模型的建立。通過對用戶分類、聚類及時間序列的分析,將每類用戶的普遍性需求及個性化需求抽象出來,從而建立一系列的關聯規則模型。一個模型完成后不一定可以立刻解決問題,需要對其進行反復驗證,如果可以解決問題證明模型有效;如模型存在缺陷,則要通過反饋對模型進行修改、調整,或者選擇新算法,建立新模型,對不同的模型進行全面考察。
3.4結果解釋與知識表示
在建立數據挖掘模型后,可利用建立挖掘模型時所用的算法規則進行運算,即可產生數據挖掘結果,圖書館只需對挖掘結果進行可視化、可理解化處理即可。要將抽象的數據解釋成易讀、易懂的結果,圖書館決策者及管理者即可根據可視化的挖掘結果進行決策。比如圖書館新引進了一批考古專業的學術論文,由數據挖掘模型分析結果可知,該批論文的查閱者90%均為考古專業的老師與學生,其他專業的師生查閱率不到10%,根據這一結果,即可將論文信息傳遞給考古專業的相關用戶,以提高信息推送的針對性。
3.5結果的驗證、應用及評價
產生挖掘結果后需要進一步實踐,以驗證結果的有效性與可用性,及對模型的實用性進行評價,并且挖掘結果還具備預測未來數據的功能。上一步的結果解釋經過實踐后,可對應用過程進行跟蹤了解,獲得用戶的反饋信息,對結果的實用性進行驗證。需要注意一點,即一個數據挖掘的模型與已有數據完全相符比較困難,且并非所有的環境、每個時間節點均適用于同一個數據挖掘模型,因此要對挖掘結果做出評價,如經過用戶的反饋,數據挖掘出來的結果可以解決問題,實現了最初的挖掘目標,滿足了用戶需求,則可判定該模型是合理的。挖掘結果可以滿足用戶的要求,用戶就會做出滿意的反饋,將這一反饋信息提供給決策者即可做下一步的實施,完成該階段后,圖書館就基本上實現了以用戶為中心的個性化服務的數據挖掘過程。不過某些情況下模型的評價結果可能不盡如人意,即數據挖掘的結果無法滿足用戶的要求,這種情況就要由系統進行重新處理,重復上述步驟,重新抽取數據、選擇另外一種數據轉換方法、設定新的數據挖掘參數值、選擇另外的挖掘算法等。由此可見,數據挖掘的過程是一個不斷反饋的過程,體現出反復性的特點。
4結語
在熔煉機組優化運行的過程中,機組的運行性能指標與人員的操作水平、負荷及運行參數之間有著復雜的相互關系,這種關系在大量的生產歷史數據中與機組各數據項之間關聯,因此可以通過數據挖掘的方式把其中的關聯關系定量的反映出來,最終反饋到實際運行中。本文結合工廠的實際情況,分析由工廠的DCS系統采集的實時運行數據,來得到用戶期望的相關參數間定量的關聯規則。
2交互式關聯規則挖掘算法
關聯規則挖掘算法在數據庫的記錄或對象中抽取關聯性,展示了數據間位置依賴關系,其目的是尋找在大量的數據項中隱藏著的聯系或相關性。其優越性在于能將用戶的定制信息整合到挖掘過程中,以一種友好的方式引入約束,使挖掘出更加符合用戶需要的信息,并且提高了挖掘的效率和有效性。
2.1目標數據庫的確定
數據挖掘應熟悉對象的背景知識,明確挖掘的目標,根據目標確定相關數據,以此作為目標數據庫,來完成對數據的預處理、挖掘和規則評價。
2.2交互式關聯規則挖掘算法
表示A成立則B成立,其中給出了可信度C和支持度S。可信度C是對關聯規則準確度的衡量,即在出現A的情況下出現B的概率;支持度S是對關聯規則重要性的衡量,即A和B同時出現的概率。
3熔煉機組數據挖掘的實現
本文采用的是冀某工廠于2013年5月運行的數據,采樣頻率為2~3秒/次,采樣模式為實時監測值,得到7595組數據。在分析階段,對影響機組的主要可控參數進行了提取及預處理,參數主要包括:轉速、有功功率、主蒸汽壓力、調節級壓力、中壓缸排汽壓力。以機組轉速設計值為3600r/min為例來分析。對各個可控參數數據進行曲線化處理,作為分析它們之間的關聯規則的數據表。上述關聯規則表示,在三種負荷工況下,工廠熔煉機組有功功率與主蒸汽壓力、調節級壓力、中壓缸排汽壓力三者之間最優變化區間的關聯。經分析,在機組中應用關聯規則的數據挖掘技術與傳統方法相比,優點是其可以對不同的可測參數進行挖掘,方法簡單有效、可操作性強;運用關聯規則進行挖掘,對過程能夠較靈活控制,處理后的目標值直觀,便于操作指導和提高運行效率。
4結論
1網上銀行促銷渠道分析系統的設計
網上銀行促銷渠道分析系統采用C/S架構或者B/S架構,充分考慮系統易用性和投入產出。從維護網上銀行的C/S架構和B/S架構角度來分析,使用網上銀行促銷渠道分析系統的多是管理人員,并且在未來的發展過程中,系統用戶數量也不會大幅度上漲,綜合網上銀行系統的維護成本和開發成本,盡量選擇C/S架構。從使用者和系統數據傳輸的角度來分析,只有銀行工作人員才能使用這個系統,而C/S架構具有良好的靈活性。綜上所述,網上銀行促銷渠道分析系統可以使用C/S架構來部署軟件模塊。由于網上銀行系統包含大量的客戶信息數據,因此網上銀行系統必須具有更高的安全性和保密性,相關操作人員必須強化風險防范意識,規范網上銀行系統操作,嚴格控制系統的數據傳輸。網上銀行系統必須具有良好的擴展性,為數據表和數據查詢算法留出充足的軟硬件資源。同時,網上銀行渠道分析系統要支持工作人員擴展數據查詢、數據字典和數據表之前的交叉查詢,將用戶的查詢記錄保存在本地網絡服務器上,盡量避免重復查詢,提高網上銀行渠道分析系統的查詢速度。
2數據挖掘技術在網上銀行促銷活動中的運用
隨著商業銀行的快速發展,網上銀行受到人們的廣泛關注。網上銀行系統以計算機網絡為交易平臺,各種新型的促銷策略,使網上銀行業務得到迅速拓展。但是,和四大行相比,一些商業銀行的網上銀行業務仍然存在很大的差距。同時,近年來,網上銀行市場競爭日益激烈,某些網上銀行業務在應用過程中出現了促銷成本不斷增加,而促銷效果不理想的狀況,數據挖掘技術在網上銀行促銷活動中的運用,要積極解決這些問題。
2.1提高營銷質量當前,很多銀行都逐漸加大了網上銀行促銷力度,但是促銷活動的效果卻不明顯,單純的依靠贈送禮品或者各種優惠措施,在很大程度上會提升促銷成本,并且難以真正地吸引客戶。在網上銀行促銷活動中應用數據挖掘技術,分析不同促銷活動的特點,根據網上銀行系統自身的特點和優化,對不同客戶進行組合促銷,將不同的網上銀行業務或者產品聯系起來,有針對性地對有意向的客戶進行促銷,合理安排網上銀行促銷活動內容和時間,盡量在電子商務交易高峰時段之前,實現網上銀行促銷活動的目標。
2.2優化客戶結構一些商業銀行不了解客戶的真實需求,在發展潛在客戶時,缺乏針對性,網上銀行促銷活動的交易需求較弱。因此要應用數據挖掘技術挖掘一些隱含的信息,明確哪些客戶對網上銀行的哪些產品或者業務有需求,挖掘潛在的、有實力的客戶,將這些客戶作為網上銀行促銷活動的重點客戶。
2.3優化促銷活動流程在網上銀行促銷活動中運用數據挖掘技術,采用運用關聯分析,挖掘傳統銀行渠道重點產品和網上銀行系統重點產品的業務數據,挖掘非網絡銀行系統和網絡銀行系統業務以及網絡銀行系統不同業務或者產品之間的關聯關系,通過數據挖掘技術尋找符合網上銀行系統運營條件的關聯關系,探索網上銀行系統不同產品和業務之間的依存性或者相似性[2],由此將網上銀行系統的某一項業務或者產品作為重點促銷產品來拉動其他業務和產品的銷售,并且可以將一些業務或者產品組合起來進行有針對性的促銷,提高網上銀行促銷活動效果。另外,挖掘優質、有潛力客戶特征,優質客戶可以銀行提供大量的業務收入和交易量,因此可以通過數據挖掘技術的聚類方法分析銀行系統的客戶構成,挖掘優質客戶的共同特征,為網上銀行促銷活動提供重要的依據。
3結束語
數據挖掘技術在網上銀行促銷活動中的運用,可以極大地提高網上銀行促銷活動的效果和效率,利用數據挖掘技術幫助銀行系統挖掘一些隱含、有價值的信息數據,結合網上銀行系統的特點和優勢,幫助銀行系統有針對性開展網上銀行促銷活動,深入挖掘優質客戶,增加網上銀行業務交易量,提高網上銀行系統的經濟效益,推動網上銀行系統的快速發展。
作者:周駿單位:上海浦東發展銀行
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
參考文獻:
蘇新寧楊建林鄧三鴻等:數據挖掘理論與技術[M].北京:科學技術文獻出版社,2003
1分類。分類技術可解決事件的歸類問題,在應用時,不僅可以完成數據分析的任務,還能對未來的數據類型進行必要的預測,比如,充分運用分類技術對客戶的具體傾向進行預測,確定客戶是否對相關研究感興趣,該技術方法也可應用在醫療領域,針對患者的病情,通過分類技術選取適宜的藥物。
2回歸。回歸技術的核心為已知變量的數值,在此基礎上,對其他種類的變量實施必要的預測。在一般條件下,回歸技術充分發揮了線性回歸的實際效果,但從現實的角度講,并不是所有問題都能用基本的線性回歸進行分析和解決的,為了更好的適應這些實際的問題,相關人員對此也正在著手研究全新的方法,并已取得了顯著的效果,許多新型分析方法應運而生,比如邏輯回歸以及神經網絡等。
3時間序列。時間序列技術實際上就是以過去的變量為基礎,分析和預測下一階段變量的方法。與回歸技術相同,同樣都是運用現有的組員完成預測任務的,但資源的時間序列是存在一定差異的。時間序列技術通常是在完整的時間流中截選一個時間區間,對應數據形成一整套單元,最后將此單元在時間流上進行滑動,從而獲取訓練集。
4描述型。圖形與可視化工具是十分重要的,是相關人員完成快速分析任務的重要手段之一,改善了傳統數據的枯燥與乏味,不僅實現了數據整體的分析,還能對其中的每一個細節實施細致的觀察與分析,在圖形模式的支持下,人們可以更容易的了解到數據信息中潛在的相互關系和模式。
5關聯分析。關聯分析技術是指在數據庫中快速獲取數據的相關性。較為常用的技術方法主要有兩種,分別為關聯規則與序列模式,其中關聯規則是在相同時間中存在的不同項之間的相關性,而序列模式的研究對象主要為具體的事件。
6聚類。聚類技術實質上就是數據庫的分類,組間差別盡可能的明顯,而同一組內的數據要盡可能的相似或相同。聚類技術與分類技術存在很大的區別,在實施聚類以前,并不了解數據組的具體數量,分組的方法和依據也不知曉,所以在聚類完成以后,需要得到專業人士的分析和解釋。
二、經濟普查的根本目的與重要意義
1.根本目的。經濟普查是為了充分了解我國產業現階段發展的具體規模和實際效益,并創建完善的基本單位數據庫和對應的管理系統,為社會可持續發展方針的落實奠定堅實的基礎,同時也為國民經濟的快速發展獻計獻策。經濟普查的基本目標是了解情況,建立相應數據庫則是必要的手段,最終目的是促進我國國民經濟的快速發展與壯大。
2.重要意義。經濟普查數據信息屬公共產品范疇,既是黨和政府認識我國基本國情的重要依據,也是判斷各行業發展與走向的有效方法。經濟普查的全面開展與落實,可以為廣大人民群眾開創更多的就業渠道,改善人們的生活質量,使國民經濟的改革與建設更加完善與全面。
三、經濟普查數據挖掘方法的應用
1.注冊服務器。在經濟普查中運用書庫挖掘方法,首先應注冊服務器。分析服務器是數據分析的主體,有著不可取代的作用,因此分析服務器一般為首要的注冊對象,其他種類的注冊對象都是它的一部分。通常情況下,分析服務器名稱要與對應網絡名稱保持一致。
2.創建數據倉庫。在分析服務器注冊完成以后,即可在該服務器的基礎上建立各類數據庫,由于數據庫中還缺乏具體的對象,因此可認定該數據庫為空。為了使其發揮出更好的挖掘效果,還需充分考慮實際情況,創建適宜的研究對象。在計算機硬盤中尋找對應的安裝目錄,并在下分的子文件找到并觀察經濟普查工作的數據庫,確定文件的實際大小,在文件中存在數據庫操作方面所需的文件,這些文件主要以事件日志及數據的方式存在,且初始物理大小均為1M,在運行時一般以10%的速度增長。
3.建立索引。在上述操作完成以后,即可建立經濟普查相關的數據庫,但數據庫本身只是一種數據信息的存儲單元,想要使其發揮出最佳的效果,還需在數據庫的基礎上建立數據表,并建立與SQL操作所對應數據源,實際情況中滿足選取條件的數據源有很多種,由于該操作事先已經完成了數據表的建立,所以該數據庫中的數據類型僅有SQL這一種形式。
4.連接數據源。一般而言,數據庫創建完成以后的首要建立目標為數據源,數據源在數據庫中具有指定源數據的作用,數據庫的基本數據類型有很多種形式,為了滿足數據庫使用的基本需求,可在同一種數據庫中設置多種數據源。連接數據源是為了讓數據挖掘更好的進行,在數據源連接完成以后,可在相關軟件的支持下,完成數據挖掘的各項操作。
四、結語
隨著國家政府出資進行的數據挖掘科研項目的逐年增多,我國高等院校都在競相開展數據挖掘課程的理論知識以及實際應用分析。而該課程的教學目的就是使學生掌握扎實的數據挖掘理論知識,并且能夠在日后的工作實踐中熟練應用已經掌握的理論知識。目前數據挖掘課程已經成為計算機領域的一大熱門學科,而計算機領域又是遍布全球的研究應用領域之一,因此為數據挖掘課程開設雙語教學模式較之其他學科有優勢。
1.1人力資源優勢現在我國所有的高等院校的本科生及其以上學歷的學生都具有一定的英語基礎。其次計算機領域的教師大多數也具備良好的英語條件,尤其是那些部分具有國外留學經歷的教師,只要有外語授課經歷,那么稍加培訓就可以很輕松勝任雙語教師的職位。并且計算機領域的教師,他們對于計算機操作的熟練程度較之其他專業的教師高很多,他們更善于利用互聯網絡進行教學,在數據挖掘的實驗部分更容易解決技術上的難題。
1.2物質資源優勢數據挖掘雙語教學過程中,最好使用的是原版英文教材和資料。就目前我國大部分高等院校來看,還沒有多少數據挖掘的教材是出自國內,這就在一方面避免了很多“漢化版”教材帶來的歧義,以免對雙語教學的師生產生一定的誤導。與其他學科相比,數據挖掘課程原版英文教材更多一些。
2有關數據挖掘雙語教學的建議措施
隨著雙語教學模式的關注程度的不斷提升,怎么樣更加有效地開展數據挖掘課程雙語教學模式并提高教學質量,是各大高校未來一段時間關注的熱點話題。現建議從以下幾方面著手進行:
2.1各高校有關數據挖掘雙語教學政策方面雖然目前教育部已經出臺了相關政策用來扶持雙語教學,但是對于各大高校來說也應該及時制定相關方案,加大監督力度,早日使數據挖掘課程雙語教學模式步入正軌。比如,開設數據挖掘課程的各大高校首先要在意識上重視雙語教學,努力為雙語教學的開展創造良好的教學氛圍,然后要提供一定的資金來扶持雙語教學的順利開展,對學校中的雙語教師在薪酬以及課時安排方面要有一定的照顧,還要不斷制造機會鼓勵部分教師出國深造,定期對雙語教師進行培訓,使得他們不斷學習,保證雙語課程的長遠發展。
2.2師資力量方面在雙語教學模式中,教師是學生學習最直接的帶頭人,教師的能力和外語水平與教學質量有直接的聯系。從已有的教學活動來看,數據挖掘雙語教學課程的教師至少要有一定的國外留學和授課經歷,熟悉英語語言環境,從而能更準確地把握授課情況。其次,數據挖掘雙語教學課程的教師還要有非常扎實的數據挖掘理論知識。再次,數據挖掘雙語教學課程的教師還應該具備一定的科研探索能力,從而能在把握教材的基礎之上,也能把握學科的前沿。總而言之,數據挖掘雙語教師不僅僅英語水平高,專業知識扎實,還應該具有用英語表達數據挖掘專業知識的能力,同時又擁有很強的教學能力。
2.3教學資源方面雙語教學的基本原則是盡量使用原版外文教材和參考資料[5]。使用原版外文教材不僅使學生掌握最前沿的知識,更有利于促進更新教師的已有知識。教育部原副部長呂福源曾經說過:“教材是一個很關鍵的問題,必需大量地不斷引進國外原版材料,并以各種方式投入使用,才能保證我們培養出的學生是國際一流水平的。”由此可見引進外文原版教材的重要性。另外,在信息技術高速發展的今天,學生們的學習不能僅僅局限于書本那點有限知識,而是應該充分利用互聯網絡,提高自己的學習主動性,例如最近特別流行的MOOC,微課,以及百度百科和維基百科等網絡工具。
2.4教學理念和方法方面教學理念上要由傳統的教師“填鴨式”灌輸型變成教師引導型,即由教師占主導地位變成教師僅僅起到引領帶頭的作用,讓學生自己去探索去思考學習。在每堂課正式講課之前,教師可以采用先行組織者的授課方式,將問題拋給學生,讓學生帶著問題開始這一節課。在授課途中,學生也能隨時提出自己的問題和見解,像國外學生上課一樣,這樣整個課堂的學習氣氛就會被帶動起來。最后通過教師的引導和講解,同學們的討論,問題自然而然得到解決。整堂課下來,同學們既感覺不到累和枯燥,又能很好地掌握本堂課的知識,對于教師而言也是如此。總之,這種雙贏的教學理念值得推薦。在教學方法上,要兼顧不同英語水平的學生,適時地使用非語言行為。這些非語言行為不單單是指一些簡單的形體語言、表情配合等,更為關鍵的是諸如角色扮演、案例分析、游戲理論等一些能夠容易吸引學生參與意識的方法應用[6]。使用這些非語言行為的主要目的也是調動課堂氣氛,引導同學們積極參與到課堂中來,而不是為了雙語教學而進行雙語教學活動。
2.5數據挖掘課程雙語教學評價體系雙語教學的評價體系實際上是對雙語教學效果的檢驗過程,一般分為過程性評價和總結性評價兩種。其中過程性評價是在學習過程中分階段地對學習效果進行檢驗,總結性評價是在一段時間內對整個學習過程進行總結檢驗。這就要求在教學過程中密切關注學生的課堂表現,及時了解學生的學習效果,并且總結學生對課堂知識的掌握程度。從長遠分析的話,教師還要關注該課程的雙語教學效果在學生今后的工作生活中的應用價值,對學生的就業狀況進行跟蹤調查,并且分析總結雙語教學對社會起到的一定的影響。兩種評價手段都是為了在今后的數據挖掘雙語教學課程活動中起到一定的指導作用,而最終的目的是對社會的教育事業產生積極的長遠的影響并且能夠使國家的綜合國力得到進一步的提高。
3總結
關鍵詞:數據挖掘電子商務數據庫
一、引言
電子商務是指以Internet網絡為載體、利用數字化電子方式開展的商務活動。隨著網絡技術和數據庫技術的飛速發展,電子商務正顯示越來越強大的生命力。電子商務的發展促使公司內部收集了大量的數據,并且迫切需要將這些數據轉換成有用的信息和知識,為公司創造更多潛在的利潤。利用數據挖掘技術可以有效地幫助企業分析從網上獲取的大量數據,發現隱藏在其后的規律性,提取出有效信息,進而指導企業調整營銷策略,給客戶提供動態的個性化的高效率服務。
二、數據挖掘技術
1.數據挖掘
數據挖掘(DataMining),又稱數據庫中的知識發現(KnowledgeDiscoveryinDatabase,KDD),是從大量的、不完全的、有噪聲的、模糊的和隨機的數據中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。數據挖掘是一門廣義的交叉學科,它匯聚了不同領域尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的知識。數據挖掘技術從一開始就是面向應用領域,它不僅是面向特定數據庫的簡單檢索查詢調用,而且,要對數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指定實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。數據挖掘技術在金融、保險、電信、大型超市等積累有大量數據的電子商務行業有著廣泛的應用,如信用分析、風險分析、欺詐檢驗、用戶聚類分析、消費者習慣分析等。
2.數據挖掘過程
挖掘數據過程可以分為3個步驟:數據預處理、模式發現、模式分析。
(1)數據預處理。實際系統中的數據一般都具有不完全性、冗余性和模糊性。因此,數據挖掘一般不對原始數據進行挖掘,要通過預處理提供準確、簡潔的數據。預處理主要完成以下工作:包括合并數據,將多個文件或多個數據庫中的數據進行合并處理;選擇數據,提取出適合分析的數據集合;數據清洗、過濾,剔除一些無關記錄,將文件、圖形、圖像及多媒體等文件轉換成可便于數據挖掘的格式等。
(2)模式發現。模式發現階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識。可用于Web的挖掘技術有路徑選擇、關聯分析、分類規則、聚類分析、序列分析、依賴性建模等等。
(3)模式分析。模式分析是從模式發現階段獲得的模式、規則中過濾掉不感興趣的規則和模式。通過技術手段,對得到的模式進行數據分析,得出有意義的結論。常用的技術手段有:關聯規則、分類、聚類、序列模式等。
三、電子商務中幾種常用的數據挖掘方法
1.關聯規則
關聯規則是數據挖掘研究的主要模式之一,側重于確定數據中不同領域之間的關系,找出滿足給定條件下的多個域間的依賴關系。關聯規則挖掘對象一般是大型數據庫,該規則一般表示式為:A1∧A2∧…Am=>B1∧B2∧…Bm,其中,Ak(k=1,2,…,m),Bj(j=1,2,…,n)是數據庫中的數據項。有Support(A=>B)=P(A∪B),Confidence(A=>B)=P(A|B)。數據項之間的關聯,即根據一個事務中某些數據項的出現可以導出另一些數據項在同一事務中的出現。關聯分析的目的是挖掘出隱藏在數據間的相互關系。關聯規則用于尋找在同一個事件中出現的不同項的相關性,比如在一次購買活動中所買不同商品的相關性。關聯分析的典型例子是購物籃分析,描述顧客的購買行為,可以幫助零售商決定商品的擺放和捆綁銷售策略。如著名的(面包+黃油牛奶)例子就屬于關聯分析:在超市中,90%的顧客在購買面包和黃油的同時,也會購買牛奶。直觀的意義是:顧客在購買某種商品時有多大的傾向會購買另外一些商品。找出所有類似的關聯規則,對于企業確定生產銷售、產品分類設計、市場分析等多方面是有價值的。
2.聚類分析方法
類聚分析就是直接比較樣本中各事物之間的性質,將性質相近的歸為一類,而將性質差別較大的分在不同的類。對變量聚類計算變量之間的距離,對樣本聚類則計算樣本之間的距離。它的目的是使得屬于同一類別的個體之間的距離盡可能小,而不同類別上的個體間的距離盡可能大。
聚類分析用于把有相似特性的客戶、數據項集合到一起。在電子商務中,聚類分析常用于市場細分。根據已有客戶的數據,利用聚類技術將市場按客戶消費模式的相似性分為若干細分市場,以進行有針對性的市場營銷,提供更適合、更滿意的服務。如自動給一個特定的客戶聚類發送銷售郵件,為一個客戶聚類動態地改變一個特殊的站點等。通過對聚類的客戶特征的提取,電子商務網站還可以為客戶提供個性化的服務。
3.分類分析
分類系統是基于遺傳算法的機器學習中的一類,它包括一個簡單的基于串規則的并行生成子系統、規則評價子系統和遺傳算法子系統。分類系統正在被人們越來越多地應用于科學、工程和經濟領域中,是目前遺傳算法研究領域中一個非常活躍的領域。
分類分析是數據挖掘中應用最多的方法。分類要解決的問題是為一個事件或對象歸類,既可以用于分析已有的數據,也可以用來預測未來的數據。分類通過分析已知分類信息的歷史數據,總結出一個預測模型,預測哪些人可能會對郵寄廣告、產品目錄等有反應,可以針對這一類客戶的特點展開商務活動,提供個性化的信息服務。
4.序列模式
序列模式挖掘就是要挖掘出交易集之間有時間序列關系的模式。它挖掘的側重點在于分析數據間的前后或因果關系,找到那些“一些項跟隨另一些項”,以預測未來的訪問模式。序列模式分析和關聯分析類似,其目的也是為了挖掘數據之間的聯系,但序列模式分析的側重點在于分析數據間的前后序列關系。它能發現數據庫中形如“在某一段時間內,顧客購買商品A,接著購買商品B,而后購買商品C,即序列A-B-C出現的頻率較高”之類的知識。序列模式分析描述的問題是:在給定交易序列數據庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數作用在這個交易序列數據庫上,返回該數據庫中出現的高頻序列。在進行序列模式分析時,同樣也需要有用戶輸入最小置信度C和最小支持度S。
序列模式便于進行電子商務的組織,預測客戶的訪問模式,對客戶開展有針對性的廣告服務或者主動推薦客戶感興趣的頁面,以滿足訪問者的特定要求。
四、結束語
1內外部信息進行整合以及篩選
數據挖掘的另一個主要的作用便是在處理企業的內部以及外部的信息的基礎之上,對于涉及企業所有的信息進行整合以及篩選,最終目的是能夠提供對于企業的發展有著重要作用的信息。通過對于企業的內、外部信息進行合并以及挖掘,找出企業的內部以及外部之間相關的影響的信息。從而實現企業的內外部信息的綜合處理以及應用,在其中提取有價值的知識,并且增強企業的管理功能,提高企業的信息化管理的效率。
2數據挖掘在企業信息化之中的實際應用
企業的信息化的建設在企業之中是一項比較復雜并且需要長期的資金以及人力投資才能夠完成的事情,企業的管理者需要從企業的自身出發,從而選拔經驗比較豐富、技術水平較高、立場比較中立的主體對企業提供的數據進行診斷以及分析。數據挖掘本身與企業利潤沒有直接的關系,企業為了能夠使得數據挖掘帶來的效益表現在企業的利潤之上需要進行一次有關于數據挖掘的循環:確定目標、選擇數據集、數據挖掘、知識應用、計劃執行、結果反饋。
2.1企業信息診斷階段的應用企業的信息化的診斷階段主要包括預備、正式以及總結三個部分。首先要對企業的相關的經營活動,無論外部以及內部都需要進行原始數據的收集,其中可以包括企業的產供銷、研發過程管理以及外部經營環境等。然后整合到企業的數據庫之中,根據數據挖掘需要達到的目標,編寫數據挖掘需要的相應的數據算法,挖掘出相應的有價值的信息,從而為企業的發展戰略、外部環境、企業文化甚至組織機構以及制度管理提供數據依據。
2.2在客戶關系管理之中的應用數據挖掘之中非常重要的一點在于對于客戶的自身的行為進行分析,客戶的行為之中包括對于客戶的滿意程度、忠誠度、客戶異常、客戶保持等。在企業的經營生產之中,隨著商業數據的不斷增加,關于為了更好地服務客戶進行的數據挖掘起著至關重要的作用。在對客戶相關的數據挖掘之中,包含對于客戶的識別以及評價,分析客戶的相關行為的改變為企業帶來的變化,從而使得企業與客戶的關系達到最優。數據挖掘在客戶的管理方面能夠深化企業對于客戶本身的管理,跟蹤市場的變化,從而最終預測客戶的消費趨勢,最終開發出滿足客戶自身需要的個性化產品。
2.3在企業決策之中的應用我國市場經濟日益的規范化,市場經濟的規則日益可以進行科學地管理以及計算,企業在經營以及管理之中的決策正確與否直接關系著企業經營的利潤。在企業決策階段的數據挖掘的應用,主要表現在將數據挖掘所得到的有價值的信息或者相關的反饋,應用到企業的經營管理決策之中。根據數據挖掘所得來的信息制定相應的計劃并且在科學分析了數據之后,從而制定適應企業實際情況的制度以及獎懲條例,減少企業不必要的損失以及規避風險。
作者:秦軼翚馬濤單位:北京聯合大學師范學院
1.1安全技術資金不足
煤炭的持續開采會受到地質條件的直接影響,過去國家投入眾多的設施,使用至今均已出現老化,并且維修量非常大。隨著礦井的不斷延深,礦壓極度強化,巷道的維修任務更是不斷的增加,礦井的供電以及通風、提升與排水等都不能適應生產的需要。
1.2安全管理模式傳統
與西方發達產煤國家相比較,我國的煤礦使用技術研究起步很晚。并且人力、財力非常缺乏,某些重大的安全技術問題,比如沖擊地壓以及煤和瓦斯的突出、地熱以及突水等災害不能進行有效的預測和控制。且受到以往傳統運營思想的直接作用與影響以及各個企業的經濟實力的約束,我國的煤礦生產裝備和安全監控設施相對落后。井巷的斷面設計以及支護強度的確定、支護材料的型號選擇較小。生產設施功率以及礦井的供風量等富余參數非常低,極易出現事故。絕大多數的煤炭企業還是利用以往傳統的安全管理模式,各種報表計算仍是靠人工勞動并且精確度很低。信息傳送的時間較長,且速度較慢,管理者的工作重復性很大,資料查詢十分困難,并且工作效率很低。安全檢查以及等級鑒定等總是憑借主觀意念以及相關的經驗。
1.3安全信息管理體制不健全
安全信息可以說是安全管理工作的重要依據,它主要包括事故和職業傷害的有效記錄與分析統計,職業的安全衛生設施的相關研究與設計、生產以及檢驗技術,法律法規以及相應技術標準和其變化的動態,教育培訓以及宣傳和社會活動,國內的新型技術動態以及隱患評估與技術經濟類分析和咨詢、決策的體系。信息體制的健全是安全體制工程以及計算機技術的有效結合,可促使安全工作轉型為定性和定量的超前預測,不過大多數礦井還是處于起步與摸索階段,并未呈現出健全的體制,真正的使用還有待進一步的發展。
2空間數據挖掘技術
數據挖掘研究行業的持續進展,開始由起初的關系數據以及事務數據挖掘,發展至對空間數據庫的不斷挖掘。空間的信息還在逐漸地呈現各類信息體制的主體與基礎。空間數據是一項非常關鍵的數據,具有比普通關系數據庫和事務數據庫更豐富、復雜的相關語義信息,且蘊含了更豐富的知識。所以,雖說數據的挖掘最初是出現在關系數據挖掘以及事務的數據庫,不過因為空間數據庫中的發掘知識,這就很快引起了各個研究者的關注與重視。很多的數據挖掘類研究工作都是從關系型以及事務型數據庫拓展至空間數據庫的。在地學領域中,隨著衛星以及遙感技術的不斷使用,逐漸豐富的空間以及非空間的數據采集與儲存在較大空間數據庫中,大量的地理數據已經算是超過了人們的處理能力,并且傳統的地學分析很難在這些數據中萃取并發現地學知識,這也就給現階段的GIS帶來了很大的挑戰,急切的需要強化GIS相應的分析功能,提升GIS處理地學實際狀況的能力。數據挖掘以及知識發現的產生能滿足地球空間的數據處理要求,并推進了傳統地學空間分析的不斷發展。依據地學空間數據的特性,把數據挖掘的方式融進GIS技術中,呈現地學空間數據挖掘和知識發展的新地學數據分析理念與依據。
3煤礦安全管理水平的提升
3.1建設評價指標體制庫
評價指標體制庫是礦井的自然災害危害存在的具體參數式的知識庫。模型的組建務必要根據礦井的瓦斯以及水害等自然災害危害呈現的不同指標體制和其臨界值構建一定的指標體制庫,危害的警報識別參數關鍵是采掘工程的平面圖動態開采面以及相應的巷道。各種瓦斯的危害以及水害隱患和通風隱患均呈現一定的評價指標庫。
3.2構建專業的分析模型庫
依據瓦斯以及水害等諸多不同的礦井自然災害類別構建相關的專業性模型庫,比如瓦斯的災害預測,應根據礦井的地質條件以及煤層所賦存的狀況構建瓦斯的地質區分圖,再根據采掘工程的平面圖動態呈現的采掘信息以及相應的瓦斯分區構建關聯并實行相應的比較分析,確定可以采集區域未來的可采區域是不是高瓦斯區域。
3.3構建以GIS空間分析為基礎的方法庫
GIS空間分析可以說是礦井自然災害的隱患高度識別的關鍵性方式,并且還是安全故障警報的主要路徑。比如斷層的防水層的有效劃分,關鍵是根據斷層的保安煤柱來實行可靠的確定。斷層的保安煤柱確定可以利用GIS緩沖區域的分析得到。空間的統計分析以及多源信息有效擬合和數據挖掘亦是瓦斯和水害等安全隱患監測經常使用GIS空間分析方式,如物探水文的異常區域確定以及瓦斯突出相應的危險區域確定。
3.4決策支持體制與煤礦管理水平
評價指標體制庫以及模型庫、方式庫與圖形庫均是礦井的自然災害隱患識別和決策的最基礎。利用礦井的自然災害隱患識別決策來支持體系具體的功能呈現礦井的自然災害隱患識別以及決策分析,在根源處提高煤礦的安全管理水平。分類構建礦井的自然災害實時監控體系,進行動態跟蹤相應的災害實時數據,并事實呈現礦井的自然災害數據或是信息和自然災害的指標體系庫以及模型庫與知識庫、空間數據庫的合理化比較,并運用圖形庫的數據再通過GIS空間分析方式來確定安全隱患的,礦井自然災害的隱患實時警報并進行決策分析,以提交空間數據的自然災害隱患識別以及分析處理的決策性報告。
4結語
關鍵詞:遠程開放教育,數據挖掘,應用,智能化
1 前言
現代遠程開放教育的全過程基本上都是通過瀏覽網站的形式進行的,學生在Web上的行為都會產生大量的信息,這些信息在遠程教育的全過程中十分寶貴,充分挖掘這些信息及其背后潛在的信息,反饋來指導遠程教育中的各個環節,以此來為學生提供個性化的服務內容,增強遠程開放教育的競爭力。利用數據庫技術來存儲管理數據,利用網絡和計算機學習的方法來分析數據,從而挖掘出大量的隱藏在數據背后的知識,即數據庫中的知識發現---KDD(Knowledge Discovery in Databases),其中,數據挖掘技術便是最為關鍵的環節。論文參考網。基于遠程開放教育將是當前和未來教育的重要輔助系統,本文提出并介紹信了把數據挖掘技術應用于現代遠程開放教育系統中。
2 數據挖掘概述
2.1數據挖掘(DataMining)定義
數據挖掘就是從大量存儲的數據中,利用模式識別、統計和數學的技術,篩選發現新的有意義的關系、模式和趨勢的方法。就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它主要依靠人工智能、機器學習和統計學技術,對數據進行歸納推理,從中挖掘出潛在的模式,預測未來趨勢,為決策提供支持。
2.2數據挖掘的主要任務
(1)關聯分析。兩個或兩個以上變量的取值之間存在的規律性稱為關聯。數據關聯是數據庫中存在的一類重要的、可被發現的知識。關聯分析的目的是找出數據庫中隱藏的關聯網。
(2)聚類分析。聚類是把數據按照相似性歸納成若干類別,同一類中的數據彼此相似,不同類中的數據相異。
(3)分類。分類就是找出一個類別的概念描述,它代表了這類數據的整體信息。
(4)預測。預測是利用歷史數據找出變化規律,建立模型,并由此模型對未來數據的種類及特征進行預測。
(5)時序模式。時序模式是指通過時間序列搜索出的重復發生概率較高的模式。它是用己知的數據預測未來的值,但這些數據的區別是變量所處時間的不同。
(6)偏差分析。在偏差中包括很多有用的知識,數據庫中的數據存在很多異常情況,發現數據庫中數據存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。
2.3數據挖掘對象
根據信息存儲格式,用于挖掘的對象有關系數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、空間數據庫、時態數據庫、異質數據庫以及Internet等。
2.4數據挖掘技術實施的步驟
(1)確定業務對象。清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步。挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有評價,并以用戶能理解和觀察的方式將發現的知識呈現給用戶。
(2)數據準備。這個階段的工作包括數據集成、數據選擇、預分析和轉換。要對Web服務器上的數據進行挖掘,必須研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的東西。
(3)數據挖掘。這個階段就是利用數據挖掘工具對經過轉換的數據進行挖掘和發現知識的過程。不同的數據挖掘工具有不同的算法,面向不同的分析需求,并且當具體使用操作時,也在一定程度上受到數據分析人員的思維方式和行為習慣的影響。數據挖掘利用人工智能領域中一些已經成熟的算法和技術。如:人工神經網絡、遺傳算法、決策樹方法、鄰近搜索算法、規則推理、模糊邏輯、公式發現等來進行數據的挖掘。
(4)結果分析。論文參考網。數據挖掘的結果由分析人員根據發現知識的領域重要性、可信度和支持度等閥值來對發現結果進行評價,并以用戶能理解和觀察的方式將發現的知識呈現給用戶。通常會用到可視化技術。
(5)知識的同化。將分析所得到的知識集成到業務信息系統的組織結構中去。
3 現代遠程開放教育系統簡介
遠程開放教育系統能實現個性化學習、實時教學、實時考試和智能答疑。為每一個接受網絡遠程教育的學習者提供個性化的學習進程。能根據與當前學習者相類似的學生的學習模式自動地對其后繼知識的學習進行預測以及合理推薦,并對學習者的學習過程進行分階段的評價,依據其績效信息動態調整其學習難度、練習與測試內容,對學生提出的問題實現智能化答疑,對該學習者薄弱環節進行有效指導,做到因材施教和全天候學習。
遠程開放教育系統由用戶系統、WEB服務器、應用服務器、數據服務器、用戶數據庫和資源數據庫組成。
用戶系統用于實現遠程開放教育系統的顯示功能,其功能是:實現信息的和接受,管理員通過它來實現系統的管理、更新、維護等,主要是通過XML語言和HTTP協議實現WEB瀏覽器與WEB服務器的鏈接和信息通訊。WEB服務器用于完成遠程開放教育系統的事務處理,用于處理學習過程中的各種事務。應用服務器直接為WEB服務器提供相關服務,處理WEB服務器以及XML文檔組成的用戶的事務請求信息。論文參考網。數據庫服務器用于完成數據處理,為應用服務器提供相關服務,完成數據查詢、修改和更新等服務,并把運行結果反饋給應用服務器。資源數據庫中主要由遠程開放教育系統中要使用的課件庫、答疑庫、作業庫、試題庫和必要的超級鏈接等構成。用戶數據庫主要用于存儲遠程開放教育系統中要使用的的注冊檔案、用戶目前的學習內容、學習進展、作業情況和考試情況等信息。
4 數據挖掘技術在遠程開放教育中的應用
現代遠程開放教育是隨著現代信息技術的發展而產生的一種新型教育形式,其基本特征是利用計算機網絡和多媒體技術,提供豐富的教學資源供學習者選用,教學形式由原來的以教為主變為以學為主。數據挖掘技術在現代遠程開放教育中的應用主要有以下幾方面:
(1)在個性化學習方面的應用
由于每個學習者的知識背景、學習習慣和學習目標都不一樣,故個性化學習在遠程開放教育中就顯得非常重要。為了實現此功能,基于WEB的智能遠程開放教育系統首先要根據學習者的特點和學習目標來收集學習者的數據信息,然后對收集到的信息進行預處理,再應用一種合理的挖掘算法或綜合應用不同的算法,如關聯規則分析、聚類和分類技術、統計分析以及時序模式技術等,來處理此數據,最終發現用戶的訪問模式,但是通過模式挖掘后,生成的規則數目大、表達晦澀且不好用,這時就需要用到智能查詢機制、可視化和聯機分析等技術對模式進行分析評價,經過模式分析和應用技術處理后,選擇一種學習者易于理解和接受的表達方式將知識數據顯現出來。利用數據挖掘與學習內容綁定的技術,系統就可以以可視化方式來指導學習者學習和個性化發展,這樣系統就實現了個性化學習功能。
(2)在資源庫建設方面的應用
資源庫建設在整個系統中至關重要,為了建立覆蓋面廣、功能齊全的資源庫,我們就必須編制信息資源目錄,征集種類資源信息,并進行資源、資源信息篩選、資源信息整理和存儲;同時按學科門類建設積件庫。當老師在系統內制作課件,為了有針對性和避免重復,我們可以對所有學習者已選的課程進行聚類,并通過聚類學習算法來自動確定每門課程的類別標記。接著利用數據挖掘中的關聯規則,估計出一組相關同位類課程,再利用泛化關聯規則,找到其上位類課程,或利用序列模式,預測出與之有關的學生未來可能選擇的同級課程,最后圍繞學習者的需求權限進行課程設置。
(3)在實時教學方面的應用
在本系統中,由于引入了互聯網技術、人工智能技術、數據庫技術和知識發現技術,通過機器學習、統計分析等方法設計出了個性化處理引擎,從大量的數據中進行數據挖掘,提取有用的、潛在的信息。學生可以通過網絡實現每天24小時的學習,而且本系統可以更多且及時的了解到學生的學習學習進度、需求、能力、興趣愛好等方面的信息,并動態地根據這些信息調整學習計劃和進度,讓學生得到針對其“個性”的教育,實現因材施教。
(4)在智能答疑方面的應用
基于WEB的遠程教學系統中的智能答疑系統只要用戶能上網,就可解答學生在學習過程中產生的問題。它能根據學生用戶訪問日志、問題記錄等數據進行數據挖掘,用智能抽取的方法實現智能答疑。從用戶訪問日志和提問信息里面可以分析出學生的行為。智能答疑系統后臺存儲了大量的由經驗豐富的教師精心挑選的問題答案,對于用戶提出的問題.系統首先通過對問題的分析自動在數據庫中尋找最適合的答案。這樣通過數據挖掘,針對學生用戶提問記錄、日志不斷更新和調整學生用戶知識庫,使問題的回答更加精確。
(5)在實時考試方面的應用
本系統的實時考試系統是一個基于數據庫和WEB的遠程在線式實時的測試系統。它能考慮個別學習者的能力和特性,按照考試的目的和必要性,提供各種問項信息,如難易程度、辨別程度等。并且還能同步打分,提供成績進展情況,根據個人特性解釋問題,按個人及科目對考試結果進行各種統計分析和評價,并存入學生用戶數據中。這些功能的實現是由于系統采用關聯規則、聚類和分類工具對數據庫中抽取的數據進行處理,分析出學生的特性及其對課程各知識點的掌握程度,并結合學生的考試目的恰當地反饋給學生,這樣提高了學生學習的效率。
5 結束語
在現代遠程開放教育網站設計中,基于XML(ExtensibleMarkup Language,可擴展標記語言)的新一代系統設計環境,可以更好地描述半結構化和結構化的數據,更有利于進行數據搜索和挖掘。如何整合XML和Web服務技術,以此為契機開展數據挖掘和知識獲取,在現代遠程開放教育網站的設計中以學習者為中心,提供一種基于資源的學習,教學資源可以適應各種學習者的需要和背景進行不同的組合,提供更加優良的、個性化的服務。
參考文獻:
[1]李爽,陳麗.國內外網上智能答疑系統比較研究[J].北京,中國電化教育,2003(5)
[2]蘇新寧.數據挖掘理論與技術[M].北京:科學技術文獻出版社,2003
[3]趙丹群.數據挖掘:原理、方法及其應用[J].現代圖書情報技術,2000,(6)
[4]周云真,舒建文,王平根.據挖掘在基于WEB的智能遠程教育系統中的的應用[J] .南京:文教資料,2006(10)
摘 要 數據挖掘面對海量數據信息進行選擇與運用,在軟件工程快速發展的潮流中具有舉足輕重的作用。數據挖掘應對數據豐富而知識匱乏的挑戰,著眼于數據實用性對軟件工程知識庫的數據進行深度挖掘。關鍵詞 數據挖掘 軟件工程 技術中圖分類號:TP311
文獻標識碼:A
計算機領域新技術應用使各行業生成、收集和存儲了大量數據。大量信息數據給社會帶來方便也帶來大堆問題:信息過量,難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致而難以統一處理。一般數據庫系統可高效實現數據錄入、查詢與統計等功能,卻無法發現數據存在的關系和規則。如何辨析信息和如何不被信息淹沒已經成為現實問題。一、數據挖掘直面數據豐富而知識匱乏的挑戰
面對信息社會帶來的“數據豐富而知識匱乏”的現實挑戰,數據挖掘(Data Mining,DM)和知識發現(Knowledge Discovery,KD)技術應運而生,伴隨計算機新技術和新理論的出現而發展,在電信與銀行,生物及大型超市等領域運用效果顯著。數據挖掘有時又稱作數據庫知識發現(KDD),此術語出現于1989年,從數據集識別有效與新穎的,潛在有用的,最終可理解的模式過程。KDD過程常指多階段處理,包括數據準備與模式搜索,知識評價及反復修改求精;該過程要有智能性和自動性。有效性指發現新數據仍保持可信度,新穎性要求模式應是新的,潛在有用性指發現的知識將來有效用,最終可理解性要求發現模式能被用戶所理解,幾項綜合在一起稱為數據的科學性豍。
數據挖掘的界定。數據挖掘是從存放在數據庫與數據倉庫或其它存儲信息庫中的海量數據挖掘有趣知識過程。一般的定義是:數據挖掘是從大量、不完全、有噪聲、模糊、隨機的數據中抽取隱含其中,事先不為人所知、潛在、有效、新穎、有用和最終可理解知識的過程。研究人工智能學術人員和計算機技術專家通常所說數據挖掘名稱各異但實質一樣。自然世界數據以多種多樣形式存放,除最常見數字與字符等類型,還有許多復雜數據。復雜類型數據挖掘包括:空間數據挖掘和多媒體數據挖掘,時序數據挖掘和文本數據挖掘,Web數據挖掘與流數據挖掘等。數據挖掘與傳統數學統計分析有區別,數據挖掘在沒有明確假設前提下自動建立方程,可采用不同類型如文本、聲音、圖片等的數據挖掘興趣模式;統計數據分析工具側重被動分析,需建立方程或模型來與假設吻合,最終面對數字化數據;數據挖掘是主動發現型與預測型數據分析工具,分析重點在于預測未來未知潛在情況并解釋原因。二、軟件工程的產生與數據實用性
軟件工程概念源自軟件危機,20世紀60年代末的“軟件危機”這個詞語頻繁出現計算機軟件領域,泛指計算機軟件開發和維護所遇到的系列嚴重問題。在軟件開發和維護過程中的軟件危機表現為軟件需求的增長得不到滿足,軟件開發成本和進度無法控制,軟件質量難保證,軟件維護程度非常低,軟件成本不斷提高,軟件開發生產率趕不上計算機硬件發展和各種應用需求增長等。軟件危機產生的宏觀原因是軟件日益深入社會生活,軟件需求增長速度超過軟件生產率提高,具體軟件工程任務的許多困難來源于軟件工程所面臨任務和其他工程之間各種差異以及軟件和其他工業產品的差異,即特殊性。軟件開發和維護過程存在的問題,與計算機軟件本身特點有關,軟件開發過程進度很難衡量,軟件質量難以評價,管理和控制軟件開發過程困難等。計算機軟件專家認真研究解決軟件危機方法,逐步形成軟件工程概念,開辟工程學新領域即軟件工程學。軟件工程用工程、科學和數學原理與方法研制與維護計算機軟件有關技術及管理的方法。
軟件工程針對數據的處理具有系統的規范的系列辦法。1993年IEEE(電氣和電子工程師學會)給軟件工程綜合定義為:將系統化、規范和可度量的方法應用于軟件開發、測試、運行和維護全過程,即將工程化應用于軟件數據等設計中。軟件工程包括方法、工具和過程三個要素,方法是完成軟件工程項目技術手段;工具支持軟件開發、管理與文檔生成;過程支持軟件開發各個環節控制與管理。軟件工程的發展伴隨計算機與數據等相關技術的發展而進步。三、軟件工程的知識庫應用數據挖掘技術
蘊含數據的特殊軟件的生命周期也是一個極其復雜演變過程,各個階段都會產生大量軟件數據。在設計文檔與程序源代碼,交流歷史與Bug報告,軟件運行日志等方面產生的大量數據,必然存在著對軟件開發和維護具有重要價值的信息。如能充分利用數據挖掘技術發現這些數據隱藏的知識,可提高開發效率并避免錯誤,增強軟件系統運行穩定性和可信性。利用數據挖掘技術處理軟件產生大量數據想法在上世紀70年代就出現,但直到最近軟件數據挖掘領域才受到越來越多學者關注豏。軟件工程國際會議出現關于軟件數據挖掘研究工作組,許多數據挖掘會議與期刊陸續出現多篇高質量與軟件工程相關學術論文,軟件數據挖掘已成為越來越關注熱點的研究領域。
軟件數據挖掘針對軟件工程版本控制,設計文檔及程序源代碼演化歷史等進行挖掘,同時,我們也可設計軟件工程數據倉庫來統一存儲這些可利用的大量軟件的數據。應用傳統數據挖掘的經典算法來處理存放在軟件知識庫的各種數據,提取有用信息來輔助軟件設計、開發與維護。會為開發人員提供有效的幫助。通過利用關聯規則挖掘算法尋找那些經常被一起改變的實體如類、變量、函數、數據類型與控制語句等;或者利用關聯規則挖掘源代碼修改模式,挖掘存放在代碼庫軟件修改歷史模式;或者應用關聯規則挖掘實體間依賴性,改進系統架構相關研究;或者通過對用戶操作日志與系統運行狀態日志研究,建立基于用戶操作模式系統穩定性預測模型等等。
總之,軟件工程數據集軟件知識庫包含的關于軟件工程演化歷史大量有價值的信息數據,為研究和利用這兩類優質數據,數據挖掘技術大有可為。 注釋:連一峰等.基于模式挖掘的用戶行為異常檢測.計算機學報,第25卷第3期.2002,3.毛國君等編著.數據挖掘原理與算法.清華大學出版社,2007,1.王磊.基于用戶操作模式的系統穩定性研究.廣西師范大學碩士論文.2009,7.