真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁(yè) 精品范文 數(shù)據(jù)挖掘技術(shù)研究

數(shù)據(jù)挖掘技術(shù)研究

時(shí)間:2022-09-07 10:10:47

開(kāi)篇:寫(xiě)作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數(shù)據(jù)挖掘技術(shù)研究,希望這些內(nèi)容能成為您創(chuàng)作過(guò)程中的良師益友,陪伴您不斷探索和進(jìn)步。

第1篇

當(dāng)前,數(shù)據(jù)庫(kù)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展日趨成熟,世界上傳統(tǒng)商務(wù)也正在經(jīng)歷一次重大的改革,電子商務(wù)成為發(fā)展重點(diǎn)。電子商務(wù)的一個(gè)重要應(yīng)用技術(shù)就是數(shù)據(jù)挖掘技術(shù),并且數(shù)據(jù)挖掘技術(shù)可以給正確的商業(yè)決定提供可靠的保證和強(qiáng)有力的支持,因此,數(shù)據(jù)挖掘技術(shù)被認(rèn)為是電子商務(wù)中必不可少的工具。

一、數(shù)據(jù)挖掘技術(shù)的概念和應(yīng)用

數(shù)據(jù)挖掘就是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的大量數(shù)據(jù)進(jìn)行挖掘,來(lái)找出有意義的新的關(guān)聯(lián)趨勢(shì)和關(guān)聯(lián)模式的過(guò)程。從商業(yè)的角度看,數(shù)據(jù)挖掘技術(shù)是一個(gè)對(duì)商業(yè)信息進(jìn)行處理的新技術(shù),具有能夠分析、轉(zhuǎn)換、抽取和其他模型化處理商業(yè)數(shù)據(jù)庫(kù)中大量業(yè)務(wù)數(shù)據(jù),從中提取出能夠輔助商業(yè)決定的關(guān)鍵性數(shù)據(jù)的特點(diǎn)。

因?yàn)閿?shù)據(jù)挖掘可以給電子商務(wù)帶來(lái)顯著的經(jīng)濟(jì)效益,所以其在電子商務(wù)中也有越來(lái)越廣泛的應(yīng)用。

數(shù)據(jù)挖掘應(yīng)用于零售業(yè),能夠幫助商家識(shí)別顧客的購(gòu)買行為,發(fā)現(xiàn)顧客的購(gòu)買趨勢(shì)和模式,從而可以幫助商家有針對(duì)性的提高服務(wù)質(zhì)量,獲得更好的顧客滿意度與顧客保持力,提高貨物的銷量,設(shè)計(jì)出更好的貨物分銷與運(yùn)輸方法,降低商業(yè)成本。

數(shù)據(jù)挖掘應(yīng)用于金融領(lǐng)域,能夠幫助管理者分析客戶的信用情況與償還能力,并對(duì)其進(jìn)行分類和評(píng)級(jí),從而降低放貸的錯(cuò)誤率,提升資金的使用效率。通過(guò)數(shù)據(jù)挖掘,還可以找到在償還中有決定作用的主導(dǎo)因素,制定相應(yīng)的金融策略,還能夠發(fā)現(xiàn)洗黑錢和其它金融犯罪活動(dòng)。

二、如何選擇正確的數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)庫(kù)方法、神經(jīng)網(wǎng)絡(luò)方法、機(jī)器學(xué)習(xí)方法和統(tǒng)計(jì)方法都是數(shù)據(jù)挖掘所使用的技術(shù)。本文將從可獲得的數(shù)據(jù)與數(shù)據(jù)挖掘任務(wù)兩個(gè)方面來(lái)說(shuō)明如何選擇正確的數(shù)據(jù)挖掘技術(shù)。

2.1 可獲得的數(shù)據(jù)

數(shù)據(jù)挖掘可獲得的數(shù)據(jù)信息主要是內(nèi)容、記錄和字段類型之間的關(guān)系,并且對(duì)數(shù)據(jù)挖掘技術(shù)的選擇有影響的數(shù)據(jù)性質(zhì)有以下幾個(gè):

第一,數(shù)值字段:聚集檢測(cè)和MBR使用距離函數(shù)對(duì)數(shù)值字段進(jìn)行處理;神經(jīng)元網(wǎng)絡(luò)把所有的輸入轉(zhuǎn)化到0-1之間;決策樹(shù)使用splitter數(shù)值對(duì)數(shù)值字段進(jìn)行處理;關(guān)聯(lián)分析需要把數(shù)值變量區(qū)間轉(zhuǎn)化為種類變量區(qū)間,但是區(qū)間的選擇十分困難。

第二,種類字段:決策樹(shù)、連接分析、關(guān)聯(lián)分析都很適用于種類字段。

第三,多個(gè)非獨(dú)立的目標(biāo)字段:神經(jīng)元網(wǎng)絡(luò)可以很好地應(yīng)用于存在多個(gè)依賴變量的情況。

第四,自由文本數(shù)據(jù):采用MBR技術(shù)是最佳選擇。

第五,具有時(shí)間順序的數(shù)據(jù):關(guān)聯(lián)規(guī)則、神經(jīng)元網(wǎng)絡(luò)對(duì)有時(shí)間順序的數(shù)據(jù)有比較好的處理能力。時(shí)間順序也可以用決策樹(shù)處理,但是需要準(zhǔn)備較多的數(shù)據(jù)。

第六,每條記錄都有大量獨(dú)立的字段:關(guān)聯(lián)規(guī)則挖掘、MBR技術(shù)、神經(jīng)元網(wǎng)絡(luò)都會(huì)受到記錄中字段多的影響。但是決策樹(shù)就會(huì)受到程度較小的影響。

第七,變長(zhǎng)的記錄:只有連接分析和關(guān)聯(lián)規(guī)則能夠?qū)ψ冮L(zhǎng)的記錄進(jìn)行處理,而如果使用其它技術(shù),就需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:把一條記錄拆分為幾條記錄,每個(gè)都含有記錄號(hào);能夠生成一些統(tǒng)計(jì)字段。

2.2 數(shù)據(jù)挖掘任務(wù)

從數(shù)據(jù)中發(fā)現(xiàn)模式是數(shù)據(jù)挖掘的任務(wù)。在對(duì)某種數(shù)據(jù)挖掘技術(shù)進(jìn)行選擇之前,第一,要把需要解決的商業(yè)問(wèn)題轉(zhuǎn)化成正確的數(shù)據(jù)挖掘任務(wù);第二,依照數(shù)據(jù)挖掘的任務(wù)來(lái)決定使用幾種或者是哪一種數(shù)據(jù)挖掘技術(shù)。以下將以聚集和概念描述為例,對(duì)挖掘任務(wù)需要使用哪些挖掘技術(shù)進(jìn)行分析。

(1)聚集。聚集就是把整個(gè)數(shù)據(jù)庫(kù)分為不同的群組。其目的是使同一個(gè)群之間的數(shù)據(jù)盡量相似,而不同的群之間要有很明顯的差別。協(xié)助市場(chǎng)分析人員在客戶基本信息庫(kù)中找出不同的客戶群,并用購(gòu)買模式對(duì)不同客戶群的特征進(jìn)行刻畫(huà)是電子商務(wù)中對(duì)聚集的典型應(yīng)用。另外,聚類分析也能作為分類、特征等其他算法的預(yù)處理步驟,這些算法可以再在生成的簇上進(jìn)行處理。聚集與分類不同的是,在開(kāi)始之前一般不知道該把數(shù)據(jù)分成幾組和怎樣分,所以要有一個(gè)對(duì)業(yè)務(wù)特別熟悉的人在聚集之后對(duì)這樣分群的意義進(jìn)行解釋。一般情況下,需要經(jīng)過(guò)幾次反復(fù)的增加或刪除變量才能得到理想的結(jié)果。

(2)概念描述。描述式數(shù)據(jù)挖掘的最基本形式就是概念描述。概念描述以簡(jiǎn)潔匯總的形式對(duì)給定的任務(wù)的相關(guān)數(shù)據(jù)集進(jìn)行描述,提供數(shù)據(jù)的一般特征。一般,通過(guò)數(shù)據(jù)庫(kù)來(lái)查詢收集用戶指定類的數(shù)據(jù)。有兩種概念特征化的一般方法:面向?qū)傩詺w納的方法和基于數(shù)據(jù)立方體OLAP的方法,這兩種方法都是基于維或?qū)傩缘母拍罨椒āR话闶褂妹嫦驍?shù)據(jù)庫(kù)的方法實(shí)行概念描述挖掘,并且還能夠采用機(jī)器學(xué)習(xí)方法中的基于范例學(xué)習(xí)的技術(shù)來(lái)進(jìn)行。

三、小結(jié)

選擇能夠解決電子商務(wù)中一些問(wèn)題的數(shù)據(jù)挖掘技術(shù)的時(shí)候,需要根據(jù)具體問(wèn)題的特點(diǎn)來(lái)選擇合適的技術(shù)方法,在選擇了符合數(shù)據(jù)模型的算法之后,就要確定正確的模型與參數(shù)。并且要想很好的發(fā)揮數(shù)據(jù)挖掘能夠幫助企業(yè)在激烈的競(jìng)爭(zhēng)中做出正確決定的作用,就必須選對(duì)合適的數(shù)據(jù)挖掘工具。

參考文獻(xiàn)

[1]胡永祥.電子商務(wù)系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)研究[J].電子世界,2013,(24):25-25.

[2]徐羨文,鄭廈君.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)推薦中的應(yīng)用[J].電腦知識(shí)與技術(shù),2011,07(27):65-66.

第2篇

【關(guān)鍵詞】數(shù)據(jù)挖掘;電子商務(wù)系統(tǒng)

1.前言

數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過(guò)程。它是一門(mén)涉及面很廣的交叉學(xué)科,融合了人工智能、數(shù)據(jù)庫(kù)技術(shù)、模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)可視化等多個(gè)領(lǐng)域的理論和技術(shù),數(shù)據(jù)挖掘是一個(gè)包含多個(gè)處理步驟的知識(shí)發(fā)現(xiàn)過(guò)程,其主要內(nèi)容包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表達(dá)輸出等。

把數(shù)據(jù)挖掘技術(shù)應(yīng)用到電子商務(wù)系統(tǒng)中,開(kāi)發(fā)出基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)系統(tǒng)能夠加深和加強(qiáng)對(duì)電子商務(wù)系統(tǒng)數(shù)據(jù)的分析功能,為電子商務(wù)企業(yè)管理人員提供電子商務(wù)的預(yù)期信息,從而能很好的保證電子商務(wù)網(wǎng)站的運(yùn)行效果。

現(xiàn)在電子商務(wù)系統(tǒng)主要形式B2C,涉及的數(shù)據(jù)不僅包括客戶在電子商務(wù)網(wǎng)站上的交易數(shù)據(jù),還包括客戶的注冊(cè)信息數(shù)據(jù)和商品信息等數(shù)據(jù)。電子商務(wù)系統(tǒng)的數(shù)據(jù)有如下特點(diǎn):

(1)數(shù)據(jù)量大;

(2)數(shù)據(jù)質(zhì)量差;

(3)數(shù)據(jù)種類多。

2.電子商務(wù)系統(tǒng)功能模塊結(jié)構(gòu)設(shè)計(jì)

根據(jù)B2C電子商務(wù)系統(tǒng)設(shè)計(jì)的目標(biāo),管理業(yè)務(wù)流程,將這個(gè)B2C電子商務(wù)系統(tǒng)分為:會(huì)員注冊(cè)管理、會(huì)員帳戶管理、商品購(gòu)買管理、會(huì)員管理、商品類別管理、商品管理、優(yōu)惠券管理、訂單管理、留言板管理、商品評(píng)論管理、庫(kù)存管理、網(wǎng)站管理和數(shù)據(jù)挖掘管理等功能模塊(如圖1所示)。

3.數(shù)據(jù)挖掘管理模塊的設(shè)計(jì)

B2C電子商務(wù)數(shù)據(jù)挖掘管理模塊主要通過(guò)對(duì)電子商務(wù)企業(yè)當(dāng)前的和歷史的交易數(shù)據(jù)進(jìn)行分析。挖掘出其中隱含的知識(shí)和從中發(fā)現(xiàn)隱含的趨勢(shì)和規(guī)律。它主要包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊和數(shù)據(jù)挖掘結(jié)果顯示模塊。B2C電子商務(wù)數(shù)據(jù)挖掘系統(tǒng)從電子商務(wù)運(yùn)行商品數(shù)據(jù)庫(kù)、客戶信息數(shù)據(jù)庫(kù)和交易數(shù)據(jù)庫(kù)中獲取數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘算法的需要進(jìn)行數(shù)據(jù)預(yù)處理,并建立數(shù)據(jù)挖掘模型,供電子商務(wù)企業(yè)的用戶挖掘時(shí)使用。用戶只需要輸入簡(jiǎn)單的一些參數(shù),系統(tǒng)就會(huì)自動(dòng)的根據(jù)已建立的模型輸出預(yù)測(cè)結(jié)果。電子商務(wù)挖掘系統(tǒng)體系結(jié)構(gòu)如圖2所示。

3.1 數(shù)據(jù)預(yù)處理模塊

數(shù)據(jù)挖掘的處理對(duì)象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中,是長(zhǎng)期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上面進(jìn)行挖掘,需要做數(shù)據(jù)預(yù)處理工作,其一般包括數(shù)據(jù)的選擇、數(shù)據(jù)清理、數(shù)據(jù)集成和轉(zhuǎn)換。數(shù)據(jù)預(yù)處理是否做好將影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。這些處理技術(shù)在數(shù)據(jù)挖掘之前使用可以大大提高數(shù)據(jù)挖掘模式的質(zhì)量,降低實(shí)際挖掘所需要的時(shí)間。原始數(shù)據(jù)通過(guò)數(shù)據(jù)選擇、清理、集成和轉(zhuǎn)換后生成數(shù)據(jù)挖掘庫(kù),為下一步的數(shù)據(jù)挖掘做好準(zhǔn)備。

3.2 數(shù)據(jù)挖掘模塊

數(shù)據(jù)挖掘的目的是生成可以據(jù)其所示的含義采取行動(dòng)的知識(shí),也就是建立一個(gè)現(xiàn)實(shí)世界的模型。數(shù)據(jù)挖掘的本質(zhì)就是數(shù)學(xué)建模。在數(shù)據(jù)挖掘中,可以使用許多不同的模型,如分類模型、回歸模型、時(shí)間序列模型、聚類模型和關(guān)聯(lián)規(guī)則模型。針對(duì)同一模型,可以使用不同的算法進(jìn)行數(shù)據(jù)挖掘。算法的目的就是找到適合于數(shù)據(jù)的模型。數(shù)據(jù)挖掘涉及到多步驟、各系統(tǒng)間的交互、特殊解決方案及各步驟間的反復(fù)過(guò)程。

B2C電子商務(wù)網(wǎng)站中商品介紹頁(yè)面的擺放就好比商店里的貨架,商品介紹的擺放位置也會(huì)影響客戶對(duì)商品的購(gòu)買率。而商品之間的關(guān)聯(lián)性一般不是很容易看出來(lái)的,一般人很難聯(lián)想到商品之間的關(guān)聯(lián)性,只有實(shí)際上通過(guò)對(duì)大量的交易歷史數(shù)據(jù)的分析,才可以挖掘出它們之間的關(guān)聯(lián)性。在數(shù)據(jù)挖掘過(guò)程中對(duì)關(guān)聯(lián)產(chǎn)品和服務(wù)進(jìn)行深入挖掘,可以發(fā)現(xiàn)其中的關(guān)聯(lián)規(guī)則,利用關(guān)聯(lián)規(guī)則模型進(jìn)行數(shù)據(jù)挖掘可以了解客戶的購(gòu)買行為,這對(duì)于改進(jìn)B2C電子商務(wù)商業(yè)活動(dòng)的決策很有幫助。例如,可以通過(guò)改進(jìn)商品介紹位置的擺放(把顧客經(jīng)常同時(shí)買的商品擺放在一起),幫助如何規(guī)劃市場(chǎng)(互相搭配進(jìn)貨)等。而作為B2C電子商務(wù)網(wǎng)站。可以針對(duì)不同客戶特點(diǎn)動(dòng)態(tài)調(diào)整網(wǎng)站結(jié)構(gòu),使客戶訪問(wèn)的有關(guān)聯(lián)的網(wǎng)頁(yè)文件的鏈接更加直接,讓客戶更容易訪問(wèn)到自己想要的東西。這樣的網(wǎng)站更能吸引客戶,提高客戶的忠誠(chéng)度,提高網(wǎng)站的效益。

B2C電子商務(wù)網(wǎng)站網(wǎng)頁(yè)主要為顧客展示商品名稱或圖片,為顧客推薦與當(dāng)前感興趣商品更詳細(xì)或相關(guān)的網(wǎng)頁(yè)是個(gè)性化推薦的關(guān)鍵。根據(jù)客戶的注冊(cè)信息和訂單信息,通過(guò)回歸模型挖掘可以為不同的用戶提供個(gè)性化服務(wù),例如系統(tǒng)可以向客戶顯示那些可能引起客戶感興趣的新商品。

隨著“以客戶為中心”的經(jīng)營(yíng)理念不斷深入人心,分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營(yíng)的重要課題。通過(guò)對(duì)B2C電子商務(wù)系統(tǒng)收集的客戶的交易數(shù)據(jù)進(jìn)行聚類模型挖掘,可以確定不同類萬(wàn)方數(shù)據(jù)型客戶的行為模式,電子商務(wù)企業(yè)便可以采取相應(yīng)的營(yíng)銷措施,促使企業(yè)利潤(rùn)的最大化。

3.3 數(shù)據(jù)挖掘結(jié)果顯示模塊

數(shù)據(jù)挖掘結(jié)果的顯示模塊是將數(shù)據(jù)挖掘后得到的知識(shí)和結(jié)果用可視化形式表示出來(lái),例如采用圖形化界面把挖掘結(jié)果顯示給電子商務(wù)企業(yè)的管理人員。在建立好相關(guān)數(shù)學(xué)模型后,把實(shí)際數(shù)據(jù)作為輸入信息,通過(guò)挖掘模型的計(jì)算獲得預(yù)測(cè)結(jié)果。B2C電子商務(wù)企業(yè)要根據(jù)不同的挖掘結(jié)果做出不同的反應(yīng)。采取不同的措施,給顧客提供不同的服務(wù),在為顧客服務(wù)的同時(shí)也為自己的B2C電子商務(wù)企業(yè)獲取更多的利潤(rùn)。

4.結(jié)論

本文討論了把數(shù)據(jù)挖掘技術(shù)應(yīng)用于B2C電子商務(wù)系統(tǒng)中,并采用J2EE的B/S架構(gòu)將其實(shí)現(xiàn),系統(tǒng)采用客戶端、中間服務(wù)器和后臺(tái)數(shù)據(jù)庫(kù)三層架構(gòu)。利用數(shù)據(jù)挖掘技術(shù)可以提高B2C電子商務(wù)企業(yè)現(xiàn)代化管理水平方面發(fā)揮著積極的作用,它能夠提高B2C電子商務(wù)企業(yè)對(duì)客戶管理和商品管理方面信息的準(zhǔn)確性和及時(shí)性,可以幫助B2C電子商務(wù)企業(yè)網(wǎng)站的開(kāi)發(fā)人員及時(shí)、全面了解B2C電子商務(wù)企業(yè)網(wǎng)站運(yùn)營(yíng)情況和合理安排網(wǎng)頁(yè)的頁(yè)面布局,為不同瀏覽習(xí)慣的顧客提供個(gè)性化服務(wù),為各項(xiàng)具體工作提供技術(shù)、信息支持;有效地減少各種失誤并保證B2C電子商務(wù)企業(yè)網(wǎng)站的各項(xiàng)任務(wù)保質(zhì)保量、按計(jì)劃完成,從而提高電子商務(wù)企業(yè)網(wǎng)站的運(yùn)作效率。

參考文獻(xiàn)

[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版杜(第2版),2008.

[2]寰方,王煜,等.PaoloGiudici.實(shí)用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版,2004.

[3]廖芹,郝志峰.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國(guó)防工業(yè)出版社,2010.

第3篇

關(guān)鍵詞:電子商務(wù);數(shù)據(jù)挖掘;應(yīng)用

1概述

電子商務(wù)是指企業(yè)或個(gè)人以網(wǎng)絡(luò)為載體,應(yīng)用電子手段,利用現(xiàn)代信息技術(shù)進(jìn)行商務(wù)數(shù)據(jù)交換和開(kāi)展商務(wù)業(yè)務(wù)的活動(dòng)。隨著互聯(lián)網(wǎng)的迅速發(fā)展,電子商務(wù)比傳統(tǒng)商務(wù)具有更明顯的優(yōu)勢(shì),由于電子商務(wù)具有方便、靈活、快捷的特點(diǎn),使它已逐漸成為人們生活中不可缺少的活動(dòng)。目前電子商務(wù)平臺(tái)網(wǎng)站多,行業(yè)競(jìng)爭(zhēng)強(qiáng),為了獲得更多的客戶資源,電子商務(wù)網(wǎng)站必須加強(qiáng)客戶關(guān)系管理、改善經(jīng)營(yíng)理念、提升售后服務(wù)。數(shù)據(jù)挖掘是從數(shù)據(jù)集中識(shí)別出隱含的、潛在有用的、有效的,新穎的、能夠被理解的信息和知識(shí)的過(guò)程。由數(shù)據(jù)集合做出歸納推理,從中挖掘并進(jìn)行商業(yè)預(yù)判,能夠幫助電子商務(wù)企業(yè)決策層依據(jù)預(yù)判,對(duì)市場(chǎng)策略調(diào)整,將企業(yè)風(fēng)險(xiǎn)降低,從而做出正確的決策,企業(yè)利潤(rùn)將最大化。隨著電子商務(wù)的應(yīng)用日益廣泛,電子商務(wù)活動(dòng)中會(huì)產(chǎn)生大量有用的數(shù)據(jù),如何能夠數(shù)據(jù)挖掘出數(shù)據(jù)的參考價(jià)值?研究客戶的興趣和愛(ài)好,對(duì)客戶分門(mén)別類,將客戶心儀的商品分別推薦給相關(guān)客戶。因此,如何在電子商務(wù)平臺(tái)上進(jìn)行數(shù)據(jù)挖掘成為研究的熱點(diǎn)問(wèn)題。

2數(shù)據(jù)挖掘技術(shù)概述

數(shù)據(jù)挖掘(DataMining),也稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowl⁃edgeDiscoveryinDatabase,KDD)。數(shù)據(jù)挖掘一般是指從海量數(shù)據(jù)中應(yīng)用算法查找出隱藏的、未知的信息的過(guò)程。數(shù)據(jù)挖掘是一個(gè)在大數(shù)據(jù)資源中利用分析工具發(fā)現(xiàn)模型與數(shù)據(jù)之間關(guān)系的一個(gè)過(guò)程,數(shù)據(jù)挖掘?qū)Q策者尋找數(shù)據(jù)間潛在的某種關(guān)聯(lián),發(fā)現(xiàn)隱藏的因素起著關(guān)鍵作用。這些模式是有潛在價(jià)值的、并能夠被理解的。數(shù)據(jù)挖掘?qū)⑷斯ぶ悄堋C(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)、可視化、信息檢索、并行計(jì)算等多個(gè)領(lǐng)域的理論與技術(shù)融合在一起的一門(mén)多學(xué)科交叉學(xué)問(wèn),這些學(xué)科也對(duì)數(shù)據(jù)挖掘提供了很大的技術(shù)支撐。

3Web數(shù)據(jù)挖掘特點(diǎn)

Web數(shù)據(jù)挖掘就是數(shù)據(jù)挖掘在Web中的應(yīng)用。Web數(shù)據(jù)挖掘的目的是從萬(wàn)維網(wǎng)的網(wǎng)頁(yè)的內(nèi)容、超鏈接的結(jié)構(gòu)及使用日志記錄中找到有價(jià)值的數(shù)據(jù)或信息。依據(jù)挖掘過(guò)程中使用的數(shù)據(jù)類別,Web數(shù)據(jù)挖掘任務(wù)可分為:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用記錄挖掘。

1)Web內(nèi)容挖掘指從網(wǎng)頁(yè)中提取文字、圖片或其他組成網(wǎng)頁(yè)內(nèi)容的信息,挖掘?qū)ο笸ǔ0谋尽D形、音視頻、多媒體以及其他各種類型數(shù)據(jù)。

2)Web結(jié)構(gòu)挖掘是對(duì)Web頁(yè)面之間的結(jié)構(gòu)進(jìn)行挖掘,挖掘描述內(nèi)容是如何組織的,從Web的超鏈接結(jié)構(gòu)中尋找Web結(jié)構(gòu)和頁(yè)面結(jié)構(gòu)中的有價(jià)值模式。例如從這些鏈接中,我們可以找出哪些是重要的網(wǎng)頁(yè),依據(jù)網(wǎng)頁(yè)的主題,進(jìn)行自動(dòng)的聚類和分類,為了不同的目的從網(wǎng)頁(yè)中根據(jù)模式獲取有用的信息,從而提高檢索的質(zhì)量及效率。

3)Web使用記錄挖掘是根據(jù)對(duì)服務(wù)器上用戶訪問(wèn)時(shí)的訪問(wèn)記錄進(jìn)行挖掘的方法。Web使用挖掘?qū)⑷罩緮?shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù)來(lái)訪問(wèn)日志數(shù)據(jù),對(duì)用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。它用來(lái)提取關(guān)于客戶如何瀏覽和使用訪問(wèn)網(wǎng)頁(yè)的鏈接信息。如訪問(wèn)了哪些頁(yè)面?在每個(gè)頁(yè)面中所停留的時(shí)間?下一步點(diǎn)擊了什么?在什么樣的路線下退出瀏覽的?這些都是Web使用記錄挖掘所關(guān)心要解決的問(wèn)題。

4電子商務(wù)中Web挖掘中技術(shù)的應(yīng)用分析

1)電子商務(wù)中序列模式分析的應(yīng)用

序列模式數(shù)據(jù)挖掘就是要挖掘基于時(shí)間或其他序列的模式。如在一套按時(shí)間順序排列的會(huì)話或事務(wù)中一個(gè)項(xiàng)目有存在跟在另一個(gè)項(xiàng)目后面。通過(guò)這個(gè)方法,WEB銷售商可以預(yù)測(cè)未來(lái)的訪問(wèn)模式,以幫助針對(duì)特定用戶組進(jìn)行廣告排放設(shè)置。發(fā)現(xiàn)序列模式容易使客戶的行為被電子商務(wù)的組織者預(yù)測(cè),當(dāng)用戶瀏覽站點(diǎn)時(shí),盡可能地迎合每個(gè)用戶的瀏覽習(xí)慣并根據(jù)用戶感興趣的內(nèi)容不斷調(diào)整網(wǎng)頁(yè),盡可能地使每個(gè)用戶滿意。使用序列模式分析挖掘日志,可以發(fā)現(xiàn)客戶的訪問(wèn)序列模式。在萬(wàn)維網(wǎng)使用記錄挖掘應(yīng)用中,序列模式挖掘可以用于捕捉用戶路徑之中常用的導(dǎo)航路徑。當(dāng)用戶訪問(wèn)電子商務(wù)網(wǎng)站時(shí),網(wǎng)站管理員能夠搜索出這個(gè)訪問(wèn)者的對(duì)該網(wǎng)站的訪問(wèn)序列模式,將訪問(wèn)者感興趣但尚未瀏覽的頁(yè)面推薦給他。序列模式分析還能分析出商品購(gòu)買的前后順序,從而向客戶提出推薦。例如在搜索引擎是發(fā)出查詢請(qǐng)求、瀏覽網(wǎng)頁(yè)信息等,會(huì)彈出與這些信息相關(guān)的廣告。例如購(gòu)買了打印機(jī)的用戶,一般不久就會(huì)購(gòu)買如打印紙、硒鼓等打印耗材。優(yōu)秀的推薦系統(tǒng)將為客戶建立一個(gè)專屬商店,由每個(gè)客戶的特征來(lái)調(diào)整網(wǎng)站的內(nèi)容。也能由挖掘出的一些序列模式分析網(wǎng)站及產(chǎn)品促銷的效果。

2)電子商務(wù)中關(guān)聯(lián)規(guī)則的應(yīng)用

關(guān)聯(lián)規(guī)則是揭示數(shù)據(jù)之間隱含的相互關(guān)系,關(guān)聯(lián)分析的任務(wù)是發(fā)現(xiàn)事物間的關(guān)聯(lián)規(guī)則或相關(guān)程序。關(guān)聯(lián)規(guī)則挖掘的目標(biāo)是在數(shù)據(jù)項(xiàng)目中找出每一個(gè)數(shù)據(jù)信息的內(nèi)在關(guān)系。關(guān)聯(lián)規(guī)則挖掘就是要搜索出用戶在服務(wù)器上訪問(wèn)的內(nèi)容、頁(yè)面、文件之間的聯(lián)系,從而改進(jìn)電子商務(wù)網(wǎng)站設(shè)計(jì)。可以更好在組織站點(diǎn),減少用戶過(guò)濾網(wǎng)站信息的負(fù)擔(dān),哪些商品顧客會(huì)可能在一次購(gòu)物時(shí)同時(shí)購(gòu)買?關(guān)聯(lián)規(guī)則技術(shù)能夠通過(guò)購(gòu)物籃中的不同商品之間的聯(lián)系,分析顧客的購(gòu)物習(xí)慣。例如購(gòu)買牛奶的顧客90%會(huì)同時(shí)還購(gòu)買面包,這就是一條關(guān)聯(lián)規(guī)則,如果商店或電子商務(wù)網(wǎng)站將這兩種商品放在一起銷售,將會(huì)提高它們的銷量。關(guān)聯(lián)規(guī)則挖掘目標(biāo)是利用工具分析出顧客購(gòu)買商品間的聯(lián)系,也即典型購(gòu)物籃數(shù)據(jù)分析應(yīng)用。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)同類事件中不同項(xiàng)目的相關(guān)性,例如手機(jī)加充電寶,鼠標(biāo)加鼠標(biāo)墊等購(gòu)買習(xí)慣就屬于關(guān)聯(lián)分析。關(guān)聯(lián)規(guī)則挖掘技術(shù)可以用相應(yīng)算法找出關(guān)聯(lián)規(guī)則,例如在上述例子中,商家可以依據(jù)商品間的關(guān)聯(lián)改進(jìn)商品的擺放,如果顧客購(gòu)買了手機(jī)則將充電寶放入推薦的商品中,如果一些商品被同時(shí)購(gòu)買的概率較大,說(shuō)明這些商品存在關(guān)聯(lián)性,商家可以將這些有關(guān)聯(lián)的商品鏈接放在一起推薦給客戶,有利于商品的銷售,商家也根據(jù)關(guān)聯(lián)有效搭配進(jìn)貨,提升商品管理水平。如買了燈具的顧客,多半還會(huì)購(gòu)買開(kāi)關(guān)插座,因此,一般會(huì)將燈具與開(kāi)關(guān)插座等物品放在一個(gè)區(qū)域供顧客選購(gòu)。依據(jù)分析找出顧客所需要的商品的關(guān)聯(lián)規(guī)則,由挖掘分析結(jié)果向顧客推薦所需商品,也即向顧客提出可能會(huì)感興趣的商品推薦,將會(huì)大大提高商品的銷售量。

3)電子商務(wù)中路徑分析技術(shù)的應(yīng)用

路徑分析技術(shù)通過(guò)對(duì)Web服務(wù)器的日志文件中客戶訪問(wèn)站點(diǎn)的訪問(wèn)次數(shù)的分析,用來(lái)發(fā)現(xiàn)Web站點(diǎn)中最經(jīng)常訪問(wèn)的路徑來(lái)調(diào)整站點(diǎn)結(jié)構(gòu),從而幫助使用用戶以最快的速度找到其所需要的產(chǎn)品或是信息。例如在用戶訪問(wèn)某網(wǎng)站時(shí),如果有很多用戶不感興趣的頁(yè)面存在,就會(huì)影響用戶的網(wǎng)頁(yè)瀏覽速度,從而降低用戶的瀏覽興趣,同時(shí)也會(huì)使整個(gè)站點(diǎn)的維護(hù)成本提高。而利用路徑分析技術(shù)能夠全面地掌握網(wǎng)站各個(gè)頁(yè)面之間的關(guān)聯(lián)以及超鏈接之間的聯(lián)系,通過(guò)分析得出訪問(wèn)頻率最高的頁(yè)面,從而改進(jìn)網(wǎng)站結(jié)構(gòu)及頁(yè)面的設(shè)計(jì)。

4)電子商務(wù)中分類分析的應(yīng)用

分類技術(shù)在根據(jù)各種預(yù)定義規(guī)則進(jìn)行用戶建模的Web分析應(yīng)用中扮演著很重要的角色。例如,給出一組用戶事務(wù),可以計(jì)算每個(gè)用戶在某個(gè)期間內(nèi)購(gòu)買記錄總和。基于這些數(shù)據(jù),可以建立一個(gè)分類模型,將用戶分成有購(gòu)買傾向和沒(méi)有購(gòu)買傾向兩類,考慮的特征如用戶統(tǒng)計(jì)屬性以及他們的導(dǎo)航活動(dòng)。分類技術(shù)既可以用于預(yù)測(cè)哪些購(gòu)買客戶對(duì)于哪類促銷手段感興趣,也可以預(yù)測(cè)和劃分顧客類別。在電子商務(wù)中通過(guò)分類分析,可以得知各類客戶的興趣愛(ài)好和商品購(gòu)買意向,因而發(fā)現(xiàn)一些潛在的購(gòu)買客戶,從而為每一類客戶提供個(gè)性化的網(wǎng)絡(luò)服務(wù)及開(kāi)展針對(duì)性的商務(wù)活動(dòng)。通過(guò)分類定位模型輔助決策人員定位他們的最佳客戶和潛在客戶,提高客戶滿意度及忠誠(chéng)度,最大化客戶收益率,以降低成本,增加收入。

5)電子商務(wù)中聚類分析的應(yīng)用

聚類技術(shù)可以將具有相同特征的數(shù)據(jù)項(xiàng)聚成一類。聚類分析是對(duì)數(shù)據(jù)庫(kù)中相關(guān)數(shù)據(jù)進(jìn)行對(duì)比并找出各數(shù)據(jù)之間的關(guān)系,將不同性質(zhì)特征的數(shù)據(jù)進(jìn)行分類。聚類分析的目標(biāo)是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類。根據(jù)具有相同或相似的顧客購(gòu)買行為和顧客特征,利用聚類分析技術(shù)將市場(chǎng)有效地細(xì)分,細(xì)分后應(yīng)可每類市場(chǎng)都制定有針對(duì)性的市場(chǎng)營(yíng)銷策略。聚類分別有頁(yè)面聚類和用戶聚類兩種。用戶聚類是為了建立擁有相同瀏覽模式的用戶分組,可以在電子中商務(wù)中進(jìn)行市場(chǎng)劃分或給具有相似興趣的用戶提供個(gè)性化的Web內(nèi)容,更多在用戶分組上基于用戶統(tǒng)計(jì)屬性(如年齡、性別、收入等)的分析可以發(fā)現(xiàn)有價(jià)值的商業(yè)智能。在電子商務(wù)中將市場(chǎng)進(jìn)行細(xì)化的區(qū)分就是運(yùn)用聚類分析技術(shù)。聚類分析可根據(jù)顧客的購(gòu)買行為來(lái)劃分不同顧客特征的不同顧客群,通過(guò)聚類具有類似瀏覽行為的客戶,讓市場(chǎng)人員對(duì)顧客進(jìn)行類別細(xì)分,能夠給顧客提供更人性化的貼心服務(wù)。比如通過(guò)聚類技術(shù)分析,發(fā)現(xiàn)一些顧客喜歡訪問(wèn)有關(guān)汽車配件網(wǎng)頁(yè)內(nèi)容,就可以動(dòng)態(tài)改變站點(diǎn)內(nèi)容,讓網(wǎng)絡(luò)自動(dòng)地給這些顧客聚類發(fā)送有關(guān)汽車配件的新產(chǎn)品信息或郵件。分類和聚類往往是相互作用的。在電子商務(wù)中通過(guò)聚類行為或習(xí)性相似的顧客,給顧客提供更滿意的服務(wù)。技術(shù)人員在分析中先用聚類分析將要分析的數(shù)據(jù)進(jìn)行聚類細(xì)分,然后用分類分析對(duì)數(shù)據(jù)集合進(jìn)行分類標(biāo)記,再將該標(biāo)記重新進(jìn)行分類,一直如此循環(huán)兩種分析方法得到相對(duì)滿意的結(jié)果。

5結(jié)語(yǔ)

隨著互聯(lián)網(wǎng)的飛速發(fā)展,大數(shù)據(jù)分析應(yīng)用越來(lái)越廣。商業(yè)貿(mào)易中電子商務(wù)所占比例越來(lái)越大,使用web挖掘技術(shù)對(duì)商業(yè)海量數(shù)據(jù)進(jìn)行挖掘處理,分析客戶購(gòu)買喜好、跟蹤市場(chǎng)變化,調(diào)整銷售策略,對(duì)決策者做出有效決策及提高企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力有重要意義。

參考文獻(xiàn):

[1]龐英智.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].情報(bào)科學(xué),2011,29(2):235-240.

[2]馬宗亞,張會(huì)彥.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[J].現(xiàn)代經(jīng)濟(jì)信息,2014(6):23-24.

[3]徐劍彬.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].時(shí)代金融,2013(4):234-235.208

[4]周世東.Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究[D].北京交通大學(xué),2008.

第4篇

關(guān)鍵字:云計(jì)算;物聯(lián)網(wǎng);數(shù)據(jù)挖掘模式;研究

物聯(lián)網(wǎng)其實(shí)就是指物和物之間相互聯(lián)系的互聯(lián)網(wǎng),隨著社會(huì)科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步,促進(jìn)了互聯(lián)網(wǎng)的快速發(fā)展,也讓社會(huì)經(jīng)濟(jì)得到了很好的發(fā)展。云計(jì)算主要就是指對(duì)相關(guān)的信息進(jìn)行虛擬化的計(jì)算和存儲(chǔ),對(duì)各種信息在互聯(lián)網(wǎng)上進(jìn)行規(guī)范和整理,這樣就能夠有效的形成很多個(gè)計(jì)算中心和數(shù)據(jù)。

一、基于云計(jì)算的物聯(lián)網(wǎng)

物聯(lián)網(wǎng)其實(shí)就是一個(gè)比較大而且分布也非常廣泛的物和物的互聯(lián)網(wǎng),主要作用就是對(duì)生活中的各種事物進(jìn)行監(jiān)控,隨著物聯(lián)網(wǎng)的不斷發(fā)展,現(xiàn)在也接入了很多的應(yīng)用終端,其中就包括了湖泊、建筑物以及交通設(shè)施等。一般來(lái)說(shuō),云計(jì)算物聯(lián)網(wǎng)數(shù)據(jù)挖掘就是指通過(guò)對(duì)云計(jì)算來(lái)解決物聯(lián)網(wǎng)數(shù)據(jù)挖掘存在的問(wèn)題。首先建立一個(gè)能夠全面捕捉物聯(lián)網(wǎng)數(shù)據(jù)的分布式時(shí)空數(shù)據(jù)庫(kù),然后在云計(jì)算的平臺(tái)上,全面的對(duì)物聯(lián)網(wǎng)系統(tǒng)的數(shù)據(jù)進(jìn)行挖掘。云計(jì)算中的數(shù)據(jù)挖掘主要就是通過(guò)對(duì)相關(guān)的數(shù)據(jù)進(jìn)行分析研究,從而知道通過(guò)這種方式進(jìn)行數(shù)據(jù)挖掘,物聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)挖掘的相關(guān)工作將能夠被完美的執(zhí)行與完成。

二、基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)

在工作中,能夠提供高可用性和更多的動(dòng)態(tài)資源池的計(jì)算機(jī)平臺(tái),將能夠很好的實(shí)現(xiàn)云計(jì)算的數(shù)據(jù)挖掘。在對(duì)那些可用性比較高的應(yīng)用程序進(jìn)行開(kāi)發(fā)的時(shí)候就可以選擇使用基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái),在利用云計(jì)算對(duì)數(shù)據(jù)進(jìn)行挖掘的時(shí)候也可以采用基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)。一般情況下,可以通過(guò)軟件分層的理念,對(duì)物聯(lián)網(wǎng)的基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)系統(tǒng)進(jìn)行一定的分層處理。云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)從下而上可以分為算法層、任務(wù)層和用戶層三層。各層系統(tǒng)的相關(guān)工作,都需要相互配合才能夠完成。軟件中的下層可以向它的上層提供相關(guān)的服務(wù)內(nèi)容,而上層在對(duì)下層的服務(wù)進(jìn)行調(diào)用的時(shí)候主要就是通過(guò)上層層間的開(kāi)發(fā)接口來(lái)完成的,這樣就能夠有效的保證基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)系統(tǒng)當(dāng)中的各個(gè)層之間的功能能夠比較的獨(dú)立。采用這樣的一種設(shè)計(jì)模式主要就是為了在對(duì)系統(tǒng)進(jìn)行二次開(kāi)發(fā)的時(shí)候能夠比較的方便。

在構(gòu)建基于云計(jì)算數(shù)據(jù)挖掘模式的時(shí)候主要就是通過(guò)積極的應(yīng)用云計(jì)算的服務(wù)模式,那么在這樣的一種情況下建立起來(lái)的基于云計(jì)算數(shù)據(jù)挖掘平臺(tái)它們當(dāng)中的每一個(gè)部分在實(shí)際提供服務(wù)的過(guò)程當(dāng)中都能夠比較獨(dú)立的去完成。操作人員在使用基于云計(jì)算數(shù)據(jù)挖掘平臺(tái)的時(shí)候主要就是經(jīng)過(guò)互聯(lián)網(wǎng)來(lái)連接數(shù)據(jù)挖掘平臺(tái),在監(jiān)控使用賬戶的管理系統(tǒng)時(shí),主要就是在SaaS、PaaS以及DaaS這三個(gè)系統(tǒng)當(dāng)中來(lái)完成的。在數(shù)據(jù)挖掘平臺(tái)當(dāng)中的任何環(huán)節(jié)都是在云計(jì)算服務(wù)的模式中。在數(shù)據(jù)挖掘平臺(tái)當(dāng)中的賬戶管理系統(tǒng)主要就是指管理使用者的實(shí)際服務(wù)情況的一個(gè)系統(tǒng),它對(duì)使用者的賬戶信息有一個(gè)比較全面的記錄,它主要就是把用戶在平臺(tái)當(dāng)中使用設(shè)備的情況以及服務(wù)的情況比較詳細(xì)的記錄下來(lái)形成一個(gè)賬目,這樣就能夠?yàn)槭褂谜咛峁┮粋€(gè)比較全面的數(shù)據(jù)使用的資源。在數(shù)據(jù)挖掘平臺(tái)當(dāng)中的數(shù)據(jù)管理子系統(tǒng)主要是指管理用戶的數(shù)據(jù)資源。這個(gè)數(shù)據(jù)管理子系統(tǒng)主要就是在云計(jì)算中的DaaS服務(wù)模式下進(jìn)行工作的,用戶在購(gòu)買數(shù)據(jù)等相關(guān)活動(dòng)的時(shí)候就是通過(guò)這個(gè)系統(tǒng)來(lái)完成的。數(shù)據(jù)管理子系統(tǒng)能夠?qū)κ褂谜叩碾[私起到很好的保護(hù)作用,而且使用者在處理了數(shù)據(jù)之后還能夠進(jìn)行再次的出售。在數(shù)據(jù)挖掘平臺(tái)當(dāng)中的子挖掘系統(tǒng)主要的作用就是發(fā)現(xiàn)用戶數(shù)據(jù)當(dāng)中的知識(shí),讓數(shù)據(jù)挖掘目標(biāo)能夠有效的實(shí)現(xiàn),在在數(shù)據(jù)挖掘平臺(tái)中子挖掘系統(tǒng)是最主要的部分,它的專業(yè)性比較的強(qiáng)。

三、基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式

物聯(lián)網(wǎng)的整個(gè)環(huán)境決定了物聯(lián)網(wǎng)數(shù)據(jù)挖掘的模式,因?yàn)槲锫?lián)網(wǎng)當(dāng)中的數(shù)據(jù)類型比較復(fù)雜,而且物和物之間的關(guān)聯(lián)以及相關(guān)的特性也不一樣,那么這些情況可能就會(huì)使得在構(gòu)建物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式的時(shí)候就會(huì)和傳統(tǒng)的數(shù)據(jù)挖掘模式不相同。

在使用物聯(lián)網(wǎng)的過(guò)程中,常常會(huì)出現(xiàn)一些問(wèn)題,如在發(fā)送與接收數(shù)據(jù)的時(shí)候可能出現(xiàn)部分或者是全部信息出錯(cuò)甚至是丟失。出現(xiàn)這些現(xiàn)象的原因,可能是物聯(lián)網(wǎng)系統(tǒng)的原因,也可能是其他什么原因。那么基于云計(jì)算物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式就應(yīng)該要考慮到這種情況,在構(gòu)建物聯(lián)網(wǎng)數(shù)據(jù)挖掘應(yīng)用模型的時(shí)候,必須考慮對(duì)物與物之間的關(guān)系的表達(dá),這樣才能有效的解決數(shù)據(jù)的錯(cuò)誤與丟失。如果物與物存在間接的關(guān)系的時(shí)候,可以采用SVD模型或者是拉普拉斯變換模型進(jìn)行推導(dǎo)。如果物與物之間存在非常重要的直接關(guān)系時(shí),物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式應(yīng)該要具有表達(dá)出物和物之間直接關(guān)系的能力,這樣在對(duì)物和物的間接關(guān)系進(jìn)行推導(dǎo)的時(shí)候才會(huì)比較的方便。物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型當(dāng)中的一種就是基于超圖的物聯(lián)網(wǎng)數(shù)據(jù)模型,在超圖當(dāng)中的每一個(gè)變都能夠和很多的點(diǎn)進(jìn)行聯(lián)接,對(duì)于物聯(lián)網(wǎng)當(dāng)中數(shù)據(jù)之間比較復(fù)雜的關(guān)系可以通過(guò)超邊來(lái)進(jìn)行標(biāo)示。物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型當(dāng)中的另外一種就是基于馬爾科夫鏈的數(shù)據(jù)挖掘模型。在基于馬爾科夫鏈的數(shù)據(jù)挖掘模型中,對(duì)于進(jìn)行預(yù)測(cè)未來(lái)可能會(huì)出現(xiàn)的現(xiàn)象的概率時(shí),不需要根據(jù)以前的信息或知識(shí),只需要根據(jù)現(xiàn)在的信息或知識(shí)就能夠完成。在物聯(lián)網(wǎng)的數(shù)據(jù)實(shí)際應(yīng)用當(dāng)中,這一類問(wèn)題最常見(jiàn)的。

穩(wěn)定的可外推參數(shù)模型是物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型中的另外一種數(shù)據(jù)挖掘模型。在物聯(lián)網(wǎng)數(shù)據(jù)的實(shí)際應(yīng)用當(dāng)中,在進(jìn)行物理建模的時(shí)候應(yīng)該要先要了解到物和物之間的關(guān)系,然后建立起數(shù)據(jù)模型來(lái)描述數(shù)量上面的相互關(guān)系,但是因?yàn)槲锫?lián)網(wǎng)數(shù)據(jù)的類型比較復(fù)雜,有可能會(huì)出現(xiàn)錯(cuò)誤或者丟失的情況,所以采用傳統(tǒng)的方法進(jìn)行物理建模會(huì)有很多的困難。

參考文獻(xiàn)

[1]劉茂華,史文崇. 物聯(lián)網(wǎng)數(shù)據(jù)處理之淺論[J]. 計(jì)算機(jī)與信息技術(shù),2011,06:52-53.

[2]丁靜,楊善林,羅賀,丁帥. 云計(jì)算環(huán)境下的數(shù)據(jù)挖掘服務(wù)模式[J]. 計(jì)算機(jī)科學(xué),2012,S1:217-219+237.

作者簡(jiǎn)介:

第5篇

關(guān)鍵詞:隱私保護(hù);數(shù)據(jù)挖掘;數(shù)據(jù)庫(kù)應(yīng)用

0、引言

隨著網(wǎng)絡(luò)技術(shù)和通信技術(shù)的日益成熟以及網(wǎng)絡(luò)通信帶寬的不斷增加,越來(lái)越多的數(shù)據(jù)在網(wǎng)上進(jìn)行和交換,豐富的數(shù)據(jù)資源一方面加大了數(shù)據(jù)分析和數(shù)據(jù)挖掘的需求,另一方面,數(shù)據(jù)資源的隱私保護(hù)問(wèn)題給數(shù)據(jù)挖掘提出了新的挑戰(zhàn)。

1 隱私保護(hù)中的關(guān)鍵問(wèn)題

1.1 隱私

隱私是指?jìng)€(gè)人、機(jī)構(gòu)等實(shí)體不愿意被外部知曉的信息[1]。比如,個(gè)人的行為模式、興趣愛(ài)好、健康狀況、公司的財(cái)務(wù)狀況等。個(gè)人隱私即為數(shù)據(jù)所有者不愿意被披露的敏感信息,如個(gè)人的收入水平、健康狀況、興趣愛(ài)好等。由于人們對(duì)隱私的限定標(biāo)準(zhǔn)不同,對(duì)隱私的定義也有所差異。一般來(lái)說(shuō),任何可以確認(rèn)特定個(gè)人的,但個(gè)人不愿意披露的信息都可以稱為個(gè)人隱私。

1.2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),就是從大量數(shù)據(jù)中獲取有效地、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程,簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)[2]。數(shù)據(jù)挖掘可以對(duì)得到的數(shù)據(jù)庫(kù)查詢結(jié)果進(jìn)行高效、智能化的處理,從中自動(dòng)獲取先前未知的模式和信息。但是,倘若毫無(wú)限制地進(jìn)行挖掘,必然會(huì)對(duì)一些隱私數(shù)據(jù)造成侵犯。從本質(zhì)上說(shuō),數(shù)據(jù)挖掘是研究如何利用數(shù)據(jù)庫(kù)中現(xiàn)有的數(shù)據(jù)推導(dǎo)出未知的數(shù)據(jù),而隱私保護(hù)則是防止用戶推出敏感數(shù)據(jù)。形象地說(shuō),數(shù)據(jù)挖掘是進(jìn)攻,而隱私保護(hù)則是防守。

1.3 隱私保護(hù)度量標(biāo)準(zhǔn)

隱私保護(hù)技術(shù)在保護(hù)隱私的同時(shí),還要兼顧應(yīng)用價(jià)值和計(jì)算開(kāi)銷。綜合起來(lái),隱私保護(hù)技術(shù)的度量標(biāo)準(zhǔn)有以下三個(gè)方面:

(1)隱私保護(hù)度。 一般通過(guò)數(shù)據(jù)隱私的披露風(fēng)險(xiǎn)來(lái)反映,披露風(fēng)險(xiǎn)越小,隱私保護(hù)度越高[3]。

(2)數(shù)據(jù)質(zhì)量/服務(wù)質(zhì)量。在數(shù)據(jù)中,數(shù)據(jù)質(zhì)量是指數(shù)據(jù)的可用性,數(shù)據(jù)的可用性越高,數(shù)據(jù)質(zhì)量越好。一般采用信息丟失率(即信息扭曲度)[4]來(lái)衡量數(shù)據(jù)質(zhì)量的好壞。

(3)算法性能。一般利用時(shí)間復(fù)雜度對(duì)算法性能進(jìn)行度量。例如,時(shí)間復(fù)雜度為O(k)的近似k-匿名算法,顯然優(yōu)于復(fù)雜度為O(klogk)的近似算法。

2 數(shù)據(jù)隱私保護(hù)技術(shù)

在上述度量標(biāo)準(zhǔn)的基礎(chǔ)上,下面開(kāi)始對(duì)幾種主流的數(shù)據(jù)隱私保護(hù)技術(shù)進(jìn)行介紹和分析。

2.1 基于匿名的隱私保護(hù)技術(shù)

匿名技術(shù)是隱私保護(hù)中廣泛使用的技術(shù),通過(guò)隱藏或不收集用戶的身份敏感信息,允許用戶提交數(shù)據(jù)而且不暴露自己的身份[5]。因其處理簡(jiǎn)單,在數(shù)據(jù)庫(kù)應(yīng)用中較容易使用。然而通過(guò)匿名技術(shù)收集的數(shù)據(jù)難以保證質(zhì)量,因?yàn)樵跊](méi)有身份確認(rèn)的情況下大量用戶會(huì)提交無(wú)用的隨機(jī)數(shù)據(jù)。并且系統(tǒng)容易受到競(jìng)爭(zhēng)對(duì)手的攻擊。例如一個(gè)公司在數(shù)據(jù)庫(kù)系統(tǒng)中輸入大量的偽造數(shù)據(jù)來(lái)使自己生產(chǎn)的產(chǎn)品獲得更多的推薦。因此在數(shù)據(jù)庫(kù)應(yīng)用中確認(rèn)用戶的身份是十分必要的。

2.2 基于關(guān)聯(lián)規(guī)則的隱私保護(hù)技術(shù)

關(guān)聯(lián)規(guī)則挖掘是一種典型的數(shù)據(jù)挖掘方法,最早由Agrawal等人提出。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)存在于數(shù)據(jù)庫(kù)中的項(xiàng)目或?qū)傩蚤g的有趣關(guān)系。這些關(guān)系是預(yù)先未知的和被隱藏的,也就是說(shuō)不能通過(guò)數(shù)據(jù)庫(kù)管理系統(tǒng)所提供的邏輯操作或統(tǒng)計(jì)的方法得出。現(xiàn)有的各種關(guān)聯(lián)規(guī)則挖掘算法大致可分為搜索算法、層次算法、數(shù)據(jù)集劃分算法、抽樣算法等。關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘中最重要的方法之一,已經(jīng)也在隱私保護(hù)方面取得了一定的研究成果,可以利用到基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)服務(wù)中。關(guān)聯(lián)規(guī)則中隱私保護(hù)的基本策略有數(shù)據(jù)干擾和查詢限制兩大類[6]。

數(shù)據(jù)干擾策略就是對(duì)原始數(shù)據(jù)按照一定的規(guī)則進(jìn)行預(yù)變換,然后在經(jīng)過(guò)干擾的數(shù)據(jù)上運(yùn)行數(shù)據(jù)挖掘算法,得到所需的模式和規(guī)則。

查詢限制策略則是通過(guò)數(shù)據(jù)隱藏等方式來(lái)改變特定規(guī)則的支持度和置信度,然后用概率統(tǒng)計(jì)的方法或者分布式計(jì)算的方法得到所需的挖掘結(jié)果。

2.3 基于協(xié)同過(guò)濾的隱私保護(hù)技術(shù)

協(xié)同過(guò)濾推薦技術(shù)基于相似用戶群的興趣向目標(biāo)用戶產(chǎn)生推薦,是當(dāng)前數(shù)據(jù)庫(kù)服務(wù)中最成功、使用最廣泛的推薦技術(shù)之一。它只依賴于用戶對(duì)項(xiàng)目的評(píng)分矩陣,因此對(duì)于各種特定應(yīng)用都有很好的適應(yīng)性,可提高數(shù)據(jù)應(yīng)用系統(tǒng)的可擴(kuò)展性和推薦質(zhì)量。與其他數(shù)據(jù)挖掘技術(shù)一起,在協(xié)同過(guò)濾算法中加入隱私保護(hù)機(jī)制近年來(lái)引起了越來(lái)越多的學(xué)者的研究興趣,是一個(gè)嶄新的領(lǐng)域,需要得到更多的關(guān)注。目前協(xié)同過(guò)濾中隱私保護(hù)技術(shù)基本可以分為基于密碼學(xué)的方法和數(shù)據(jù)變換兩大類[7]。

基于密碼學(xué)的方法是通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行加密處理的方法。安全多方計(jì)算是分布式環(huán)境下的一種加密方法,是目前數(shù)據(jù)服務(wù)協(xié)同過(guò)濾中最行之有效的隱私保護(hù)方法。

數(shù)據(jù)變換是對(duì)原始數(shù)據(jù)進(jìn)行變換處理的方法。Clifton等人討論了幾種防止對(duì)數(shù)據(jù)過(guò)分挖掘的方法,主要包括對(duì)數(shù)據(jù)增加噪聲、消除數(shù)據(jù)中的附加信息、故意增加錯(cuò)誤數(shù)據(jù)等。數(shù)據(jù)變換在協(xié)同過(guò)濾的隱私保護(hù)中得到了廣泛應(yīng)用。

3 數(shù)據(jù)隱私保護(hù)技術(shù)的發(fā)展

在總結(jié)當(dāng)前數(shù)據(jù)隱私保護(hù)現(xiàn)狀的前提下,對(duì)于未來(lái)數(shù)據(jù)隱私保護(hù)技術(shù)的發(fā)展,可以從如下幾點(diǎn)入手:

(1)高準(zhǔn)確度的方法。盡可能完整地生成相應(yīng)規(guī)則,而不遺漏重要規(guī)則,并且所生成規(guī)則的準(zhǔn)確度也不應(yīng)有明顯的降低。

(2)高性能的方法。提出具有優(yōu)良性能的相關(guān)方法,包括時(shí)間性能與空間開(kāi)銷,以及網(wǎng)絡(luò)開(kāi)銷。

(3)適用于分布環(huán)境的方法。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,如何在分布式環(huán)境下進(jìn)行各種隱私保護(hù)的數(shù)據(jù)挖掘,也將是一個(gè)重要的研究方向。

4 結(jié)束語(yǔ)

本文綜述了數(shù)據(jù)隱私保護(hù)技術(shù)研究的發(fā)展現(xiàn)狀,并分別對(duì)當(dāng)前主流的三類隱私保護(hù)技術(shù)進(jìn)行了分析總結(jié),還對(duì)未來(lái)數(shù)據(jù)隱私保護(hù)技術(shù)的發(fā)展提出了幾點(diǎn)看法。然而數(shù)據(jù)隱私保護(hù)技術(shù)的研究仍然面臨著許多挑戰(zhàn),需要更深入的研究使其在實(shí)際系統(tǒng)中得到更多應(yīng)用,真正有效保護(hù)用戶的信息和隱私安全。隨著信息技術(shù)的發(fā)展,數(shù)據(jù)庫(kù)系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫(kù)服務(wù)中隱私保護(hù)技術(shù)也會(huì)得到更多的重視和研究。(作者單位:天津師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院)

參考文獻(xiàn):

[1] 周水庚,李豐,陶宇飛,等.面向數(shù)據(jù)庫(kù)應(yīng)用的隱私保護(hù)研究綜述[J].軟件學(xué)報(bào),2009,32(5):847-858.

[2] 華蓓,鐘誠(chéng).?dāng)?shù)據(jù)挖掘中的隱私保護(hù)技術(shù)進(jìn)展分析[J].微電子學(xué)與計(jì)算機(jī),2009,26(8):38-41.

[3] 田秀霞,王曉玲,高明,等.?dāng)?shù)據(jù)庫(kù)服務(wù)——安全與隱私保護(hù)[J].軟件學(xué)報(bào),2010,21(5):991-1006.

[4] 朱勤,駱軼姝,樂(lè)嘉錦.?dāng)?shù)據(jù)庫(kù)隱私保護(hù)技術(shù)研究[J].東華大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,32(5):21-25.

[5] 王平水,王建.匿名化隱私保護(hù)技術(shù)研究綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(2):248-252.

第6篇

Linear Algebra Tools for Data Mining

2012,880 p

Hardcover

ISBN9789814383493

Dan A Simovici著

隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)逐漸走向了應(yīng)用的前臺(tái)。從文本檢索到社交關(guān)系挖掘,從計(jì)算機(jī)視覺(jué)到語(yǔ)音識(shí)別,從推薦系統(tǒng)到網(wǎng)絡(luò)安全,眾多應(yīng)用領(lǐng)域都需要數(shù)據(jù)挖掘技術(shù)的支撐。而隨著數(shù)據(jù)規(guī)模的膨脹,數(shù)據(jù)挖掘技術(shù)也面臨著如何提高效率、提高可擴(kuò)展性的挑戰(zhàn)。為此科學(xué)家們提出很多解決思路,其中基于矩陣計(jì)算或線性代數(shù)的數(shù)據(jù)挖掘技術(shù)因其易于并行化且計(jì)算效率相對(duì)較高等優(yōu)勢(shì)而受到研究人員的青睞。而對(duì)于計(jì)算機(jī)科學(xué)或者工科計(jì)算技術(shù)的教材來(lái)說(shuō),一般只對(duì)線性代數(shù)的理論和技術(shù)進(jìn)行講解,很少能與實(shí)際應(yīng)用進(jìn)行結(jié)合。本書(shū)的目的就是希望彌補(bǔ)這一空白,把傳統(tǒng)的線性代數(shù)內(nèi)容與最新的數(shù)據(jù)挖掘技術(shù)結(jié)合在一起展示給人們。

本書(shū)分為線性代數(shù)理論部分和數(shù)據(jù)挖掘應(yīng)用部分,共包含16章。線性代數(shù)部分,含第1-10章:1.通過(guò)基本代數(shù)結(jié)構(gòu)的建立引入線性空間;2.矩陣的概念;3.MATLAB的基本編程;4.行列式;5.線性空間中的范式;6.內(nèi)積空間;7.凸性;8.特征值;9.相似和譜;10.矩陣的SVD(奇異值分解)。第2部分講解了線性代數(shù)在數(shù)據(jù)挖掘中的應(yīng)用,含第11-16章:11.矩陣在圖中的應(yīng)用;12.數(shù)據(jù)采樣矩陣;13.最小二乘近似和數(shù)據(jù)挖掘;14.維度約減技術(shù);15.kMeans聚類;16.圖的譜和譜聚類。

本書(shū)非常好地把線性代數(shù)和數(shù)據(jù)挖掘結(jié)合起來(lái)進(jìn)行介紹,使得科研人員不僅能深化對(duì)于矩陣和線性代數(shù)理論的認(rèn)識(shí),又可以從應(yīng)用中理解各種方法的作用。本書(shū)的作者Dan A Simovici教授是馬薩諸塞波士頓大學(xué)計(jì)算機(jī)科學(xué)系的教授,多年來(lái)致力于將基本數(shù)學(xué)理論與數(shù)據(jù)挖掘技術(shù)相結(jié)合的教學(xué)研究工作。他目前還在撰寫(xiě)另一本圖書(shū)《數(shù)據(jù)挖掘的數(shù)學(xué)工具(Mathematical Tools for Data Mining)》,預(yù)計(jì)2014年會(huì)由Springer出版。本書(shū)非常適合在讀研究生和相關(guān)科研人員閱讀。

張志斌,副研究員

(中國(guó)科學(xué)院計(jì)算技術(shù)研究所)

第7篇

關(guān)鍵詞:大數(shù)據(jù)環(huán)境 數(shù)據(jù)挖掘 具體技術(shù)分析

中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2016)10-0004-02

技術(shù)在快速進(jìn)步,現(xiàn)今時(shí)期內(nèi)的網(wǎng)絡(luò)正在深入生活,網(wǎng)絡(luò)體現(xiàn)出重要的意義。從本質(zhì)上看,大數(shù)據(jù)不僅代表了日益增長(zhǎng)的數(shù)據(jù)量,同時(shí)也表現(xiàn)出更復(fù)雜的數(shù)據(jù)關(guān)系。增長(zhǎng)的過(guò)程中,達(dá)到特定規(guī)模的數(shù)據(jù)量將會(huì)發(fā)生質(zhì)變。大數(shù)據(jù)的具體類型包含了視頻和文本等信息[1]。對(duì)于信息搜集以及處理等,也應(yīng)當(dāng)確保更快的處理速度。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)挖掘的相關(guān)技術(shù)具備了獨(dú)特的技術(shù)優(yōu)勢(shì),然而同時(shí)也面對(duì)新階段的技術(shù)挑戰(zhàn)。面對(duì)新階段的新環(huán)境,有必要給出數(shù)據(jù)挖掘的特定技術(shù)流程以及技術(shù)方式。結(jié)合現(xiàn)階段面臨的挑戰(zhàn),給出完善思路。

一、數(shù)據(jù)挖掘在大數(shù)據(jù)環(huán)境下的重要價(jià)值

面對(duì)信息化的新時(shí)期,各行業(yè)都不可缺少數(shù)字化技術(shù)作為支持。最近幾年,互聯(lián)網(wǎng)正在快速普及,在這種基礎(chǔ)上也誕生了云計(jì)算和物聯(lián)網(wǎng)的相關(guān)技術(shù)。在當(dāng)前形勢(shì)下,全球范圍內(nèi)的網(wǎng)絡(luò)技術(shù)正在加快發(fā)展,爆炸式的數(shù)據(jù)增長(zhǎng)趨勢(shì)也因此變得更明顯。信息化沖擊著各個(gè)行業(yè),傳輸信息的方式也在相應(yīng)改變。信息化形勢(shì)下,對(duì)于信息形成、信息運(yùn)用以及信息共享都可以做到有效的整合[2]。在企業(yè)發(fā)展中,大數(shù)據(jù)起到了不可忽視的作用,同時(shí)也匯聚了各個(gè)層面的物力和人力。

從信息化角度看,企業(yè)在整合處理各類的數(shù)據(jù)時(shí)都需要借助電子化的方式。針對(duì)大量的資源和信息,應(yīng)當(dāng)符合交互式的處理方式和數(shù)據(jù)傳輸方式。數(shù)據(jù)化處理可以為企業(yè)提供精確的決策依據(jù),因此也創(chuàng)造了更高層次的生產(chǎn)效能。云計(jì)算方式能夠用來(lái)處理實(shí)時(shí)的數(shù)據(jù),從而減少了整體投入。

隨著技術(shù)進(jìn)步,云計(jì)算技術(shù)正在變得更成熟。與此同時(shí),云計(jì)算也配備了信息化的新式平臺(tái)。這樣做,在根本上確保了信息化的效能提高。在當(dāng)前時(shí)期內(nèi),大數(shù)據(jù)代表著全新的發(fā)展階段。這是因?yàn)椋髷?shù)據(jù)技術(shù)可以用來(lái)篩選數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)或者調(diào)用數(shù)據(jù),這些步驟和流程都不必耗費(fèi)額外的資源。從行業(yè)本身來(lái)看,數(shù)據(jù)交換以及信息交易的總數(shù)都變得更大,因此也構(gòu)建了規(guī)模更大的數(shù)據(jù)庫(kù)。針對(duì)存儲(chǔ)量很大的數(shù)據(jù)庫(kù),應(yīng)當(dāng)經(jīng)過(guò)篩選和分類,提取必需的信息數(shù)據(jù)。這樣做,就可以為各類用戶提供必需的信息。由此可見(jiàn),大數(shù)據(jù)環(huán)境中的數(shù)據(jù)挖掘具備更高的價(jià)值,有必要深入探析數(shù)據(jù)挖掘的相關(guān)技術(shù)方式[3]。

二、現(xiàn)今階段的技術(shù)難點(diǎn)

從技術(shù)構(gòu)架來(lái)看,數(shù)據(jù)庫(kù)表現(xiàn)出更復(fù)雜的技術(shù)架構(gòu),因而也增加了整體數(shù)據(jù)庫(kù)的管理難度。在傳統(tǒng)模式下,數(shù)據(jù)庫(kù)能夠用來(lái)處理較低層次的數(shù)據(jù),然而針對(duì)較高層次的信息數(shù)據(jù)并不能給予很好的處理。最近幾年,數(shù)據(jù)總量正在增大,數(shù)據(jù)庫(kù)管理也相應(yīng)改變了常用的流程和模式。近些年,分布式的全球數(shù)據(jù)庫(kù)也被創(chuàng)造出來(lái),在這種形勢(shì)下亟待擴(kuò)展整體的處理規(guī)模,以此來(lái)適應(yīng)現(xiàn)今階段的數(shù)據(jù)處理。然而應(yīng)該注意:傳統(tǒng)數(shù)據(jù)庫(kù)仍缺乏相應(yīng)的分區(qū)和類型,非結(jié)構(gòu)化的傾向十分明顯。

從實(shí)時(shí)性來(lái)看,數(shù)據(jù)處理中的實(shí)時(shí)性需求正在變得更強(qiáng),用戶希望獲得實(shí)時(shí)的處理方式和技術(shù)。最近幾年,數(shù)據(jù)庫(kù)表現(xiàn)出智能性和商業(yè)化的整體趨勢(shì),因此也相應(yīng)提高了實(shí)時(shí)性的需求。針對(duì)各類型的信息,用戶都有必要給予實(shí)時(shí)的解析和處理。大數(shù)據(jù)的整體背景有別于傳統(tǒng)背景,這是因?yàn)橹悄苁降纳虡I(yè)處理方式正在被推廣采用。因此,如果仍沿用常用的處理流程,那么很難符合新階段的實(shí)時(shí)處理需要[4]。

從硬件和軟件的存儲(chǔ)方式看,傳統(tǒng)類型的軟硬件也不再滿足需求。現(xiàn)今時(shí)期內(nèi),數(shù)據(jù)處理達(dá)到了更大的總量。與此相應(yīng),在信息保存的過(guò)程中也應(yīng)當(dāng)符合更高層次的精確性需求。數(shù)據(jù)量不斷增大的狀態(tài)下,只有配備高性能的軟硬件,才能夠給予必要的保障。實(shí)際上,軟件更新的整體速度仍較慢,無(wú)法適應(yīng)現(xiàn)有的形勢(shì)。

從技術(shù)分析的具體方式看,傳統(tǒng)方式的數(shù)據(jù)分析特指結(jié)構(gòu)化的分析。經(jīng)過(guò)分析之后,就可以歸納得到全面的體系,確保實(shí)效性的處理。然而,大數(shù)據(jù)形勢(shì)下的各行業(yè)數(shù)據(jù)總量都變得更大,因此也挑戰(zhàn)了常用的分析方式。

三、數(shù)據(jù)挖掘的技術(shù)優(yōu)勢(shì)

首先,數(shù)據(jù)挖掘符合了更強(qiáng)的實(shí)效性,滿足實(shí)時(shí)的處理。信息技術(shù)的新時(shí)期內(nèi),不同類型的數(shù)據(jù)也蘊(yùn)含了更多的知識(shí)價(jià)值。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析更多表現(xiàn)為線性處理,這種趨勢(shì)符合了新階段的處理需求。如果選擇了大數(shù)據(jù)這種處理形式,那么優(yōu)先選擇數(shù)據(jù)挖掘的相關(guān)技術(shù)方式。這是由于,數(shù)據(jù)挖掘可以運(yùn)用于流處理的過(guò)程,從而也確保了批量式的處理。針對(duì)大數(shù)據(jù)而言,業(yè)務(wù)處理也在客觀上需要設(shè)置實(shí)時(shí)性的處理框架,以此來(lái)滿足實(shí)效性的新需要。

其次,在動(dòng)態(tài)環(huán)境下,數(shù)據(jù)挖掘設(shè)置了特定的索引類型,能夠符合動(dòng)態(tài)變化的環(huán)境。從關(guān)系數(shù)據(jù)庫(kù)的角度看,索引可以加快整體的檢索速度。然而,傳統(tǒng)類型的數(shù)據(jù)檢索只設(shè)置了較少的幾類索引[5]。近些年來(lái),大數(shù)據(jù)的具體種類正在不斷增多,這種形勢(shì)下創(chuàng)建的索引就必須具備更簡(jiǎn)潔的特征,同時(shí)也必須符合高效化的整體要求。在數(shù)據(jù)挖掘中,索引形式是多樣的,并且可以實(shí)時(shí)調(diào)整。因此,大數(shù)據(jù)環(huán)境中的索引形式應(yīng)當(dāng)更新,這樣做才能便于提高實(shí)時(shí)查詢的效率。

第三,大數(shù)據(jù)環(huán)境中的數(shù)據(jù)挖掘還具備豐富的先驗(yàn)知識(shí)。傳統(tǒng)模式的數(shù)據(jù)分析通常選擇了關(guān)系型的信息存儲(chǔ),這種模式隱含了先驗(yàn)知識(shí)。具體而言,在探求特定對(duì)象的屬性時(shí),首先就需要明確可以取到的數(shù)值范圍。在進(jìn)入分析之前,有必要初步了解這種取值范圍。然而,大數(shù)據(jù)包含了更多的非結(jié)構(gòu)性信息,因此在客觀上也要求構(gòu)建與之匹配的內(nèi)部數(shù)據(jù)關(guān)系。數(shù)據(jù)是實(shí)時(shí)性的,因此并不具備先驗(yàn)知識(shí)。針對(duì)這種問(wèn)題,數(shù)據(jù)挖掘也可以給予妥善的處理。

四、具體技術(shù)實(shí)現(xiàn)

在新的環(huán)境下,數(shù)據(jù)挖掘技術(shù)受到了更多行業(yè)的認(rèn)可和接受,同時(shí)也逐漸擴(kuò)展了應(yīng)用范圍。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)挖掘具體可以劃分為數(shù)據(jù)遺傳、神經(jīng)網(wǎng)絡(luò)算法、粗糙集的算法、決策樹(shù)算法等類型。現(xiàn)今社會(huì)中的信息呈現(xiàn)爆炸的趨勢(shì),數(shù)據(jù)挖掘因此也逐漸具備了獨(dú)立性,構(gòu)成了獨(dú)立學(xué)科。用戶運(yùn)用分類技術(shù),就能夠針對(duì)特性類型的數(shù)據(jù)和信息予以分類,然后進(jìn)入數(shù)據(jù)挖掘的過(guò)程中。由此可見(jiàn),數(shù)據(jù)挖掘更加符合了大數(shù)據(jù)的特定環(huán)境和背景[6]。具體而言,數(shù)據(jù)挖掘的方式和技術(shù)手段包含了如下:

1.構(gòu)建矩陣模型

存儲(chǔ)大數(shù)據(jù)過(guò)程中,應(yīng)當(dāng)構(gòu)建精確的矩陣模型。在建模的基礎(chǔ)上,才能夠適當(dāng)運(yùn)用數(shù)據(jù)挖掘的方式。針對(duì)不同來(lái)源的數(shù)據(jù),也需要給出各異的處理方式。傳統(tǒng)處理方式下,通常構(gòu)建單一的數(shù)據(jù)庫(kù),用來(lái)存儲(chǔ)信息并且分析信息。實(shí)際上,這種方式在具體落實(shí)時(shí)也很困難,因?yàn)椴煌愋偷男畔朔彪s的內(nèi)容。大數(shù)據(jù)環(huán)境下,依照數(shù)據(jù)挖掘的思路,相關(guān)人員可以嘗試構(gòu)建相關(guān)的數(shù)據(jù)模型。這樣做,就能夠在根本上確保通用性,數(shù)據(jù)模型也能夠容納更多的數(shù)據(jù)內(nèi)容。矩陣模型屬于三維模型,模型具備立體性,因此更加便于數(shù)值分析。

2.設(shè)置關(guān)聯(lián)規(guī)則

如果要順利進(jìn)行數(shù)據(jù)挖掘,那么先要挖掘關(guān)聯(lián)規(guī)則。從特定屬性來(lái)看,關(guān)聯(lián)規(guī)則通常是隱含在屬性內(nèi)部的,是不可以預(yù)知的。對(duì)于此,只能依照選擇的統(tǒng)計(jì)方法來(lái)實(shí)現(xiàn)。從興趣度的角度看,關(guān)聯(lián)規(guī)則通常取決于置信度和支持度這兩個(gè)指標(biāo)。為了達(dá)到平衡,用戶就應(yīng)當(dāng)給出最小的置信度和支持度數(shù)據(jù)。數(shù)據(jù)挖掘的具體方式可以用來(lái)實(shí)現(xiàn)可靠的關(guān)聯(lián)規(guī)則,建立必要的存儲(chǔ)模型,用這種方式來(lái)集中表達(dá)關(guān)聯(lián)規(guī)則。

3.聚類算法的運(yùn)用

針對(duì)高維的空間,通常可以構(gòu)建特定的聚類算法。為了詳細(xì)區(qū)分不同類型的超圖,數(shù)據(jù)挖掘選擇了區(qū)分投影的方式。選擇這種方式,能夠細(xì)化不同類型的算法,進(jìn)而也提高了算法整體的精細(xì)度。利用數(shù)據(jù)挖掘,實(shí)現(xiàn)了更優(yōu)的超圖劃分,聚類計(jì)算得到的結(jié)果也表現(xiàn)得更加精確[7]。

結(jié)論

大數(shù)據(jù)背景下,數(shù)據(jù)庫(kù)更需要數(shù)據(jù)挖掘作為支持。通過(guò)數(shù)據(jù)挖掘,能夠篩選并且獲得可利用的數(shù)據(jù)信息,滿足新階段的用戶需求。經(jīng)濟(jì)在不斷增長(zhǎng),然而與此同時(shí)資源消耗的總量也相應(yīng)變得更大。大數(shù)據(jù)可以用于多領(lǐng)域的數(shù)據(jù)挖掘,因此也在根本上改變了原有的處理過(guò)程和處理方式。面對(duì)劇烈的市場(chǎng)競(jìng)爭(zhēng),數(shù)據(jù)挖掘的新方式也可以用于更廣的領(lǐng)域,同時(shí)也起到了更大作用。未來(lái)的實(shí)踐中,相關(guān)人員還需要結(jié)合大數(shù)據(jù)的特定背景,不斷修正并完善現(xiàn)今階段的數(shù)據(jù)挖掘手段。只有這樣,才可以為各行業(yè)提供必要的決策依據(jù),服務(wù)于數(shù)據(jù)挖掘的整體質(zhì)量提高。

參考文獻(xiàn)

[1]朱東華,張嶷,汪雪鋒等. 大數(shù)據(jù)環(huán)境下技術(shù)創(chuàng)新管理方法研究[J]. 科學(xué)學(xué)與科學(xué)技術(shù)管理,2013(04):172-180.

[2]王蘭成,劉曉亮. 網(wǎng)上數(shù)字檔案大數(shù)據(jù)分析中的知識(shí)挖掘技術(shù)研究[J]. 浙江檔案,2013(10):14-19.

[3]李海林.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J].計(jì)算機(jī)時(shí)代,2014(02):54-55.

[4]盧建昌,樊圍國(guó). 大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)在電力企業(yè)中的應(yīng)用[J]. 廣東電力,2014(09):88-94.

[5]黃取治. 大數(shù)據(jù)環(huán)境下O2O電商用戶數(shù)據(jù)挖掘探討[J]. 湖南科技學(xué)院學(xué)報(bào),2015(05):122-124.

[6]杜鋼虎. 大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)芻議[J]. 電子技術(shù)與軟件工程,2015(14):221.

第8篇

 

數(shù)據(jù)的挖掘是一項(xiàng)復(fù)雜的系統(tǒng)工程,其主要指的是在龐大數(shù)據(jù)中收集有價(jià)值信息數(shù)據(jù)的過(guò)程。對(duì)數(shù)據(jù)挖掘技術(shù)在軟件開(kāi)發(fā)信息管理中的應(yīng)用展開(kāi)研究,有著十分重要的現(xiàn)實(shí)意義。

 

1 數(shù)據(jù)挖掘技術(shù)概述

 

1.1 數(shù)據(jù)挖掘流程

 

通常而言,數(shù)據(jù)挖掘可劃分成四個(gè)階段,分別為選擇、預(yù)處理、挖掘以及吸收,如圖1所示。其中,選擇是就有著極強(qiáng)交互性的龐大數(shù)據(jù)而言的,在工作期間受信息數(shù)據(jù)不斷更新影響,通常要對(duì)數(shù)據(jù)展開(kāi)重新選擇;預(yù)處理則是將沒(méi)有得到加工的信息數(shù)據(jù)變換成適宜挖掘處理的形式;挖掘是經(jīng)由科學(xué)計(jì)算方法將預(yù)處理數(shù)據(jù)輸入系統(tǒng),在龐大數(shù)據(jù)中收集有價(jià)值的信息內(nèi)容,從而完成分類、聚類等工作;吸收也就是數(shù)據(jù)的后處理,其是為了將有價(jià)值的信息數(shù)據(jù)反饋給用戶,使數(shù)據(jù)預(yù)處理、挖掘環(huán)節(jié)具備真實(shí)意義。

 

1.2 數(shù)據(jù)挖掘技術(shù)

 

現(xiàn)階段,在軟件開(kāi)發(fā)中數(shù)據(jù)挖掘技術(shù)諸如分析、聚類、預(yù)測(cè)及統(tǒng)計(jì)等已經(jīng)得到較好的應(yīng)用,這些技術(shù)的應(yīng)用能夠使數(shù)據(jù)挖掘繁雜工程得到一定的簡(jiǎn)化,也就是在海量的數(shù)據(jù)中盡可能快的時(shí)間內(nèi)找出人們所需的信息,且對(duì)系統(tǒng)予以反饋供人們使用。在數(shù)據(jù)挖掘工程中,較為常見(jiàn)的技術(shù)包括關(guān)聯(lián)發(fā)現(xiàn)、分類樹(shù)、課時(shí)數(shù)據(jù)挖掘等,同時(shí)還有一些較為特殊的數(shù)據(jù)挖掘技術(shù)包括回歸建模、統(tǒng)計(jì)分析等。在軟件開(kāi)發(fā)信息管理中應(yīng)當(dāng)對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行科學(xué)合理的選擇,以完成好軟件開(kāi)發(fā)信息管理工作。

 

2 軟件開(kāi)發(fā)信息管理數(shù)據(jù)挖掘面臨的挑戰(zhàn)

 

2.1 軟件開(kāi)發(fā)數(shù)據(jù)較為復(fù)雜

 

現(xiàn)階段,軟件開(kāi)發(fā)數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)為主,前一種數(shù)據(jù)多牽涉軟件版本對(duì)應(yīng)信息及缺陷報(bào)告等,后一種數(shù)據(jù)主要涵蓋相關(guān)軟件代碼及文檔等。該兩方面數(shù)據(jù)無(wú)法使用同一種算法,然而它們相互又有著很大的相關(guān)性。換而言之,在數(shù)據(jù)挖掘算法開(kāi)發(fā)方面,為了盡可能權(quán)衡到兩方面數(shù)據(jù)的復(fù)雜關(guān)聯(lián),很大程度上提升數(shù)據(jù)挖掘難度。

 

2.2 分析手段并非傳統(tǒng)模式

 

軟件開(kāi)發(fā)數(shù)據(jù)挖掘后續(xù)工作是把取得的信息提供給需要的用戶。在以往數(shù)據(jù)挖掘應(yīng)用期間,就好比電子商務(wù)或者金融行業(yè),就是把信息轉(zhuǎn)化為文字或圖表。然而,軟件開(kāi)發(fā)人員所需信息并非如此簡(jiǎn)單,其還涉及了缺陷定位、編程模板等用戶信息,所以對(duì)數(shù)據(jù)挖掘技術(shù)提供較高的要求。

 

2.3 數(shù)據(jù)挖掘結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)不統(tǒng)一

 

現(xiàn)如今,數(shù)據(jù)挖掘技術(shù)在諸多行業(yè)得到普及推廣,同時(shí)在結(jié)果呈現(xiàn)及評(píng)價(jià)標(biāo)準(zhǔn)等內(nèi)容上相對(duì)完備。然而,在軟件開(kāi)發(fā)新型管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用卻并非如此。軟件開(kāi)發(fā)人員要獲取諸多、繁雜的信息,且信息表示方法各不相同,如此很大程度上提升了對(duì)數(shù)據(jù)挖掘結(jié)果展開(kāi)定量準(zhǔn)確分析的難度。

 

3 數(shù)據(jù)挖掘技術(shù)在軟件開(kāi)發(fā)信息管理中的應(yīng)用

 

在軟件開(kāi)發(fā)信息管理過(guò)程中,經(jīng)對(duì)數(shù)據(jù)挖掘技術(shù)科學(xué)合理應(yīng)用,可為軟件開(kāi)發(fā)帶來(lái)極有利的幫助,達(dá)到軟件開(kāi)發(fā)信息管理低成本、高質(zhì)量、短工期的要求,消除軟件開(kāi)發(fā)信息管理期間存在的一系列問(wèn)題。全面軟件開(kāi)發(fā)行業(yè)在時(shí)展新形勢(shì)下,要與時(shí)俱進(jìn),大力進(jìn)行改革創(chuàng)新,運(yùn)用先進(jìn)的科學(xué)技術(shù)不斷優(yōu)化數(shù)據(jù)挖掘技術(shù)研究。

 

3.1 數(shù)據(jù)挖掘技術(shù)在開(kāi)源軟件開(kāi)發(fā)中的應(yīng)用

 

開(kāi)源軟件,即源代碼為開(kāi)放的軟件,此類軟件現(xiàn)階段大部分對(duì)用戶是不收取費(fèi)用的,也正是受此影響提升了開(kāi)源軟件控制管理難度,鑒于此,可應(yīng)用數(shù)據(jù)挖掘技術(shù)來(lái)改善開(kāi)源軟件的資料。就好比,日本某高校學(xué)生推出了一個(gè)分布式數(shù)據(jù)挖掘系統(tǒng),該系統(tǒng)一方面可對(duì)大型系統(tǒng)開(kāi)展數(shù)據(jù)挖掘,一方面能夠一系列開(kāi)源軟件開(kāi)展數(shù)據(jù)挖掘。

 

3.2 數(shù)據(jù)挖掘技術(shù)在軟件項(xiàng)目管理中的應(yīng)用

 

軟件項(xiàng)目管理中數(shù)據(jù)挖掘多表現(xiàn)于兩個(gè)方面,一方面為對(duì)組織關(guān)系開(kāi)展的挖掘,一方面為對(duì)版本控制信息開(kāi)展的挖掘。軟件項(xiàng)目管理作為一個(gè)系統(tǒng)工程,對(duì)組織關(guān)系開(kāi)展挖掘主要是指對(duì)人力資源開(kāi)展協(xié)調(diào)分配。就好比,一個(gè)龐大工程可能同時(shí)有千百余人參與,在工程運(yùn)行期間人員相互會(huì)出現(xiàn)頻繁的信息數(shù)據(jù)交互,經(jīng)對(duì)數(shù)據(jù)挖掘技術(shù)的有效應(yīng)用,能夠?qū)θ藛T組織關(guān)系展開(kāi)合理劃分,積極促進(jìn)軟件項(xiàng)目管理的有序開(kāi)展。同時(shí),數(shù)據(jù)挖掘技術(shù)還可應(yīng)用于挖掘版本控制信息,能夠有效縮減系統(tǒng)維護(hù)成本,改善軟件項(xiàng)目管理水平。

 

3.3 數(shù)據(jù)挖掘技術(shù)在程序代碼及機(jī)構(gòu)中的應(yīng)用

 

在數(shù)據(jù)庫(kù)中收集有價(jià)值的代碼、構(gòu)件,現(xiàn)階段,較為常用的手段包括經(jīng)由關(guān)鍵詞開(kāi)展索引、經(jīng)由記錄輸入-輸出關(guān)系索引以及以建立交互關(guān)系圖為基礎(chǔ)的方法等,我們常常使用的百度、搜狗等搜索引擎均能夠開(kāi)展數(shù)據(jù)檢索。

 

4 結(jié)束語(yǔ)

 

總而言之,在軟件開(kāi)發(fā)信息管理過(guò)程中,經(jīng)對(duì)數(shù)據(jù)挖掘技術(shù)科學(xué)合理應(yīng)用,可為軟件開(kāi)發(fā)帶來(lái)極有利的幫助,達(dá)到軟件開(kāi)發(fā)信息管理低成本、高質(zhì)量、短工期的要求,消除軟件開(kāi)發(fā)信息管理期間存在的一系列問(wèn)題。基于此,相關(guān)人員務(wù)必要明確認(rèn)識(shí)軟件開(kāi)發(fā)信息管理數(shù)據(jù)挖掘面臨的挑戰(zhàn),不斷鉆研研究、總結(jié)經(jīng)驗(yàn),積極促進(jìn)軟件開(kāi)發(fā)信息管理有序開(kāi)展。

 

作者簡(jiǎn)介

第9篇

摘 要 面對(duì)當(dāng)前企事業(yè)單位普遍存在各類數(shù)據(jù)龐大,但快速提取有效信息卻十分困難的現(xiàn)狀,如何在海量數(shù)據(jù)中發(fā)現(xiàn)有用的數(shù)據(jù),即所謂的數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生。針對(duì)財(cái)務(wù)決策中數(shù)據(jù)海洋的現(xiàn)狀,本文提出了如何采用數(shù)據(jù)挖掘技術(shù),來(lái)提高財(cái)務(wù)決策的效率。

關(guān)鍵詞 數(shù)據(jù)挖掘 財(cái)務(wù)決策 應(yīng)用

隨著計(jì)算機(jī)、網(wǎng)絡(luò)技術(shù)的發(fā)展,獲得有關(guān)資料非常簡(jiǎn)單易行。但對(duì)于數(shù)量大、涉及面寬的數(shù)據(jù),傳統(tǒng)統(tǒng)計(jì)方法無(wú)法完成這類數(shù)據(jù)的分析,特別是公司財(cái)務(wù)數(shù)據(jù)之類。因此,一種智能化的、綜合應(yīng)用各種統(tǒng)計(jì)分析、數(shù)據(jù)庫(kù)、智能語(yǔ)言來(lái)分析龐大數(shù)據(jù)資料的“數(shù)據(jù)挖掘”技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展使得人們可以利用這些數(shù)據(jù)挖掘出有用的、隱藏的商業(yè)和科學(xué)信息。

一、數(shù)據(jù)挖掘含義

1.?dāng)?shù)據(jù)挖掘的定義

目前普遍認(rèn)同的一個(gè)數(shù)據(jù)挖掘(DM-Data Mining)定義是:從數(shù)據(jù)庫(kù)中抽取隱含的、以前未知的、具有潛在應(yīng)用價(jià)值的模型或規(guī)則等有用知識(shí)的復(fù)雜過(guò)程,是一種深層次的數(shù)據(jù)分析方法。

數(shù)據(jù)挖掘可以根據(jù)企事業(yè)單位的既定業(yè)務(wù)目標(biāo)和存在的問(wèn)題,對(duì)大量的業(yè)務(wù)數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律,并將其模型化,指導(dǎo)并應(yīng)用于實(shí)際的企事業(yè)單位經(jīng)營(yíng)管理中。是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過(guò)程,這些模型和關(guān)系可以對(duì)財(cái)務(wù)信息做出預(yù)測(cè)。

2.?dāng)?shù)據(jù)挖掘的主要功能

數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的、有意義的信息,它主要有以下功能:

(1)估計(jì)與預(yù)測(cè):估計(jì)是根據(jù)已有積累的資料來(lái)推測(cè)某一屬性未知的值,預(yù)測(cè)是根據(jù)對(duì)象屬性的過(guò)去觀察來(lái)估計(jì)該屬性未來(lái)之值。數(shù)據(jù)挖掘技術(shù)能夠自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息。

(2)關(guān)聯(lián)和序列發(fā)現(xiàn):關(guān)聯(lián)是要找出在某一事件或是資料中會(huì)同時(shí)出現(xiàn)的東西;序列發(fā)現(xiàn)與關(guān)聯(lián)關(guān)系很密切,所不同的是序列發(fā)現(xiàn)中相關(guān)的對(duì)象是以時(shí)間來(lái)區(qū)分的。

(3)聚類:數(shù)據(jù)庫(kù)中的記錄可被化分為一系列有意義的子集,即聚類。聚類技術(shù)的要點(diǎn)是在劃分對(duì)象時(shí)不僅考慮對(duì)象之間的距離,還要?jiǎng)澐殖鲱惥哂心撤N內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。

(4)偏差檢測(cè):數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差包括很多潛在的信息,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等①。

二、數(shù)據(jù)挖掘在財(cái)務(wù)決策支持系統(tǒng)的應(yīng)用

1.財(cái)務(wù)決策支持系統(tǒng)

財(cái)務(wù)決策支持系統(tǒng)是在傳統(tǒng)電算化會(huì)計(jì)信息系統(tǒng)的基礎(chǔ)上建立和發(fā)展起來(lái)的,傳統(tǒng)會(huì)計(jì)信息系統(tǒng)輸出的企事業(yè)單位財(cái)務(wù)數(shù)據(jù)及非財(cái)務(wù)數(shù)據(jù)都存在數(shù)據(jù)過(guò)剩而信息不足的情形,而財(cái)務(wù)決策的精確程度又取決于所用信息的正確程度。隨著競(jìng)爭(zhēng)的增加,財(cái)務(wù)決策的時(shí)效性也變得越來(lái)越重要了,面對(duì)這些結(jié)構(gòu)化或半結(jié)構(gòu)化的海量數(shù)據(jù),將數(shù)據(jù)挖掘技術(shù)應(yīng)用到系統(tǒng)中充分有效的預(yù)測(cè)企事業(yè)單位未來(lái)的發(fā)展趨勢(shì),有利于輸出財(cái)務(wù)決策信息供高層管理者使用,提高企事業(yè)單位的競(jìng)爭(zhēng)②。

(1)會(huì)計(jì)信息系統(tǒng)結(jié)構(gòu)

會(huì)計(jì)信息系統(tǒng)可分為三個(gè)層次:會(huì)計(jì)核算層、財(cái)務(wù)管理層和財(cái)務(wù)決策層,分別屬于事后核算、事中控制和事前預(yù)測(cè)與決策過(guò)程。財(cái)務(wù)決策支持系統(tǒng)是最高層,也是會(huì)計(jì)信息系統(tǒng)發(fā)展的最終目標(biāo)。會(huì)計(jì)核算層和財(cái)務(wù)管理層輸出的企事業(yè)單位財(cái)務(wù)數(shù)據(jù)及非財(cái)務(wù)數(shù)據(jù)都存在數(shù)據(jù)過(guò)剩而信息不足的情況,這嚴(yán)重影響了財(cái)務(wù)決策層發(fā)揮有效作用。

(2)財(cái)務(wù)決策支持系統(tǒng)的概念

財(cái)務(wù)決策支持系統(tǒng)(FDSS―Financial Decision Support System)是以現(xiàn)代管理科學(xué)和信息技術(shù)為基礎(chǔ),以電子計(jì)算機(jī)為工具,運(yùn)用經(jīng)濟(jì)學(xué)、模糊數(shù)學(xué)、控制論和模型技術(shù),對(duì)財(cái)務(wù)管理中的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化問(wèn)題進(jìn)行決策分析的人機(jī)交互系統(tǒng)。

在財(cái)務(wù)決策支持系統(tǒng)中,為了支持管理決策,首先必須建立各種數(shù)據(jù)庫(kù)以備決策之需。其次要建立各種數(shù)學(xué)模型,組成模型庫(kù)對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行深加工以便探索其內(nèi)部規(guī)律,對(duì)數(shù)據(jù)的運(yùn)算結(jié)果進(jìn)行比較、分析和評(píng)價(jià)。同時(shí),為了充分利用管理者的經(jīng)驗(yàn)、知識(shí)和智慧,系統(tǒng)還設(shè)置人機(jī)交互接口和專家知識(shí)庫(kù),采用人工智能技術(shù)判斷環(huán)境生成方案、評(píng)價(jià)決策。

(3)財(cái)務(wù)決策系統(tǒng)國(guó)內(nèi)外發(fā)展現(xiàn)狀

在國(guó)內(nèi),會(huì)計(jì)核算系統(tǒng)和財(cái)務(wù)管理系統(tǒng)已發(fā)展良好,逐步地為用戶理解和接受,但財(cái)務(wù)決策支持系統(tǒng)的發(fā)展尚處初級(jí)階段。

在國(guó)外,財(cái)務(wù)決策支持系統(tǒng)已較為完善,以財(cái)務(wù)管理為核心構(gòu)造財(cái)務(wù)決策支持系統(tǒng),做到了賬務(wù)系統(tǒng)與管理系統(tǒng)的有機(jī)融合,做到了事前預(yù)測(cè)與決策、事中控制、事后分析為一體的網(wǎng)絡(luò)化、科學(xué)化的決策管理,數(shù)據(jù)挖掘在財(cái)務(wù)決策支持系統(tǒng)中的運(yùn)用也較為成熟。

2.?dāng)?shù)據(jù)挖掘在財(cái)務(wù)決策支持系統(tǒng)的應(yīng)用

數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中的應(yīng)用研究始于1995 年,研究?jī)?nèi)容包括將DSS 的結(jié)構(gòu)體系引入過(guò)來(lái),從二庫(kù)、三庫(kù)結(jié)構(gòu)到四庫(kù)、五庫(kù)結(jié)構(gòu)的研究,也就是從傳統(tǒng)的FDSS 研究到智能的或高級(jí)的FDSS 的研究。隨著信息技術(shù)的不斷完善,把數(shù)據(jù)倉(cāng)庫(kù)(DW)、聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(DM)也引入到財(cái)務(wù)決策支持系統(tǒng)中,出現(xiàn)了基于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)的財(cái)務(wù)決策支持系統(tǒng)結(jié)構(gòu),數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中的應(yīng)用主要包括:

(1)財(cái)務(wù)狀況分析

財(cái)務(wù)狀況分析是財(cái)務(wù)管理的重要組成部分,包括企事業(yè)單位償債能力分析、企事業(yè)單位營(yíng)運(yùn)能力分析、企事業(yè)單位獲利能力分析、企事業(yè)單位發(fā)展能力分析。它是利用已有的財(cái)務(wù)數(shù)據(jù)對(duì)企事業(yè)單位的財(cái)務(wù)狀況、經(jīng)營(yíng)成果進(jìn)行分析與評(píng)價(jià)。財(cái)務(wù)分析系統(tǒng)可以運(yùn)用數(shù)據(jù)挖掘分類、預(yù)測(cè)等技術(shù),根據(jù)企事業(yè)單位過(guò)去和現(xiàn)在的財(cái)務(wù)數(shù)據(jù)做進(jìn)一步的加工、整理、分析和評(píng)價(jià),在預(yù)測(cè)未來(lái)的財(cái)務(wù)狀況的同時(shí)從中取得有用的信息供決策者使用。

(2)財(cái)務(wù)預(yù)測(cè)

財(cái)務(wù)預(yù)測(cè)系統(tǒng)是FDSS 的重要組成部分,其功能分為兩個(gè)方面:一是利用已有的財(cái)務(wù)數(shù)據(jù)對(duì)企事業(yè)單位未來(lái)的財(cái)務(wù)狀況和經(jīng)營(yíng)成果進(jìn)行預(yù)測(cè)。二是利用專家經(jīng)驗(yàn)和專門(mén)知識(shí)對(duì)某項(xiàng)財(cái)務(wù)專題進(jìn)行預(yù)測(cè)。財(cái)務(wù)預(yù)測(cè)的主要內(nèi)容包括銷售預(yù)測(cè)、利潤(rùn)預(yù)測(cè)、成本預(yù)測(cè)、資金預(yù)測(cè)、財(cái)務(wù)指標(biāo)預(yù)測(cè)等。利用回歸,神經(jīng)網(wǎng)絡(luò)等技術(shù)根據(jù)已有的財(cái)務(wù)數(shù)據(jù)預(yù)測(cè)企事業(yè)單位未來(lái)的財(cái)務(wù)狀況,進(jìn)而判斷企事業(yè)單位未來(lái)發(fā)生財(cái)務(wù)危機(jī)的可能性。

(3)籌資決策

籌資是指企事業(yè)單位何時(shí)、采用何種方式、獲得何種規(guī)模資金的過(guò)程。企事業(yè)單位籌資決策主要包括籌資數(shù)量決策、籌資方式?jīng)Q策和債務(wù)償還決策。一般地說(shuō),企事業(yè)單位籌資首先應(yīng)考慮自有資本,即所有者權(quán)益籌資;其次再考慮債務(wù)籌資,其目的是使財(cái)務(wù)風(fēng)險(xiǎn)最小化。利用數(shù)據(jù)挖掘中的分類、聚類等技術(shù)可根據(jù)單位經(jīng)營(yíng)管理的需要進(jìn)行決策信息輸出,確定一個(gè)合理的籌資方案。

(4)投資決策

企事業(yè)單位的投資決策主要包括企事業(yè)單位內(nèi)部長(zhǎng)期投資決策、聯(lián)營(yíng)投資決策和證券投資決策。投資決策問(wèn)題是決策問(wèn)題中較為復(fù)雜的問(wèn)題,其決策問(wèn)題一般分為半結(jié)構(gòu)化或非結(jié)構(gòu)化問(wèn)題。我們可利用預(yù)測(cè)、關(guān)聯(lián)等技術(shù)對(duì)投資時(shí)機(jī)、投資規(guī)模、投資方式等方面來(lái)確定投資方案。通過(guò)在眾多可投資項(xiàng)目中選擇出最具價(jià)值的項(xiàng)目決策信息,實(shí)現(xiàn)投資資金效率最大化。

(5)成本決策

成本決策涉及企事業(yè)單位銷、生產(chǎn)經(jīng)營(yíng)和資本運(yùn)作等各個(gè)領(lǐng)域,可以說(shuō)凡是發(fā)生成本費(fèi)用支出的各項(xiàng)經(jīng)濟(jì)活動(dòng),都存在成本決策問(wèn)題。企事業(yè)單位成本決策包括:存貨成本決策、生產(chǎn)成本決策、資金成本決策、銷售成本決策、服務(wù)成本決策等,其中銷售成本決策和服務(wù)成本決策,其非結(jié)構(gòu)化因素較多,包括促銷費(fèi)用、廣告費(fèi)用、銷貨服務(wù)費(fèi)等,從而使其決策方案的確定更加復(fù)雜化。這就需要利用數(shù)據(jù)挖掘技術(shù)中的時(shí)間序列分析,關(guān)聯(lián)分析等技術(shù)對(duì)歷史數(shù)據(jù)進(jìn)行分析預(yù)測(cè),以確定最優(yōu)方案。

(6)股利分配決策

股利分配是指公司向股東分派股利。股利分配決策的合理與否,將會(huì)對(duì)公司的持續(xù)發(fā)展和股東利益產(chǎn)生重大影響。股利分配決策包括股利發(fā)放決策、股利支付比率決策和股利發(fā)放形式?jīng)Q策等。由于股利分配決策要受到法律、經(jīng)濟(jì)、公司政策、股東利益、以及股票市場(chǎng)等諸多因素的影響,其決策問(wèn)題大多為半結(jié)構(gòu)化和非結(jié)構(gòu)化問(wèn)題,我們可利用數(shù)據(jù)挖掘技術(shù)中的分類技術(shù)來(lái)提供支持。

(7)存貨決策

存貨決策主要是指原材料和產(chǎn)成品的決策,即確定合理的經(jīng)濟(jì)訂貨量以及何時(shí)訂貨才是最佳時(shí)機(jī),力求使存貨上耗費(fèi)的成本最低。銷售的不確定性使得存貨決策成為一種風(fēng)險(xiǎn)性決策,它需要根據(jù)以往的經(jīng)驗(yàn)儲(chǔ)存、歷史統(tǒng)計(jì)資料的分析以及輸入用戶的調(diào)研數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)方法幫助決策者確定需求變量的范圍及發(fā)生概率,并提供最優(yōu)方案的參考數(shù)據(jù)。隨著數(shù)據(jù)庫(kù)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,傳統(tǒng)會(huì)計(jì)核算層及財(cái)務(wù)管理層的不斷完善,人們獲取數(shù)據(jù)的能力越來(lái)越強(qiáng),將海量的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中。將數(shù)據(jù)倉(cāng)庫(kù)(DW)、數(shù)據(jù)挖掘(DM)和聯(lián)機(jī)分析(OLAP)等信息技術(shù)應(yīng)用于財(cái)務(wù)決策支持系統(tǒng),更能將數(shù)據(jù)倉(cāng)庫(kù)里的海量數(shù)據(jù)從執(zhí)行系統(tǒng)中篩選出來(lái),減少冗余,完成一系列轉(zhuǎn)換處理,便于決策者從宏大的信息系統(tǒng)中分辨、析取、整理、挖掘出對(duì)財(cái)務(wù)決策有用的信息,極大提高企事業(yè)單位管理信息系統(tǒng)的工作效率③。

三、數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中應(yīng)用的難點(diǎn)與展望

數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中的應(yīng)用還是一門(mén)嶄新的技術(shù)或方法,接受數(shù)據(jù)挖掘的概念容易,但將其落在實(shí)處卻比較困難。其中最重要的就是成本問(wèn)題。數(shù)據(jù)挖掘功能對(duì)企事業(yè)單位財(cái)務(wù)數(shù)據(jù)進(jìn)行分析雖然存有優(yōu)勢(shì),但前提條件是具備完整、正確的數(shù)據(jù),即在建立數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)基礎(chǔ)后,與此功能結(jié)合運(yùn)用以達(dá)到事半功倍的效果。但目前單位財(cái)務(wù)部門(mén)提供的數(shù)據(jù)本身就可能存在水分,因此需要數(shù)據(jù)信息使用者在經(jīng)過(guò)會(huì)計(jì)信息質(zhì)量分析等前提下調(diào)整或重新估計(jì),然后再利用數(shù)據(jù)挖掘等技術(shù)應(yīng)用到財(cái)務(wù)決策支持系統(tǒng)中。數(shù)據(jù)挖掘僅依靠計(jì)算機(jī)或者軟件是無(wú)法完成任務(wù)的,更多的是需要依靠專業(yè)人士的職業(yè)判斷。

雖然在單位財(cái)務(wù)決策支持系統(tǒng)中利用數(shù)據(jù)挖掘技術(shù)還不十分成熟,但是伴隨著科學(xué)技術(shù)的迅猛發(fā)展,以及數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中的廣闊市場(chǎng)前景,相信基于數(shù)據(jù)挖掘的財(cái)務(wù)決策支持系統(tǒng)必將更加成熟!

但是,數(shù)據(jù)挖掘作為一門(mén)新興的科學(xué)和技術(shù),它的發(fā)展還處于幼年期,要想基于數(shù)據(jù)挖掘的財(cái)務(wù)決策支持系統(tǒng)模型得到更為廣泛的應(yīng)用,面臨的挑戰(zhàn)為:

1.建立基礎(chǔ)的數(shù)據(jù)挖掘理論體系;

2.提高數(shù)據(jù)挖掘算法的效率和處理能力;

3.良好的人機(jī)交互界面;

4.挖掘各種數(shù)據(jù)類型,包括半結(jié)構(gòu)和無(wú)結(jié)構(gòu)數(shù)據(jù)。

注釋:

①何京舟.淺議數(shù)據(jù)挖掘技術(shù)與財(cái)務(wù)分析.中國(guó)集體經(jīng)濟(jì).2009(6):155-156.

②湯九斌.基于數(shù)據(jù)挖掘技術(shù)的決策支持系統(tǒng)及其關(guān)鍵技術(shù)研究.中國(guó)優(yōu)秀博士論文全文數(shù)據(jù)庫(kù).南京理工大學(xué).2009.

③周喜,王加陽(yáng).數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中的應(yīng)用研究.湖南商學(xué)院學(xué)報(bào).2009(4):99-101.

參考文獻(xiàn):

[1]何京舟.淺議數(shù)據(jù)挖掘技術(shù)與財(cái)務(wù)分析.中國(guó)集體經(jīng)濟(jì).2009(6).

[2]鄭日軍.數(shù)據(jù)挖掘綜述.科協(xié)論壇(下半月).2008(10).

[3]洪沙,向芳.數(shù)據(jù)挖掘與決策支持系統(tǒng).科學(xué)咨詢(決策管理).2008(4).

第10篇

關(guān)鍵詞:數(shù)據(jù)挖掘;技術(shù);神經(jīng)網(wǎng)絡(luò)技術(shù)

1 數(shù)據(jù)挖掘技術(shù)的方法

數(shù)據(jù)挖掘技術(shù)的方法主要分為統(tǒng)計(jì)、聚類和遺傳分析[1]。統(tǒng)計(jì)方法可以滿足數(shù)據(jù)庫(kù)處理分析,包括:有線、非線、回歸等多項(xiàng)統(tǒng)計(jì)方法;聚類方法應(yīng)用于數(shù)據(jù)挖掘的內(nèi)部處理,梳理內(nèi)部數(shù)據(jù)的關(guān)系,基于聚類方法的存在,數(shù)據(jù)挖掘技術(shù)可以滿足經(jīng)濟(jì)、模擬等多項(xiàng)數(shù)據(jù)領(lǐng)域的需求;遺傳分析是數(shù)據(jù)挖掘方法的重點(diǎn),以生物進(jìn)化為導(dǎo)向,將重組、變異導(dǎo)入到數(shù)據(jù)庫(kù)內(nèi),推進(jìn)數(shù)據(jù)的后續(xù)發(fā)展,將后續(xù)模擬的數(shù)據(jù),應(yīng)用在現(xiàn)代數(shù)據(jù)庫(kù)的某個(gè)部分,發(fā)揮同樣作用,遺傳算法高度模擬生物進(jìn)化的方式,結(jié)合繁殖、基因、突變、重組的概念,引入新數(shù)據(jù),促使數(shù)據(jù)庫(kù)中新個(gè)體的形成,所以數(shù)據(jù)挖掘中的遺傳算法,既可以作為數(shù)據(jù)分析的方法,也可以體現(xiàn)預(yù)算和評(píng)估的特點(diǎn)。

2 數(shù)據(jù)挖掘的技術(shù)支持

2.1 神經(jīng)網(wǎng)絡(luò)技術(shù)

神經(jīng)網(wǎng)絡(luò)主要以數(shù)學(xué)模型為主,重點(diǎn)針對(duì)復(fù)雜數(shù)據(jù),快速完成數(shù)據(jù)抽取。神經(jīng)網(wǎng)絡(luò)技術(shù)處理的能力,可以超出計(jì)算機(jī)的分析水平,保障輸入神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)屬于數(shù)值型,即可快速導(dǎo)出趨勢(shì)性變化的數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)技術(shù)通過(guò)模擬大腦的神經(jīng)元結(jié)構(gòu),利用MP,實(shí)現(xiàn)非線性規(guī)劃,根據(jù)數(shù)據(jù)信息的特性,決定信息的存儲(chǔ)位置,實(shí)現(xiàn)自主處理。神經(jīng)網(wǎng)絡(luò)技術(shù)在數(shù)據(jù)挖掘中,不僅可以實(shí)現(xiàn)數(shù)據(jù)的快速分類,還可以對(duì)數(shù)據(jù)進(jìn)行模擬預(yù)測(cè),促使數(shù)據(jù)挖掘處于優(yōu)化的狀態(tài),完成難度聚類。神經(jīng)網(wǎng)絡(luò)技術(shù)的代表為RBF和BP。

2.2 決策樹(shù)技術(shù)

此技術(shù)以模擬離散函數(shù)為主,借助樹(shù)木模型,對(duì)實(shí)際案例進(jìn)行綜合分類處理。決策樹(shù)的葉子,代表不同結(jié)點(diǎn),而結(jié)點(diǎn)則是組成實(shí)例不同屬性的測(cè)試,未來(lái)枝葉的分支,表示可能覆蓋的屬性預(yù)測(cè)[2]。決策樹(shù)在根部向枝葉推進(jìn)的過(guò)程中,蘊(yùn)含豐富的數(shù)據(jù)挖掘,目的是得出有價(jià)值的屬性信息,所以決策樹(shù)理論支持?jǐn)?shù)據(jù)挖掘的分析和分類,對(duì)相同屬性的數(shù)據(jù)進(jìn)行歸類存儲(chǔ),進(jìn)而挖掘數(shù)據(jù)分類中遵循的規(guī)則。

3 數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域

3.1 通信服務(wù)行業(yè)

在數(shù)據(jù)挖掘技術(shù)的帶動(dòng)和參與下,通信服務(wù)行業(yè)逐漸趨向于“三網(wǎng)融合”,即:電信、互聯(lián)和電視,勢(shì)必涉及諸多數(shù)據(jù)運(yùn)營(yíng),數(shù)據(jù)挖掘技術(shù)可以針對(duì)三網(wǎng)狀態(tài),實(shí)行模式分析,挖掘商業(yè)潛能。例如:數(shù)據(jù)挖掘技術(shù)可以對(duì)通信數(shù)據(jù)進(jìn)行分析,得出通信系統(tǒng)實(shí)時(shí)運(yùn)行的參數(shù)和狀態(tài),以聚類的方式,歸類系統(tǒng)數(shù)據(jù),還可直接分析用戶的實(shí)際行為,拓寬業(yè)務(wù)途徑,同時(shí)發(fā)現(xiàn)發(fā)展機(jī)遇,提升通信服務(wù)行業(yè)的社會(huì)效益。

3.2 高校管理系統(tǒng)

數(shù)據(jù)挖掘技術(shù)在高校中的應(yīng)用較為明顯,例如:學(xué)生信息管理系統(tǒng)、教務(wù)評(píng)價(jià)系統(tǒng)、成績(jī)查詢系統(tǒng)、選課系統(tǒng)等,都可體現(xiàn)數(shù)據(jù)挖掘技術(shù)的優(yōu)點(diǎn)。高校學(xué)生數(shù)量較多,通過(guò)數(shù)據(jù)挖掘技術(shù),可以為學(xué)生提供一體化服務(wù),學(xué)生在入學(xué)之際,即可將信息錄入在管理系統(tǒng)內(nèi),整個(gè)在校期間,都可通過(guò)管理系統(tǒng),查詢個(gè)人信息,管理者也可以根據(jù)管理系統(tǒng),快速調(diào)取學(xué)生信息,如:圖書(shū)借閱、飯卡充值等,隨時(shí)關(guān)注學(xué)生的信息動(dòng)態(tài)[3]。高校在數(shù)據(jù)管理方面,已經(jīng)實(shí)現(xiàn)多系統(tǒng)的融合發(fā)展,在數(shù)據(jù)挖掘技術(shù)的支持下,將不同功能的數(shù)據(jù)系統(tǒng),兼容于統(tǒng)一系統(tǒng),不論是學(xué)生,還是教務(wù)人員,利用獨(dú)立賬號(hào)、密碼,都可實(shí)現(xiàn)個(gè)人信息管理或查詢,對(duì)數(shù)據(jù)挖掘技術(shù)提供更高的發(fā)展要求。

3.3 醫(yī)學(xué)領(lǐng)域

醫(yī)學(xué)領(lǐng)域不僅涉及大量的信息數(shù)據(jù),而且數(shù)據(jù)的編排、匯總非常復(fù)雜,大量數(shù)據(jù)同時(shí)出現(xiàn)的過(guò)程中,幾乎不會(huì)出現(xiàn)相同數(shù)據(jù),因此,醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)管理,具備一定難度。數(shù)據(jù)挖掘技術(shù)成功應(yīng)用于醫(yī)院數(shù)據(jù)管理中,特別是在病歷管理、醫(yī)藥信息管理方面,例如:數(shù)據(jù)挖掘技術(shù)可以整合醫(yī)藥信息,將醫(yī)藥信息存儲(chǔ)于數(shù)據(jù)庫(kù)系統(tǒng)內(nèi),醫(yī)務(wù)人員可以通過(guò)檢索的方式,在管理系統(tǒng)內(nèi),迅速獲得所需信息,避免信息篩選錯(cuò)誤,提高信息識(shí)別的能力。由此,醫(yī)務(wù)人員在信息管理和校對(duì)方面,提高操作效率,確保數(shù)據(jù)挖掘的質(zhì)量。

3.4 金融行業(yè)

金融行業(yè)中的數(shù)據(jù)分類比較明確,如:信貸數(shù)據(jù)、儲(chǔ)蓄數(shù)據(jù)等,需對(duì)數(shù)據(jù)采取合理的分配和管理。數(shù)據(jù)挖掘技術(shù)在金融行業(yè)中,為數(shù)據(jù)管理提供可靠的空間,成為管理金融數(shù)據(jù)的最佳方式[4]。數(shù)據(jù)挖掘技術(shù)具備獨(dú)立分析的能力,可以在數(shù)據(jù)庫(kù)中,設(shè)置多維參考點(diǎn),對(duì)不同類型的數(shù)據(jù)實(shí)行嚴(yán)格區(qū)分,根據(jù)數(shù)據(jù)的異同性質(zhì),實(shí)行準(zhǔn)確處理,發(fā)揮數(shù)據(jù)挖掘的優(yōu)勢(shì),維持金融數(shù)據(jù)的運(yùn)行。數(shù)據(jù)挖掘技術(shù)還可以根據(jù)金融數(shù)據(jù)的動(dòng)態(tài)變化,有效發(fā)現(xiàn)影響金融活動(dòng)的不良因素,防止金融行業(yè)出現(xiàn)數(shù)據(jù)漏洞,造成管理弊端。

綜上所述,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,其在行業(yè)領(lǐng)域中的應(yīng)用越來(lái)越廣泛,為數(shù)據(jù)運(yùn)行提供強(qiáng)大的技術(shù)支持。數(shù)據(jù)挖掘技術(shù)可以迅速獲取有效信息,體現(xiàn)準(zhǔn)確識(shí)別的能力,改善數(shù)據(jù)運(yùn)行,因此,數(shù)據(jù)挖掘技術(shù)成為行業(yè)發(fā)展與進(jìn)步的重要途徑,不僅提高信息處理的能力,還可以保障信息處理的效率和價(jià)值,同時(shí)提高行業(yè)信息技術(shù)水平。

[參考文獻(xiàn)]

[1]羅斌.數(shù)據(jù)挖掘研究進(jìn)展[J].中國(guó)水運(yùn),2012(07):90-92.

[2]張昀.數(shù)據(jù)挖掘技術(shù)研究[J].軟件導(dǎo)刊,2012(09):45-47.

第11篇

關(guān)鍵詞:云計(jì)算;概述;發(fā)展現(xiàn)狀;研究方向

中圖分類號(hào):TP3

1 云計(jì)算概述

什么是云計(jì)算?目前廣為接受的是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)定義:云計(jì)算是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問(wèn),它存在一個(gè)計(jì)算資源共享池,包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件和服務(wù)等資源能夠被快速提供,并且只需投入很少的管理工作,或是與服務(wù)供應(yīng)商進(jìn)行很少的交互。云計(jì)算本質(zhì)上是一種基于互聯(lián)網(wǎng)的超級(jí)計(jì)算模式,它由很多廉價(jià)服務(wù)器組成,可以提供動(dòng)態(tài)的網(wǎng)絡(luò)資源池、虛擬化和高可用性的下一代計(jì)算平臺(tái)等的核心計(jì)算機(jī)技術(shù),使得互聯(lián)網(wǎng)成為用戶的數(shù)據(jù)和計(jì)算中心,為用戶提供安全便捷的數(shù)據(jù)存儲(chǔ)和網(wǎng)絡(luò)服務(wù)。云計(jì)算的發(fā)展建立在并行計(jì)算、分布式處理、網(wǎng)絡(luò)計(jì)算的基礎(chǔ)上,是當(dāng)今信息技術(shù)一個(gè)重要的發(fā)展方向。

2 云計(jì)算發(fā)展現(xiàn)狀

目前云計(jì)算正在如火如荼的發(fā)展,但尚處于初級(jí)階段。在國(guó)外,IT界巨頭Google因?yàn)槠渥陨戆l(fā)展的軟硬件優(yōu)勢(shì),其在云計(jì)算方面的成就已經(jīng)走在了時(shí)代的前列,對(duì)外公布的云計(jì)算技術(shù)主要包括MapReduce、GFS和BigTable,旨在將全球多所大學(xué)都納入到云計(jì)算中。微軟也注資10個(gè)億建立云計(jì)算的服務(wù)器農(nóng)場(chǎng),平均占地超過(guò)7個(gè)足球場(chǎng),設(shè)置10萬(wàn)臺(tái)計(jì)算機(jī)服務(wù)器。IBM在2007年高調(diào)推出“藍(lán)云(Blue Cloud)”計(jì)劃,并表示“云計(jì)算將是IBM接下來(lái)的一個(gè)重點(diǎn)業(yè)務(wù)”,它將為企業(yè)客戶搭建分布式、可通過(guò)互聯(lián)網(wǎng)訪問(wèn)的云計(jì)算體系,是一個(gè)企業(yè)級(jí)的解決方案。同年亞馬遜也向開(kāi)發(fā)者開(kāi)放了名為“彈性計(jì)算機(jī)云”的服務(wù),使得軟件公司可以按需購(gòu)買亞馬遜數(shù)據(jù)中心的處理能力。雅虎也將一個(gè)小規(guī)模的服務(wù)器群,即“云”,開(kāi)放給卡內(nèi)基―梅隆大學(xué)的研究人員。惠普、英特爾和雅虎三家公司聯(lián)合創(chuàng)立一系列數(shù)據(jù)中心,目的同樣是推廣云計(jì)算技術(shù)。我國(guó)的相關(guān)科研研究結(jié)構(gòu)也緊跟著時(shí)代的發(fā)展,紛紛展開(kāi)了對(duì)云計(jì)算技術(shù)的研究。2008年3月17日,Google全球CEO埃里克?斯密特(Eric Schmidt)在北京訪問(wèn)期間,宣布在中國(guó)大陸推出“云計(jì)算”計(jì)劃,清華大學(xué)將是第一所和Google合作的高校。清華將與Google合作開(kāi)設(shè)“大規(guī)模數(shù)據(jù)處理”課程,并協(xié)助學(xué)校在現(xiàn)有的運(yùn)算資源上構(gòu)建“云計(jì)算”實(shí)驗(yàn)環(huán)境。未來(lái)Google將把課程推廣到其他多所高校。中國(guó)電子學(xué)會(huì)也在2008 年專門(mén)成立了中國(guó)電子學(xué)會(huì)“云計(jì)算專家委員會(huì)”,旨在更深入的探索和研究云計(jì)算問(wèn)題。我國(guó)電商行業(yè)的先鋒―阿里巴巴,也首次建立起“電子商務(wù)云計(jì)算中心”,開(kāi)發(fā)更多云產(chǎn)品供應(yīng)市場(chǎng)。

3 未來(lái)云計(jì)算主要研究的問(wèn)題

3.1 并行計(jì)算。并行計(jì)算是云計(jì)算的核心技術(shù),可以說(shuō)云計(jì)算得以提出的最初的思想來(lái)源就是并行計(jì)算。是未來(lái)云計(jì)算研究領(lǐng)域的一個(gè)重點(diǎn)研究問(wèn)題。并行計(jì)算是指在一個(gè)時(shí)間點(diǎn)同時(shí)利用多臺(tái)計(jì)算設(shè)備完成計(jì)算問(wèn)題的過(guò)程,它將計(jì)算能力從單個(gè)處理器擴(kuò)展到多處理器,主要被用來(lái)提高計(jì)算機(jī)的處理速度和處理能力,同時(shí)它也解決了大主存容量的求解問(wèn)題。并行計(jì)算的基本思想是將計(jì)算問(wèn)題分解成多個(gè)部分,每個(gè)部分用一立的處理設(shè)備進(jìn)行處理,然后再匯總形成問(wèn)題的最終解,它需要多臺(tái)處理器共同參與工作。并行計(jì)算系統(tǒng)既可以是專門(mén)設(shè)計(jì)的、含有多個(gè)處理器的超級(jí)計(jì)算機(jī),也可以是以某種方式互連的若干臺(tái)的獨(dú)立計(jì)算機(jī)構(gòu)成的集群。通過(guò)并行計(jì)算集群完成數(shù)據(jù)的處理,再將處理的結(jié)果返回給用戶。目前并行計(jì)算的發(fā)展還面臨著很多困難,比如說(shuō)并行程序的實(shí)際達(dá)不到規(guī)范化標(biāo)準(zhǔn),可讀性差;并行程序開(kāi)發(fā)難度大,一般的程序員難以將算法進(jìn)行并行化實(shí)現(xiàn),這就有了自動(dòng)并行技術(shù)的需求,但目前還未實(shí)現(xiàn);云計(jì)算多并行計(jì)算的要求高于現(xiàn)在的大部分應(yīng)用,但現(xiàn)在的并行計(jì)算技術(shù)超過(guò)一定的處理器后就很難再提高加速比。并行計(jì)算是云計(jì)算的核心,只有實(shí)現(xiàn)了并行計(jì)算的突破,才能順利解決云計(jì)算中大規(guī)模的求解和擴(kuò)展問(wèn)題。

3.2 大規(guī)模數(shù)據(jù)挖掘。計(jì)算機(jī)技術(shù)的發(fā)展和普及使得海量的信息數(shù)據(jù)產(chǎn)生,人類已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。大規(guī)模數(shù)據(jù)挖掘,就是對(duì)海量數(shù)據(jù)進(jìn)行提取分析,來(lái)獲得數(shù)據(jù)中潛藏的知識(shí)的過(guò)程,也是當(dāng)今信息技術(shù)研究的一個(gè)熱點(diǎn)。比如說(shuō)電商的商品推薦服務(wù),就是利用數(shù)據(jù)挖掘算法,對(duì)用戶在網(wǎng)上購(gòu)物過(guò)程中產(chǎn)生的相關(guān)數(shù)據(jù)進(jìn)行分析預(yù)測(cè),從而進(jìn)行個(gè)性化的商品推薦。但是由于信息數(shù)據(jù)一般規(guī)模較大,對(duì)海量數(shù)據(jù)進(jìn)行處理所需的時(shí)間和空間復(fù)雜度都相對(duì)很高,因此數(shù)據(jù)處理效率一直是數(shù)據(jù)挖掘領(lǐng)域所要面對(duì)和解決的問(wèn)題。云計(jì)算的數(shù)據(jù)挖掘也要解決處理效率的問(wèn)題,只有提高數(shù)據(jù)處理效率,才能讓用戶在短時(shí)間內(nèi)獲得他們的需求。提高數(shù)據(jù)的處理效率,可以考慮從數(shù)據(jù)挖掘算法和并行計(jì)算兩方面著手。現(xiàn)在已經(jīng)成熟的數(shù)據(jù)挖掘算法有很多,數(shù)據(jù)挖掘工程師要根據(jù)具體的數(shù)據(jù)格式和用戶需求選取不同的算法進(jìn)行數(shù)據(jù)處理,要在實(shí)踐中分析和改進(jìn)算法,以提高數(shù)據(jù)挖掘的效率。另外,原創(chuàng)性數(shù)據(jù)挖掘算法的研究應(yīng)該被提升到一定的高度。并行計(jì)算也是解決大規(guī)模數(shù)據(jù)挖掘效率問(wèn)題的一個(gè)重要手段,如果并行計(jì)算的發(fā)展受到制約,數(shù)據(jù)挖掘也無(wú)法實(shí)現(xiàn)突破。

3.3 云安全。緊隨云計(jì)算和云存儲(chǔ)之后,云安全也出現(xiàn)了。云安全是指是指基于云計(jì)算商業(yè)模式應(yīng)用的安全軟件、硬件、用戶、機(jī)構(gòu)、安全云平臺(tái)的總稱。云安全”是“云計(jì)算”技術(shù)的重要組成部分,已經(jīng)在反病毒領(lǐng)域獲得了廣泛應(yīng)用。云安全是通過(guò)大量的網(wǎng)狀客戶端,對(duì)網(wǎng)絡(luò)中的軟件行為進(jìn)行異常監(jiān)測(cè),在獲得網(wǎng)絡(luò)中木馬、惡意程序信息之后,將其推送到服務(wù)端進(jìn)行自動(dòng)分析和處理,再把病毒和木馬的解決方案分發(fā)到每一個(gè)客戶端。云安全最終的目標(biāo)是把整個(gè)互聯(lián)網(wǎng)變成一個(gè)超級(jí)殺毒軟件,是決定云計(jì)算發(fā)展規(guī)模和前景的重大因素,已經(jīng)成為網(wǎng)絡(luò)安全界研究的主要問(wèn)題之一。云安全技術(shù)是P2P技術(shù)、網(wǎng)格技術(shù)、云計(jì)算技術(shù)等分布式計(jì)算技術(shù)混合發(fā)展,自然演化的結(jié)果。云安全技術(shù)的應(yīng)用還要解決很多問(wèn)題,要建立云安全系統(tǒng)不是那么容易的事情,海量的客戶端、專業(yè)的反病毒技術(shù)和經(jīng)驗(yàn)、大量的資金和技術(shù)投入、開(kāi)放的系統(tǒng)都是必不可少的組件,而且還需要大量合作伙伴的加入。國(guó)內(nèi)云安全技術(shù)已經(jīng)有一些初步的發(fā)展,比如金山毒霸的“云安全”,它是為了解決木馬商業(yè)化之后的互聯(lián)網(wǎng)嚴(yán)峻的安全形勢(shì)應(yīng)運(yùn)而生的一種全網(wǎng)防御的安全體系結(jié)構(gòu),包括智能化客戶端、集群式服務(wù)端和開(kāi)放的平臺(tái)三個(gè)層次。

3.4 系統(tǒng)級(jí)容錯(cuò)技術(shù)。利用云計(jì)算,用戶不管在什么時(shí)間、什么地點(diǎn)都可以利用互聯(lián)網(wǎng)來(lái)查看自己在云端存儲(chǔ)的文件,完成未完成的工作,他不用依賴特定的計(jì)算機(jī)來(lái)共享網(wǎng)絡(luò)資源,甚至不需要安裝任何應(yīng)用軟件就可以在云端順利地可用所需的應(yīng)用,用戶所需的各種資料和軟件都存在云端。因此,云計(jì)算安全系統(tǒng)必須具備容災(zāi)和數(shù)據(jù)恢復(fù)的功能,以保證用戶的資料不丟失。但是由于云計(jì)算本身的龐大,以往的系統(tǒng)容錯(cuò)技術(shù)已不能滿足需要,進(jìn)一步的研究系統(tǒng)容錯(cuò)是十分必要的。保障容錯(cuò)系統(tǒng)的高可靠性要從系統(tǒng)結(jié)構(gòu)的設(shè)計(jì)出發(fā),目前經(jīng)常用到的容錯(cuò)技術(shù)包括服務(wù)器群集技術(shù)、雙機(jī)冗余服務(wù)器技術(shù)和單機(jī)容錯(cuò)技術(shù),云計(jì)算系統(tǒng)級(jí)容錯(cuò)則是一種多機(jī)容錯(cuò)技術(shù)。云計(jì)算系統(tǒng)中有成千上萬(wàn)臺(tái)服務(wù)器,其中存放著大量的數(shù)據(jù)、服務(wù)和應(yīng)用,容錯(cuò)系統(tǒng)也必須可以解決大范圍失效問(wèn)題。目前使用較多的是應(yīng)用層面的檢查點(diǎn)和重啟技術(shù),但這回增加云計(jì)算容錯(cuò)技術(shù)的開(kāi)發(fā)難度和工作量,降低系統(tǒng)運(yùn)行性能。所以急需提出新的技術(shù)和設(shè)計(jì)方法,來(lái)為云計(jì)算發(fā)展提供可靠穩(wěn)定的保障。

4 結(jié)束語(yǔ)

現(xiàn)在商用和科學(xué)計(jì)算的計(jì)算量在日益增大,云計(jì)算必將成為解決這些問(wèn)題的不二選擇,未來(lái)云計(jì)算的發(fā)展前景會(huì)是一片大好。明確云計(jì)算發(fā)展需解決的問(wèn)題,將有助于我們準(zhǔn)確把握未來(lái)云計(jì)算研究的方向,為云計(jì)算的進(jìn)一步發(fā)展做出貢獻(xiàn),使中國(guó)的云計(jì)算技術(shù)研究和云計(jì)算產(chǎn)品在世界IT領(lǐng)域占有一席之地。

參考文獻(xiàn):

[1]方巍,文學(xué)志,潘吳斌.云計(jì)算:概念?技術(shù)及應(yīng)用研究綜述[N].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(04).

第12篇

關(guān)鍵詞:學(xué)前教育;信息素養(yǎng);數(shù)據(jù)挖掘

一、研究背景

20世紀(jì)90年代以來(lái),教育界出現(xiàn)了以信息技術(shù)的廣泛應(yīng)用為特征的發(fā)展趨勢(shì),國(guó)內(nèi)學(xué)者稱之為教育信息化。教育的信息化逐漸成為教育現(xiàn)代化的重要平臺(tái),而學(xué)前教育是整個(gè)教育大廈的奠基石,它的信息化對(duì)整個(gè)教育信息化起著強(qiáng)大的推動(dòng)作用。教育信息化是一個(gè)系統(tǒng)工程,有了好的軟、硬件環(huán)境,教師們具備較高的信息素養(yǎng),對(duì)于教育信息化的推進(jìn)有著重要意義。

信息素養(yǎng),通俗的理解是對(duì)信息的搜索、加工、處理,再結(jié)合自己的知識(shí)結(jié)構(gòu),對(duì)信息內(nèi)化,提出自己的看法。這種素養(yǎng)、能力在網(wǎng)絡(luò)時(shí)代顯得尤為重要,也是幼兒教師朝專業(yè)化發(fā)展的重要素質(zhì)。幼兒園教師的信息素養(yǎng)應(yīng)當(dāng)是“知道如何利用計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)以獲取相關(guān)學(xué)前教育教學(xué)信息,創(chuàng)造性地開(kāi)發(fā)、豐富幼兒園教育資源,合理、靈活運(yùn)用多種信息解決幼兒園教育教學(xué)實(shí)際問(wèn)題的技術(shù)技能”。

泉州兒童發(fā)展職業(yè)學(xué)院,是閩南地區(qū)重要的學(xué)前教育培養(yǎng)基地,每年都會(huì)為社會(huì)輸送300~500名學(xué)前教育專業(yè)的學(xué)生,分布在閩南、閩西和閩北等地區(qū),為提升海峽西岸的學(xué)前教育質(zhì)量做出貢獻(xiàn)。為適應(yīng)學(xué)前教育信息化進(jìn)程,學(xué)院每年都會(huì)舉辦幼兒園信息技術(shù)師資培訓(xùn),培訓(xùn)內(nèi)容從以前單一的辦公化軟件應(yīng)用基礎(chǔ),發(fā)展到現(xiàn)在的多媒體軟件應(yīng)用、課件制作等更高技能。

由于幼兒園教師多來(lái)自閩南三地,數(shù)量龐大,可以利用深度訪談、網(wǎng)上問(wèn)卷、網(wǎng)下答卷等多種形式收集所需的信息,從而建立起相關(guān)的數(shù)據(jù)庫(kù)。隨著調(diào)查研究的展開(kāi),數(shù)據(jù)資料和信息量將會(huì)急劇增大。以泉州地區(qū)為例,截止到2004年共有幼兒園604所,加上各種幼教機(jī)構(gòu),將達(dá)到700個(gè)單位,一個(gè)普通幼兒園一般師資有40人左右,這樣單單泉州地區(qū)從事幼教行業(yè)的人員就有近3萬(wàn)人,而每個(gè)教師的數(shù)據(jù)資料包含有多方面,其中包含著巨大的信息資源。要如何合理地、高效地挖掘出這些數(shù)據(jù)之間的關(guān)系,從而為我們的教育培訓(xùn)提供指導(dǎo),單靠傳統(tǒng)的數(shù)據(jù)分析手段是無(wú)法勝任的。因此結(jié)合筆者的實(shí)際工作以及所在單位的需要,引入一個(gè)新的研究方向:面向?qū)W前教育師資信息素養(yǎng)的數(shù)據(jù)挖掘技術(shù)研究。

數(shù)據(jù)挖掘,現(xiàn)在已經(jīng)在一些領(lǐng)域上得到成功的應(yīng)用,在高層次的教育管理領(lǐng)域的應(yīng)用得到越來(lái)越廣泛的重視,不僅是師范院校、綜合大學(xué),包括很多大公司、大企業(yè)也參與到這項(xiàng)造福未來(lái)的事業(yè)中。

在學(xué)前教育管理領(lǐng)域上,數(shù)據(jù)挖掘還是個(gè)全新的課題。本文將利用數(shù)據(jù)挖掘方法,分析被研究對(duì)象——幼兒園教師在使用信息技術(shù)過(guò)程中表現(xiàn)出來(lái)的信息素養(yǎng),包括:

1.個(gè)人信息意識(shí)與態(tài)度,包括教師的業(yè)務(wù)能力、信息環(huán)境建設(shè),以及教師的信息意識(shí),利用信息手段解決工作和生活問(wèn)題的主動(dòng)性。

2.個(gè)人信息知識(shí)和技能水平,包括教師多媒體軟件使用情況、多媒體課件制作能力、網(wǎng)絡(luò)技能、知識(shí)技能與課件制作的能力。

3.個(gè)人信息素養(yǎng)綜合因素以及學(xué)習(xí)目標(biāo),包括信息化教學(xué)意識(shí)、信息道德與安全、信息技術(shù)培訓(xùn)要求以及信息技術(shù)困難。

通過(guò)對(duì)以上三方面的研究分析,我們希望能從中找出影響教師信息素養(yǎng)提升的主觀和客觀因素,從而指導(dǎo)教師信息技術(shù)培訓(xùn)方案的制訂,更有助于學(xué)前教育師資職前教學(xué)計(jì)劃的制訂以及培養(yǎng)目標(biāo)的調(diào)整。

二、教育領(lǐng)域的數(shù)據(jù)挖掘技術(shù)應(yīng)用現(xiàn)狀

在教育管理領(lǐng)域內(nèi),數(shù)據(jù)挖掘技術(shù)正在慢慢地被推廣,主要是應(yīng)用在圖書(shū)管理、教務(wù)管理、教學(xué)評(píng)價(jià)、數(shù)據(jù)分析等事務(wù)中,但總體上研究不夠成熟。當(dāng)前國(guó)內(nèi)各大師范院校也意識(shí)到數(shù)據(jù)挖掘的重要性,在教育專業(yè)課程設(shè)置方面均開(kāi)設(shè)了“數(shù)據(jù)挖掘”等相關(guān)課程,如南京師范大學(xué)的“Web數(shù)據(jù)挖掘與推理”、“數(shù)據(jù)庫(kù)與數(shù)據(jù)挖掘”等課程。隨著關(guān)聯(lián)分析、聚類、概念描述、偏差檢測(cè)等技術(shù)的不斷發(fā)展和完善,數(shù)據(jù)挖掘必將在教育領(lǐng)域中發(fā)揮越來(lái)越大的作用,同時(shí)隨著人們對(duì)這一技術(shù)的日益關(guān)注,相信其在教育領(lǐng)域的應(yīng)用范圍也會(huì)越來(lái)越廣,從而快速推進(jìn)教育的改革和發(fā)展。

在學(xué)前教育領(lǐng)域內(nèi),由于管理人員在技術(shù)上的不足,數(shù)據(jù)挖掘的相關(guān)應(yīng)用基本上是空白,更多的是利用Excel圖表或SPSS等工具對(duì)調(diào)查結(jié)果進(jìn)行簡(jiǎn)單的匯總分析,得出結(jié)論。隨著信息技術(shù)的廣泛應(yīng)用,學(xué)前教育界的專家也開(kāi)始注意到信息素養(yǎng)的培養(yǎng)問(wèn)題,并對(duì)幼兒園教師信息素養(yǎng)進(jìn)行調(diào)查研究,但對(duì)于得到的數(shù)據(jù)、問(wèn)題之間的內(nèi)在關(guān)聯(lián)、相互制約等關(guān)系,沒(méi)能進(jìn)行更有意義的發(fā)現(xiàn)、推理。

三、研究意義及方法

在學(xué)前教育領(lǐng)域中,作為主體的幼兒教師是一個(gè)特殊的年輕群體,她們普遍學(xué)歷不高,研究水平有限,學(xué)習(xí)能力也不如中小學(xué)教師,但卻是個(gè)充滿朝氣、積極向上的群體。由于特殊的教育環(huán)境、教學(xué)對(duì)象,使得她們需要借助更多高效的教學(xué)手段、教學(xué)模式來(lái)豐富課堂,吸引幼兒的注意力,提高教學(xué)效果,而信息技術(shù)正是最好的工具。因此,如何加強(qiáng)幼兒教師的信息技術(shù)能力,提升幼兒教師的信息素養(yǎng),是一項(xiàng)非常重要的任務(wù)。筆者已通過(guò)調(diào)查問(wèn)卷、網(wǎng)絡(luò)答題等方式,不斷地收集、積累相關(guān)數(shù)據(jù),構(gòu)建數(shù)據(jù)庫(kù),而如何利用有效的途徑,并從這些數(shù)據(jù)中發(fā)現(xiàn)有用的信息,進(jìn)而對(duì)信息技術(shù)教育課程改革提供指導(dǎo),有著長(zhǎng)遠(yuǎn)的意義。

因此,本次研究的主要內(nèi)容和所采用的研究方法可以概括為:

1.持續(xù)地通過(guò)問(wèn)卷調(diào)查,網(wǎng)絡(luò)答題等方式獲取數(shù)據(jù),形成“學(xué)前教育師資信息素養(yǎng)數(shù)據(jù)庫(kù)”,并結(jié)合個(gè)別訪談形式,探討泉、莆、廈、漳、龍巖等地幼兒教師信息技術(shù)整體水平;

2.根據(jù)領(lǐng)域?qū)<乙螅瑢⒏饕蛩胤殖?1個(gè)挖掘問(wèn)題,并利用挖掘工具探索各因素之間的關(guān)系;

3.設(shè)計(jì)數(shù)據(jù)挖掘模型,利用數(shù)據(jù)挖掘工具,對(duì)不同的挖掘問(wèn)題分別采用關(guān)聯(lián)規(guī)則、聚類方法進(jìn)行研究;

4.探討不合理規(guī)則,利用測(cè)試數(shù)據(jù)集對(duì)挖掘結(jié)果進(jìn)行檢驗(yàn);

5.挖掘結(jié)果可視化、直觀化,方便用戶對(duì)結(jié)果的理解。

參考文獻(xiàn)

[1] 杜安平,周期玉.Big6與當(dāng)代大學(xué)生的信息素養(yǎng)構(gòu)建[J].實(shí)踐研究,2006,(6):730-734.

主站蜘蛛池模板: 襄樊市| 邢台县| 梓潼县| 建阳市| 泾川县| 洞口县| 循化| 正镶白旗| 赤城县| 兴安盟| 林甸县| 怀宁县| 漳平市| 牡丹江市| 郓城县| 襄城县| 潍坊市| 连江县| 宜春市| 闽清县| 兰西县| 尖扎县| 墨竹工卡县| 黄大仙区| 格尔木市| 昭觉县| 宜昌市| 蒙阴县| 兴城市| 冀州市| 乌兰浩特市| 呼玛县| 德格县| 枞阳县| 华坪县| 黄山市| 合水县| 禹城市| 吐鲁番市| 花垣县| 文水县|