時(shí)間:2023-03-27 16:59:48
開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇計(jì)算機(jī)大數(shù)據(jù)論文,希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進(jìn)步。
1.計(jì)算機(jī)網(wǎng)絡(luò)安全概述。
計(jì)算機(jī)網(wǎng)絡(luò)安全,是指利用相關(guān)網(wǎng)絡(luò)管理控制與技術(shù),確保在一個(gè)網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)的完整性、保密性及可用性。計(jì)算機(jī)網(wǎng)絡(luò)安全,主要包括邏輯安全與物理安全兩個(gè)方面,其中,邏輯安全包括數(shù)據(jù)的保密性、完整性及可用性,防止沒有經(jīng)過授權(quán)對(duì)數(shù)據(jù)進(jìn)行隨意篡改或破壞的行為;物理安全包括相關(guān)設(shè)備與設(shè)施在受到物理保護(hù)的條件下保護(hù)設(shè)備上的數(shù)據(jù)免于丟失、破壞。
2.計(jì)算機(jī)網(wǎng)絡(luò)存在的主要安全問題。
目前,計(jì)算機(jī)已經(jīng)廣泛應(yīng)用于各行各業(yè),人們對(duì)計(jì)算機(jī)網(wǎng)絡(luò)的認(rèn)識(shí)與利用水平也顯著提升,辦公、社交、生活等方方面面都離不開計(jì)算機(jī)網(wǎng)絡(luò)。計(jì)算機(jī)網(wǎng)絡(luò)在豐富和改變?nèi)藗兩畹耐瑫r(shí),其存在的安全問題也不得不讓人們警醒,經(jīng)過筆者梳理,計(jì)算機(jī)網(wǎng)絡(luò)安全問題主要存在以下幾個(gè)方面:
1)網(wǎng)絡(luò)病毒所導(dǎo)致的安全問題。
在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)快速發(fā)展的過程中,也出現(xiàn)了越來越多、感染力越來越強(qiáng)的新病毒,它們無時(shí)無刻地影響著計(jì)算機(jī)網(wǎng)絡(luò)的安全。由于計(jì)算機(jī)網(wǎng)絡(luò)病毒具有復(fù)制性,能夠感染其他程序和軟件,因此,一旦計(jì)算機(jī)中了病毒,其所運(yùn)行的每一步都將是危險(xiǎn)的,都會(huì)存在讓病毒也隨之運(yùn)行并產(chǎn)生破壞行為,然后應(yīng)用程序被破壞,機(jī)密數(shù)據(jù)被盜用或被破壞,甚至讓整個(gè)計(jì)算機(jī)系統(tǒng)癱瘓。
2)人為操作失誤所導(dǎo)致的安全問題。
在人們進(jìn)行計(jì)算機(jī)相關(guān)操作過程中,人為操作失誤可能會(huì)引起計(jì)算機(jī)的安全漏洞,或者泄露了某些重要的信息,而這些信息一旦被不發(fā)分子所利用,便會(huì)造成難以挽回的損失。
3)網(wǎng)絡(luò)黑客攻擊所導(dǎo)致的安全問題。
在大數(shù)據(jù)時(shí)代下,網(wǎng)絡(luò)黑客對(duì)計(jì)算機(jī)網(wǎng)絡(luò)的攻擊具有更隱蔽、破壞性更強(qiáng)的特點(diǎn)。由于在大數(shù)據(jù)時(shí)代下,網(wǎng)絡(luò)黑客通過非正常手段竊取到某一重要數(shù)據(jù)時(shí),一旦其利用這些數(shù)據(jù)進(jìn)行非法行為時(shí)便會(huì)引起巨大的波及。同時(shí),在海量的數(shù)據(jù)中,難以及時(shí)識(shí)別網(wǎng)絡(luò)黑客的攻擊行為,對(duì)于計(jì)算機(jī)網(wǎng)絡(luò)安全而言是一種嚴(yán)重的威脅。
4)網(wǎng)絡(luò)管理不到位所導(dǎo)致的安全問題。
在網(wǎng)絡(luò)安全維護(hù)中,網(wǎng)絡(luò)安全管理是非常重要的環(huán)節(jié),但是目前很多使用計(jì)算機(jī)的個(gè)人乃至企業(yè)、政府部門并沒有對(duì)網(wǎng)絡(luò)安全管理引起足夠的重視,從事使得計(jì)算機(jī)網(wǎng)絡(luò)的安全受到各種威脅,最終導(dǎo)致大量的計(jì)算機(jī)網(wǎng)絡(luò)安全事件頻繁發(fā)生。五是,網(wǎng)絡(luò)系統(tǒng)自身的漏洞所導(dǎo)致的安全問題。理論上而言,一切計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)都存在某些漏洞。同時(shí),在用戶使用各類程序、硬件過程中由于人為疏忽也會(huì)形成一些網(wǎng)絡(luò)系統(tǒng)漏洞。二者相比,后者的破壞性常常是巨大的,很多不法分子通過非法途徑給用戶造成計(jì)算機(jī)系統(tǒng)漏洞,進(jìn)而竊取用戶信息,給用戶造成巨大的損失。
二、大數(shù)據(jù)時(shí)代下的計(jì)算機(jī)網(wǎng)絡(luò)安全防范對(duì)策
1.加強(qiáng)病毒治理及防范工作。
在大數(shù)據(jù)時(shí)代,計(jì)算機(jī)病毒的種類與數(shù)量與日俱增,對(duì)其進(jìn)行治理與防范是較為困難的。在對(duì)計(jì)算機(jī)病毒進(jìn)行治理與防范時(shí),筆者認(rèn)為最重要的是防范,這種防范是一種主動(dòng)的、積極的治理,可以通過加強(qiáng)計(jì)算機(jī)防火墻部署來提高網(wǎng)絡(luò)環(huán)境的安全性,將那些不穩(wěn)定的、危險(xiǎn)的網(wǎng)絡(luò)因素隔離在外,進(jìn)而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)環(huán)境的安全保護(hù)。同時(shí),計(jì)算機(jī)使用者樹立正確的病毒防范意識(shí),在計(jì)算機(jī)日常使用中,能夠定期利用殺毒軟件對(duì)所使用的計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境進(jìn)行殺毒,并更新病毒樣本庫,進(jìn)而確保對(duì)計(jì)算機(jī)網(wǎng)絡(luò)的掃描能及時(shí)識(shí)別計(jì)算機(jī)病毒并進(jìn)行及時(shí)的處理。
2.加強(qiáng)黑客防范工作。
隱藏在大數(shù)據(jù)背后的網(wǎng)絡(luò)黑客一旦實(shí)施其不法行為,常常會(huì)產(chǎn)生巨大的安全問題,因此,為了防范計(jì)算機(jī)網(wǎng)絡(luò)安全,應(yīng)當(dāng)積極整合大數(shù)據(jù)的海量信息優(yōu)勢(shì),建立科學(xué)的網(wǎng)絡(luò)黑客防范攻擊的模型,以此來提升識(shí)別網(wǎng)絡(luò)黑客的反應(yīng)速度。通過加強(qiáng)計(jì)算機(jī)網(wǎng)絡(luò)的內(nèi)外網(wǎng)的割離、加強(qiáng)防火墻配置,能夠有效降低黑客攻擊的可能性。同時(shí),還可以大力推廣數(shù)字認(rèn)證技術(shù),加強(qiáng)對(duì)訪問數(shù)據(jù)的有效控制,并合理認(rèn)證,有效避免非法目的用戶的非法訪問,進(jìn)而提升對(duì)網(wǎng)絡(luò)安全的有效保護(hù)。
3.加強(qiáng)網(wǎng)絡(luò)安全管理。
使用計(jì)算機(jī)的個(gè)人及機(jī)構(gòu),需要從思想上高度重視網(wǎng)絡(luò)安全管理的重要性,在熟悉大數(shù)據(jù)的特征與性能的基礎(chǔ)上采取安全的管理措施,時(shí)常關(guān)注網(wǎng)絡(luò)安全管理,從技術(shù)上給予網(wǎng)絡(luò)安全保障的同時(shí),還需要通過有效的網(wǎng)絡(luò)安全管理來實(shí)現(xiàn)大數(shù)據(jù)時(shí)代下計(jì)算機(jī)網(wǎng)絡(luò)安全的防范目的。對(duì)于機(jī)構(gòu)而言,需要從宏觀上認(rèn)識(shí)到網(wǎng)絡(luò)安全管理的重要性,并建立動(dòng)態(tài)的、有序的、系統(tǒng)的管理規(guī)章,依托于云計(jì)算技術(shù)構(gòu)建一個(gè)更加高級(jí)的智慧平臺(tái)來加強(qiáng)網(wǎng)絡(luò)安全的防范,進(jìn)而確保網(wǎng)絡(luò)安全。對(duì)于個(gè)人而言,需要從主觀上認(rèn)識(shí)到網(wǎng)絡(luò)安全的重要行,在進(jìn)行計(jì)算機(jī)操作中,要養(yǎng)成規(guī)范化的、文明的使用計(jì)算機(jī)網(wǎng)絡(luò)的習(xí)慣,尤其是對(duì)于一些釣魚網(wǎng)站、非法鏈接,要從主觀上認(rèn)識(shí)到其危害,并做自我做起,將網(wǎng)絡(luò)安全問題盡可能消滅,不傳播有安全隱患的信息或鏈接。
4.加強(qiáng)網(wǎng)絡(luò)系統(tǒng)漏洞的修復(fù)工作。
摘要:基于信息時(shí)代背景下,隨著計(jì)算機(jī)技術(shù)和信息網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,大數(shù)據(jù)時(shí)代下人工智能也得到快速進(jìn)步且與人們的日常生活息息相關(guān)。人工智能逐漸的走進(jìn)人們的日常工作生活中。因此,基于大數(shù)據(jù)時(shí)代下展開對(duì)人工智能在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用價(jià)值的分析顯得非常必要。論文對(duì)大數(shù)據(jù)時(shí)代下人工智能在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用價(jià)值進(jìn)行了探討,并且主要針對(duì)數(shù)據(jù)挖掘技術(shù)、入侵檢測技術(shù)和防火墻技術(shù)的相關(guān)應(yīng)用,希望為有關(guān)專業(yè)人士帶來一定的參考與借鑒。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;人工智能;計(jì)算機(jī)網(wǎng)絡(luò)技術(shù);應(yīng)用價(jià)值
21世紀(jì)以來,世界都已經(jīng)進(jìn)入大數(shù)據(jù)發(fā)展時(shí)代,人工智能的應(yīng)用與居民生活息息相關(guān)。人工智能就是模仿人類的行為方式和思維模式進(jìn)行工作處理,它比計(jì)算機(jī)技術(shù)更加具有實(shí)用價(jià)值。所以,為了迅速提高我國大數(shù)據(jù)時(shí)代人工智能在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用,論文基于此展開詳細(xì)分析探討,深入研究人工智能在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用價(jià)值。以下主要針對(duì)于人工智能計(jì)算機(jī)的基本內(nèi)容展開簡單分析與探討:
一、人工智能計(jì)算機(jī)的概況
利用計(jì)算機(jī)技術(shù)來模仿人類的行為方式和思維模式就叫做人工智能。人工智能,技術(shù)的涵蓋內(nèi)容廣泛,且創(chuàng)新性高、挑戰(zhàn)力度大,它的發(fā)展與各學(xué)科知識(shí)包括信息與計(jì)算科學(xué)、語言學(xué)、數(shù)學(xué)、心理學(xué)等都有關(guān)聯(lián)。人工智能的發(fā)展目標(biāo)是通過計(jì)算機(jī)技術(shù)讓本該由人工操作的危險(xiǎn)或復(fù)雜的工作由人工智能機(jī)器代替,從而額實(shí)現(xiàn)節(jié)約勞動(dòng)力、減少事故危害發(fā)生的情況,進(jìn)而提高工作效率和工作質(zhì)量。人工智能的發(fā)展形式多樣。第一,人工智能可以幫助完善某些較為復(fù)雜的問題或是當(dāng)前還無法解決的問題,若是發(fā)生由計(jì)算機(jī)運(yùn)算都還無法獲得正確模型的情況,此時(shí)就可利用人工智能來對(duì)該項(xiàng)問題進(jìn)行有效解決,針對(duì)模糊的問題和內(nèi)容,利用人工智能模式來不斷提高網(wǎng)絡(luò)使用質(zhì)量。第二,人工智能可以將簡單的東西或知識(shí)復(fù)雜化,得到人們想要的高級(jí)程序和數(shù)據(jù),從而節(jié)約實(shí)現(xiàn),提高工作效率。
二、大數(shù)據(jù)時(shí)代人工智能在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用
(一)數(shù)據(jù)挖掘技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用數(shù)據(jù)挖掘技術(shù)在近幾年來越來越受到人們的重視,因?yàn)閿?shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)時(shí)展的關(guān)鍵技術(shù)。利用人工智能技術(shù)可研究外界不安全因素的入侵頻率,并在網(wǎng)絡(luò)安全運(yùn)行的前提下結(jié)合網(wǎng)絡(luò)存貯狀態(tài),將研究結(jié)果記錄保存。之后的工作中,若計(jì)算機(jī)處于運(yùn)行情況時(shí)發(fā)生安全問題,系統(tǒng)會(huì)立即給予警告提示,并及時(shí)攔截入侵對(duì)象。數(shù)據(jù)挖掘技術(shù)其實(shí)從根本上來看,就是由人工智能技術(shù)和大數(shù)據(jù)技術(shù)的綜合發(fā)展而來,模仿人類處理數(shù)據(jù)信息的特征和方式,讓計(jì)算機(jī)實(shí)現(xiàn)對(duì)數(shù)據(jù)的批量處理。此外,數(shù)據(jù)挖掘技術(shù)還可與各種傳感器融合工作,從而實(shí)現(xiàn)技術(shù)功效的最大潛力,不斷增強(qiáng)計(jì)算機(jī)系統(tǒng)的功效和實(shí)用價(jià)值。
(二)入侵檢測技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用現(xiàn)展迅速,網(wǎng)絡(luò)科技已成為人們?nèi)粘I钪兄陵P(guān)重要的組成成分,給人們的生活工作帶來極大便利,但是其中也潛存很多不穩(wěn)定因素。所以,網(wǎng)絡(luò)安全技術(shù)的發(fā)展是保證網(wǎng)絡(luò)使用正常工作的重要前提。當(dāng)前,已經(jīng)有很多網(wǎng)絡(luò)機(jī)制被運(yùn)用到保護(hù)網(wǎng)絡(luò)安全的工作中,但是在對(duì)網(wǎng)絡(luò)安全管理時(shí)發(fā)現(xiàn)仍舊有很多不穩(wěn)定因素的存在,尤其是現(xiàn)在網(wǎng)絡(luò)技術(shù)的發(fā)展迅速,很多手機(jī)支付等網(wǎng)絡(luò)支付方式中會(huì)存在支付密碼泄露的情況。基于此,在網(wǎng)絡(luò)計(jì)算機(jī)安全使用過程中起到良好作用的是入侵檢測技術(shù)。該技術(shù)被使用時(shí),可以對(duì)網(wǎng)絡(luò)中潛存的安全隱患信息及時(shí)偵查處理,對(duì)其數(shù)據(jù)信息進(jìn)行檢測,最后將檢測結(jié)果的分析報(bào)告反饋給用戶,實(shí)現(xiàn)有效檢測。入侵檢測技術(shù)的不斷發(fā)展和完善,讓計(jì)算機(jī)網(wǎng)絡(luò)的安全運(yùn)行得到極大保障,在對(duì)計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行安全檢測的條件下,防止網(wǎng)絡(luò)受到外界環(huán)境的干擾。人工智能技術(shù)中還可結(jié)合人工神經(jīng)系統(tǒng)高和專家系統(tǒng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)實(shí)時(shí)變化信息的即時(shí)監(jiān)控,切實(shí)保障計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的安全發(fā)展。
(三)防火墻技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用計(jì)算機(jī)的硬件與軟件相結(jié)合才能讓防火墻技術(shù)發(fā)揮功效,為計(jì)算機(jī)的安全運(yùn)行構(gòu)建一個(gè)完整的保護(hù)盔甲。防火墻技術(shù)的應(yīng)用是針對(duì)整個(gè)計(jì)算機(jī)網(wǎng)絡(luò)的使用安全,極大的降低了由于外界非法入侵帶來的不穩(wěn)定因素,讓計(jì)算機(jī)的安全得到保障。尤其是在現(xiàn)在大數(shù)據(jù)時(shí)代的發(fā)展背景下,防火墻技術(shù)的優(yōu)點(diǎn)更加明顯,防止計(jì)算機(jī)被非法入侵是防火墻技術(shù)的最重要功效。當(dāng)前,人們每天都會(huì)收到很多封垃圾郵件和短信,部分郵件和短信還攜帶有危害性質(zhì)的病毒,一旦點(diǎn)開這些垃圾信息和短信就會(huì)造成病毒入侵,讓計(jì)算機(jī)中原本的私人信息遭到泄露。因此,需要人工智能技術(shù)來幫助人們進(jìn)行信息識(shí)別,掃描郵件中是否有不安全因素的存在,找出后還可立即進(jìn)行排除,防止安全事故的發(fā)生。根據(jù)以上內(nèi)容的分析得出,在當(dāng)前的計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)應(yīng)用過程中,人工智能技術(shù)已成為主導(dǎo)技術(shù)之一,它能夠結(jié)合其他任何智能技術(shù)實(shí)現(xiàn)創(chuàng)新發(fā)展和進(jìn)步,以促進(jìn)計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的安全使用,讓計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)高效、安全的發(fā)展,這也讓人們的生活、工作水平進(jìn)一步提高。
三、結(jié)語
總而言之,科學(xué)技術(shù)快速發(fā)展背景下,人工智能的發(fā)展在大數(shù)據(jù)時(shí)代背景下有了新的突破,計(jì)算機(jī)網(wǎng)絡(luò)的安全系數(shù)以及運(yùn)行效率都得到穩(wěn)定提升和進(jìn)步。這些進(jìn)步離不開人工智能中優(yōu)秀的技術(shù)的大力支持,包括數(shù)據(jù)挖掘技術(shù)、入侵檢測技術(shù)和防火墻技術(shù),它們保障了計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的安全運(yùn)行,給社會(huì)公民提供了一個(gè)穩(wěn)定、安全、開放的網(wǎng)絡(luò)平臺(tái),也為我國計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的進(jìn)一步發(fā)展奠定了良好的基石。
1 前言
信息管理與信息系統(tǒng)專業(yè)雖然屬于管理學(xué),但其主干學(xué)科包括計(jì)算機(jī)科學(xué)與技術(shù)、經(jīng)濟(jì)學(xué)、管理學(xué)等三個(gè),該專業(yè)的綜合性、實(shí)踐性很強(qiáng),但是目前各高校該專業(yè)的實(shí)踐教學(xué)體系不完備,還未自成一家、各具特色,以致畢業(yè)生實(shí)踐能力不突出,特色彰顯不夠,就業(yè)競爭力不強(qiáng),培養(yǎng)應(yīng)用型人才是當(dāng)務(wù)之急,核心是要培養(yǎng)學(xué)生的應(yīng)用能力、創(chuàng)新能力和工程素養(yǎng)。要達(dá)到本目標(biāo),就要大力加強(qiáng)和完善實(shí)踐教學(xué)環(huán)節(jié),建立多層次、一體化的實(shí)踐教學(xué)體系。
曲靖師范學(xué)院信息管理與信息系統(tǒng)專業(yè)從2008年開辦至今,已經(jīng)培養(yǎng)5屆學(xué)生,一直以來,我們不斷加強(qiáng)和完善該專業(yè)的實(shí)踐教學(xué)環(huán)節(jié),形成了四位一體的實(shí)踐教學(xué)體系,取得了良好的效果。
2實(shí)踐教學(xué)體系的“硬件位”
實(shí)踐教學(xué)體系的“硬件位”強(qiáng)調(diào)實(shí)驗(yàn)室建設(shè)。實(shí)驗(yàn)室是開展教研的硬件基礎(chǔ),沒有這個(gè)基礎(chǔ),一切教研工作就是空中樓閣。我們一直重視信息管理與信息系統(tǒng)專業(yè)的實(shí)驗(yàn)室建設(shè)。采購實(shí)驗(yàn)設(shè)備的指導(dǎo)思想是實(shí)驗(yàn)設(shè)備要先進(jìn)、實(shí)用,充分滿足學(xué)生的學(xué)習(xí)和教師的教學(xué)科研的需要。
該專業(yè)已經(jīng)建成硬件實(shí)驗(yàn)室有2個(gè):計(jì)算機(jī)組成原理實(shí)驗(yàn)室、計(jì)算機(jī)組裝與維護(hù)實(shí)驗(yàn)室,通信與網(wǎng)絡(luò)實(shí)驗(yàn)室有2個(gè):計(jì)算機(jī)通信實(shí)驗(yàn)室、計(jì)算機(jī)網(wǎng)絡(luò)實(shí)驗(yàn)室,信息管理類的實(shí)驗(yàn)室有3個(gè):數(shù)字庫應(yīng)用實(shí)驗(yàn)室、信息管理與軟件實(shí)驗(yàn)室、信息技術(shù)創(chuàng)新實(shí)驗(yàn)室。同時(shí)為適應(yīng)當(dāng)今云計(jì)算、大數(shù)據(jù)的大趨勢(shì),我們投資200多萬建立了云計(jì)算平臺(tái)。
這些實(shí)驗(yàn)室的更新及新建,能充分滿足學(xué)生的學(xué)習(xí)和教師的教學(xué)及科研的需要。
3實(shí)踐教學(xué)體系的 “抓手位”
專業(yè)技能訓(xùn)練提升學(xué)生實(shí)踐能力的抓手,在學(xué)生的整個(gè)大學(xué)四年期間,為了在不同學(xué)期提升學(xué)生的綜合實(shí)踐能力,我們開展了貫穿大學(xué)4年的專業(yè)技能訓(xùn)練。
專業(yè)技能訓(xùn)練是實(shí)踐教學(xué)體系的抓手,專業(yè)技能訓(xùn)練的目的是根據(jù)訓(xùn)練大綱,我們應(yīng)以項(xiàng)目為驅(qū)動(dòng)來創(chuàng)新該專業(yè)的實(shí)踐教學(xué)體系[1],提升學(xué)生應(yīng)具備的專業(yè)素養(yǎng)和能力,形成幾大子抓手,再作專項(xiàng)的打造。
我院的專業(yè)技能訓(xùn)練主要包括兩個(gè)級(jí)別,一是課程設(shè)計(jì)訓(xùn)練,本訓(xùn)練以課程為依托,制定課程級(jí)別的訓(xùn)練大綱和測試方案;二是綜合設(shè)計(jì)訓(xùn)練,訓(xùn)練學(xué)生綜合能力,要求學(xué)生能靈活應(yīng)用所學(xué)課程,完成一個(gè)綜合性、設(shè)計(jì)性項(xiàng)目。
3.1 課程設(shè)計(jì)訓(xùn)練
“課程設(shè)計(jì)”一個(gè)多義詞詞條。它可以指“為掌握某一課程內(nèi)容所進(jìn)行的設(shè)計(jì)”[2]。課程設(shè)計(jì)是課程實(shí)驗(yàn)的高級(jí)環(huán)節(jié),課程實(shí)驗(yàn)是提升學(xué)生立體實(shí)踐能力的根本,課程實(shí)驗(yàn)分為驗(yàn)證性實(shí)驗(yàn)、綜合性實(shí)驗(yàn)和課程設(shè)計(jì)實(shí)驗(yàn),我們?cè)趥鹘y(tǒng)驗(yàn)證性實(shí)驗(yàn)的基礎(chǔ)上開展課程設(shè)計(jì)實(shí)驗(yàn),提升學(xué)生的課程綜合實(shí)踐能力。
信息管理與信息系統(tǒng)專業(yè)的核心課程有6門,分別是:Java程序設(shè)計(jì)、管理信息系統(tǒng)、數(shù)據(jù)庫原理、計(jì)算機(jī)網(wǎng)絡(luò)及實(shí)驗(yàn)、管理學(xué)、經(jīng)濟(jì)學(xué)。我們針對(duì)這些課程,在編寫實(shí)驗(yàn)大綱時(shí),就要求編寫課程對(duì)應(yīng)的課程設(shè)計(jì),設(shè)計(jì)方案要經(jīng)過教研室的審核和信息工程學(xué)院教授委員的討論及審定。以審定通過的課程設(shè)計(jì)為依托,為后續(xù)綜合實(shí)踐能力的提升打下堅(jiān)實(shí)的基礎(chǔ)。
以《Java程序設(shè)計(jì)》課程設(shè)計(jì)為例,課程設(shè)計(jì)的目的:利用Java語言的語法特性,結(jié)合數(shù)據(jù)結(jié)構(gòu)算法、網(wǎng)絡(luò)知識(shí)、文件處理和數(shù)據(jù)庫等知識(shí)完成綜合題目的設(shè)計(jì)和代碼實(shí)現(xiàn),并培養(yǎng)鍛煉分析程序、撰寫報(bào)告等能力。
3.2 綜合設(shè)計(jì)訓(xùn)練
綜合設(shè)計(jì)訓(xùn)練的目的是鍛煉學(xué)生綜合所學(xué)知識(shí),設(shè)計(jì)和開發(fā)一個(gè)小項(xiàng)目的能力。這些項(xiàng)目有“ERP企業(yè)應(yīng)用”、“Oracle運(yùn)維管理”、“大數(shù)據(jù)管理”、“Java Web開發(fā)”等,這些小項(xiàng)目的訓(xùn)練要基于幾門課的知識(shí)和技能,如“Java Web開發(fā)”就需要學(xué)生綜合數(shù)據(jù)庫、數(shù)據(jù)結(jié)構(gòu)、軟件工程、計(jì)算機(jī)程序設(shè)計(jì)等知識(shí)與技能。
綜合設(shè)計(jì)訓(xùn)練要與畢業(yè)設(shè)計(jì)區(qū)別開來,此訓(xùn)練的主要目的是讓學(xué)生體驗(yàn)和掌握項(xiàng)目開發(fā)流程,同時(shí)鍛煉綜合應(yīng)用所學(xué)課程來完成一個(gè)具體的小項(xiàng)目。
3.3 信息管理與信息系統(tǒng)專業(yè)技能訓(xùn)練安排
為鼓勵(lì)學(xué)生多渠道獲得技能分,我們規(guī)定,學(xué)生在校期間,通過全國計(jì)算機(jī)技術(shù)與軟件專業(yè)技術(shù)資格(水平)考試的中級(jí)資格、全國計(jì)算機(jī)等級(jí)考試的四級(jí)證書、思科(微軟、ORACLE、華為、H3C或銳捷)的工程師級(jí)別認(rèn)證、中級(jí)會(huì)計(jì)師,可獲得3個(gè)學(xué)分;通過全國計(jì)算機(jī)技術(shù)與軟件專業(yè)技術(shù)資格(水平)考試的高級(jí)資格、思科(微軟、ORACLE、華為、H3C或銳捷)的高級(jí)工程師級(jí)別認(rèn)證,可獲得4個(gè)學(xué)分。
4實(shí)踐教學(xué)體系的“信息系統(tǒng)開發(fā)能力位”
本專業(yè)的學(xué)生要求具體一定和信息系統(tǒng)開發(fā)能力,該能力通過畢業(yè)論文(設(shè)計(jì))來煉成。畢業(yè)論文(設(shè)計(jì))是教學(xué)過程的最后階段采用的一種總結(jié)性的實(shí)踐教學(xué)環(huán)節(jié)。通過畢業(yè)設(shè)計(jì),學(xué)生可以綜合應(yīng)用所學(xué)的各種理論知識(shí)和技能,進(jìn)行全面、系統(tǒng)、嚴(yán)格的技術(shù)及基本能力的練習(xí)。[3]畢業(yè)論文(設(shè)計(jì))是實(shí)踐教學(xué)體系的技能整合,我院對(duì)畢業(yè)論文(設(shè)計(jì))作重大改革,著力打造學(xué)生綜合實(shí)踐能力
參加畢業(yè)論文(設(shè)計(jì))的學(xué)生分兩部分,一部分在公司實(shí)習(xí),同時(shí)要在公司完成畢業(yè)設(shè)計(jì)工作,余下的學(xué)生在校內(nèi)完成畢業(yè)論文工作,為提高畢業(yè)論文(設(shè)計(jì))的質(zhì)量,經(jīng)向教務(wù)處請(qǐng)示,允許我院結(jié)合專業(yè)實(shí)踐性強(qiáng)的實(shí)際,改革本專業(yè)畢業(yè)論文(設(shè)計(jì))工作。改革思路包括三點(diǎn),一是我院學(xué)生的畢業(yè)論文(設(shè)計(jì))以畢業(yè)設(shè)計(jì)為主,弱化對(duì)學(xué)生文本的要求,強(qiáng)化對(duì)實(shí)踐動(dòng)作能力的提升和檢查,二是做好規(guī)范管理工作,制定相關(guān)文件,如:“信息工程學(xué)院畢業(yè)論文(設(shè)計(jì))工作規(guī)定”、 “信息工程學(xué)院畢業(yè)設(shè)計(jì)開發(fā)文檔的撰寫與打印規(guī)范” 、“信息工程學(xué)院畢業(yè)設(shè)計(jì)開發(fā)文檔”等。
5實(shí)踐教學(xué)體系的“校企合作位”
為提升學(xué)生的實(shí)習(xí)水平,滿足用人單位的需求。我們自2013年開始,與四川華迪信息技術(shù)有限公司開展畢業(yè)實(shí)習(xí)合作,該公司是一家集軟件外包、信息服務(wù)、學(xué)生專業(yè)技能培訓(xùn)為一體的軟件公司,在全國小有名氣。學(xué)生參加校企合作實(shí)習(xí)有兩種類型,一是為期三個(gè)月的專業(yè)實(shí)習(xí),二是為期四個(gè)月的就業(yè)培訓(xùn)。三個(gè)月的專業(yè)實(shí)習(xí)分為軟件開發(fā)方向和網(wǎng)絡(luò)方向,軟件開發(fā)實(shí)訓(xùn)重點(diǎn)是提升學(xué)生的軟件開發(fā)實(shí)踐能力和水平,網(wǎng)絡(luò)方向的實(shí)訓(xùn)重點(diǎn)是提升學(xué)生的網(wǎng)絡(luò)設(shè)計(jì)、實(shí)施、部署能力。
從2013年開始,每年大概有一半的學(xué)生參加校企合作的實(shí)習(xí),取得了良好效果,學(xué)生的專業(yè)實(shí)踐能力提升了,就業(yè)質(zhì)量明顯提高,很多學(xué)生就在四川成都就業(yè)、創(chuàng)業(yè)。
關(guān)鍵詞 大數(shù)據(jù)應(yīng)用背景 超級(jí)計(jì)算機(jī) 數(shù)據(jù)處理
在電子信息技術(shù)的推動(dòng)下,大數(shù)據(jù)已成為了當(dāng)代潮流前線的主流技術(shù),所謂大數(shù)據(jù),從狹義上理解主要是指各種大規(guī)模的數(shù)據(jù),具體來說是指難以在既定的時(shí)間范圍內(nèi)使用常規(guī)軟件以及技術(shù)進(jìn)行收集、統(tǒng)計(jì)、儲(chǔ)存以及管理的數(shù)據(jù)集合,必須通過新型處理模式才可將其決策力、洞察力、發(fā)現(xiàn)力以及流程化進(jìn)行充分發(fā)揮、具有規(guī)模大、復(fù)雜程度高、實(shí)時(shí)性強(qiáng)、高增長率以及多元化等特征的信息資產(chǎn)。由此可見,大數(shù)據(jù)是一種不同于傳統(tǒng)數(shù)據(jù)的信息化數(shù)據(jù)資產(chǎn),僅僅應(yīng)用傳統(tǒng)的軟件或工具進(jìn)行統(tǒng)計(jì)或管理是難以顯效的,我們必須針對(duì)大數(shù)據(jù)的特征以及需求設(shè)計(jì)一款超級(jí)計(jì)算機(jī),用于滿足大數(shù)據(jù)的計(jì)算需求。
通過超級(jí)計(jì)算機(jī)來構(gòu)建大數(shù)據(jù)處理中心,是現(xiàn)階段最為主流的應(yīng)用趨勢(shì)。相比于傳統(tǒng)計(jì)算機(jī)來說,超級(jí)計(jì)算機(jī)在性能方面具有顯著優(yōu)勢(shì),可以為大數(shù)據(jù)提供高效的計(jì)算以及處理服務(wù)。超級(jí)計(jì)算機(jī)早在二十世紀(jì)七十年代初就已被很多國家作為了一種戰(zhàn)略性資源而進(jìn)行使用,在國家經(jīng)濟(jì)建設(shè)、國防安全、社會(huì)發(fā)展、科學(xué)研究等方面得到了廣泛的應(yīng)用,并作出了極大的貢獻(xiàn),因此現(xiàn)階段,超級(jí)計(jì)算機(jī)技術(shù)基本已經(jīng)成為了衡量國家科技水平以及國防力量的重要指標(biāo)之一。天河二號(hào)超級(jí)計(jì)算機(jī)是由我國國防科學(xué)技術(shù)大學(xué)研制而成的,它實(shí)現(xiàn)了每秒鐘三點(diǎn)山九億億次的浮點(diǎn)運(yùn)算速度,并以此成績蟬聯(lián)五次奪得全球運(yùn)行速度最快超級(jí)計(jì)算機(jī)獎(jiǎng)項(xiàng)。但是,超級(jí)計(jì)算機(jī)雖然具有如此高效的運(yùn)行速率,它仍然只能在自己所擅長的以科學(xué)與工程運(yùn)算為主的領(lǐng)域中發(fā)揮作用,例如一些計(jì)算密集型的任務(wù)中。此外,超級(jí)計(jì)算機(jī)具有計(jì)算模式單一的特點(diǎn),它的處理過程通常由批量處理計(jì)算、流式運(yùn)算、迭代運(yùn)算、圖運(yùn)算等數(shù)據(jù)密集型運(yùn)算方式組成,因此傳統(tǒng)上的超級(jí)計(jì)算機(jī)很難直接被應(yīng)用在大數(shù)據(jù)的計(jì)摘 要 在大數(shù)據(jù)應(yīng)用時(shí)代背景當(dāng)中,超級(jí)計(jì)算機(jī)迎來了前所未有的挑戰(zhàn),這些挑戰(zhàn)主要體現(xiàn)在數(shù)據(jù)的計(jì)算、存儲(chǔ)、通信以及編程方面,因此基于大數(shù)據(jù)的實(shí)際特征以及需求來設(shè)計(jì)一個(gè)超級(jí)計(jì)算機(jī)系統(tǒng)是十分有必要的。本文圍繞如何基于大數(shù)據(jù)特征以及需求進(jìn)行超級(jí)計(jì)算機(jī)設(shè)計(jì)、大數(shù)據(jù)時(shí)代應(yīng)用背景下編程模型的設(shè)計(jì)兩個(gè)方面展開討論,對(duì)大數(shù)據(jù)應(yīng)用背景下的超級(jí)計(jì)算機(jī)設(shè)計(jì)進(jìn)行了分析,并提出了一些筆者自己的見解,希望能夠?qū)Υ髷?shù)據(jù)應(yīng)用背景下的數(shù)據(jù)處理問題提供一些對(duì)策建議。
關(guān)鍵詞 大數(shù)據(jù)應(yīng)用背景 超級(jí)計(jì)算機(jī) 數(shù)據(jù)處理算以及處理中。
1如何基于大數(shù)據(jù)特征以及需求進(jìn)行超級(jí)計(jì)算機(jī)設(shè)計(jì)
顯而易見,大數(shù)據(jù)的出現(xiàn)給人類技術(shù)帶來了極大的挑戰(zhàn),而超級(jí)計(jì)算機(jī)具有十分強(qiáng)大的計(jì)算能力以及極其高效的數(shù)據(jù)處理能力,它將海量的信息高度集中在自己的系統(tǒng)當(dāng)中,并通過工具媒介、數(shù)據(jù)存儲(chǔ)等多元化角度對(duì)這些龐大的數(shù)據(jù)進(jìn)行處理、分析以及應(yīng)用,由此可見,不同的超級(jí)計(jì)算機(jī)在對(duì)信息處理以及計(jì)算時(shí)所呈現(xiàn)出的性能水平也是有所差異的。我們之所以要通過超級(jí)計(jì)算機(jī)來實(shí)現(xiàn)高性能數(shù)據(jù)計(jì)算,主要目的就在于提升數(shù)據(jù)計(jì)算效率,并通過對(duì)大數(shù)據(jù)的應(yīng)用來增強(qiáng)通信效率。在本文中,筆者將圍繞硬件和軟件兩個(gè)層面來設(shè)計(jì)大數(shù)據(jù)應(yīng)用背景下的超級(jí)計(jì)算機(jī)。
1.1硬件體系結(jié)構(gòu)
信息量大以及操作簡單是大數(shù)據(jù)應(yīng)用的顯著特征,大數(shù)據(jù)應(yīng)用能夠確保計(jì)算指令維持在一個(gè)相對(duì)來說較低的狀態(tài),實(shí)際上間接增加了數(shù)據(jù)訪問所需的成本,由此可見,在使用超級(jí)計(jì)算機(jī)管理大數(shù)據(jù)的過程中主要存在的問題在于數(shù)據(jù)吞吐率與數(shù)據(jù)計(jì)算效率之間的失衡性。針對(duì)這一問題,我們可以重點(diǎn)以兩個(gè)切入點(diǎn)進(jìn)行解決,一是針對(duì)片上緩存實(shí)施徹底優(yōu)化處理。大數(shù)據(jù)應(yīng)用指令等級(jí)相對(duì)較低,跳轉(zhuǎn)頻率較高,且不具備充分的局部性,再加上大數(shù)據(jù)通常只能使用一次,我們可以基于上述特點(diǎn)來降低指令緩存,并構(gòu)建一個(gè)連接處理器與二級(jí)緩存的通道,以確保數(shù)據(jù)吞吐率與計(jì)算效率之間的失衡狀態(tài)得到相對(duì)改善;二是提高大數(shù)據(jù)計(jì)算能力。在大數(shù)據(jù)的影響下,信息逐漸呈現(xiàn)出高密集化狀態(tài),這使得傳統(tǒng)的處理器已無法滿足信息處理需求。因此必須通過超級(jí)計(jì)算機(jī)來部署一個(gè)具備良好實(shí)時(shí)性的處理器,其中異構(gòu)并行處理器是一項(xiàng)很好的選擇,具體來說,也就是把R檔募鈾倨韉既脛鐐ㄓ么理器核心當(dāng)中,在加速器的推動(dòng)作用下,使數(shù)據(jù)處理過程中能夠?qū)崿F(xiàn)數(shù)據(jù)并行的效果。大數(shù)據(jù)應(yīng)用過程中,對(duì)于數(shù)據(jù)的處理頻率相對(duì)較高,因此必須想方設(shè)法改善節(jié)點(diǎn)計(jì)算效率并強(qiáng)化通信效率。顧名思義,大數(shù)據(jù)就是代表龐大的數(shù)據(jù)信息量,因此相應(yīng)的儲(chǔ)存模式也較為復(fù)雜,種類繁多,其中最為常見的數(shù)據(jù)儲(chǔ)存模式為集中式存儲(chǔ)模式以及分布共享式存儲(chǔ)模式。為了較好地應(yīng)對(duì)大數(shù)據(jù)通信頻率較高這一問題,必須通過合理的手段來提高節(jié)點(diǎn)與節(jié)點(diǎn)或與設(shè)備之間的連接效率以及。對(duì)上文內(nèi)容進(jìn)行總結(jié)后得知,要想有效解決大數(shù)據(jù)應(yīng)用中存在的問題,其中最關(guān)鍵的環(huán)節(jié)在于加大互聯(lián)通信技術(shù)層面的研究開發(fā)力度,提高在節(jié)點(diǎn)連接效率優(yōu)化方面的研究力度,一般可以通過兩種方式來實(shí)現(xiàn),一種為研發(fā)一款軟硬件結(jié)合的多借口網(wǎng)絡(luò)芯片,另一種為通過光互連技術(shù)來改善數(shù)據(jù)傳送過程中的問題。
1.2硬件體系架構(gòu)
在大數(shù)據(jù)中包含著海量的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。這三種數(shù)據(jù)類型對(duì)應(yīng)的存儲(chǔ)方式也各不相同,結(jié)構(gòu)化數(shù)據(jù)通常使用數(shù)據(jù)庫結(jié)構(gòu)實(shí)現(xiàn)存儲(chǔ),而非結(jié)構(gòu)化以及半結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)則更多地以依靠于不同文件與系統(tǒng)之間的協(xié)調(diào)與配合來實(shí)現(xiàn)。數(shù)據(jù)處理與數(shù)據(jù)計(jì)算是兩個(gè)完全不同的過程,在數(shù)據(jù)計(jì)算的過程中,當(dāng)數(shù)據(jù)加載已經(jīng)結(jié)束時(shí),則需要對(duì)各系統(tǒng)之間的交互頻率進(jìn)行合理地調(diào)整和控制,所以說應(yīng)該選擇單一的分布式文件系統(tǒng)來實(shí)現(xiàn)。而針對(duì)大數(shù)據(jù)的處理方式則相對(duì)來說更為豐富,同時(shí)也更加復(fù)雜,其中使用頻率最高的數(shù)據(jù)處理方式有圖處理以及批處理兩種,這樣據(jù)必須得到不同文件與系統(tǒng)之間的良好配合已結(jié)支持。由此可見,在設(shè)計(jì)超級(jí)計(jì)算機(jī)時(shí),單一的文化系統(tǒng)完全不能滿足計(jì)算機(jī)運(yùn)行需求,應(yīng)將多種文件組合在一起進(jìn)行超級(jí)計(jì)算機(jī)系統(tǒng)的設(shè)計(jì)。
通過對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)模式進(jìn)行深入研究后可以發(fā)現(xiàn),它所使用的存儲(chǔ)結(jié)構(gòu)通常為分布式文件系統(tǒng)。為了能夠進(jìn)一步提升大數(shù)據(jù)的處理效率,Google對(duì)大數(shù)據(jù)儲(chǔ)存的文件系統(tǒng)進(jìn)行了一定的創(chuàng)新,在原有基礎(chǔ)上設(shè)計(jì)了一款具有擴(kuò)展功能的GFS文件系統(tǒng),創(chuàng)新后的文件系統(tǒng)在對(duì)應(yīng)用層的運(yùn)用下實(shí)現(xiàn)了對(duì)控制流以及數(shù)據(jù)量進(jìn)行分離的目的,可以說是一個(gè)真正意義上的分布式文件系統(tǒng),即使面對(duì)規(guī)模龐大的數(shù)據(jù)信息,該文件系統(tǒng)也能夠?qū)崿F(xiàn)高校的儲(chǔ)存以及處理。GFS文件系統(tǒng)由以下三個(gè)基本部分構(gòu)成,分別為若干塊服務(wù)器、單一的主控服務(wù)器以及客戶端。本論文以GFS文件系統(tǒng)為出發(fā)點(diǎn),對(duì)目前已研發(fā)上市且具有代表意義的阿里巴巴分支ADFS系統(tǒng)進(jìn)行了分析。在阿里巴巴的ADFS系統(tǒng)中,主要針對(duì)HDFSNameNode在使用過程中暴露出來的單點(diǎn)故障以及內(nèi)存不足等一系列問題實(shí)施優(yōu)化,工作原理主要為將內(nèi)存中不屬于熱點(diǎn)范圍內(nèi)的數(shù)據(jù)轉(zhuǎn)移至外部數(shù)據(jù)庫當(dāng)中,通過這種方式來緩解NalneNode所承受的內(nèi)存壓力,從而提升數(shù)據(jù)的處理質(zhì)量以及效率。而在對(duì)半結(jié)構(gòu)化數(shù)據(jù)以及結(jié)構(gòu)化數(shù)據(jù)進(jìn)行研究后發(fā)現(xiàn),半結(jié)構(gòu)化數(shù)據(jù)以及結(jié)構(gòu)化數(shù)據(jù)在存儲(chǔ)方式上有著十分顯著的共性特征,他們通常都優(yōu)先選擇數(shù)據(jù)庫以及分布式表結(jié)構(gòu)作為存儲(chǔ)方式,只有一些結(jié)構(gòu)相對(duì)較為簡單的半結(jié)構(gòu)化數(shù)據(jù)更傾向于選擇Key/Value分布式系統(tǒng),其中較為典型的為亞馬遜公司的Dynamo系統(tǒng)以及Facebook的Cassandra系統(tǒng),亞馬遜的Dynamo主要是運(yùn)用Key/Value作為數(shù)據(jù)存儲(chǔ)模式,這一存儲(chǔ)模式相比于其它模式的優(yōu)點(diǎn)在于具有強(qiáng)大的可擴(kuò)展性以及可用性。Facebook的Cassandra系統(tǒng)同樣也是采用Key/Value作為數(shù)據(jù)存儲(chǔ)模式,通過對(duì)這一存儲(chǔ)模式的運(yùn)用進(jìn)一步實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)可擴(kuò)展性以及一致性的增強(qiáng)。
2大數(shù)據(jù)時(shí)代應(yīng)用背景下編程模型的設(shè)計(jì)
在大數(shù)據(jù)時(shí)代@一背景下,編程模型所面臨的挑戰(zhàn)也是日益凸顯出來,傳統(tǒng)的編程模型也開始表現(xiàn)出一定的動(dòng)力不足趨勢(shì),并無法滿足大數(shù)據(jù)的編程要求,為了有效解決這一矛盾,必須基于大數(shù)據(jù)的特征以及需求來設(shè)計(jì)一種有別于傳統(tǒng)編程模型的全新的編程模型。大數(shù)據(jù)時(shí)代下的編程模型必須滿足簡單易操作的基本原則,并在此基礎(chǔ)上盡可能提高性能水平,構(gòu)建一個(gè)清晰明確的編程抽象,確保程序員的編程工作能夠更加順暢,在這一過程中,程序員并不需要關(guān)注程序在集群中運(yùn)行的具體狀態(tài)以及情況,只需要針對(duì)每一項(xiàng)問題進(jìn)行一一解決即可。在新的編程模型中,程序員的主要工作與任務(wù)在于關(guān)注一切有待解決的問題,以此來確保編程過程中各項(xiàng)任務(wù)的清晰化、明了化,同時(shí)還可以使代碼后期的維護(hù)管理工作得到極大程度的簡化,使程序員的工作更加方便、簡潔、高效。此外,在構(gòu)建編程模型時(shí)還應(yīng)考慮到系統(tǒng)數(shù)據(jù)計(jì)算能力以及處理能力提升的目的,我們不僅要確保程序能夠在集群上實(shí)現(xiàn)高效穩(wěn)定的運(yùn)行,同時(shí)也要保證不同類型的作業(yè)與任務(wù)能夠在集群上并發(fā)運(yùn)行,這樣可以大大提高集群內(nèi)部資源的共享有效率。但是在這一模型下,我們也會(huì)面臨許多新的問題,需要后期通過探索與研究進(jìn)行慢慢攻破,例如如何有效處理異構(gòu)性問題、如何提升本地?cái)?shù)據(jù)的有效利用率等。因此在基于大數(shù)據(jù)應(yīng)用背景下進(jìn)行新編程模型構(gòu)建的同時(shí),我們的考慮內(nèi)容不能過于單一,必須綜合衡量各方面的影響與利弊,在此基礎(chǔ)上作出適當(dāng)?shù)娜∩嵋约芭袛啵瑥亩鴺?gòu)建一個(gè)簡單、便捷、可靠、高效的大數(shù)據(jù)編程模型。
為了使效率得到進(jìn)一步提升,超級(jí)計(jì)算機(jī)一般來說都會(huì)選擇應(yīng)用并行編程模型,例如Open MP以及MPI,其中,Open MP通常會(huì)與共享存儲(chǔ)模式的融合而被廣泛地應(yīng)用在對(duì)稱多處理器等架構(gòu)的相關(guān)設(shè)備當(dāng)中,而MPI所涉及的編程模型則相對(duì)來說更為復(fù)雜,一般來說需要在切換至信息通信計(jì)算模型下,要求編程工程人員針對(duì)所有的程序問題根據(jù)一定的規(guī)則進(jìn)行一一分類,隨后再將這些分類號(hào)的問題映射至分布式進(jìn)程集合當(dāng)中。Open MP以及MPI等并行編程模型并不適用于大數(shù)據(jù)的計(jì)算以及處理過程中,因此一些規(guī)模較大的互聯(lián)網(wǎng)企業(yè)會(huì)根據(jù)自身公司的實(shí)際情況以及需求來研制具有針對(duì)性的大數(shù)據(jù)處理模型,這樣一來不僅可以使工作人員的工作效率得到提升,同時(shí)也在很大程度上促進(jìn)了大數(shù)據(jù)應(yīng)用的有效實(shí)現(xiàn)。
3結(jié)語
綜上所述,在大數(shù)據(jù)應(yīng)用背景之下,對(duì)于超級(jí)計(jì)算機(jī)的設(shè)計(jì)可以適當(dāng)導(dǎo)入一些高效模塊結(jié)構(gòu),例如多核結(jié)構(gòu)以及眾核結(jié)構(gòu)等。此外,寬帶網(wǎng)絡(luò)速度的提升也有利于超級(jí)計(jì)算機(jī)運(yùn)行速度的改善,為其提供基本的保障條件。總而言之,在大數(shù)據(jù)時(shí)代背景之下,要想使數(shù)據(jù)處理以及計(jì)算速率得到有效提升,超級(jí)計(jì)算機(jī)的應(yīng)用是必然的趨勢(shì)所在,并取消以往計(jì)算機(jī)系統(tǒng)中的計(jì)算密集模式,取而代之的是數(shù)據(jù)密集模式。筆者相信在大家的共同努力之下,大數(shù)據(jù)應(yīng)用背景下的數(shù)據(jù)處理以及計(jì)算問題自會(huì)得以有效解決。
參考文獻(xiàn)
[1] 張聽,袁曉如.樹圖可視化[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2012(9):1113- 1124.
關(guān)鍵字:計(jì)算機(jī);物聯(lián)網(wǎng);網(wǎng)絡(luò);應(yīng)用領(lǐng)域;大數(shù)據(jù)
既然計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)對(duì)于社會(huì)發(fā)展、科技進(jìn)步、人類生活等多個(gè)方面都有積極的影響,那么當(dāng)下我們就應(yīng)該將物聯(lián)網(wǎng)技術(shù)的進(jìn)一步發(fā)展作為科研重點(diǎn)。物聯(lián)網(wǎng)技術(shù)的運(yùn)用不能是盲目的,它的目的是為了在滿足市場需求的前提下、建立更為完善的技術(shù)產(chǎn)業(yè)。只有這樣,才能進(jìn)一步推廣物聯(lián)網(wǎng)技術(shù)。另外,物聯(lián)網(wǎng)技術(shù)的普遍應(yīng)用并不是沒有生活問題的,為了使其發(fā)展的更為快速,我們需要認(rèn)清當(dāng)下物聯(lián)網(wǎng)運(yùn)用的特點(diǎn),分析物聯(lián)網(wǎng)包含的主要技術(shù),還要了解當(dāng)前物聯(lián)網(wǎng)技術(shù)的一些應(yīng)用領(lǐng)域。
一、計(jì)算機(jī)物聯(lián)網(wǎng)概述
計(jì)算機(jī)物聯(lián)網(wǎng)就如其名稱所示的一樣,是在大數(shù)據(jù)時(shí)代,將有形物體接入互聯(lián)網(wǎng)的一種技術(shù)。計(jì)算機(jī)物聯(lián)網(wǎng)包含兩個(gè)含義,第一方面,計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)以網(wǎng)絡(luò)為核心。在某種程度上,計(jì)算機(jī)物聯(lián)網(wǎng)是互聯(lián)網(wǎng)絡(luò)的擴(kuò)展。眾所周知,計(jì)算機(jī)物聯(lián)網(wǎng)是在大數(shù)據(jù)時(shí)代下應(yīng)運(yùn)而生的,因此其另一方面的含義就與計(jì)算機(jī)信息化有關(guān),具體來說,就是計(jì)算機(jī)物聯(lián)網(wǎng)可以通過大量的數(shù)據(jù),促進(jìn)與客戶信息交流和溝通。計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)在世界上被公認(rèn)為最有發(fā)展前景的先進(jìn)創(chuàng)新,它就像是一筆無形的財(cái)富。
(一)從技術(shù)層次看待計(jì)算機(jī)物聯(lián)網(wǎng)
計(jì)算機(jī)物聯(lián)網(wǎng)僅從字面上分析是無法真正理解的,還需要從計(jì)算機(jī)物聯(lián)網(wǎng)的技術(shù)結(jié)構(gòu)、關(guān)鍵技術(shù)、應(yīng)用領(lǐng)域等方面來深入探究。從技術(shù)層次上來看,計(jì)算機(jī)物聯(lián)網(wǎng)包含感知層、網(wǎng)絡(luò)層和應(yīng)用層三大層次。計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)的三個(gè)技術(shù)層即相輔相成。每個(gè)技術(shù)層次都包含其特有的技術(shù)的,例如,其中網(wǎng)絡(luò)層還可以分為兩大層次,即傳輸層和處理層,主要負(fù)責(zé)信息數(shù)據(jù)的傳輸工作,由私有網(wǎng)絡(luò)、互聯(lián)網(wǎng)、有線和無線通信網(wǎng)組成。感知層就如同人體的神經(jīng)末梢,負(fù)責(zé)信息資料的采集,其包含的技術(shù)最為豐富,有條形碼、傳感器、智能機(jī)械、識(shí)別碼等。網(wǎng)絡(luò)層是信息交換與通訊的重要平臺(tái),應(yīng)用也最為廣泛,其中的傳輸層包括衛(wèi)星通信、移動(dòng)通訊網(wǎng)等技術(shù),處理層包括GIS/GRS技術(shù)、云計(jì)算等技術(shù)。另外,計(jì)算機(jī)物聯(lián)網(wǎng)的技術(shù)層次上還包括一些常見的感知終端,例如二氧化碳濃度傳感器、溫度、濕度傳感器、RFID標(biāo)簽和讀寫器、攝像頭、GPS等。
(二)計(jì)算機(jī)物聯(lián)網(wǎng)關(guān)鍵技術(shù)
在近幾年來,物聯(lián)網(wǎng)所涉及的領(lǐng)域面越來越廣。其實(shí)現(xiàn)的基礎(chǔ)是計(jì)算機(jī)物聯(lián)網(wǎng)所包含的一些關(guān)鍵技術(shù)。具體有傳感器技術(shù)、RFID標(biāo)簽、嵌入式系統(tǒng)技術(shù)。所謂傳感器技術(shù),是計(jì)算機(jī)能夠處理海量數(shù)據(jù)的關(guān)鍵,也是計(jì)算機(jī)的主要應(yīng)用程序。我們知道,計(jì)算機(jī)處理的數(shù)據(jù)需要時(shí)數(shù)學(xué)信號(hào),這就要求計(jì)算機(jī)具備將模擬信號(hào)轉(zhuǎn)變?yōu)閿?shù)據(jù)信號(hào)的功能,故有了傳感器技術(shù)。近些年來,隨著計(jì)算機(jī)物聯(lián)網(wǎng)的發(fā)展,另一種傳感器技術(shù)得以問世,即RFID標(biāo)簽,其是一種整合技術(shù),主要應(yīng)用于自動(dòng)識(shí)別、物品物流管理等領(lǐng)域。計(jì)算機(jī)信息化建設(shè)使得物聯(lián)網(wǎng)技術(shù)也在不斷發(fā)展,目前已經(jīng)形成一種集信息技術(shù)設(shè)備、傳感器技術(shù)、一體化技術(shù)為一體的尖端技術(shù),即嵌入式系統(tǒng)技術(shù)。其是計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)發(fā)展成熟的體現(xiàn),在長期的的演變、法杖過程中,嵌入式系統(tǒng)得以廣泛運(yùn)用,涉及到工業(yè)生產(chǎn)和國防工業(yè),小到人類的生活,大到可以運(yùn)用在衛(wèi)星系統(tǒng)。
(三)計(jì)算機(jī)物聯(lián)網(wǎng)的應(yīng)用技術(shù)
除了傳感器技術(shù)、RFID標(biāo)簽、嵌入式系統(tǒng)技術(shù)之外,計(jì)算機(jī)物聯(lián)網(wǎng)的核心技術(shù)還包括RFID等標(biāo)識(shí)技術(shù)以及云計(jì)算技術(shù),而其應(yīng)用技術(shù)的發(fā)展也尤為迅速,較為成熟的包括無線傳感網(wǎng)絡(luò)技術(shù)、射頻技術(shù)、網(wǎng)絡(luò)通訊技術(shù)等。我們知道,隨著社會(huì)的發(fā)展,要想利用計(jì)算機(jī)技術(shù)更好的服務(wù)于人類,必須考慮技術(shù)的功能性,保證其能適應(yīng)科技時(shí)代的進(jìn)步。傳統(tǒng)的傳感器并不成熟,其無法實(shí)現(xiàn)功能多樣性。發(fā)展至今的無線傳感網(wǎng)絡(luò)技術(shù)已經(jīng)能夠滿足軍民,主要由許多個(gè)不同的無線傳感器節(jié)點(diǎn)組成。為了順應(yīng)科技潮流,無線傳感網(wǎng)絡(luò)技術(shù)已經(jīng)在努力向微型化、智能化的目標(biāo)發(fā)展。相信在不久的將來,無線傳感網(wǎng)絡(luò)技術(shù)能夠?qū)崿F(xiàn)從傳統(tǒng)傳感器到智能傳感器的完全蛻變。近些年來,計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)的發(fā)展還體現(xiàn)在射頻技術(shù)的應(yīng)用上,較常見的應(yīng)用有無線射頻識(shí)別技術(shù)。這類技術(shù)主要用于電子晶片、感應(yīng)卡。射頻技術(shù)的原理比較難以理解,需要為由掃描器發(fā)射以特定頻率進(jìn)行無線電波能量的發(fā)射,還要驅(qū)動(dòng)接收器電路將內(nèi)部的代碼送出。射頻技術(shù)的先進(jìn)在于其接收器的特殊性,且其晶片密碼為世界唯一無法復(fù)制,安全性高、長壽命。除此之外,計(jì)算機(jī)物聯(lián)網(wǎng)的應(yīng)用技術(shù)還有網(wǎng)絡(luò)通訊技術(shù),具體是指利用現(xiàn)有的計(jì)算機(jī)設(shè)備,在相關(guān)網(wǎng)絡(luò)通訊設(shè)備的輔助下,進(jìn)行圖文數(shù)據(jù)的采集、存儲(chǔ)、處理和傳輸。網(wǎng)絡(luò)通訊設(shè)備可以使資源實(shí)現(xiàn)其效用最大化,使信息資源達(dá)到充分共享。
二、物聯(lián)網(wǎng)的應(yīng)用
(一)城市交通管理
物聯(lián)網(wǎng)技術(shù)最初就運(yùn)用在交通行業(yè),在其技術(shù)支持下,交通管制實(shí)現(xiàn)智能化。例如,物聯(lián)網(wǎng)技術(shù)可以使交通管制系統(tǒng)更加自動(dòng)化、智能化,能進(jìn)行道路交通的實(shí)時(shí)監(jiān)控。能在短時(shí)間內(nèi),對(duì)公路、橋梁、公交、停車場等場所進(jìn)行系統(tǒng)管理。可以在任意時(shí)段估測道路交通流量,及時(shí)發(fā)現(xiàn)事故、交通堵塞等情況,并進(jìn)行快速的自動(dòng)判斷,從而利于采取有效的解決措施。相信在不久的將來,全世界的交通都能實(shí)現(xiàn)智能化。
(二)家庭生活
科學(xué)技術(shù)的發(fā)展使得社會(huì)經(jīng)濟(jì)發(fā)展的速度越來越大,在計(jì)算機(jī)技術(shù)的推動(dòng)下,我們來到了數(shù)字化的二十一世紀(jì)。在物聯(lián)網(wǎng)技術(shù)的帶領(lǐng)下,我們不管是在家庭生活,還是工作中,都感受到了巨大的便捷。通過計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù),我們過上了智能化生活。可以通過手機(jī)來職能的控制家里的電器設(shè)備。通過手機(jī)端傳送指令,來遠(yuǎn)程控制電器工作、監(jiān)控家里的一切。近些年來,隨著物聯(lián)網(wǎng)生活生產(chǎn)領(lǐng)域的應(yīng)用,其長足發(fā)展已成必然。
(三)節(jié)能減排
計(jì)算機(jī)物聯(lián)網(wǎng)的發(fā)展,勢(shì)必會(huì)使人類的生活發(fā)生改變。因此,一些由于人類生活方式而造成的空氣污染、資源浪費(fèi)問題將迎刃而解。我們知道,空氣污染一直是全球環(huán)保工作的棘手難題。計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)在應(yīng)對(duì)空氣污染上正好發(fā)揮了是特有的功能。近些年來,已經(jīng)有科研學(xué)者針對(duì)空氣污染進(jìn)行了合理的分析,并認(rèn)為,可以通過計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)來改善。具體是通過物聯(lián)網(wǎng)技術(shù),對(duì)反應(yīng)空氣質(zhì)量的數(shù)據(jù)進(jìn)行收集。與此同時(shí),要研發(fā)出一種新型的空氣實(shí)時(shí)監(jiān)測系統(tǒng)。這樣就既能通過智能的實(shí)時(shí)監(jiān)測系統(tǒng)來進(jìn)行檢測工作,又能物聯(lián)網(wǎng)技術(shù)下對(duì)空氣質(zhì)量數(shù)據(jù)進(jìn)行自動(dòng)分析、統(tǒng)計(jì)。
三、結(jié)論
綜上所述,計(jì)算機(jī)物聯(lián)網(wǎng)的優(yōu)勢(shì)顯而易見。其包含多種功能,符合大數(shù)據(jù)時(shí)代的先進(jìn)科技技術(shù)。就目前來看,計(jì)算機(jī)物聯(lián)網(wǎng)在人類生活和工業(yè)中都發(fā)揮著巨大的作用。其帶動(dòng)著多個(gè)行業(yè)的發(fā)展,使得智能化產(chǎn)品走向多樣化。另外,從計(jì)算機(jī)物聯(lián)網(wǎng)在多個(gè)領(lǐng)域的應(yīng)用可以看出,物聯(lián)網(wǎng)技術(shù)已經(jīng)逐漸成熟起來,其在未來的發(fā)展趨勢(shì)十分良好。作為計(jì)算機(jī)行業(yè)的工作者,我們應(yīng)該永不止步,全身心的致力于更多像物聯(lián)網(wǎng)技術(shù)的科技項(xiàng)目研究。希望在不久的將來,我們能讓物聯(lián)網(wǎng)在未來發(fā)展的更為快速,讓我國所自主研發(fā)的智能化設(shè)備越來越多,給我們帶來更多高科技體驗(yàn)。
作者:譚秦紅 單位:貴州省銅仁職業(yè)技術(shù)學(xué)院
參考文獻(xiàn):
[1]朱順強(qiáng).中國物聯(lián)網(wǎng)發(fā)展?fàn)顩r分析[A].中國通信學(xué)會(huì)2010年光纜電纜學(xué)術(shù)年會(huì)論文集[C].2010年.
關(guān)鍵字:大數(shù)據(jù) 情報(bào)研究 情報(bào)研究技術(shù)
中圖分類號(hào): G250.2 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2012)06-0001-08
1 引言
當(dāng)數(shù)據(jù)和黃金一樣,成為一種新的經(jīng)濟(jì)資產(chǎn)[1],當(dāng)科研處于以數(shù)據(jù)為基礎(chǔ)進(jìn)行科學(xué)發(fā)現(xiàn)的第四范式[2],當(dāng)數(shù)據(jù)開始變革教育[3],這些無不宣告著我們已經(jīng)進(jìn)入了大數(shù)據(jù)(big data)時(shí)代。不同的學(xué)科領(lǐng)域,正在不同的層面上廣泛地關(guān)注著大數(shù)據(jù)對(duì)自己的研究和實(shí)踐帶來的深刻影響,情報(bào)研究領(lǐng)域也不例外。
大數(shù)據(jù),顧名思義是大規(guī)模的數(shù)據(jù)集,但它又不僅僅是一個(gè)簡單的數(shù)量的概念,IBM公司指出,大數(shù)據(jù)的特點(diǎn)是4個(gè)V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實(shí)),它提供了在新的和正在出現(xiàn)的數(shù)據(jù)和內(nèi)容中洞悉事物的機(jī)會(huì),使業(yè)務(wù)更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報(bào)告也提出,大數(shù)據(jù)是大容量、高速和多樣化的信息資產(chǎn),它們需要新的處理方式,以提高決策能力、洞察力和流程優(yōu)化[5]。
由此可見,大數(shù)據(jù)強(qiáng)調(diào)的不單純只是數(shù)據(jù)量多少的問題,其背后隱藏了更為復(fù)雜和深刻的理念,這些理念包括:①將對(duì)數(shù)據(jù)和信息的分析提升到了前所未有的高度。這里的分析不是一般的統(tǒng)計(jì)計(jì)算,而是深層的挖掘。大數(shù)據(jù)時(shí)代,如何充分利用好積累的數(shù)據(jù)和信息,以創(chuàng)造出更多的價(jià)值,已經(jīng)成為企業(yè)管理者、政府機(jī)構(gòu)以及科研工作者首要關(guān)注的問題。“業(yè)務(wù)就是數(shù)據(jù)”、“數(shù)據(jù)就是業(yè)務(wù)”、“從大數(shù)據(jù)中發(fā)掘大洞察”等意味著對(duì)數(shù)據(jù)分析提出了新的、更高的要求。可以這么說,大數(shù)據(jù)時(shí)代就是數(shù)據(jù)分析的時(shí)代。②多種數(shù)據(jù)的整合和融合利用。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的多樣性是一種真實(shí)的存在,數(shù)據(jù)既包括結(jié)構(gòu)化的數(shù)據(jù),也包括非結(jié)構(gòu)化的數(shù)據(jù),表現(xiàn)方式可以是數(shù)據(jù)庫、數(shù)據(jù)表格、文本、傳感數(shù)據(jù)、音頻、視頻等多種形式。同一個(gè)事實(shí)或規(guī)律可以同時(shí)隱藏在不同的數(shù)據(jù)形式中,也可能是每一種數(shù)據(jù)形式分別支持了同一個(gè)事實(shí)或規(guī)律的某一個(gè)或幾個(gè)側(cè)面,這既為數(shù)據(jù)和信息分析的結(jié)論的交叉驗(yàn)證提供了契機(jī),也要求分析者在分析研究過程中有意識(shí)地融集各種類型的數(shù)據(jù),從多種信息源中發(fā)現(xiàn)潛在知識(shí)。只有如此,才能真正地提高數(shù)據(jù)分析的科學(xué)性和準(zhǔn)確性。③更加廣泛地應(yīng)用新技術(shù)和適用技術(shù)。數(shù)據(jù)量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數(shù)據(jù)的突出特點(diǎn),這必然會(huì)帶來數(shù)據(jù)獲取、整合、存儲(chǔ)、分析等方面的新發(fā)展,產(chǎn)生相應(yīng)的新技術(shù)或者將已有的技術(shù)創(chuàng)新地應(yīng)用于大數(shù)據(jù)的管理與分析。同時(shí),大數(shù)據(jù)的這些特點(diǎn)也決定了傳統(tǒng)的、以人工分析為主的工作模式將遇到瓶頸,計(jì)算機(jī)輔助分析或基于計(jì)算機(jī)的智能化分析,將成為大數(shù)據(jù)時(shí)代數(shù)據(jù)與信息分析的主流模式。
對(duì)于在數(shù)據(jù)分析領(lǐng)域扮演重要角色的情報(bào)研究工作而言,大數(shù)據(jù)的理念和技術(shù)既帶來了機(jī)遇,也帶來了挑戰(zhàn)。一方面,在大數(shù)據(jù)時(shí)代,情報(bào)研究工作正在得到空前的重視,大數(shù)據(jù)為情報(bào)研究的新發(fā)展提供了機(jī)會(huì),從更為廣闊的視野來看待情報(bào)研究的定位,研究新技術(shù)新方法,解決新問題,將極大地促進(jìn)情報(bào)研究理論與實(shí)踐前進(jìn)的步伐。另一方面,大數(shù)據(jù)時(shí)代本身也要求各行各業(yè)重視情報(bào)研究工作,這就必然使得眾多學(xué)科有意識(shí)地涉足到以往作為專門領(lǐng)域的情報(bào)研究之中,并將其作為本學(xué)科的重要組成部分加以建設(shè)。文獻(xiàn)分析(本質(zhì)是文本分析)不再為情報(bào)研究所獨(dú)占,以往情報(bào)研究領(lǐng)域積累的相關(guān)理論和方法很有可能優(yōu)勢(shì)不再。因此,如何把握住自身的優(yōu)勢(shì),并抓住機(jī)會(huì)有所拓展,是情報(bào)學(xué)在大數(shù)據(jù)時(shí)代需要思考的問題。
2 大數(shù)據(jù)環(huán)境下情報(bào)研究的發(fā)展趨勢(shì)
大數(shù)據(jù)帶來的新觀念,正在引報(bào)研究的新發(fā)展,而且,研究人員也在不斷地從情報(bào)研究的實(shí)踐中總結(jié)經(jīng)驗(yàn)教訓(xùn),引導(dǎo)情報(bào)研究的未來走向。英國萊斯特大學(xué)的Mark Phythian教授在2008年10月作 了題為“情報(bào)分析的今天和明天”的報(bào)告[6],指出:①獲知情境是至關(guān)重要的。忽略戰(zhàn)略環(huán)境、領(lǐng)導(dǎo)風(fēng)格和心理因素等更為廣泛的問題,將導(dǎo)致情報(bào)研究的失誤;②要加強(qiáng)信息之間的關(guān)聯(lián)。美國政府部門內(nèi)部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動(dòng),導(dǎo)致情報(bào)研究中的預(yù)測失敗;③要汲取更多外界的專業(yè)知識(shí)。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
綜合大數(shù)據(jù)背景的要求和以往情報(bào)研究的經(jīng)驗(yàn)教訓(xùn),結(jié)合國內(nèi)外同行的研究成果,本文將情報(bào)研究的發(fā)展趨勢(shì)總結(jié)為以下五個(gè)方面:單一領(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究;綜合利用多種數(shù)據(jù)源;注重新型信息資源的分析;強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性;情報(bào)研究的智能化。
2.1 單一領(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究
隨著學(xué)科的深入交叉融合及社會(huì)發(fā)展、經(jīng)濟(jì)發(fā)展與科技發(fā)展一體化程度的增強(qiáng),情報(bào)研究正從單一領(lǐng)域分析向全領(lǐng)域分析的方向發(fā)展。
首先,表現(xiàn)在各領(lǐng)域中的情報(bào)研究從視角、方法上的相互借鑒。從方法上看,社交網(wǎng)絡(luò)分析方法、空間信息分析等其他學(xué)科的分析方法,廣泛應(yīng)用于軍事情報(bào)、科技情報(bào)等領(lǐng)域,心理學(xué)等領(lǐng)域的理論也用于情報(bào)分析的認(rèn)知過程,以指導(dǎo)情報(bào)分析及其工具的研發(fā)。同時(shí),情報(bào)學(xué)中的引文分析等文獻(xiàn)計(jì)量方法也被借鑒用于網(wǎng)站影響力評(píng)估。從技術(shù)上看,可視化、數(shù)據(jù)挖掘等計(jì)算機(jī)領(lǐng)域的技術(shù),為情報(bào)研究提供了有力的技術(shù)視角,情報(bào)研究獲得的知識(shí)反過來又給予其他技術(shù)領(lǐng)域的發(fā)展以引導(dǎo)。可見,無論從思想上、方法上、技術(shù)上,各領(lǐng)域之間的交叉點(diǎn)越來越多,雖然這種相互借鑒早就存在,但現(xiàn)在意識(shí)更強(qiáng)、手段更為綜合。
其次是分析內(nèi)容的擴(kuò)展,這也是最為重要和顯著的變化。在情報(bào)研究過程中,不僅僅局限于就本領(lǐng)域問題的分析而分析,而將所分析的內(nèi)容置于一個(gè)更大的情景下做通盤考慮,從而得出更為嚴(yán)謹(jǐn)?shù)慕Y(jié)論。聯(lián)合國的創(chuàng)新倡議項(xiàng)目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關(guān)鍵,基于沒有代表性樣本而獲得的結(jié)論是缺乏外部合法性的,即不能反映真實(shí)的世界。在情報(bào)研究領(lǐng)域,一些數(shù)據(jù)往往因?yàn)橐恍┎豢煽沽Φ脑蚨煌暾缭缙诘目萍紨?shù)據(jù),可能由于國際形勢(shì)等外部因素,導(dǎo)致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評(píng)估該國的科技影響力,如果僅就數(shù)據(jù)論數(shù)據(jù),無疑是會(huì)得“正確”的錯(cuò)誤結(jié)論,這時(shí)應(yīng)針對(duì)這樣的異常情況,將研究問題放置在當(dāng)時(shí)的時(shí)代背景下,揭示背后的原因,從其他方面收集信息來補(bǔ)充,才能得出符合實(shí)際的結(jié)論。也就是說,必須要考察不同時(shí)間戳下的相關(guān)信息,再對(duì)分析內(nèi)容加以擴(kuò)充,這實(shí)質(zhì)是一種基于時(shí)間軸的擴(kuò)展。另外,將內(nèi)容擴(kuò)展至本領(lǐng)域的上下游則是一種更為重要的擴(kuò)展。例如,考察某項(xiàng)技術(shù)的發(fā)展前景,如果僅就該技術(shù)本身來討論,可能會(huì)得出正面的結(jié)論,但如果結(jié)合特定地區(qū)人們對(duì)該技術(shù)的態(tài)度、當(dāng)?shù)氐募夹g(shù)水平、物理?xiàng)l件、發(fā)展定位等,卻可能會(huì)得出相反的結(jié)論。這就說明,在很多領(lǐng)域中,環(huán)境不同,發(fā)展程度不同,要解決的問題也就不同。一些地區(qū)當(dāng)前關(guān)注的問題不一定就是其他地區(qū)要關(guān)注的問題,某些欠發(fā)達(dá)地區(qū)當(dāng)前不一定就必須照搬另一些所謂發(fā)達(dá)地區(qū)的當(dāng)前做法。這需要通盤考察,分析相關(guān)思想、觀點(diǎn)和方法產(chǎn)生的土壤、使用的條件,結(jié)合當(dāng)前環(huán)境再做出判斷,否則可能會(huì)對(duì)決策者產(chǎn)生誤導(dǎo)。
2.2 綜合利用多種數(shù)據(jù)源
綜合利用多種信息源已經(jīng)成為情報(bào)研究的另一大發(fā)展趨勢(shì)。Thomas Fingar[8]從軍事情報(bào)角度指出,軍事情報(bào)界需要綜合利用人際情報(bào)、信號(hào)情報(bào)、圖像情報(bào)和外部情報(bào),進(jìn)行全資源分析(all-source analysis),即利用多種不同的信息資源來評(píng)估、揭示、解釋事物的發(fā)展、發(fā)現(xiàn)新知識(shí)或解決政策難題。科技情報(bào)界也是如此,如利用科技論文和專利,發(fā)現(xiàn)科技之間的轉(zhuǎn)換關(guān)系、預(yù)測技術(shù)發(fā)展方向,綜合利用政府統(tǒng)計(jì)數(shù)據(jù)、高校網(wǎng)站、期刊、報(bào)紙、圖書等來評(píng)估大學(xué)等科研機(jī)構(gòu)。可見,綜合利用多種信息源是從問題出發(fā),系統(tǒng)化地整合所有相關(guān)信息資源來支持情報(bào)研究,信息源可以是學(xué)術(shù)論文、專利等不同類型的文獻(xiàn)集合、文本和數(shù)據(jù)的集合也可以是正式出版物與非正式出版物的集合等。
這一發(fā)展趨勢(shì)是由幾大因素決定的。一是情報(bào)研究問題的復(fù)雜性。在大數(shù)據(jù)背景下,情報(bào)不再局限在科技部門,而成為全社會(huì)的普遍知識(shí)。公眾對(duì)情報(bào)的需求使得情報(bào)研究問題更為綜合,涉及要素更為多元,同時(shí)也更為細(xì)化。這導(dǎo)致單一數(shù)據(jù)源不能滿足分析的要求,需要不同類型的信息源相互補(bǔ)充。例如要分析科技之間的轉(zhuǎn)換關(guān)系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術(shù)報(bào)告等,可以較為直觀地反映研究者對(duì)某科技問題的理解與描述,而評(píng)論文章、科技新聞、市場調(diào)查等,可以反映出社會(huì)對(duì)該科技的觀點(diǎn)、認(rèn)知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補(bǔ)充。此外,從現(xiàn)實(shí)角度來看,通常會(huì)遇到某些信息無法獲取的情況,這就需要?jiǎng)e的信息加以替代,這就從實(shí)踐角度說明了綜合利用多種信息源的必要性。三是分析結(jié)果的重要性。以評(píng)估大學(xué)為例,評(píng)估的結(jié)果會(huì)引導(dǎo)各學(xué)校在比較中發(fā)現(xiàn)自身優(yōu)勢(shì)和差距,指導(dǎo)未來發(fā)展定位,同時(shí)也為廣大學(xué)生報(bào)考提供參考。可見,研究結(jié)果對(duì)社會(huì)的影響是廣泛而深遠(yuǎn)的,要做到分析結(jié)果的可靠性、科學(xué)性,必然先要從源頭上,即分析數(shù)據(jù)上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰(zhàn)。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現(xiàn)的,不同信息源相互之間的關(guān)系是怎樣的。其次,針對(duì)待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當(dāng)問題含糊不清時(shí),可能需要不斷地調(diào)整信息源。再次,情報(bào)研究人員要能有效地綜合、組織、解釋不同信息源分析出的結(jié)果,特別是當(dāng)結(jié)論有所沖突的時(shí)候,識(shí)別不當(dāng)結(jié)果、保證分析結(jié)果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網(wǎng)絡(luò)應(yīng)用的深入,出現(xiàn)了許多新型的媒體形式。Andreas M. Kaplan等人將構(gòu)建于Web2.0技術(shù)和思想基礎(chǔ)上,允許用戶創(chuàng)建交換信息內(nèi)容的基于網(wǎng)絡(luò)的應(yīng)用定義為社會(huì)化媒體(Social Media),包括合作項(xiàng)目(如維基百科)、博客、內(nèi)容社區(qū)(如YouTube)、社交網(wǎng)站、虛擬游戲世界和虛擬社會(huì)世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網(wǎng)絡(luò)技術(shù),以用戶為中心來組織、傳播信息,信息可以是用戶創(chuàng)造性的言論或觀點(diǎn),可以是圍繞自己喜好收集的信息資源集合等。由于社會(huì)化媒體的易用性、快速性和易獲取性等特點(diǎn),它們正迅速地改變著社會(huì)的公共話語環(huán)境,并引導(dǎo)著技術(shù)、娛樂、政治等諸多主題的發(fā)展[11]。這些通過龐大的用戶社區(qū)來傳播的高度多樣化的信息及其網(wǎng)絡(luò)結(jié)構(gòu),為洞悉公眾對(duì)某一主題的觀點(diǎn)、研究信息擴(kuò)散等社會(huì)現(xiàn)象[12]、預(yù)測未來發(fā)展方向[11]等提供了機(jī)會(huì),有助于發(fā)現(xiàn)有共同興趣的社群、領(lǐng)域?qū)<摇狳c(diǎn)話題[13]等,帶來了網(wǎng)絡(luò)輿情分析等研究內(nèi)容。此外,這類信息結(jié)合其他類型的數(shù)據(jù),產(chǎn)生了新的情報(bào)研究領(lǐng)域。例如,智能手機(jī)的普及和GPS的廣泛應(yīng)用,使得可以從社交網(wǎng)絡(luò)和網(wǎng)絡(luò)交互數(shù)據(jù)、移動(dòng)傳感數(shù)據(jù)和設(shè)備傳感數(shù)據(jù)中獲取社會(huì)和社區(qū)情報(bào)(social and community intelligence,SCI),揭示人類行為模式和社群動(dòng)態(tài)[14]。
此外,機(jī)構(gòu)知識(shí)庫等作為一種反映組織或群體知識(shí)成果的智力資源,也正引報(bào)界的重視。網(wǎng)絡(luò)信息聯(lián)盟的執(zhí)行董事Clifford A. Lynch[15]從大學(xué)的角度指出,成熟完整的機(jī)構(gòu)知識(shí)庫應(yīng)包含機(jī)構(gòu)和學(xué)生的智力成果(包括科研材料和教學(xué)材料)以及記錄機(jī)構(gòu)自身各項(xiàng)事件和正在進(jìn)行的科研活動(dòng)的文檔。這暗示著學(xué)術(shù)界從過去只關(guān)心科研成果正逐步轉(zhuǎn)向關(guān)注科研過程。從機(jī)構(gòu)知識(shí)庫中,可以發(fā)現(xiàn)隱藏其中的科研模式、揭示目前科研狀況的不足,引導(dǎo)機(jī)構(gòu)未來科研的發(fā)展走向等。但現(xiàn)有的機(jī)構(gòu)知識(shí)庫工具還缺乏幫助人們理解和分析這些資源的機(jī)制[16],在大數(shù)據(jù)環(huán)境下,加強(qiáng)這方面的研究也是必然趨勢(shì)。可以預(yù)見,隨著科技的發(fā)展和應(yīng)用的深入,還會(huì)不斷的有新型資源出現(xiàn),并不斷促進(jìn)情報(bào)研究的發(fā)展。
2.4 強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性
情報(bào)研究活動(dòng)在宏觀層面上是一種意義構(gòu)建(sensemaking)[17],依賴于分析人員根據(jù)已有知識(shí)構(gòu)建認(rèn)知框架(frame),通過對(duì)認(rèn)知框架的不斷修正來達(dá)到理解的目的[18]。這意味著情報(bào)研究活動(dòng)本身帶有很大的不確定性,很多因素影響著情報(bào)研究的有效性。如何使情報(bào)研究工作更加嚴(yán)謹(jǐn),減少情報(bào)分析的不確定、提升情報(bào)成果的質(zhì)量,正成為學(xué)術(shù)界當(dāng)前普遍關(guān)注的問題。情報(bào)研究嚴(yán)謹(jǐn)性(rigor)不等同于分析結(jié)果的正確性,它衡量的是情報(bào)研究的過程,是指在情報(bào)研究過程中“基于仔細(xì)考慮或調(diào)查,應(yīng)用精確和嚴(yán)格的標(biāo)準(zhǔn),從而更好地理解和得出結(jié)論”[19]。美國俄亥俄州立大學(xué)的Deniel Zelik[20][21]從評(píng)估角度,給出了8個(gè)指標(biāo)來衡量分析過程的嚴(yán)謹(jǐn)性:假設(shè)探索、信息檢索、信息驗(yàn)證、立場分析、敏感度分析、專家協(xié)作、信息融合和解釋評(píng)價(jià)。從這幾項(xiàng)指標(biāo)看,信息檢索和融合是從分析信息源上消除不全面性;假設(shè)探索是要使用多種視角來揭示數(shù)據(jù)和信息;信息驗(yàn)證側(cè)重于數(shù)據(jù)的溯源、佐證和交叉驗(yàn)證;立場分析強(qiáng)調(diào)分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協(xié)作是防止分析結(jié)果受分析人員自身的學(xué)科背景或經(jīng)驗(yàn)帶來的偏差;解釋評(píng)價(jià)是要正確對(duì)待分析結(jié)論。可見,情報(bào)研究的嚴(yán)謹(jǐn)性意在消除人的主觀偏見,用更為客觀的視角對(duì)待情報(bào)研究。如果說之前的情報(bào)研究活動(dòng)依賴專家的個(gè)人判斷,帶有較為強(qiáng)烈的主觀色彩,那么走向嚴(yán)謹(jǐn)性的情報(bào)研究活動(dòng)正逐步轉(zhuǎn)變?yōu)橐婚T科學(xué)。
在大數(shù)據(jù)背景下,情報(bào)分析的嚴(yán)謹(jǐn)性,不僅體現(xiàn)在理念上,還暗含了對(duì)技術(shù)的要求。面對(duì)海量數(shù)據(jù),自動(dòng)化的技術(shù)手段必不可少。當(dāng)信息的檢索更多的是借助檢索系統(tǒng),而不是人工的收集,信息融合更多依賴數(shù)據(jù)倉庫等技術(shù)手段,如何在這樣的分析環(huán)境中將情報(bào)研究的科學(xué)性落到實(shí)處,是需要關(guān)注的問題。可以看到,利用技術(shù)本身已經(jīng)在一定程度上避免了人的主觀性,但面對(duì)同樣一個(gè)問題,可以有不同的技術(shù)手段,也可能產(chǎn)生不同的結(jié)果,如何避免由技術(shù)產(chǎn)生的偏見,也許通過多種技術(shù)手段或采用不同的算法,全方位地展示信息內(nèi)容及其之間的關(guān)系,從而避免產(chǎn)生信息的誤讀,是一個(gè)解決方案。可見,在大數(shù)據(jù)時(shí)代,情報(bào)研究需要多種手段來加強(qiáng)其分析過程的科學(xué)性,而這又需要多種技術(shù)方法加以支持。
2.5 情報(bào)研究的智能化
大數(shù)據(jù)背景下的情報(bào)研究,對(duì)技術(shù)提出了更高的要求。正如美國國家科學(xué)基金會(huì)(NSF)的報(bào)告[22]所說,美國在科學(xué)和工程領(lǐng)域的領(lǐng)先地位將越來越取決于利用數(shù)字化科學(xué)數(shù)據(jù)以及借助復(fù)雜的數(shù)據(jù)挖掘、集成、分析與可視化工具將其轉(zhuǎn)換為信息和知識(shí)的能力。對(duì)于情報(bào)研究來說,應(yīng)用智能化技術(shù)能自動(dòng)進(jìn)行高級(jí)、復(fù)雜的信息處理分析工作,在很大程度上把情報(bào)研究人員從繁瑣的體力勞動(dòng)中解放出來,尤其在信息環(huán)境瞬息萬變的今天,及時(shí)收集信息分析并反饋已經(jīng)變得非常重要,這都需要智能化技術(shù)加以支撐。從信息源來講,情報(bào)研究對(duì)象得以擴(kuò)展,其中可能包含微博等社會(huì)化媒體信息,可能包含圖片、新聞等,大量非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)的涌入,必然需要技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以供后續(xù)分析。同時(shí),多元化的信息,需要根據(jù)分析需求加以融合,這可能需要語義層面上的技術(shù)支持。從分析需求來講,簡單的統(tǒng)計(jì)分析已不能滿足現(xiàn)在社會(huì)的決策需求,需要從大量信息中發(fā)現(xiàn)潛在模式,指導(dǎo)未來的發(fā)展,這就涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)。此外,要尋求情報(bào)研究的客觀性,摒除過多的主觀意愿,也需要多種技術(shù)來支撐。可見,這一發(fā)展趨勢(shì)是大數(shù)據(jù)時(shí)代下的必然。而各國在積極建設(shè)的數(shù)字化基礎(chǔ)設(shè)施,也在推動(dòng)著情報(bào)研究的智能化,如歐洲網(wǎng)格基礎(chǔ)設(shè)施(European Grid Infrastructure,EGI)[23]項(xiàng)目就致力于為歐洲各領(lǐng)域研究人員提供集成計(jì)算資源,從而推動(dòng)創(chuàng)新。
目前,對(duì)情報(bào)研究中的智能化技術(shù)沒有統(tǒng)一的界定,但概觀之,可以將情報(bào)研究智能化的本質(zhì)概括為定量化、可計(jì)算、可重復(fù)。定量化是針對(duì)過去情報(bào)研究更多的是依賴人的主觀判斷,即基于已有文字材料或數(shù)據(jù),根據(jù)研究人員的經(jīng)驗(yàn)等給出粗略的結(jié)論,如果說這是一種定性化分析,現(xiàn)在更多地依賴通過計(jì)算機(jī)自動(dòng)化處理原始材料并獲得潛在數(shù)據(jù),并在此基礎(chǔ)上輔以人的判斷,可以說是一種定量化的分析。可計(jì)算是指將各種信息資源轉(zhuǎn)化為計(jì)算機(jī)可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實(shí)體,再基于這些結(jié)構(gòu)化的、富有語義的信息,采用統(tǒng)計(jì)、數(shù)據(jù)挖掘等方法加以計(jì)算,獲取隱含的知識(shí)。可重復(fù)是指自動(dòng)化分析技術(shù)消除了許多主觀因素,從理論上講,如果分析數(shù)據(jù)等條件一致,分析結(jié)論也應(yīng)該是一致的,這也體現(xiàn)了智能化技術(shù)為情報(bào)研究帶來客觀性的一面。
3 情報(bào)研究中的技術(shù)問題
情報(bào)研究的上述發(fā)展走向,決定了情報(bào)研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統(tǒng)計(jì)替代情報(bào)研究中的計(jì)算技術(shù),由此對(duì)情報(bào)研究技術(shù)提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報(bào)告“大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿領(lǐng)域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報(bào)告分六個(gè)部分,其中第二部分討論了大數(shù)據(jù)技術(shù),并圍繞大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)技術(shù)和可視化三方面進(jìn)行了闡述。在大數(shù)據(jù)分析技術(shù)中,列舉了26項(xiàng)適用于眾多行業(yè)的分析技術(shù),包括A/B測試、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類分析、眾包(Crowdsourcing)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機(jī)器學(xué)習(xí)、自然語言處理、神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)分析、優(yōu)化、模式識(shí)別、預(yù)測建模、回歸、情感分析、信號(hào)處理、空間分析、統(tǒng)計(jì)、監(jiān)督學(xué)習(xí)、模擬、時(shí)間序列分析、無監(jiān)督學(xué)習(xí)和可視化。這些技術(shù)絕大部分是已有的技術(shù),也有部分是隨著互聯(lián)網(wǎng)的發(fā)展以及對(duì)大規(guī)模數(shù)據(jù)挖掘的需求,在原有技術(shù)的角度發(fā)展起來的,如眾包就是隨著Web2.0而產(chǎn)生的技術(shù)。
根據(jù)我們的理解,這些技術(shù)大致可以劃分為可視化分析、數(shù)據(jù)挖掘以及語義處理三大類。這三大類技術(shù)也是當(dāng)前情報(bào)分析領(lǐng)域應(yīng)予以關(guān)注和深入研究的技術(shù)。
3.1 可視化分析
可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學(xué)[25],是自動(dòng)分析技術(shù)與交互技術(shù)相結(jié)合的產(chǎn)物,目的是幫助用戶在大規(guī)模及復(fù)雜數(shù)據(jù)內(nèi)容的基礎(chǔ)上進(jìn)行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關(guān)注計(jì)算機(jī)自動(dòng)生成信息的交互式圖形表示,關(guān)注這些圖形表示的設(shè)計(jì)、開發(fā)及其應(yīng)用[27],而可視化分析在此基礎(chǔ)上加入了知識(shí)發(fā)現(xiàn)過程,關(guān)注自動(dòng)分析方法及其選擇,以及如何將最佳的自動(dòng)分析算法與適當(dāng)?shù)目梢暬夹g(shù)相結(jié)合,以達(dá)到輔助決策的目的。
目前的情報(bào)分析系統(tǒng),雖然也提供了多種視圖來揭示信息,但更多的是一種分析結(jié)果的呈現(xiàn),系統(tǒng)內(nèi)部分析、處理的機(jī)制對(duì)分析人員來講是個(gè)黑匣子,分析人員無法了解分析方法、分析結(jié)果的局限性或者有效性,這無疑不符合情報(bào)研究嚴(yán)謹(jǐn)性這一發(fā)展要求。同時(shí),現(xiàn)有的分析工具需要分析人員輸入各種繁雜的參數(shù),又缺乏對(duì)情報(bào)分析認(rèn)知過程的支持,這就對(duì)使用人員的專業(yè)化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個(gè)領(lǐng)域包括采用信息分析、地理空間分析、科學(xué)分析領(lǐng)域的分析方法,應(yīng)用數(shù)據(jù)管理和知識(shí)表示、統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)領(lǐng)域的成果進(jìn)行自動(dòng)分析,融入交互、認(rèn)知等人的因素來協(xié)調(diào)人與機(jī)器之間的溝通,從而更好地呈現(xiàn)、理解、傳播分析結(jié)果[28]。佐治亞理工學(xué)院的John Stasko等人應(yīng)用Pirolli 等人提出的情報(bào)分析概念模型[29],建立了一個(gè)名為Jigsaw(拼圖)的可視化分析系統(tǒng)[30],并將其應(yīng)用于學(xué)術(shù)研究領(lǐng)域(涉及期刊和會(huì)議論文)以及研究網(wǎng)絡(luò)文章(如網(wǎng)絡(luò)新聞報(bào)道或?qū)n}博客)領(lǐng)域,也說明了將可視化分析技術(shù)應(yīng)用于情報(bào)研究的可行性。
將可視化分析技術(shù)應(yīng)用于情報(bào)研究領(lǐng)域,有眾多問題要解決。首先,在情報(bào)研究工具中,是以自動(dòng)化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動(dòng)化方法可以緊密結(jié)合的問題,第二類是應(yīng)用自動(dòng)化分析潛力有限的問題,第三類是應(yīng)用可視化分析潛力有限的問題。在研究這三類問題中交互程度對(duì)分析效率影響的基礎(chǔ)上,Daniel A. Keim等人指出,應(yīng)分析如何通過考慮用戶、任務(wù)和數(shù)據(jù)集特點(diǎn),來確定可視化和自動(dòng)分析方法的優(yōu)化組合,從而達(dá)到最佳的效果[31]。可見,要將可視化分析技術(shù)應(yīng)用于情報(bào)研究領(lǐng)域,需要明確每類問題適用哪種組合方式。其次,情報(bào)研究領(lǐng)域適合使用哪些可視化交互手段?這可能包括原始分析數(shù)據(jù)、析取出的關(guān)系數(shù)據(jù)、深層挖掘的模式數(shù)據(jù)等的可視化手段,分析人員與系統(tǒng)交互的方式,分析過程的可視化展示等。第三,情報(bào)研究領(lǐng)域中的認(rèn)知過程是什么樣的,關(guān)注哪些問題,涉及哪些實(shí)體,在大數(shù)據(jù)環(huán)境下面臨哪些認(rèn)知困難,需要在哪些環(huán)節(jié)加以支持,這些困難能否通過技術(shù)來解決。此外,從現(xiàn)有的可視化分析技術(shù)來看,主要是將各個(gè)相關(guān)領(lǐng)域的技術(shù)以優(yōu)化的方式整合起來,但在將來會(huì)產(chǎn)生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會(huì)對(duì)情報(bào)研究帶來怎樣的影響等等,都是在情報(bào)研究中引入可視化分析技術(shù)需要關(guān)注的。
3.2 數(shù)據(jù)挖掘
廣義的數(shù)據(jù)挖掘指整個(gè)知識(shí)發(fā)現(xiàn)的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。它涵蓋了數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)的任務(wù),從數(shù)據(jù)特征化與區(qū)分到關(guān)聯(lián)和相關(guān)性分析、分類、回歸、聚類、離群點(diǎn)分析、序列分析、趨勢(shì)和演變分析等,吸納了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、算法、高性能計(jì)算、可視化、數(shù)據(jù)庫和數(shù)據(jù)倉庫等領(lǐng)域的技術(shù),并可以用于任何類型的數(shù)據(jù),包括數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫等基本形式,也包括數(shù)據(jù)流、序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、圖數(shù)據(jù)等其他類型的數(shù)據(jù)[33]。
從數(shù)據(jù)挖掘的涵義看,它與情報(bào)研究有著天然的聯(lián)系;從數(shù)據(jù)挖掘的方法看,有其特定的含義和實(shí)現(xiàn)過程,可以有效地解決情報(bào)研究的問題。例如,情報(bào)研究可以借鑒關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的成功案例——超市的“啤酒+尿布”,嘗試用關(guān)聯(lián)規(guī)劃來分析研究主題的相關(guān)性,從科技論文與專利的關(guān)聯(lián)中發(fā)現(xiàn)科技的轉(zhuǎn)換關(guān)系等等。但從目前的情報(bào)研究成果看,許多還僅僅停留在簡單的頻率統(tǒng)計(jì)、共詞計(jì)算層次上,在知識(shí)發(fā)現(xiàn)的過程中,這些工作僅僅是數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備,還有待于更為深入的發(fā)掘。可見,數(shù)據(jù)挖掘能夠也應(yīng)該應(yīng)用于情報(bào)研究領(lǐng)域,這不僅是數(shù)據(jù)挖掘應(yīng)用擴(kuò)展的結(jié)果,也是情報(bào)研究自身發(fā)展的需求。此外,由于較少有專門針對(duì)情報(bào)研究領(lǐng)域研發(fā)的挖掘工具,現(xiàn)有情報(bào)分析通常借助于其他工具,不同工具的功能不同,這就導(dǎo)致常常同時(shí)使用好幾個(gè)分析工具,如在使用SPSS進(jìn)行聚類分析的同時(shí),還使用Ucinet分析社會(huì)網(wǎng)絡(luò)。這帶來的問題是,分析缺乏完整性,可能社會(huì)網(wǎng)絡(luò)和其他信息之間有關(guān)聯(lián),因?yàn)楣ぞ叩姆指钚裕蛯?dǎo)致潛在模式的丟失。由此,研發(fā)適用于情報(bào)研究的挖掘工具,是必要也是緊迫的,尤其是面對(duì)大數(shù)據(jù)的挑戰(zhàn),智能化地輔助分析人員,減少認(rèn)知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報(bào)分析任務(wù),分析哪些問題是可以使用數(shù)據(jù)挖掘技術(shù)來支持的,這類問題有哪些共同點(diǎn)、特殊性,能否對(duì)未來可能的情報(bào)分析問題進(jìn)行擴(kuò)展,哪些問題不適用于數(shù)據(jù)挖掘技術(shù),原因是什么等。其次,對(duì)于某類或某個(gè)分析問題,使用哪種數(shù)據(jù)挖掘技術(shù)或幾種技術(shù)的組合才能有效地解決,涉及的算法是否需要針對(duì)該問題進(jìn)行適應(yīng)性改造,如何評(píng)價(jià)挖掘的結(jié)果等。第三,數(shù)據(jù)挖掘出現(xiàn)了交互挖掘這一發(fā)展趨勢(shì),即構(gòu)建靈活的用戶界面和探索式挖掘環(huán)境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢(shì)會(huì)對(duì)情報(bào)研究帶來哪些影響,如何在這一背景下,探索情報(bào)研究工具的新發(fā)展,尋找情報(bào)分析的新模式,值得我們關(guān)注。
3.3 語義處理
語義是關(guān)于意義(meaning)的科學(xué),語義技術(shù)提供了機(jī)器可理解或是更好處理的數(shù)據(jù)描述、程序和基礎(chǔ)設(shè)施[34],整合了Web技術(shù)、人工智能、自然語言處理、信息抽取、數(shù)據(jù)庫技術(shù)、通信理論等技術(shù)方法,旨在讓計(jì)算機(jī)更好地支持處理、整合、重用結(jié)構(gòu)化和非結(jié)構(gòu)化信息[35]。核心語義技術(shù)包括語義標(biāo)注、知識(shí)抽取、檢索、建模、推理等[34]。語義技術(shù)可以為信息的深層挖掘打好基礎(chǔ),即通過對(duì)各類信息的語義處理,在獲取的富有語義的結(jié)構(gòu)化數(shù)據(jù)上使用各種數(shù)據(jù)挖掘算法來發(fā)現(xiàn)其中的潛在模式。數(shù)據(jù)的語義性支持了機(jī)器學(xué)習(xí)等技術(shù)的內(nèi)在功能[36]。
從現(xiàn)有的情報(bào)研究實(shí)踐和工具看,語義支持的缺失是一個(gè)普遍問題,這其中又可劃分為兩個(gè)層次。對(duì)于傳統(tǒng)的情報(bào)研究對(duì)象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內(nèi)容主題時(shí),需要從摘要等自由文本中提取出主題信息,在數(shù)據(jù)處理時(shí),常常無法識(shí)別同義詞、近義詞等,需要人工干預(yù)。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結(jié)果上,缺乏有效的主題說明,自動(dòng)形成的主題標(biāo)簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數(shù)據(jù)集環(huán)境下,還可以接受,當(dāng)面對(duì)大數(shù)據(jù)的沖擊,這種半自動(dòng)化的處理方法無疑是耗時(shí)又費(fèi)力的。此外,對(duì)于新型情報(bào)研究對(duì)象,如網(wǎng)絡(luò)新聞、博客等,已有如動(dòng)態(tài)監(jiān)測科研機(jī)構(gòu)等的系統(tǒng)工具,但總體來說還處于起步狀態(tài),目前較多的還是依賴人工篩選出所需信息,并整理成結(jié)構(gòu)化的數(shù)據(jù),同樣也不利于大規(guī)模的數(shù)據(jù)分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應(yīng)用語義技術(shù)成為廣泛需求及必然。
將語義技術(shù)應(yīng)用于情報(bào)分析,需要關(guān)注以下幾方面的內(nèi)容。首先,分析情報(bào)研究任務(wù)的特點(diǎn),了解它的語義需求,是否存在規(guī)律性的準(zhǔn)則以供指導(dǎo)分析工具的研發(fā),這既需要原則性和方向性的準(zhǔn)則,也需要為針對(duì)多維度劃分出的各類任務(wù)給出詳細(xì)的規(guī)范,例如,對(duì)微博等社會(huì)化媒體,其中既存在高質(zhì)量的信息,也存在辱罵等低質(zhì)量的信息,區(qū)分這些信息并篩選出高質(zhì)量信息,就成為在分析社會(huì)化媒體中的語義任務(wù)之一。其次,語義資源建設(shè)問題,即在情報(bào)分析領(lǐng)域中,要實(shí)現(xiàn)語義層面上的理解,是否需要建設(shè)語義資源,如果不需要,哪些技術(shù)手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構(gòu)建,并且這種語義資源應(yīng)該如何構(gòu)建,如何使用才能有效地服務(wù)于情報(bào)研究工作。第三,信息抽取問題。科技信息涉及眾多學(xué)科的專業(yè)術(shù)語、各種科研機(jī)構(gòu)、組織等,如何使用語義技術(shù)將這些信息準(zhǔn)確地提取出來并加以標(biāo)注,尤其是針對(duì)不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術(shù),把不同來源的數(shù)據(jù)對(duì)象及其互動(dòng)關(guān)系進(jìn)行融合、重組,重新結(jié)合為一個(gè)新的具有更高效率和更好性能的具有語義關(guān)聯(lián)的有機(jī)整體,以便后續(xù)分析。
4 結(jié)語
正如本文引言中所談到的那樣,大數(shù)據(jù)的理念和技術(shù)為情報(bào)學(xué)領(lǐng)域中情報(bào)研究的理論和實(shí)踐帶來了機(jī)遇,也帶來了挑戰(zhàn)。機(jī)遇巨大,挑戰(zhàn)更大,需要我們對(duì)此有清醒的認(rèn)識(shí)。本文分析了大數(shù)據(jù)背景下情報(bào)研究的若干發(fā)展趨勢(shì),總結(jié)了情報(bào)研究中值得關(guān)注的技術(shù)問題,以期能為促進(jìn)情報(bào)研究的理論和實(shí)踐的發(fā)展添磚加瓦。
參考文獻(xiàn):
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.
關(guān)鍵詞 大數(shù)據(jù)時(shí)代 研究生培養(yǎng)質(zhì)量 反饋
中圖分類號(hào):G643 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/ki.kjdkz.2015.08.023
Postgraduate Education Quality Feedback Thoughts in Big Data Era
ZHAN Zhiyong, CHEN Mingchan, YI Xiaoxi, WANG Zhichao
(Harbin Engineering University, Harbin, Heilongjiang 150001)
Abstract: Work quality of postgraduate training feedback main body is relatively simple, strong sense of quality feedback, the feedback mechanism is not the system, outdated methods of gathering information and other issues, combined with the characteristics of the era of big data, for quality of postgraduate training feedback work thinking that the quality of graduate education the depth and breadth of feedback work will occur gradually change to adapt to the era of big data.
Keywords: big data era; postgraduate training quality; feedback
近年來,隨著信息技術(shù)的飛速發(fā)展,大數(shù)據(jù)、云計(jì)算、慕課、翻轉(zhuǎn)課堂、顛倒教室等信息化時(shí)代的新名詞如雨后春筍般不斷涌現(xiàn)出來,2013年被媒體稱為“大數(shù)據(jù)元年”,大數(shù)據(jù)時(shí)代已經(jīng)來臨。數(shù)據(jù)科學(xué)家舍恩伯格提出:“現(xiàn)有的認(rèn)知和體系是建立在稀缺數(shù)據(jù)上的成果,人們思維和工作方式必須發(fā)生變革以適應(yīng)大數(shù)據(jù)時(shí)代的到來”。①在新時(shí)代來臨之際,教育的各個(gè)環(huán)節(jié)面臨著重新洗牌的可能。
1 大數(shù)據(jù)時(shí)代
1.1 大數(shù)據(jù)
“大數(shù)據(jù)”概念源于20世紀(jì)90年代,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,大數(shù)據(jù)的內(nèi)涵由“無法用傳統(tǒng)方法進(jìn)行分析的數(shù)據(jù)集合”逐漸轉(zhuǎn)變?yōu)椤熬哂谐瑥?qiáng)決策力、洞察力和流程優(yōu)化能力,與先進(jìn)數(shù)據(jù)處理方式緊密相關(guān)的海量、多樣的信息資產(chǎn)”。②在一定條件下,可通過先進(jìn)計(jì)算機(jī)技術(shù),對(duì)此類信息資產(chǎn)進(jìn)行有目的的設(shè)計(jì)與分析,揭示隱藏其中的各類信息,為我們進(jìn)行研究、決策、管理提供可靠依據(jù)。
大數(shù)據(jù)具有以下特點(diǎn):(1)大量性。大數(shù)據(jù)的數(shù)據(jù)信息量巨大,有人稱其起始計(jì)量單位至少是P(1000個(gè)T)。(2)價(jià)值性。大數(shù)據(jù)具有很高價(jià)值,但其價(jià)值密度低,通過先進(jìn)技術(shù)在海量信息中提取高價(jià)值信息是大數(shù)據(jù)發(fā)展的關(guān)鍵。(3)繁雜性。大數(shù)據(jù)的類型多樣,包括文本資料、網(wǎng)絡(luò)日志、圖片、音頻、視頻、搜索信息等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。(4)高時(shí)效性。很多大數(shù)據(jù)信息要求處理速度快,高時(shí)效性是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。
1.2 大數(shù)據(jù)時(shí)代
大數(shù)據(jù)時(shí)代是指基于大數(shù)據(jù)的各類信息及其相關(guān)技術(shù)發(fā)展與創(chuàng)新的信息時(shí)代,社會(huì)各領(lǐng)域的決策逐步由傳統(tǒng)的經(jīng)驗(yàn)決策轉(zhuǎn)變?yōu)閿?shù)據(jù)決策、由注重因果關(guān)系轉(zhuǎn)變?yōu)橄嚓P(guān)關(guān)系。大數(shù)據(jù)時(shí)代開啟全新的時(shí)代,逐步影響著我們的生活、工作和思維,并且正在深刻改變傳統(tǒng)社會(huì)的商業(yè)、教育模式。
大數(shù)據(jù)時(shí)代具有以下特點(diǎn):③(1)信息生產(chǎn)泛在。信息的產(chǎn)生無時(shí)不有、無處不在,存在人類生產(chǎn)生活的各個(gè)領(lǐng)域,大數(shù)據(jù)的生產(chǎn)過程以及相應(yīng)挖掘技術(shù)呈指數(shù)增長。(2)信息民主公開。絕大多數(shù)的數(shù)據(jù)產(chǎn)生于公共開放的網(wǎng)絡(luò)環(huán)境中,所有人可以是信息數(shù)據(jù)的生產(chǎn)者也可以是消費(fèi)者。(3)反饋信息及時(shí)豐富。各類新型信息分析技術(shù)可對(duì)巨量數(shù)據(jù)及時(shí)分析判斷,為信息反饋工作提供了無盡可能。(4)信息具有相關(guān)性。數(shù)據(jù)信息在理論上能在各個(gè)維度無限使用與傳播,能在各種不同系統(tǒng)與應(yīng)用中傳遞,在不同的環(huán)境中與不同數(shù)據(jù)有機(jī)結(jié)合能表達(dá)完全不同的涵義。(5)引導(dǎo)社會(huì)發(fā)展無限可能。如果說工業(yè)化時(shí)代使得機(jī)械力迅速增長,拓展了人類體力邊界;那么大數(shù)據(jù)時(shí)代使得智力無限增長,讓人類社會(huì)與處理信息充滿了無盡的想象空間。大數(shù)據(jù)時(shí)代,人類社會(huì)的各個(gè)領(lǐng)域即將或正在發(fā)生變革,以“慕課”為代表的教育領(lǐng)域也正在經(jīng)歷一場革命。
2 研究生培養(yǎng)質(zhì)量反饋工作
研究生培養(yǎng)質(zhì)量是指在一定環(huán)境下研究生培養(yǎng)工作的各類特性總和,主要由培養(yǎng)過程質(zhì)量(如教師授課質(zhì)量、導(dǎo)師指導(dǎo)水平等)和產(chǎn)出成果質(zhì)量即教育產(chǎn)品或服務(wù)的質(zhì)量(如研究生科研成果質(zhì)量、創(chuàng)新能力以及服務(wù)社會(huì)的質(zhì)量等)有機(jī)組成。④研究生培養(yǎng)質(zhì)量反饋機(jī)制指對(duì)研究生培養(yǎng)工作起調(diào)節(jié)指導(dǎo)作用的機(jī)制,即研究生培養(yǎng)“輸出”的研究生培養(yǎng)質(zhì)量“反作用”于研究生培養(yǎng)工作各環(huán)節(jié),指導(dǎo)研究生培養(yǎng)工作的過程。
我國研究生培養(yǎng)單位歷來重視研究生培養(yǎng)質(zhì)量反饋工作,各個(gè)培養(yǎng)單位做法不盡相同,或成立研究生培養(yǎng)質(zhì)量管理部門管理或邀請(qǐng)校外專業(yè)評(píng)估機(jī)構(gòu)或相應(yīng)管理部門開展以座談、問卷調(diào)查等方式的基于樣本數(shù)據(jù)形式的質(zhì)量評(píng)價(jià)工作。目前,研究生培養(yǎng)質(zhì)量反饋工作普遍存在以下問題。
(1)反饋主體相對(duì)單一。一方面,在研究生培養(yǎng)質(zhì)量反饋工作中,研究生培養(yǎng)單位是質(zhì)量反饋工作的實(shí)施者,政府、行業(yè)機(jī)構(gòu)或者專業(yè)的調(diào)查機(jī)構(gòu)參與較少。另一方面,在研究生培養(yǎng)單位中,實(shí)施培養(yǎng)質(zhì)量反饋工作的部門主要是就業(yè)和研究生管理部門,而這些部門的職能很多,難以投入大量精力從事培養(yǎng)質(zhì)量反饋工作。缺少社會(huì)參與、培養(yǎng)單位精力有限,難免出現(xiàn)反饋工作不科學(xué),反饋信息不全面、不準(zhǔn)確的現(xiàn)象。
(2)質(zhì)量反饋意識(shí)不強(qiáng)。多數(shù)研究生培養(yǎng)單位的工作重心在研究生的過程管理以及就業(yè)管理方面,注重研究生的培養(yǎng)過程質(zhì)量和產(chǎn)出成果質(zhì)量,對(duì)培養(yǎng)質(zhì)量反饋工作的重要性認(rèn)識(shí)不足,未能系統(tǒng)全面思考研究生培養(yǎng)質(zhì)量反饋工作,常常造成研究生培養(yǎng)質(zhì)量反饋工作流于形式,導(dǎo)致反饋信息不夠全面及時(shí),無法有效指導(dǎo)研究生培養(yǎng)管理工作,研究生培養(yǎng)工作與社會(huì)需求脫節(jié)。
(3)反饋機(jī)制不系統(tǒng)。目前,各個(gè)研究生培養(yǎng)單位在研究生培養(yǎng)的日常工作中,對(duì)研究生培養(yǎng)質(zhì)量反饋工作進(jìn)行了許多有益嘗試,如采取研究生評(píng)教、專家評(píng)教、座談、問卷調(diào)查等方式來改進(jìn)管理工作,但這些工作多數(shù)停留在“頭疼醫(yī)頭腳疼醫(yī)腳”的層面,各項(xiàng)工作相對(duì)獨(dú)立,反饋結(jié)果難以有效利用,效率低下,反饋機(jī)制不成體系。往往是就業(yè)部門的反饋工作僅限就業(yè)部門使用,未能將反饋信息及時(shí)應(yīng)用到研究生培養(yǎng)及其他相關(guān)部門,各部門間的質(zhì)量反饋工作相互脫節(jié)。
(4)信息采集方式落伍。現(xiàn)行的信息采集方式一般為調(diào)研,是培養(yǎng)質(zhì)量反饋工作的重要內(nèi)容,現(xiàn)行調(diào)研工作一般采用問卷調(diào)查、座談會(huì)以及電話調(diào)研等傳統(tǒng)方式進(jìn)行,但傳統(tǒng)調(diào)研形式存在以下局限性:一是被調(diào)研者當(dāng)時(shí)狀態(tài)影響調(diào)研結(jié)果,不同環(huán)境下被調(diào)研者的狀態(tài)也有不同,造成調(diào)研結(jié)果與實(shí)際情況存在誤差;二是調(diào)研群體代表性不強(qiáng),傳統(tǒng)調(diào)研方法選取一定數(shù)量樣本進(jìn)行調(diào)研,其必然無法代表全體;三是信息調(diào)研工作量較大,信息采集費(fèi)時(shí)費(fèi)力,同時(shí)要對(duì)采集到的信息進(jìn)行分析研究;四是信息采集量不全面,調(diào)查問卷、座談等調(diào)研不能設(shè)計(jì)太多問題,許多被忽視的信息可能對(duì)研究生培養(yǎng)質(zhì)量有重大影響;五是傳統(tǒng)調(diào)研工作過分強(qiáng)調(diào)因果關(guān)系,不注重相關(guān)關(guān)系。
研究生培養(yǎng)質(zhì)量反饋工作與數(shù)據(jù)緊密相關(guān),而大數(shù)據(jù)時(shí)代則為研究生培養(yǎng)質(zhì)量反饋工作的研究與發(fā)展提供了無限可能。
3 大數(shù)據(jù)時(shí)代下研究生培養(yǎng)質(zhì)量反饋工作的變革方向
大數(shù)據(jù)時(shí)代的特點(diǎn)決定了現(xiàn)階段研究生培養(yǎng)質(zhì)量反饋工作存在的問題將逐步解決,同時(shí),研究生培養(yǎng)質(zhì)量反饋工作的深度與廣度必然將逐步發(fā)生相應(yīng)的轉(zhuǎn)變以適應(yīng)形勢(shì)發(fā)展。
(1)反饋信息數(shù)據(jù)采集方式不斷拓展。傳統(tǒng)研究生培養(yǎng)質(zhì)量反饋機(jī)制相關(guān)數(shù)據(jù)一般來源于調(diào)查問卷、座談會(huì)、訪談以及相關(guān)信息統(tǒng)計(jì)等經(jīng)典調(diào)研手段,大數(shù)據(jù)時(shí)代的數(shù)據(jù)采集工作不僅可以使用傳統(tǒng)調(diào)研手段獲取,絕大多數(shù)是從研究生的日常學(xué)習(xí)、生活信息以及身體信息中獲取,將來有可能出現(xiàn)從研究生幼兒學(xué)會(huì)說話的時(shí)間來判斷研究生的創(chuàng)造潛力,也有可能從研究生中學(xué)時(shí)期的習(xí)慣、愛好來判斷其科研潛力。同時(shí),以往研究生培養(yǎng)工作尤其是課程教學(xué)工作中,由于缺乏相應(yīng)數(shù)據(jù)支撐特別是對(duì)研究生數(shù)據(jù)的全面、深入分析,研究生培養(yǎng)工作往往形成整齊劃一的“工業(yè)流水線”,培養(yǎng)的是“標(biāo)準(zhǔn)件”,研究生的個(gè)性差異和創(chuàng)新能力培養(yǎng)得不到充分體現(xiàn),而在大數(shù)據(jù)時(shí)代,研究生的所有學(xué)習(xí)行為都被網(wǎng)絡(luò)“神不知鬼不覺”地采集下來,研究生培養(yǎng)單位依據(jù)采集的數(shù)據(jù)對(duì)培養(yǎng)過程實(shí)時(shí)進(jìn)行動(dòng)態(tài)調(diào)整,針對(duì)每位研究生的不同特點(diǎn)實(shí)施個(gè)性化培養(yǎng)。⑤
(2)數(shù)據(jù)分析統(tǒng)計(jì)方法不斷改進(jìn)。一般質(zhì)量反饋工作常采用傳統(tǒng)統(tǒng)計(jì)方法通過普通計(jì)算機(jī)或手工方式來處理結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)時(shí)代的數(shù)據(jù)可以是半結(jié)構(gòu)、非結(jié)構(gòu)數(shù)據(jù),其統(tǒng)計(jì)分析以相關(guān)關(guān)系為基礎(chǔ)展開,數(shù)據(jù)分析統(tǒng)計(jì)方法也隨著現(xiàn)代計(jì)算機(jī)技術(shù)的發(fā)展而不斷改進(jìn)。⑥
(3)研究生培養(yǎng)質(zhì)量反饋機(jī)制逐步深化。隨著大數(shù)據(jù)時(shí)代的來臨,研究生培養(yǎng)管理過程與現(xiàn)代計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的聯(lián)系愈加緊密,不斷發(fā)生變革,如研究生課程教學(xué)的慕課沖擊、研究生學(xué)位論文的要求、研究生學(xué)位論文盲審系統(tǒng)的開發(fā)使用等,研究生培養(yǎng)管理過程的“在線化”變革必然導(dǎo)致相應(yīng)的研究生培養(yǎng)反饋機(jī)制的逐步深化。同時(shí),對(duì)于實(shí)施培養(yǎng)質(zhì)量反饋工作的管理者來講,應(yīng)提高個(gè)人數(shù)據(jù)素養(yǎng),努力學(xué)習(xí)數(shù)據(jù)分析的基本原理和方法,發(fā)現(xiàn)并搜集反映研究生培養(yǎng)各個(gè)環(huán)節(jié)運(yùn)行狀態(tài)和存在問題的狀態(tài)數(shù)據(jù),加強(qiáng)其基于數(shù)據(jù)來進(jìn)行決策和采取相應(yīng)措施來保證研究生培養(yǎng)質(zhì)量的自主性。
(4)教育第三方全面介入。大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘分析技術(shù)飛速發(fā)展,研究生培養(yǎng)單位已沒有能力依靠自身實(shí)力對(duì)研究生培養(yǎng)質(zhì)量的大量相關(guān)數(shù)據(jù)進(jìn)行深度挖掘。而作為數(shù)據(jù)挖掘分析見長的第三方,如專業(yè)數(shù)據(jù)挖掘公司、專業(yè)研究生培養(yǎng)質(zhì)量評(píng)估機(jī)構(gòu)甚至是學(xué)校計(jì)算機(jī)網(wǎng)絡(luò)中心必將不斷開發(fā)技術(shù)、拓展業(yè)務(wù),與研究生培養(yǎng)單位圍繞研究生培養(yǎng)質(zhì)量反饋工作開展全面合作,擔(dān)負(fù)研究生培養(yǎng)質(zhì)量數(shù)據(jù)的挖掘與分析工作,為研究生培養(yǎng)質(zhì)量反饋工作提供技術(shù)支持。
(5)研究生培養(yǎng)工作各單元逐步融合。對(duì)于國家的教育系統(tǒng)來講,研究生教育屬于頂層教育,前期各層次的教育質(zhì)量無不對(duì)研究生培養(yǎng)質(zhì)量產(chǎn)生重要的影響,大數(shù)據(jù)時(shí)代將使得研究生培養(yǎng)質(zhì)量反饋工作不再單純局限于研究生培養(yǎng)階段,應(yīng)將整個(gè)教育過程如幼兒教育、小學(xué)、初中、高中以及大學(xué)等個(gè)層面的教育納入其中,將其作為一個(gè)系統(tǒng)來通盤謀劃。對(duì)于研究生培養(yǎng)單位來講,研究生培養(yǎng)質(zhì)量反饋工作不應(yīng)局限在研究生管理部門,應(yīng)結(jié)合研究生的招生、培養(yǎng)、就業(yè)乃至校友溝通等各個(gè)層面,加強(qiáng)研究生各層面研究生培養(yǎng)數(shù)據(jù)資源的整合是大數(shù)據(jù)時(shí)代研究生培養(yǎng)單位在研究生培養(yǎng)質(zhì)量反饋工作的重點(diǎn)。
注釋
① 舍恩伯格.大數(shù)據(jù)時(shí)代[M].袁杰,譯.浙江人民出版社,2012.
② 楊旭,湯海京等.數(shù)據(jù)科學(xué)導(dǎo)論[M].北京理工大學(xué)出版社,2014.
③ 鄭毅.大數(shù)據(jù)時(shí)代的特點(diǎn)[J].新金融評(píng)論,2012(1).
④ 占志勇,侯彥芬等.基于系統(tǒng)論的研究生課程教學(xué)機(jī)制探討[J].黑龍江高等教育研究,2013(9).
(1武漢輕工大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院 湖北 武漢 430023 2重慶交通大學(xué) 重慶 400074)
摘 要:針對(duì)橋梁健康監(jiān)測獲取海量數(shù)據(jù)卻無法實(shí)時(shí)精確地監(jiān)測評(píng)估橋梁結(jié)構(gòu)狀態(tài)的困難性,本立足數(shù)據(jù)挖掘算法理論,在Hadoop平臺(tái)下運(yùn)用KNN文本分類算法對(duì)橋梁結(jié)構(gòu)縮尺模型加速度數(shù)據(jù)進(jìn)行分類分析,采用分布式文件系統(tǒng)HDFS對(duì)監(jiān)測數(shù)據(jù)進(jìn)行存儲(chǔ)和訪問,應(yīng)用Map/Reduce并行計(jì)算框架對(duì)橋梁各環(huán)境參數(shù)進(jìn)行計(jì)算,并據(jù)此判斷監(jiān)測點(diǎn)屬于何種工況,實(shí)現(xiàn)了橋梁監(jiān)測海量數(shù)據(jù)的存儲(chǔ)、訪問、分類以及橋梁結(jié)構(gòu)健康狀況的判別,通過實(shí)驗(yàn)室縮尺模型工程實(shí)例驗(yàn)證了理論的有效性。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的串行分類算法相比,基于Hadoop平臺(tái)的并行分類算法具有較好的擴(kuò)展性,并取得了基于大數(shù)據(jù)理論的橋梁監(jiān)測技術(shù)研究的革新。
關(guān)鍵詞 :Hadoop平臺(tái);大數(shù)據(jù);KNN文本分類算法;HDFS
中圖分類號(hào):U445 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.3969/j.issn.1665-2272.2015.05.036
0 引言
隨著橋梁事業(yè)的蓬勃發(fā)展,多數(shù)橋梁上建立了健康監(jiān)測系統(tǒng),可以通過傳感器獲取各種環(huán)境下的反映結(jié)構(gòu)響應(yīng)行為的信息,期間從各個(gè)監(jiān)測點(diǎn)收集的數(shù)據(jù)量可達(dá)到GB級(jí),而面對(duì)海量數(shù)據(jù)卻不能及時(shí)得到反映橋梁結(jié)構(gòu)狀態(tài)的有效信息,橋梁結(jié)構(gòu)監(jiān)測系統(tǒng)的分析與處理不能及時(shí)完成,大數(shù)據(jù)概念和大數(shù)據(jù)技術(shù)的適時(shí)出現(xiàn)提供了一個(gè)分析處理橋梁監(jiān)測歷史數(shù)據(jù)的途徑。Hadoop作為一個(gè)開源的云計(jì)算平臺(tái)提供了分布式文件系統(tǒng)HDFS和并行編程模型Map/Reduce,以其高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在大量廉價(jià)的硬件上,人們可以充分利用集群的存儲(chǔ)和高速運(yùn)算能力,完成海量數(shù)據(jù)的處理,其中包括海量文本數(shù)據(jù)的分類問題。分類算法是一種重要的數(shù)據(jù)挖掘算法,該模型通過對(duì)海量樣本數(shù)據(jù)進(jìn)行訓(xùn)練能把未知類別的樣本映射到給定類別中的某一個(gè),以此判別橋梁狀態(tài)所屬類別,K近鄰(K-Nearest Neighbor,KNN)文本分類算法是基于訓(xùn)練集的文本分類算法,是一個(gè)理論上比較成熟的方法,也是最簡單的機(jī)器學(xué)習(xí)算法之一。
云計(jì)算提供的海量數(shù)據(jù)存儲(chǔ)和分布式計(jì)算能力在數(shù)據(jù)挖掘以及相關(guān)領(lǐng)域中是一種非常受青睞并且有效的方法,結(jié)合大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘算法—KNN文本分類算法進(jìn)行橋梁健康監(jiān)測,在Hadoop平臺(tái)下運(yùn)用KNN文本分類算法對(duì)橋梁結(jié)構(gòu)縮尺模型加速度數(shù)據(jù)進(jìn)行分類分析,采用分布式文件系統(tǒng)HDFS對(duì)監(jiān)測數(shù)據(jù)進(jìn)行存儲(chǔ)和訪問,應(yīng)用Map/Reduce并行計(jì)算框架對(duì)橋梁各環(huán)境參數(shù)進(jìn)行計(jì)算,使用分布式文件系統(tǒng)Hadoop Distributed Filesystem來存儲(chǔ)原始文檔(已分類的數(shù)據(jù))和待分類文檔(監(jiān)測數(shù)據(jù)),將文件讀寫和分布式并行計(jì)算框架MapReduce相結(jié)合實(shí)現(xiàn)KNN文本分類,將監(jiān)測點(diǎn)的監(jiān)測數(shù)據(jù)分到已有的工況中,并據(jù)此判斷監(jiān)測點(diǎn)屬于何種工況,以便采取相關(guān)措施對(duì)橋梁進(jìn)行維護(hù),以此來探索基于大數(shù)據(jù)技術(shù)的橋梁監(jiān)測分析處理的方法。
1 大數(shù)據(jù)及其應(yīng)用平臺(tái)
“大數(shù)據(jù)”是一個(gè)體量很大,數(shù)據(jù)類別多樣的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理,主要具有數(shù)據(jù)體量巨大;①數(shù)據(jù)類別大; ②數(shù)據(jù)來自多種數(shù)據(jù)源, 囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù); ③數(shù)據(jù)處理速度快,在數(shù)據(jù)量非常龐大的情況下, 也能夠做到數(shù)據(jù)的實(shí)時(shí)處理;④數(shù)據(jù)價(jià)值密度低,價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”并通過對(duì)海量數(shù)據(jù)進(jìn)行分析獲得有價(jià)值的數(shù)據(jù)成為目前大數(shù)據(jù)背景下亟待解決的難題。
Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái)及分布式處理的軟件框架,主要用來處理大量數(shù)據(jù),它實(shí)現(xiàn)了MapReduce一樣的編程模式和框架,能在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)并進(jìn)行分布式計(jì)算。處理的海量數(shù)據(jù)能達(dá)到PB級(jí)別(1PB=1024TB),并可以讓應(yīng)用程序在上千個(gè)節(jié)點(diǎn)中進(jìn)行分布式處理。以Hadoop分布式文件系統(tǒng)(HDFS,HadoopDistributed Filesystem)和MapReduce(Google MapReduce的開源實(shí)現(xiàn))為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開發(fā)并行應(yīng)用程序,所以用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源,從而搭建自己的分布式計(jì)算平臺(tái),并且可以充分利用集群的計(jì)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的處理。MapReduce 是大規(guī)模數(shù)據(jù)(TB級(jí))計(jì)算的利器,Map和Reduce是它的主要思想,來源于函數(shù)式編程語言,Map負(fù)責(zé)將數(shù)據(jù)打散,Reduce負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行聚集。它的流程如圖1所示。
2 K近鄰文本分類算法
K近鄰(K-Nearest Neighbor,KNN)文本分類算法是基于訓(xùn)練集的文本分類算法,是一個(gè)理論上比較成熟的方法,也是最簡單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:計(jì)算一個(gè)點(diǎn)A與其他所有點(diǎn)之間的距離,取出與該點(diǎn)最近的k個(gè)點(diǎn),然后統(tǒng)計(jì)這k個(gè)點(diǎn)里面所屬分類比例最大的,則點(diǎn)A屬于該分類。根據(jù)加權(quán)距離和判斷測試樣本所屬的類別的具體過程如下:
假設(shè)給定有m個(gè)訓(xùn)練樣本集D,每個(gè)樣本具有n個(gè)屬性,di=(σi1,σi2,…,σin),其中i=(1,2,…,m)表示第幾個(gè)訓(xùn)練樣本。
(1)設(shè)定k的值,k最近鄰的數(shù)量;
(2)把測試樣本表示成測試文本向量X(ω1,ω2,…,ωn);
(3)根據(jù)下式計(jì)算測試樣本與訓(xùn)練集中所有樣本的相似度:
公式(1)中di為訓(xùn)練樣本,X為測試樣本。
(4)對(duì)根據(jù)步驟(3)計(jì)算出的m個(gè)相似度進(jìn)行排序,選出k個(gè)最大值,作為X的近鄰;
(5)根據(jù)公式(2)收集這k個(gè)最近鄰的類別,
公式(2)中X表示測試樣本,sim(X,di)為相似度計(jì)算公式,y(di,Cj)為類別屬性函數(shù),即如果di屬于類別Cj,那么函數(shù)值為1,否則為0。
(6)對(duì)步驟(5)計(jì)算出的值排序,將測試樣本分到值最大的類別中去。
3 工程實(shí)例
3.1 實(shí)例模型
本次工程實(shí)例根據(jù)云南黑沖溝特大橋全橋作為原型建立,使用的數(shù)據(jù)是由橋梁實(shí)驗(yàn)室的縮尺模型上建立的監(jiān)測系統(tǒng)收集到的,原型立面圖(見圖2)。
試驗(yàn)獲得以下三種工況的加速度時(shí)間序列:工況一,跨中無裂縫,模擬無損傷情況;工況二,跨中具有0.1mm裂縫,模擬有損傷情況;工況三,跨中有0.12mm+0.03mm兩條裂縫情況,模擬損傷加劇情況。
根據(jù)本次動(dòng)力學(xué)試驗(yàn)的研究目的,確定試驗(yàn)的主要測試內(nèi)容為模型結(jié)構(gòu)關(guān)鍵部位加速度,該測試項(xiàng)目可采用壓電加速度傳感器進(jìn)行量測,采用重錘敲擊的方式,給模型提供激勵(lì),來模擬完成脈動(dòng)試驗(yàn),采樣頻率為18.8Hz,在激振器開始激振5s后進(jìn)行采樣,采樣時(shí)間為50s,獲取各個(gè)測點(diǎn)的加速度數(shù)據(jù),特征選擇方法采用文檔頻率,k取30。
3.2 文檔預(yù)處理
本次工程實(shí)例的樣本數(shù)據(jù)是通過縮尺模型重錘敲擊獲取的加速度數(shù)據(jù),監(jiān)測系統(tǒng)收集了不同工況下的監(jiān)測數(shù)據(jù),對(duì)損傷前即健康狀況,損傷后0.1mm裂縫和損傷加劇0.12mm+0.03mm裂縫進(jìn)行樣本數(shù)據(jù)訓(xùn)練分析,獲取不同的損傷情況下各個(gè)監(jiān)測點(diǎn)的分類情況,得出每個(gè)監(jiān)測點(diǎn)的損傷情況,實(shí)驗(yàn)選定0.12mm+0.03mm兩條裂縫情況下采用小車激勵(lì)的方式獲取該工況下的加速度時(shí)程信號(hào)作為待分類數(shù)據(jù),通過對(duì)監(jiān)測數(shù)據(jù)的分類,判定其是否存在損傷。
待分類文檔節(jié)點(diǎn)中,WCDMapper繼承hadoop平臺(tái)的Mapper類,并重寫map方法對(duì)待分類文檔進(jìn)行讀取,并統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù);WCDReducer繼承hadoop平臺(tái)的Reducer類,并重寫reduce方法對(duì)待分類數(shù)據(jù)進(jìn)行寫操作。WCDMapper類的map方法和WCDReducer類的reduce方法分別如下,處理后的待分類文檔如圖3所示,前面一個(gè)是數(shù)據(jù),后一個(gè)數(shù)字是該數(shù)據(jù)出現(xiàn)在待分類文檔的次數(shù)。后面的原始文檔經(jīng)過預(yù)處理后也與此相似。
由于MapReduce只輸出一個(gè)結(jié)果,而每個(gè)原始文檔都采用MapReduce處理會(huì)增加代碼量和內(nèi)存的消耗,所以本文采用Hadoop平臺(tái)提供的FileSystem、FSDataInput-Stream、FSDataOutputStream類來對(duì)原始文檔進(jìn)行相應(yīng)的讀寫,最后輸出到文檔中的內(nèi)容與圖4.2相似,而文件讀取方式不同。最后需要將它們合并到一個(gè)文檔中,采用Hadoop平臺(tái)提供的FileSystem、FSDataInputStream、FSDataOutputStream類來對(duì)文件進(jìn)行讀寫。輸出的matrix文件如圖4.3所示,每一行的第一個(gè)數(shù)為監(jiān)測的數(shù)據(jù),后面的數(shù)字為該數(shù)據(jù)在每個(gè)文檔中出現(xiàn)的次數(shù)。
3.3 特征選擇
根據(jù)上一步得到的文件,計(jì)算每個(gè)數(shù)據(jù)的增益值,對(duì)每一個(gè)數(shù)據(jù)的信息增益進(jìn)行從大到小排序,最后把增益值最大的個(gè)特征項(xiàng)輸出到文件。本次設(shè)計(jì)中選取的為100,輸出到文件的內(nèi)容如圖5所示,每一行只顯示1個(gè)數(shù)據(jù)。
3.4 文檔向量化
原始文檔和待分類文檔都需要向量化,原始文檔向量化之后需要?dú)w一,而待分類文檔向量化之后不需要?dú)w一,所以給他們分別提供了一個(gè)向量化的類。從文件中讀入特征項(xiàng)。參數(shù)文件存儲(chǔ)經(jīng)過特征選擇后剩下的特征項(xiàng)。
原始文檔經(jīng)過向量化之后,輸出到每個(gè)文檔的內(nèi)容不一樣,圖6是文檔名為0向量化后的部分內(nèi)容。待分類文檔的向量化后不需要?dú)w一化,輸出到文檔的內(nèi)容如圖7所示。
3.5 分類
此步驟計(jì)算原始文檔和待分類文檔向量兩個(gè)向量的夾角的余弦。最后的絕對(duì)值越大,說明夾角越小,越相似,距離越近。在訓(xùn)練文本集中選出與新文本最相似的個(gè)文本,這個(gè)文檔中屬于哪一類的文檔最多,則待分類的文檔就屬于哪一類。map( )方法獲取待分類文檔的向量,reduce( )方法輸出結(jié)果到文件中。分類的結(jié)果表示待分類的文檔屬于哪一類,也即是該監(jiān)測數(shù)據(jù)來源的監(jiān)測點(diǎn)的損壞情況屬于哪一類。本次實(shí)驗(yàn)選定0.12mm+0.03mm兩條裂縫情況,采用小車激勵(lì)的方式獲取該工況下的加速度時(shí)程信號(hào),數(shù)據(jù)分類結(jié)果如圖8所示,該結(jié)果顯示待分類的文檔屬于損傷0.1mm這一類。
3.6 結(jié)果分析
在上一步中已經(jīng)獲得了待分類文檔分類的結(jié)果,此分類結(jié)果的數(shù)據(jù)只是監(jiān)測數(shù)據(jù)的一部分,而且在分類中由于KNN分類的值選取沒有較好的方法以及其他影響因素,獲得的結(jié)果可能有誤。因此將監(jiān)測點(diǎn)傳來的數(shù)據(jù)拆分到若干個(gè)帶分類文檔中,同時(shí)對(duì)這些文檔進(jìn)行分類。分類完成之后再對(duì)分類結(jié)果進(jìn)行整合分析,獲得最終的有效的結(jié)果即該監(jiān)測點(diǎn)準(zhǔn)確的損傷情況。Map( )方法讀取各個(gè)待分類文檔分類的結(jié)果,并對(duì)結(jié)果匯總加以分析,獲得監(jiān)測點(diǎn)數(shù)據(jù)最后的分類結(jié)果,reduce( )方法將最后的有效結(jié)果寫入文件。最后的輸出結(jié)果如圖9所示。
綜上所述,基于MapReduce編程模型的橋梁監(jiān)測信息分類技術(shù)可以有效判別橋梁狀態(tài)所屬類別,由于HDFS將大數(shù)據(jù)分割成了若干個(gè)blocks存儲(chǔ)在不同的節(jié)點(diǎn)上,這樣KNN分類算法由一個(gè)主機(jī)的運(yùn)算分散到多個(gè)節(jié)點(diǎn)并行處理,每個(gè)節(jié)點(diǎn)完成T個(gè)任務(wù),時(shí)間復(fù)雜度為O(ns)/T,其中n為訓(xùn)練樣本的總數(shù),s為特征屬性數(shù)模,應(yīng)用HADOOP平臺(tái)的分布式處理框架大大降低了算法的時(shí)間復(fù)雜度。
4 結(jié)論
本文針對(duì)橋梁健康監(jiān)測系統(tǒng)歷史數(shù)據(jù)無法有效利用,無法通過海量數(shù)據(jù)實(shí)時(shí)精確地監(jiān)測評(píng)估橋梁結(jié)構(gòu)狀態(tài)的困難性,基于數(shù)據(jù)挖掘算法理論,提出了基于大數(shù)據(jù)的橋梁健康監(jiān)測信息分類研究技術(shù)的革新,在Hadoop平臺(tái)下運(yùn)用KNN文本分類算法對(duì)橋梁結(jié)構(gòu)縮尺模型加速度數(shù)據(jù)進(jìn)行分類分析,采用分布式文件系統(tǒng)HDFS對(duì)監(jiān)測數(shù)據(jù)進(jìn)行存儲(chǔ)和訪問,應(yīng)用Map/Reduce并行計(jì)算框架對(duì)橋梁各環(huán)境參數(shù)進(jìn)行計(jì)算,將文件讀寫和分布式并行計(jì)算框架MapReduce相結(jié)合實(shí)現(xiàn)KNN文本分類,將監(jiān)測點(diǎn)的監(jiān)測數(shù)據(jù)分到已有的工況中,并據(jù)此判斷監(jiān)測點(diǎn)屬于何種工況,實(shí)現(xiàn)了橋梁監(jiān)測海量數(shù)據(jù)的存儲(chǔ)、訪問、分類以及橋梁結(jié)構(gòu)健康狀況的判別,Hadoop平臺(tái)下的KNN算法實(shí)現(xiàn)了分布式并行計(jì)算,提高了算法運(yùn)行時(shí)間效率,降低了時(shí)間復(fù)雜度,通過實(shí)驗(yàn)室縮尺模型實(shí)驗(yàn)驗(yàn)證了方法的有效性。
存在的不足之處是值的選擇,值選擇過小,得到的近鄰數(shù)過少,會(huì)降低分類精度,同時(shí)也會(huì)放大噪聲數(shù)據(jù)的干擾;而如果值選擇過大,并且待分類樣本屬于訓(xùn)練集中包含數(shù)據(jù)數(shù)較少的類,那么在選擇個(gè)近鄰的時(shí)候,實(shí)際上并不相似的數(shù)據(jù)亦被包含進(jìn)來,造成噪聲增加而導(dǎo)致分類效果的降低。如何選取恰當(dāng)?shù)闹狄渤蔀镵NN的研究熱點(diǎn),尚需進(jìn)一步改進(jìn)。
參考文獻(xiàn)
1 黃荷.大數(shù)據(jù)時(shí)代降臨[J]. 黨政論壇,2012(11)
2 金鵬. 基于Hadoop的SINN文本分類算法的設(shè)計(jì)與實(shí)現(xiàn)[D]. 武漢:華中師范大學(xué)碩士學(xué)位論文,2013
3 李登榮.文本分類及其相關(guān)技術(shù)研究[D].復(fù)旦大學(xué)博士論文,2005
4 Samovsky M, Kacur T. Cloud-based classification of text documents using the Gridgain platform[C]. Applied Computational Intelligence and Informatics,2012(7)
5 Caruana G, Li M, Qi M. A MapReduce based parallel SVM for large scale spam filtering[C]. Fuzzy Systems and Knowledge Discovery, 2011 (4)
6 Viktor Mayer-Sch nberger.Big Data[M].杭州:浙江人民出版社,2013(1)
7 (英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶著.大數(shù)據(jù)時(shí)代[M]. 北京:人民出版社,2012
8 向小軍,高陽,商琳,等.基于Hadoop平臺(tái)的海量文本分類的并行化[J].計(jì)算機(jī)科學(xué),2011(10)
9 (美)Tom White著. 周敏奇,王曉玲,金澈清,錢衛(wèi)寧譯. Hadoop權(quán)威指南(第2版) [M]. 北京:清華大學(xué)出版社,2011
10 萬川梅,謝正蘭. 深入云計(jì)算:Hadoop應(yīng)用開發(fā)實(shí)戰(zhàn)詳解[M]. 北京:中國鐵道出版社,2013
11 張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計(jì)算機(jī)工程,2005(6)
關(guān)鍵詞:大數(shù)據(jù);高校應(yīng)用;發(fā)展方向
1大數(shù)據(jù)概要
近年來,當(dāng)人們還對(duì)物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等熱詞感覺新穎的時(shí)候,大數(shù)據(jù)(BigData)也橫空出世并呈燎原之勢(shì)。大數(shù)據(jù)是一個(gè)體量大、數(shù)據(jù)類別多的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集不能用傳統(tǒng)數(shù)據(jù)庫工具對(duì)其進(jìn)行處理。如果說傳統(tǒng)數(shù)據(jù)庫時(shí)代的數(shù)據(jù)管理方式是“池塘捕魚”,那么大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理方式則是“大海捕魚”,大數(shù)據(jù)管理方式,不僅在數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、數(shù)據(jù)模式、數(shù)據(jù)對(duì)象處理工具上和傳統(tǒng)數(shù)據(jù)模式有著明顯的差異,它還能讓我們以一種從未涉足過的方式,對(duì)巨量數(shù)據(jù)進(jìn)行分析,從而能幫助我們獲得更有價(jià)值的產(chǎn)品和服務(wù),最終形成影響社會(huì)發(fā)展的變革之力。
2高校管理中的大數(shù)據(jù)初步應(yīng)用
據(jù)教育部統(tǒng)計(jì)截至2013年,全國共有普通本科院校879所、普通高職(專科)院校1266所、國家批準(zhǔn)設(shè)立的獨(dú)立學(xué)院287所(不含軍事院校和港澳臺(tái)院校),每所高校學(xué)生人數(shù)都破萬,每名學(xué)生都存在學(xué)籍、選課、考試、考勤、學(xué)費(fèi)、學(xué)分等各種數(shù)據(jù);對(duì)于教師有教師基本信息、職稱、論文、課件、考題等數(shù)據(jù)。故高校信息系統(tǒng)是數(shù)據(jù)生產(chǎn)大戶,長期運(yùn)營積累下來的數(shù)據(jù)就是高校中的大數(shù)據(jù),合理利用這些數(shù)據(jù),不僅可以幫助教學(xué)管理,減輕教學(xué)工作中的事務(wù)性工作,更能提高招生推廣活動(dòng),改變教學(xué)領(lǐng)域的授課和學(xué)習(xí)模式,不論高校自身,還是社會(huì)各界,都能從高校中的大數(shù)據(jù)應(yīng)用受獲益匪淺。
2.1個(gè)性化學(xué)習(xí)
從孔孟時(shí)代開始,我們就提出了因材施教,個(gè)性化學(xué)習(xí)也是教育所追求的最高目標(biāo)。要實(shí)現(xiàn)這目標(biāo),首先要了解受教育對(duì)象的長處、短處,各種特點(diǎn)。但目前高校擴(kuò)招,一個(gè)教師教多個(gè)教學(xué)班,很難去了解每一個(gè)學(xué)生的特點(diǎn)實(shí)施教學(xué),將大數(shù)據(jù)挖掘技術(shù)與日常教學(xué)相結(jié)合,通過可視化的在線學(xué)習(xí)平臺(tái),學(xué)生自主選擇自己感興趣的課程學(xué)習(xí),就能夠?qū)崿F(xiàn)滿足個(gè)性化學(xué)習(xí)的功能。學(xué)生在自主學(xué)習(xí)平臺(tái)上的學(xué)習(xí)資料,交流互動(dòng)信息,每個(gè)知識(shí)點(diǎn)不同的學(xué)習(xí)進(jìn)度等,通過大數(shù)據(jù)技術(shù)對(duì)這些個(gè)性化信息的分析拓展,不僅能幫助學(xué)生完善知識(shí)結(jié)構(gòu),更能加快學(xué)生對(duì)自身興趣愛好的挖掘和特長的培養(yǎng),在整個(gè)教育信息化的大背景下,只有基于大數(shù)據(jù)技術(shù)才能更好地實(shí)現(xiàn)這種學(xué)習(xí)方式,充分利用大數(shù)據(jù)技術(shù),可以為各地高校帶來更具有針對(duì)性的教育方式,能夠?qū)崿F(xiàn)盡可能早的將學(xué)生的天賦創(chuàng)造力釋放出來。
2.2教學(xué)質(zhì)量評(píng)估
教學(xué)質(zhì)量評(píng)估是全國每個(gè)高校定期要做的事務(wù)性工作,其目的是通過不同渠道,包括老師,同學(xué),行政部門等不同角度對(duì)教學(xué)評(píng)估,以期發(fā)現(xiàn)教學(xué)工作、管理工作中存在的各類問題,并及時(shí)地通過調(diào)整教學(xué)方案等手段來改正完善,達(dá)到提高教學(xué)質(zhì)量的目的。在教育評(píng)估系統(tǒng)中引入大數(shù)據(jù)技術(shù),不僅從時(shí)間成本上節(jié)約,更能加強(qiáng)評(píng)估的科學(xué)性,增強(qiáng)了教育數(shù)字化建設(shè)的實(shí)效性。在教學(xué)質(zhì)量評(píng)估中利用基于大數(shù)據(jù)挖掘的智能算法,我們就可以根據(jù)教師教學(xué)互動(dòng)、多媒體課件的效果、學(xué)生積極性等因素中找出其中的內(nèi)在聯(lián)系,就能為教學(xué)評(píng)估部門提供客觀的、科學(xué)的、符合實(shí)際的決策支持信息,為教師提供準(zhǔn)確的反饋信息,使之更好地開展教學(xué)工作,提高教學(xué)質(zhì)量。
2.3專業(yè)培養(yǎng)方向拓展
大數(shù)據(jù)技術(shù)是新興的,但它卻又發(fā)展迅速,朝夕之間,大數(shù)據(jù)技術(shù)應(yīng)用到了各行各業(yè),面對(duì)大數(shù)據(jù)帶來的挑戰(zhàn)與機(jī)遇,國內(nèi)各大高校根據(jù)各個(gè)行業(yè)的大數(shù)據(jù)分析,可準(zhǔn)確評(píng)估出未來幾年社會(huì)需要的專業(yè)性人才方向,如數(shù)據(jù)采樣量大,完整,還能直接分析出各個(gè)專業(yè)的需求人數(shù),從而更好地開設(shè)專業(yè)培養(yǎng)方向,適當(dāng)調(diào)整專業(yè)招收人數(shù),以免再現(xiàn)前幾年出現(xiàn)的入學(xué)時(shí),專業(yè)很火爆,到學(xué)生畢業(yè)時(shí),卻又人才過剩。
2.4分析決策
一切要拿事實(shí)說話,在做重大決策時(shí)候,我們更需要用事實(shí),用數(shù)據(jù)來參考。在實(shí)際運(yùn)用中,我們通過高校業(yè)務(wù)管理方面的專家,在不考慮數(shù)據(jù)結(jié)構(gòu)化問題的前提下,將理念累積的管理知識(shí)整理,并轉(zhuǎn)化成數(shù)據(jù)知識(shí),形成數(shù)據(jù)中心知識(shí)庫,再利用大數(shù)據(jù)技術(shù),對(duì)數(shù)據(jù)進(jìn)行收集、分類、抽取、清洗、轉(zhuǎn)換,提取出我們需要的數(shù)據(jù),以新的組合形式儲(chǔ)存到數(shù)據(jù)倉庫中。在數(shù)據(jù)倉庫的基礎(chǔ)上,建立通用的和面向主題的分析平臺(tái),實(shí)現(xiàn)從不同的維度進(jìn)行統(tǒng)計(jì)分析,最終實(shí)現(xiàn)為不同層次決策者們提供數(shù)據(jù)支持。
2.5心理咨詢
互聯(lián)網(wǎng)移動(dòng)應(yīng)用的普及,學(xué)校論壇、微博公共平臺(tái)上每天都會(huì)產(chǎn)生主題,評(píng)論等數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)的存儲(chǔ)分析,可從中分析出師生的思想情況、情感走向和行為動(dòng)態(tài),再利用這些行為動(dòng)態(tài),建立師生情感模型,便可以掌握師生的心理健康程度,有針對(duì)性地加強(qiáng)對(duì)師生的心理輔導(dǎo)。目前高校信息系統(tǒng)數(shù)據(jù)因早期規(guī)劃,數(shù)據(jù)平臺(tái)不一致等問題,普遍存在數(shù)據(jù)的質(zhì)和量都不高,許多高校的數(shù)據(jù)僅停留在記錄保存上面,對(duì)數(shù)據(jù)很難分析和利用而想要充分利用大數(shù)據(jù)技術(shù),提升高校的信息化水平,就必須要有保質(zhì)保量的數(shù)據(jù)來源,這就要求高校業(yè)務(wù)必須和計(jì)算機(jī)技術(shù)緊密結(jié)合,并且需要不斷迭代更新,跟上技術(shù)發(fā)展的腳步。目前的情況來看,高校大數(shù)據(jù)應(yīng)用還存在著一些問題,還需要進(jìn)一步地修正和探索。
參考文獻(xiàn):
[1]維克托邁爾舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州浙江人民出版社,2013
1大數(shù)據(jù)背景下中國當(dāng)代文學(xué)的現(xiàn)狀
經(jīng)數(shù)據(jù)研究表明,海量數(shù)據(jù)主要是通過云計(jì)算技術(shù)進(jìn)行處理,該技術(shù)當(dāng)前在當(dāng)代文學(xué)研究中得到廣泛應(yīng)用,比如中國知網(wǎng),論文標(biāo)題中包含有“大數(shù)據(jù)”字眼的數(shù)據(jù)明顯增加,2013年以前,數(shù)據(jù)變化并不十分明顯,在2013到2016年之間,論文數(shù)量高達(dá)10000篇,增長明顯。國務(wù)院對(duì)社會(huì)發(fā)展中大數(shù)據(jù)的應(yīng)用予以重視,并堅(jiān)持認(rèn)為,在現(xiàn)代化發(fā)展中,大數(shù)據(jù)技術(shù)已經(jīng)成為必然的選擇。大數(shù)據(jù)技術(shù)不僅給社會(huì)經(jīng)濟(jì)發(fā)展帶來影響,同時(shí)也帶動(dòng)了人文社會(huì)科學(xué)的研究,國外許多發(fā)達(dá)國家早已利用大數(shù)據(jù)技術(shù)進(jìn)行文學(xué)研究,例如通過統(tǒng)計(jì)數(shù)據(jù)來對(duì)文學(xué)圖標(biāo)進(jìn)行繪制,從而揭示出文學(xué)秘密[2]。當(dāng)前,中國許多學(xué)者也紛紛展開利用大數(shù)據(jù)技術(shù)來進(jìn)行當(dāng)代文學(xué)的研究,主要是通過兩個(gè)方面展開:第一,探討在大數(shù)據(jù)時(shí)代背景下當(dāng)代文學(xué)的研究方法,在對(duì)文學(xué)作品進(jìn)行閱讀和闡述時(shí),人腦和電腦之間的合作性和交融性。第二,在大數(shù)據(jù)時(shí)代下各學(xué)科之間的研究關(guān)系分析。在2005年,《文學(xué)遺產(chǎn)》中指出,“在文學(xué)研究領(lǐng)域中應(yīng)該借鑒社會(huì)學(xué)中先進(jìn)的數(shù)據(jù)統(tǒng)計(jì)方法,比如開設(shè)統(tǒng)計(jì)學(xué)、電子信息等課程,在路徑研究、知識(shí)結(jié)構(gòu)方法的設(shè)計(jì)中彌補(bǔ)學(xué)科欠缺之處[3]。計(jì)算機(jī)真正在社會(huì)普及之前,早已有相關(guān)文學(xué)研究者在對(duì)《紅樓夢(mèng)》研究中通過大數(shù)據(jù)進(jìn)行分析,對(duì)于《紅樓夢(mèng)》小說前八十章與后四十章節(jié)的內(nèi)容是否為同一人所寫提出有價(jià)值的問題,并通過數(shù)據(jù)加以論證,說明數(shù)據(jù)分析方法早在古代文學(xué)領(lǐng)域中進(jìn)行了研究。而與此同時(shí),利用大數(shù)據(jù)技術(shù)對(duì)語言學(xué)、文藝學(xué)及網(wǎng)絡(luò)文學(xué)等領(lǐng)域的學(xué)術(shù)研究已經(jīng)成為術(shù)界的熱門話題。經(jīng)過對(duì)中國知網(wǎng)的檢索發(fā)現(xiàn),在大數(shù)據(jù)背景下關(guān)于中國當(dāng)代文學(xué)研究和發(fā)展的論文數(shù)量仍然較少,從文章內(nèi)容上來看,大部分僅對(duì)中國當(dāng)代文學(xué)研究和大數(shù)據(jù)之間的一般問題進(jìn)行討論,缺乏深入的研究。在中國當(dāng)代文學(xué)研究中,研究方法和研究思維一直都具有創(chuàng)新性和先進(jìn)性,學(xué)者們將西方新思想和理論在文學(xué)史研究中加以應(yīng)用,但在大數(shù)據(jù)時(shí)代下,給當(dāng)代文學(xué)的研究帶來了新的機(jī)遇和挑戰(zhàn)。
2大數(shù)據(jù)背景下中國當(dāng)代文學(xué)的發(fā)展
2.1中國當(dāng)代文學(xué)的數(shù)字化
大數(shù)據(jù)時(shí)代背景下,首要的是建立數(shù)據(jù)庫,目前我國在文學(xué)領(lǐng)域中的數(shù)據(jù)庫建設(shè)方面仍然較為落后,目前常用的數(shù)據(jù)庫包括中國知網(wǎng)、上海圖書館等,這些大型數(shù)據(jù)庫中所包含的專業(yè)與學(xué)科較為廣泛,對(duì)于古代文學(xué)專題研究數(shù)據(jù)較多,如《全唐詩》《四庫全書》等,但對(duì)與當(dāng)代文學(xué)學(xué)科專業(yè)研究很少,因此對(duì)于當(dāng)代文學(xué)數(shù)據(jù)庫的建設(shè)是必然的,也是必要的[4]。從當(dāng)前已經(jīng)建設(shè)的數(shù)據(jù)庫來說,僅僅是完成了從紙質(zhì)圖書向圖像轉(zhuǎn)變的過程,可以根據(jù)關(guān)鍵詞搜索,但無法對(duì)全文進(jìn)行檢索,僅僅完成了數(shù)字化的轉(zhuǎn)變。在谷歌服務(wù)器中,將文本數(shù)字化掃描,并存儲(chǔ)到高分辨率的圖像文件中,使紙質(zhì)圖書內(nèi)容轉(zhuǎn)變成數(shù)字文本,但這些數(shù)字文本并不能通過關(guān)鍵詞搜索查找,也就不能直接進(jìn)行分析,只能通過人為閱讀的方式才能對(duì)信息進(jìn)行轉(zhuǎn)化。隨著大數(shù)據(jù)技術(shù)的進(jìn)一步發(fā)展,谷歌瀏覽器通過采用光學(xué)字符識(shí)別軟件,即可以對(duì)數(shù)字圖像進(jìn)行在線識(shí)別,從而完成對(duì)數(shù)字圖像文件的數(shù)據(jù)化轉(zhuǎn)變。但就目前而言,當(dāng)前中國許多數(shù)據(jù)庫仍然停留在數(shù)字化發(fā)展時(shí)期,并沒有深入地完成向數(shù)據(jù)化轉(zhuǎn)變的過程,進(jìn)而對(duì)中國當(dāng)代文學(xué)的研究帶來了深遠(yuǎn)的影響[5]。
2.2大數(shù)據(jù)時(shí)代背景環(huán)境下中國當(dāng)代文學(xué)新的發(fā)展路徑
在傳統(tǒng)數(shù)據(jù)下,主要是通過局部或是抽樣數(shù)據(jù)的方式來研究人文、社會(huì)及自然科學(xué),憑借以往的經(jīng)驗(yàn)或是理論方法進(jìn)行假想和推測,難以獲得實(shí)證數(shù)據(jù),同時(shí)存在一定的滯后性[6]。大數(shù)據(jù)時(shí)代下,在文學(xué)研究領(lǐng)域中主要是通過對(duì)字頻或詞頻進(jìn)行統(tǒng)計(jì),通過搜索關(guān)鍵詞進(jìn)行檢索和研究。例如在當(dāng)代文學(xué)研究中,通過檢索“反封建”“新思想”“啟蒙運(yùn)動(dòng)”等關(guān)鍵詞,利用數(shù)據(jù)統(tǒng)計(jì)這些關(guān)鍵詞的使用頻率,從而分析出我國文學(xué)觀念演變的過程。例如在2013年,在研究文學(xué)和歷史之間的發(fā)展問題中,通過檢索“資產(chǎn)階級(jí)”“影響”等字詞的出現(xiàn)和使用頻率,利用大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,從而體現(xiàn)出資產(chǎn)階級(jí)文學(xué)的更替和變遷。這種研究方式是一種復(fù)雜的文學(xué)史研究問題,即不僅是通過統(tǒng)計(jì)思想關(guān)鍵詞,另外還可以統(tǒng)計(jì)詩歌意象,或是文學(xué)意象等,分析出文學(xué)史實(shí)變化情況。“大數(shù)據(jù)+文學(xué)”是一種以別樣姿態(tài)發(fā)展的過程,人們?cè)趯?duì)當(dāng)代文學(xué)中更應(yīng)該看到文學(xué)本質(zhì)屬性,以及在文學(xué)作品中所蘊(yùn)含的文學(xué)精神,并以更豐富的思想面貌呈現(xiàn)出來,從精英化向大眾化意識(shí)形象進(jìn)行轉(zhuǎn)變,給當(dāng)代文學(xué)的生存和發(fā)展模式帶來多樣化的影響。例如在互聯(lián)網(wǎng)時(shí)代下,互聯(lián)網(wǎng)技術(shù)給人們的政治、文化與生活等都帶來了巨大的變化,知識(shí)分子從社會(huì)中心地位逐漸走向社會(huì)發(fā)展邊緣,給當(dāng)代文學(xué)的創(chuàng)作方式也帶來了沖擊,逐漸向商業(yè)化、娛樂化等方向發(fā)展,如何能夠被消費(fèi)者和市場所接受成為作家首要考慮的問題,呈現(xiàn)出嚴(yán)重商業(yè)化傾向[7]。其次,大數(shù)據(jù)技術(shù)和互聯(lián)網(wǎng)技術(shù)打破了空間和時(shí)間限制,網(wǎng)絡(luò)文學(xué)點(diǎn)擊量明顯增長,網(wǎng)絡(luò)文學(xué)作品的數(shù)量也隨之增加,和傳統(tǒng)文學(xué)作品相比較而言,雖然網(wǎng)絡(luò)文學(xué)帶來了新的突破,實(shí)現(xiàn)了創(chuàng)作自由化,文學(xué)創(chuàng)作空間得到拓展,文學(xué)承載方式不再是通過文字來進(jìn)行描寫,也不僅是通過單一的流通渠道,網(wǎng)絡(luò)數(shù)據(jù)已經(jīng)成為文學(xué)領(lǐng)域在運(yùn)營中的重要環(huán)節(jié),說明大數(shù)據(jù)作為一種新興力量,逐漸從文學(xué)外延向中心擴(kuò)展,產(chǎn)生新的文學(xué)形態(tài)。而大數(shù)據(jù)背景的發(fā)展加快了網(wǎng)絡(luò)信息的傳播速度,目前網(wǎng)絡(luò)信息已經(jīng)構(gòu)成文學(xué)領(lǐng)域的重要維度,不再只是文學(xué)的一種傳播渠道,而成為當(dāng)代文學(xué)活動(dòng)中的重要組成。有學(xué)者認(rèn)為,我國的當(dāng)代文化已經(jīng)逐漸從印刷文化改為視覺文化,海量的網(wǎng)絡(luò)數(shù)據(jù)在文化領(lǐng)域中以一種新的文學(xué)形態(tài)出現(xiàn),大數(shù)據(jù)已經(jīng)滲透當(dāng)代文學(xué)的內(nèi)部。
3結(jié)語
在大數(shù)據(jù)背景下,大數(shù)據(jù)技術(shù)、互聯(lián)網(wǎng)技術(shù)和中國的當(dāng)代文學(xué)領(lǐng)域之間具有復(fù)雜的聯(lián)系,對(duì)中國當(dāng)代文學(xué)的發(fā)展帶來了新的機(jī)遇和挑戰(zhàn),使原有文化結(jié)構(gòu)發(fā)生改變,推動(dòng)了文學(xué)傳播,拓展了文學(xué)研究深度和廣度。總體而言,大數(shù)據(jù)技術(shù)已經(jīng)成為當(dāng)代文學(xué)的重要組成,大數(shù)據(jù)背景下所帶來的新的思維方法,給中國當(dāng)代文學(xué)的發(fā)展帶來新的革命,在新環(huán)境下,未來必然是要對(duì)自身進(jìn)行重構(gòu)與發(fā)展,對(duì)原有的文學(xué)形態(tài)進(jìn)行重新塑造。
云計(jì)算、物聯(lián)網(wǎng)和互聯(lián)網(wǎng)的快速發(fā)展,使得數(shù)據(jù)量以極快的速度增長,大數(shù)據(jù)成為研究熱點(diǎn)。大數(shù)據(jù)的價(jià)值產(chǎn)生于分析過程,所以大數(shù)據(jù)挖掘與分析是整個(gè)大數(shù)據(jù)處理流程的核心。本文介紹了大數(shù)據(jù)數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價(jià)值密度低、處理速度快的4V特征、以及基于這些特征的大數(shù)據(jù)挖掘與分析需要解決的關(guān)鍵技術(shù)。
關(guān)鍵詞:
大數(shù)據(jù)大數(shù)據(jù)分析大數(shù)據(jù)挖掘可視分析
隨著云計(jì)算、物聯(lián)網(wǎng)和互聯(lián)網(wǎng)等技術(shù)的快速發(fā)展,各種移動(dòng)設(shè)備、傳感網(wǎng)絡(luò)、電商網(wǎng)站、社交網(wǎng)絡(luò)時(shí)時(shí)刻刻都在生成各種各樣類型的數(shù)據(jù),大數(shù)據(jù)時(shí)代已經(jīng)到來。大數(shù)據(jù)即數(shù)據(jù)體量巨大、數(shù)據(jù)類型多樣、數(shù)據(jù)的質(zhì)量低、處理速度迅速的數(shù)據(jù)。大數(shù)據(jù)分析的核心是從大量數(shù)據(jù)中獲取有價(jià)值的內(nèi)容,更準(zhǔn)確、更深層次的知識(shí),而不是對(duì)數(shù)據(jù)簡單的統(tǒng)計(jì)和分析。
1大數(shù)據(jù)的定義與特征
大數(shù)據(jù)已經(jīng)進(jìn)入了我們每個(gè)人的生活,各行各業(yè)都在討論如何發(fā)展和運(yùn)用大數(shù)據(jù),那么什么是大數(shù)據(jù),大數(shù)據(jù)的特征是什么?大數(shù)據(jù)是指所涉及的數(shù)據(jù)規(guī)模巨大到無法通過目前主流的軟件工具在合理時(shí)間內(nèi)擷取、管理、處理、挖掘這些數(shù)據(jù),并整理成為企業(yè)經(jīng)營決策有用的信息。IBM提出大數(shù)據(jù)的4V特征,得到了業(yè)界的廣泛認(rèn)可。第一,數(shù)量(Volume),即數(shù)據(jù)巨大,從TB級(jí)別躍升到PB級(jí)別;第二,多樣性(Variety),即數(shù)據(jù)類型繁多,不僅包括傳統(tǒng)的格式化數(shù)據(jù),還包含來自互聯(lián)網(wǎng)的大量視頻、圖片、位置和日志等;第三,速度(Velocity),即處理速度快;第四,價(jià)值性(Veracity),即追求高質(zhì)量的數(shù)據(jù)。大數(shù)據(jù)具有4V特征,給人們帶來了新的機(jī)遇與挑戰(zhàn)。
2大數(shù)據(jù)挖掘與分析的意義
在大數(shù)據(jù)處理的過程中,數(shù)據(jù)分析是核心,因?yàn)榇髷?shù)據(jù)的價(jià)值全部在數(shù)據(jù)分析過程中產(chǎn)生。互聯(lián)網(wǎng)、硬件等技術(shù)迅猛發(fā)展,加深了人們對(duì)數(shù)據(jù)分析的需求。如果大數(shù)據(jù)是一種產(chǎn)業(yè),賺錢的重點(diǎn)在于如何提高數(shù)據(jù)的分析能力,通過分析發(fā)現(xiàn)數(shù)據(jù)的更多潛在的價(jià)值。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析是數(shù)據(jù)價(jià)值發(fā)現(xiàn)的最重要環(huán)節(jié),也是決策的決定性元素。傳統(tǒng)的數(shù)據(jù)分析主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),且已經(jīng)形成一整套非常有效果的分析體系。但是在大數(shù)據(jù)時(shí)代,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的快速增長,給傳統(tǒng)的分析技術(shù)帶來了巨大的挑戰(zhàn)和沖擊。大數(shù)據(jù)分析于傳統(tǒng)數(shù)據(jù)分析有哪些區(qū)別呢?
3大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)
大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)實(shí)時(shí)處理、大數(shù)據(jù)可視化和應(yīng)用等。
3.1大數(shù)據(jù)采集技術(shù)大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支撐層。智能感知層重點(diǎn)攻克針對(duì)大數(shù)據(jù)源的智能識(shí)別、感知、適配、傳輸、接入等技術(shù)。基礎(chǔ)支撐層重點(diǎn)攻克提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器、數(shù)據(jù)庫及物聯(lián)網(wǎng)絡(luò)資源等處理技術(shù)。
3.2大數(shù)據(jù)預(yù)處理大數(shù)據(jù)預(yù)處理是指在大數(shù)據(jù)挖掘前期對(duì)大數(shù)據(jù)進(jìn)行的一些提前處理。預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等幾種方法(表1)。大數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量大,但并沒有增加數(shù)據(jù)價(jià)值,相反增多了數(shù)據(jù)噪音,有很多數(shù)據(jù)放在存儲(chǔ)器里就沒再用過。數(shù)據(jù)量的突然增加,各種媒體數(shù)據(jù)被任意碎片化。在應(yīng)對(duì)處理大數(shù)據(jù)的技術(shù)挑戰(zhàn)中,大數(shù)據(jù)的降噪與清洗技術(shù)值得高度重視。早期主要是結(jié)構(gòu)化數(shù)據(jù)的挖掘,可從數(shù)據(jù)庫中發(fā)現(xiàn)時(shí)序知識(shí)、關(guān)聯(lián)知識(shí)和分類知識(shí)等。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)庫已經(jīng)不能滿足人們的需求了。大數(shù)據(jù)中數(shù)據(jù)類型繁多,我們進(jìn)入了一個(gè)非結(jié)構(gòu)化數(shù)據(jù)挖掘時(shí)代。因此,非結(jié)構(gòu)化數(shù)據(jù)模型是大數(shù)據(jù)預(yù)處理的重要研究方向。
3.3大數(shù)據(jù)管理大數(shù)據(jù)不斷地從復(fù)雜的應(yīng)用系統(tǒng)中產(chǎn)生,并且將會(huì)以更多、更復(fù)雜、更多樣化的方式持續(xù)增長。多樣化的物聯(lián)網(wǎng)傳感設(shè)備不斷地感知著海量的具有不同格式的數(shù)據(jù)。物聯(lián)網(wǎng)系統(tǒng)中大數(shù)據(jù)的復(fù)雜化和格式多樣化,決定了物聯(lián)網(wǎng)系統(tǒng)中針對(duì)大數(shù)據(jù)的應(yīng)用場景和服務(wù)類型的多樣化,從而要求物聯(lián)網(wǎng)大數(shù)據(jù)管理系統(tǒng)必須采用特定技術(shù)來處理各種格式的大數(shù)據(jù),而現(xiàn)在針對(duì)特定數(shù)據(jù)類型和業(yè)務(wù)的系統(tǒng)已經(jīng)無法滿足多樣化需求,因此,設(shè)計(jì)新的具有可擴(kuò)展性的系統(tǒng)架構(gòu)已經(jīng)成為大數(shù)據(jù)管理的研究熱點(diǎn)。
3.4大數(shù)據(jù)實(shí)時(shí)處理根據(jù)大數(shù)據(jù)速度快的特點(diǎn),時(shí)間越長,數(shù)據(jù)的價(jià)值也在不斷衰減,因此很多領(lǐng)域需要對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。大數(shù)據(jù)時(shí)代,伴隨著各種應(yīng)用場景的數(shù)據(jù)分析從離線轉(zhuǎn)向了在線,實(shí)時(shí)處理的需求不斷提高。大數(shù)據(jù)的實(shí)時(shí)處理面臨著一些新的挑戰(zhàn),主要體現(xiàn)在數(shù)據(jù)處理模式和算法的選擇及改進(jìn)。
3.5大數(shù)據(jù)可視分析大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動(dòng)挖掘的同時(shí),融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,利用人機(jī)交互技術(shù)和可視化界面,獲得大規(guī)模復(fù)雜數(shù)據(jù)集的分析能力。在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)可視化是必須盡快解決的關(guān)鍵問題,為大數(shù)據(jù)服務(wù)的研究指明了方向。
4結(jié)語
傳統(tǒng)數(shù)據(jù)處理方法已經(jīng)不能滿足大數(shù)據(jù)挖掘與分析的需求。近年來,大數(shù)據(jù)挖掘與分析領(lǐng)域已經(jīng)出現(xiàn)了很多新技術(shù),并成為大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的堅(jiān)實(shí)基礎(chǔ)。但是對(duì)大數(shù)據(jù)分析的價(jià)值尚缺少深入的理解,大數(shù)據(jù)分析中的很多重要技術(shù)還不成熟,還有很多其他關(guān)鍵技術(shù)難題需要去繼續(xù)研究。
參考文獻(xiàn)
[1]韓晶.大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D].北京郵電大學(xué)博士學(xué)位論文,2013.
[2]程學(xué)旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(09):1889-1908.
[3]任磊,杜一,馬帥等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報(bào),2014,25(09):1909-1936.
[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.
關(guān)鍵詞:科技期刊;媒體融合;知識(shí)服務(wù);精準(zhǔn)傳播
近年來,隨著計(jì)算機(jī)技術(shù)的進(jìn)步,科技期刊出版正在經(jīng)歷著前所未有的巨大變革。目前,信息技術(shù)已呈現(xiàn)出“人-機(jī)-物”三元融合的態(tài)勢(shì),數(shù)據(jù)分析工具和基于云計(jì)算的數(shù)據(jù)資源成為期刊出版的重要特征[1],期刊出版的數(shù)字化和集群化發(fā)展成為當(dāng)下期刊發(fā)展的主流趨勢(shì),人工智能也將在學(xué)術(shù)期刊的出版、存取、質(zhì)量評(píng)價(jià)等多個(gè)環(huán)節(jié)上得到廣泛應(yīng)用,并推動(dòng)科技期刊出版方式的變革[2]。目前,在科技期刊界,學(xué)者們就如何促進(jìn)科技期刊媒體融合發(fā)展開展了大量的研究,既包括理論層面的探討,又包括從實(shí)踐和案例的角度開展的應(yīng)用研究[3-6]。與此同時(shí),我們注意到,全球的科學(xué)產(chǎn)出以極快的速度增長,從第二次世界大戰(zhàn)結(jié)束以來,全球的科學(xué)產(chǎn)出相當(dāng)于每9年就會(huì)翻1番[7],讀者也更容易被無用的信息轟炸,難以在期刊論文的海洋中高效準(zhǔn)確地找到自己需要的內(nèi)容,科技期刊要想擴(kuò)大自身的影響力也愈來愈難。信息爆炸時(shí)代,科技期刊關(guān)注讀者“需要什么”比“提供了什么”更重要。在智能技術(shù)變革的時(shí)展潮流中,科技期刊應(yīng)如何順應(yīng)時(shí)展趨勢(shì),利用智能技術(shù)整合資源,更好地滿足讀者的需求,擴(kuò)大期刊的影響力,創(chuàng)造科技期刊人、出版商、作者、讀者的共贏局面?本文從以上問題切入,嘗試從擴(kuò)展學(xué)術(shù)搜索的路徑、構(gòu)建個(gè)性化的精準(zhǔn)推送平臺(tái)和多元化的傳播模式、向用戶提供有針對(duì)性的服務(wù)方面探索在媒體融合形勢(shì)下如何提升科技期刊的精準(zhǔn)傳播能力,以期為我國科技期刊媒體融合建設(shè)增瓦添磚。
1借助人工智能,擴(kuò)展學(xué)術(shù)搜索的路徑
互聯(lián)網(wǎng)時(shí)代改變了人們獲取信息的方式,搜索引擎在促進(jìn)科技期刊的傳播、提高影響力等方面的功能逐漸凸顯。雖然現(xiàn)有的一些搜索門戶網(wǎng)站諸如Webofscience、PubMed、谷歌學(xué)術(shù)、各圖書館網(wǎng)站、中國知網(wǎng)、萬方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)等搜索引擎可以幫助讀者檢索科技論文,但是仍不能滿足用戶多樣化的檢索需求。Tancheva等[8]針對(duì)康奈爾大學(xué)圖書館開展的一項(xiàng)調(diào)查研究發(fā)現(xiàn)受訪者“往往既對(duì)搜索方法的效率感到滿意,同時(shí)又對(duì)搜索的棘手和費(fèi)力感到不滿……當(dāng)研究人員無法完成一個(gè)特定的搜索任務(wù),他們很可能放棄現(xiàn)有的方法(或工具或技術(shù)),而不是找出如何使它工作”。為了解決這一問題,需要開發(fā)新的模式解決學(xué)術(shù)出版的過量負(fù)載,利用智能技術(shù)優(yōu)化搜索引擎的現(xiàn)有功能。目前很多科技公司都在探索開發(fā)基于人工智能的學(xué)術(shù)搜索引擎和知識(shí)服務(wù)。例如Springer網(wǎng)絡(luò)平臺(tái)不斷對(duì)其功能進(jìn)行集成,并提供個(gè)性化服務(wù)功能;Elsevier等出版商為用戶等提供搜索引擎培訓(xùn)課程;微軟學(xué)術(shù)(MicrosoftAcademic)通過在實(shí)體之間建立有意義的關(guān)聯(lián),自動(dòng)生成可視化的知識(shí)圖譜,引導(dǎo)學(xué)者閱讀[2];2014年,Wiley線上圖書館為用戶提供了增強(qiáng)型HTML文章服務(wù)(AnywhereArticle),它將可讀性、交互性和可移植性設(shè)為用戶體驗(yàn)的核心,使讀者能夠在頁面中快速找到最重要的信息[9]。一些關(guān)于科學(xué)出版的新模式和平臺(tái)被相繼開發(fā),如Chorus[10]通過集成服務(wù)和開放APIs,優(yōu)化了科技論文被搜索的路徑,并為政府機(jī)構(gòu)、出版商、研究人員、圖書館員和作者提供可持續(xù)的解決方案。目前我國已經(jīng)形成一些專業(yè)的期刊集群,一部分學(xué)術(shù)期刊數(shù)據(jù)庫平臺(tái)也開始進(jìn)行語義出版形式的探索,對(duì)科技期刊內(nèi)容進(jìn)行深度加工和挖掘。不同的科技期刊具有不同的特點(diǎn),在學(xué)術(shù)期刊的數(shù)據(jù)庫平臺(tái)建設(shè)過程中需要平臺(tái)開發(fā)團(tuán)隊(duì)與期刊編輯充分交流[11],發(fā)揮編輯的優(yōu)勢(shì)和主導(dǎo)作用,凸顯本學(xué)科的學(xué)科特色。
2利用智能算法,構(gòu)建個(gè)性化的精準(zhǔn)推送平臺(tái)
技術(shù)是科技期刊創(chuàng)新發(fā)展的重要推手,技術(shù)應(yīng)用能力也成為科技期刊發(fā)展的競爭資源,充分利用技術(shù)強(qiáng)化科技期刊的知識(shí)服務(wù)和加工能力,創(chuàng)新出版和傳播模式,滿足數(shù)字化時(shí)代的讀者需求,對(duì)于科技期刊的精準(zhǔn)傳播和融合發(fā)展非常重要。在人工智能背景下,可以借助于算法實(shí)現(xiàn)科技期刊出版的智能化。算法的設(shè)計(jì)程序與設(shè)計(jì)者的思維密不可分,設(shè)計(jì)者選擇數(shù)據(jù)樣本、賦予數(shù)據(jù)意義、設(shè)計(jì)模型與算法,擁有數(shù)據(jù)并設(shè)定算法的智能化平臺(tái)具有很強(qiáng)的主導(dǎo)性[12],因此設(shè)計(jì)者需要盡可能考慮并消除算法偏見和利益沖突對(duì)精準(zhǔn)傳播帶來的負(fù)面影響。日前,騰訊研究院和騰訊AILab聯(lián)合的人工智能倫理報(bào)告指出“人工智能等新技術(shù)需要價(jià)值引導(dǎo),做到可用、可靠、可知、可控”[13]。目前“智能算法+學(xué)術(shù)期刊”已成為創(chuàng)新趨勢(shì),學(xué)術(shù)期刊可構(gòu)建信息數(shù)據(jù)基礎(chǔ)環(huán)境,進(jìn)一步完成動(dòng)態(tài)精準(zhǔn)信息推薦,最后以傳受關(guān)系交互實(shí)現(xiàn)長期有效的黏性連接[14]。一方面可以通過算法整合資源,實(shí)現(xiàn)大量科技期刊的數(shù)字資源的聚合;另一方面可以通過算法分析用戶的閱讀興趣、研究領(lǐng)域,基于用戶的需求建立相關(guān)用戶數(shù)據(jù)信息,從而進(jìn)一步將數(shù)字資源和用戶數(shù)據(jù)相匹配,實(shí)現(xiàn)科技期刊的智能化精準(zhǔn)傳播。如中國知網(wǎng)推出的“CNKI全球?qū)W術(shù)快報(bào)”整合全球文獻(xiàn)和超星集團(tuán)推出的“域出版”超星學(xué)習(xí)通學(xué)術(shù)平臺(tái)[15],用戶不僅可以在其App上進(jìn)行文獻(xiàn)檢索、分版閱讀、專題閱讀等,還可以與作者進(jìn)行互動(dòng)交流。此外,還可以利用智能算法設(shè)計(jì)追蹤用戶的信息反饋,通過學(xué)術(shù)平臺(tái)進(jìn)一步增加用戶的體驗(yàn)感,提升科技期刊的精準(zhǔn)傳播能力。
3創(chuàng)新知識(shí)加工,構(gòu)建多元化的傳播模式
在人工智能和融媒體時(shí)代,除了運(yùn)用智能技術(shù)構(gòu)建個(gè)性化的知識(shí)服務(wù)平臺(tái),科技期刊也需要充分發(fā)揮社交媒體的作用,通過加強(qiáng)期刊網(wǎng)站建設(shè)、建立App客戶端、微信、微博等新媒體傳播平臺(tái),可以根據(jù)各自領(lǐng)域的特點(diǎn),對(duì)科技論文進(jìn)行多次加工和編輯,構(gòu)建個(gè)性化的傳播方式。如論文編輯平臺(tái)Kudos為作者提供了一種利用社交媒體使他們的論文更易下載和傳播的工具,通過為作者已發(fā)表的文章創(chuàng)建介紹并添加簡短的標(biāo)題、易懂的摘要和補(bǔ)充內(nèi)容,可以使他們的文章對(duì)讀者更具吸引力[16],學(xué)術(shù)出版平臺(tái)也可以通過建立二維碼,為讀者提供開放增值服務(wù),使讀者進(jìn)一步了解論文的數(shù)據(jù)、圖片等資料,實(shí)現(xiàn)與用戶的精準(zhǔn)對(duì)接。如中國煤炭行業(yè)知識(shí)服務(wù)平臺(tái)為該平臺(tái)上的每篇論文制作了二維碼,用戶閱讀紙刊論文時(shí),通過掃描其中的二維碼可以免費(fèi)下載PDF、HTML文件,此外讀者還可以通過掃描二維碼向作者提問或向責(zé)任編輯反饋意見[17]。目前,郵件推送也正在成為科技期刊提升精準(zhǔn)傳播能力的一個(gè)重要手段,國內(nèi)一些期刊在這方面做了大膽的嘗試。例如:《計(jì)算機(jī)工程》基于語義分析和智能分詞等技術(shù),設(shè)計(jì)了一套期刊內(nèi)容精準(zhǔn)推送系統(tǒng),將讀者—文章—標(biāo)準(zhǔn)關(guān)鍵詞進(jìn)行匹配,通過郵件為潛在讀者推送與其研究方向相關(guān)的最新研究論文[18];《應(yīng)用生態(tài)學(xué)報(bào)》通過運(yùn)用大數(shù)據(jù)和數(shù)理統(tǒng)計(jì)方法,構(gòu)建了科技期刊論文單篇推送客體指標(biāo)體系,通過郵件對(duì)讀者進(jìn)行單篇精準(zhǔn)推送,取得了較好的傳播效果[19]。此外,利用音頻、視頻、科學(xué)可視化等多媒體技術(shù)可以在短時(shí)間內(nèi)表達(dá)豐富的科學(xué)信息,增加科技論文的廣泛傳播。如虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)(VR/AR)為讀者提供沉浸式的閱讀環(huán)境,提升讀者的體驗(yàn)感,從而吸引了更多讀者的關(guān)注。中國科學(xué)技術(shù)大學(xué)王國燕博士及其團(tuán)隊(duì)開展的前沿科學(xué)可視化研究和設(shè)計(jì),使科技論文通過圖像的形式向讀者展現(xiàn),提高了科技論文的交流和傳播,她通過對(duì)頂級(jí)科技期刊《Nature》《Science》《Cell》的一項(xiàng)實(shí)證研究發(fā)現(xiàn),科技期刊封面故事和封面圖像的使用可以提高論文的引用率[20]。《上海大學(xué)學(xué)報(bào)(自然科學(xué)版)》借助第三方AR展示平臺(tái)實(shí)現(xiàn)了學(xué)術(shù)期刊的多模式AR融合出版,取得了很好的效果[21]。
4滿足用戶需求,提供有針對(duì)性的服務(wù)