時間:2022-05-24 20:01:46
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇大數據分析論文,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
大數據背景下的機器算法
專業
計算機科學與技術
學生姓名
楊宇瀟
學號
181719251864
一、 選題的背景、研究現狀與意義
為什么大數據分析很重要?大數據分析可幫助組織利用其數據并使用它來識別新的機會。反過來,這將導致更明智的業務移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯網和技術公司的支持下,大數據在2000年代初的數據熱潮期間出現。有史以來第一次,軟件和硬件功能是消費者產生的大量非結構化信息。搜索引擎,移動設備和工業機械等新技術可提供公司可以處理并持續增長的數據。隨著可以收集的天文數據數量的增長,很明顯,傳統數據技術(例如數據倉庫和關系數據庫)不適合與大量非結構化數據一起使用。 Apache軟件基金會啟動了第一個大數據創新項目。最重要的貢獻來自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數據準備和ETL的旗艦,可以為許多數據存儲或分析環境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發)通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。
隨著數據呈指數級增長,企業必須不斷擴展其基礎架構以最大化其數據的經濟價值。在大數據的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產系統非常昂貴且效率低下。要使用大數據,您還需要適當的人員和軟件技能,以及用于處理數據和查詢速度的硬件。協調所有內容同時運行是一項艱巨的任務,許多大數據項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業能夠勝過現有系統。
二、 擬研究的主要內容(提綱)和預期目標
隨著行業中數據量的爆炸性增長,大數據的概念越來越受到關注。 由于大數據的大,復雜和快速變化的性質,許多用于小數據的傳統機器學習算法不再適用于大數據環境中的應用程序問題。 因此,在大數據環境下研究機器學習算法已成為學術界和業界的普遍關注。 本文主要討論和總結用于處理大數據的機器學習算法的研究現狀。 另外,由于并行處理是處理大數據的主要方法,因此我們介紹了一些并行算法,介紹了大數據環境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數據量大的情況下算法和模型的關系,同時也會探討大部分細分行業數據量不大不小的情況下算法的關系。
三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)
1.視覺分析。大數據分析用戶包括大數據分析專業人士和一般用戶,但是大數據分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數據的特征,并像閱讀照片的讀者一樣容易接受。 2.數據挖掘算法。大數據分析的理論中心是數據挖掘算法。不同的數據挖掘算法依賴于不同的數據類型和格式來更科學地表征數據本身。由于它們被全世界的統計學家所公認,因此各種統計方法(稱為真值)可以深入到數據中并挖掘公認的值。另一方面是這些數據挖掘算法可以更快地處理大數據。如果該算法需要花費幾年時間才能得出結論,那么大數據的價值是未知的。 3.預測分析。大數據分析的最后一個應用領域是預測分析,發現大數據功能,科學地建立模型以及通過模型吸收新數據以預測未來數據。 4.語義引擎。非結構化數據的多樣化為數據分析提出了新的挑戰。您需要一套工具來分析和調整數據。語義引擎必須設計有足夠的人工智能,以主動從數據中提取信息。 5.數據質量和數據管理。大數據分析是數據質量和數據管理的組成部分。高質量的數據和有效的數據管理確保了分析結果在學術研究和商業應用中的可靠性和價值。大數據分析的基礎是前五個方面。當然,如果您更深入地研究大數據分析,則還有更多特征,更深入,更專業的大數據分析方法。
四、 論文(設計)的工作進度安排
2020.03.18-2020.03.20 明確論文內容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數據分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.
2 . 喻國明. 大數據分析下的中國社會輿情:總體態勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數據分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數據分析的分布式molap技術 .軟件學報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側大數據分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數據分析的輸變電設備狀態數據異常檢測方法 .中國電機工程學報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數”:2012年社會輿情運行態勢研究——基于百度熱搜詞的大 數據分析.編輯之友,2013.被引量:4.
六、指導教師意見
簽字: 年 月 日
七、學院院長意見及簽字
[關鍵詞]Hadoop;大數據;分布式計算;HDFS;MapReduce
doi:10.3969/j.issn.1673 - 0194.2015.20.032
[中圖分類號]TP308;TP311.13 [文獻標識碼]A [文章編號]1673-0194(2015)20-0041-01
1 大數據
大數據需要新處理模式才具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的核心是預測,它把數學算法應用到海量數據上來預測事件發生的可能性。大數據同時意味著思維的變革:①小數據分析的是隨機樣本,而大數據分析的是全體數據,全面展示樣本無法表達的細節信息;②小數據分析追求精確性,而大數據分析具有混雜性,這意味著大數據的簡單算法比采樣數據的復雜算法更有效;③小數據分析關注因果關系,而大數據分析更關注相關關系,通過分析事物之間的關聯性,來預測事件的發展趨勢。
2 Hadoop大數據平臺
Hadoop是Apache的開源分布式計算平臺。受Google大數據論文的啟發,Doug Cutting用JAVA實現了以MapReduce和HDFS為核心的Hadoop,并將源代碼完全貢獻出來。Hadoop充分發揮集群的計算和存儲能力,快速完成海量數據的處理。Hadoop采用分布式存儲來提高讀寫速度和擴大存儲容量;采用MapReduce整合分布式文件系統上的數據,實現數據高速處理;采用存儲冗余數據來保證數據的安全性。
2.1 HDFS
HDFS是基于流模式訪問和處理超大文件的需求而開發的,它可以運行于廉價的商用服務器上,HDFS的主要特點有以下3個方面。①處理超大文件:在實際應用中,HDFS已經能夠用來存儲管理PB級的數據了。②流式訪問數據:請求讀取整個數據集要比讀取一條記錄更加高效。③運行于廉價的商用機器集群上:HDFS對硬件要求較低,無需昂貴的高可用性機器。
HDFS體系結構中有兩類節點:NameNode和DataNode,NameNode負責管理集群中的執行調度,DataNode是具體任務的執行節點。當執行任務時,客戶端訪問NameNode獲取文件數據信息,與DataNode進行交互以訪問整個文件系統。HDFS向用戶提供類似POSIX的文件接口,開發者在編程時無需考慮NameNode和DataNode的實現細節。
2.2 MapReduce
MapReduce是Google公司的核心計算模型。在Hadoop中,用于執行MapReduce任務的機器有兩種角色:JobTracker和TaskTracker,一個Hadoop集群中只有一個JobTracker,用于任務管理和調度。一般來說,為了減輕網絡傳輸的壓力,數據存儲在哪個節點上,就由哪個節點進行這部分數據的計算。JobTracker監控任務運行情況,當一個TaskTracker出現故障時,JobTracker會將其承擔的任務轉交到另一個空閑的TaskTracker重新運行。TaskTracker用于執行具體的工作。
3 大數據在智能電網中的應用構想
通過Hadoop大數據平臺,技術人員可實時觀察到全網范圍內的電能流動狀態、電能負載熱區、設備故障高發區和客戶集中區等數據,實現更加智能化的電網。具體包括以下4個方面。
3.1 電網數據可視化
在未來智能電網中,通過大數據分析融合調度、配電、輸電、發電和用電客戶數據,實現實時和非實時數據的高度信息化集成,通過實時可視化運算分析,全面展示完整和精細的電網運行狀態圖,為管理層提供輔助決策支持和依據。
3.2 電網負載趨勢預測
在未來智能電網中,通過大數據分析電網負載的歷史數據和實時數據,展示全網實時負載狀態,預測電網負載變化趨勢,通過現代化管理技術的綜合應用,提高設備的使用效率,降低電能損耗,使電網運行更加經濟和高效。
3.3 設備故障趨勢預測
在未來智能電網中,通過大數據分析電網中部分故障設備的故障類型、歷史狀態和運行參數之間的相關性,預測電網故障發生的規律,評估電網運行風險,開展實時預警,提前做好設備巡檢和消缺工作,為電網安全穩定運行保駕護航。
3.4 客戶電力需求預測
在未來智能電網中,通過大數據分析電網客戶的用電數據,預測區域用電和大客戶用電需求變化趨勢,針對客戶需求提前制訂高質量的服務計劃,提升社會滿意度。
4 結 語
Hadoop充分發揮集群的計算和存儲能力,完成海量數據的實時處理。在未來的智能電網中,大數據分析可以應用到電網運行全景可視化、電網負載預測、設備故障趨勢預測和客戶需求趨勢預測等需求,充分挖掘海量數據的價值,為智能電網提供技術參考。
(湖南城市學院圖書館,湖南 益陽413000)
【摘 要】在云計算、物聯網等技術的推動下,世界已經進入了一個“大數據”時代。本文旨在討論大數據時代下,圖書館與大數據相關的研究內容、發展存在的問題以及總體發展趨勢。在大數據時代下,圖書館應該進行服務模式創新與重構、服務內容創新與重構,從而解決發展瓶頸。
關鍵詞 大數據;圖書館;云計算
0 引言
在云計算、物聯網等技術的推動下,世界已經進入了一個“大數據”時代。如何有效地利用大數據成為政府公共管理和企業界共同關注的問題,但這些數據集的規模往往超出數據處理者的能力。圖書館主要工作為實踐,研究和教育。以最大限度地利用人類的知識,促進專業的交流為責任。圖書館職業無法離開專業知識和信息,影響人類社會的可持續發展。數據是圖書館藏書的重要組成部分。數據作為原始類的產品,可以加工、整理、分析,最后提煉成人與人之間的生產和生活中發揮更大作用的信息和知識。因此,大數據主題是圖書館行業內應當研究的問題,展示了圖書館界在信息社會求生存,謀發展能力的提升。本文旨在討論大數據時代下,圖書館與大數據相關的研究內容、發展存在的問題以及總體發展趨勢。
1 圖書館學研究教育與大數據現狀
圖書館已有的研究中有文獻計量學等和大數據有關。研究人員為了促進信息科學與社會科學的進步,通過大型網絡規模的收集獲得數據和分析數據得出相關結論來實現目標。由于大數據技術的應用,傳統的文獻計量學的研究從過去只有簡單的描述性研究擴展到評估和預測的研究。圖書館學研究人員參與了很多相關的項目,例如,新西蘭的奧塔哥大學的圖書館承擔了研究數據管理項目的任務,在麻省理工大學設立項目研究圖書館數據存儲、需求分析數據的管理,和傳播數據,并完成數據收集保存標準的制定工作。烏里韋和麥克唐納在認為數據監測工作將從傳統的信息技術受益。Huwe建議采取政治手段,以促進圖書館和數據中心的發展,他認為高等教育機構應該認可圖書館對學術研究的支持。通過分析2008非常流行的“數字化監控中心的生命周期模型”,希金斯提出,圖書館的“數據保留計劃”的生命周期可以被納入其數字機構庫文件管理實體。此外,美國學者對館員在大數據環境中的作用和專業知識進行了調查,他們一致認為圖書館可以在大數據時代承擔數據管理職責。謝菲爾德大學還安排了基礎的信息學專業課程。 2011年6月倫敦國際監護教育論壇投入使用的,也給數字監控領域的發展提供了一個機會。
國內目前的相關研究課題還處于剛起步的狀態,CNKI與該主題相關的文章也只有寥寥幾篇。相比之下,國內對“數據監護權”的關注度更高這,主要是針對大學圖書館在這個專業領域展開更多的研究。這方面的論文在2012年之后有一個井噴式的增長,但總體來說,國內相關文獻還相對較少,研究項目也幾乎沒有。
2 圖書館的大數據特征
在數字化時代,數據處理更容易、更快。圖書館的數據資源種類多、數量大、形式多樣。截至2008年底,CALS的文檔數據量達到180T,2010年底的國家圖書館數字資源總量達到480 T。目前,國家博物館進行維護之后,數字圖書館的非結構化數據的存儲容量將非常大。總數字資源工程也達到108TB。由此看來,圖書館的數字資源總量已聚集為一個大的數據集。再次,圖書館自動化服務水平已發展到了一個新的階段。此外,用戶服務信息每日激增,用戶對服務的要求越來越高,圖書館要根據用戶的服務信息,做出相應的調整。因此,根據各自限定的環境和條件,從大量的數據分析中挖掘出用戶當前和未來的需求都非常迫切。
3 大數據背景下圖書館發展趨勢
3.1 服務模式創新與重構
目前,隨著科學技術的不斷發展,傳統的紙質圖書館向電子、數字圖書館的轉變,因此圖書館服務的性質已經發生了很大的變化。傳統圖書館是點對點的服務,而目前數字圖書館已經成為綜合,服務的風格和方法等方面都發生了很大的變化。在服務理念上,數字圖書館是基于數據服務的基礎上,在大數據的基礎上,從數據采集,智能服務,提供綜合服務,創新了服務模式。在大數據時代,數據資源是豐富的,每個圖書館可以利用網絡來收集大量的數據資源,基于資源共享提供各種數據管理的資源之間的無縫連接。
3.2 服務內容創新與重構
在大數據時代背景下,競爭已經不再是一個簡單的數據資源所有權的競爭,而是在數據的結構以及類型上、數據的開發以及利用上的競爭。從圖書館的角度來看,它是在大數據背景下,為了避免自己被邊緣化,就必須分析數據,來進行相關的數據分析服務。分析數據庫業務有以下幾個方面:首先,圖書館需要建立自己的大數據分析,數據分析通常在現有的數據,如讀者愛好的書籍等。另外是對讀者的分析,這類似企業和其他客戶群體參考提供的數據分析、競爭情報分析,但也有很大的區別,不同之處在于數據分析對象、用于數據分析和數據分析的目的等。對于這樣的數據,可能不會被圖書館所擁有,所以它必然成為在這個行業發展的瓶頸限制,我們應該想辦法解決這些問題。
參考文獻
[1]劉瓊.大數據環境下圖書館面臨的影響與挑戰[J].理論觀察,2013(8):112-113.
[2]孫琳.大數據時代圖書館服務體系創新研究[J].理論觀察,2013(4):99-100.
[3]李立.大數據在數字圖書館中的應用分析[J].高校實驗室工作研究,2014(3): 35-37.
關鍵詞:大數據時代;地方應用型高校;軟件工程專業;課程體系
0引言
大數據作為繼云計算、物聯網之后IT行業又一顛覆性的技術,備受人們的關注,大數據技術正從概念轉向實際的應用,涌現出越來越多的大數據技術應用成功案例,大數據的價值也在迅速增長。2015年,中國大數據市場規模達到115.9億元人民幣,增速達38%,預計2016~2018年中國大數據市場規模將維持40%左右的高速增長[1]。大數據時代的到來,使得軟件行業對人才的應用能力和綜合素質提出了更高的要求。咸陽師范學院作為咸陽市地方應用型高校以服務咸陽地區經濟社會發展為己任,肩負著培養滿足咸陽地方社會需求軟件人才的使命,需要把培養面向大數據時代的軟件工程專業人才作為戰略任務來抓。而課程體系的建設是軟件工程專業人才培養體系最重要的一個方面。本文通過分析我院傳統軟件工程專業課程體系,以及大數據時代下企業對軟件工程專業人才要求,找出大數據時代下軟件工程專業應用型人才中課程體系存在的問題,探索出我院面向大數據環境的應用型軟件工程人才中課程體系的建設。
1我院軟件工程專業傳統的課程體系
自我院計算機系成立以來,軟件工程專業一直是我院重點建設專業。2013年,“‘3+1’校企合作軟件人才培養模式創新實驗區”被確定為省級人才培養模式創新實驗區。一直以來,該專業以培養“厚基礎、強能力、高素質”應用型人才的為培養目標,以企業、市場需求為導向,重視實踐、技能和應用能力的培養,與尚觀科技、中軟國際、華清遠見、藍鷗科技等西安多家企業聯合,采取3+1嵌入式校企聯合教育培養模式,將課程教學、工程實踐、行業理念進行無縫結合。課程體系是一個專業所設置的課程相互間的分工與配合[2],主要反映在基礎課與專業課,理論課與實踐課,必修課與選修課之間的比例關系上[3]。地方應用型本科院校的課程體系設計既要體現基礎知識的傳授,也要體現實踐能力的培養,同時還要考慮學生的職業能力規劃發展問題。我院2013-2015級軟件工程專業課程體系結構圖如圖1所示。圖12013-2015級軟件工程專業課程體系結構圖從圖1可以看出通識教育必修課程的教學階段共3個半學年,主要涉及思想政治基礎知識、體育、人文歷史、外語應用能力等;相關學科基礎類課程主要包括高數、線性代數、數字邏輯等數學類課程;本學科基礎類課程主要涉及程序設計語言、計算機網絡、操作系統、數據結構、計算機組成原理等;專業技能教學階段強調對學生工程性、實用性、技術性和復合型能力的培養,主要安排專業必修課程和專業選修課程。專業必修課程包括面向對象程序設計、軟件工程、數據庫原理與應用、軟件設計與體系結構、算法分析與設計等,專業選修課程包括Web軟件開發、Linux系統應用程序開發、移動終端開發等。根據教育部專業教學指導委員會軟件工程行業規范[4],本著“輕理論,重實踐”的原則,我院在一定程度上壓縮理論課課時,增加實踐課課時,優化專業課程體系結構。我院2015級軟件工程專業的人才培養計劃中,各類課程學分設置與所占比例。
2大數據時代企業對軟件工程專業人才的要求
大數據時代所需要的人才是一定擁有數據處理、分析技術的,也就是對數據有敏銳的直覺和本質的認知、能夠運用統計分析、機器學習、分布式處理等技術,從海量、復雜的數據中挖掘出有用的信息,以清晰易懂的形式傳達給決策者,并創造出豐富有價值的專業人士[5]。在大數據時代下,對軟件專業人才培養,應具備以下四個方面的技能。(1)具有厚實的數學、統計和計算機學科的相關知識,能夠根據具體案例大數據分析任務的要求,運用大數據處理、分析平臺,收集整理海量數據并加以分析,挖掘出有價值的信息。(2)掌握大數據處理技術及可視化工具,能根據具體任務的需求,對數據進行選擇、轉換、加工等處理操作,采用有效方法和模型對數據進行分析并形成數據分析報告,用易于用戶理解的方式,提供科學的決策依據。(3)熟悉行業知識、專門業務及流程,將大數據技術和企業文化相結合,充分利用大數據分析處理的結果,挖掘出海量數據中隱藏的價值并應用于企業市場領域。(4)團隊合作精神,大量數據的收集整理、存儲、分析和處理,一個人是很難完成的,需要一個由團隊成員合理分工、共同協作完成。
3大數據時代我院軟件工程專業傳統的課程體系存在的問題
地方高校一直以來受傳統的“學術型”、“研究型”人才培養模式的影響較大,形成了適合于“精英教育”為培養研究型人才的課程體系,無法適應以工程實踐能力、創新創業意識、新技術新方向為目標的人才培養,課程體系中理論教學占主導地位,實踐教學往往處于次要地位[6]。而目前處于大數據時代,信息技術的不斷創新、企業需求不斷變化、綜合型人才需求巨大等因素的影響下,傳統的培養研究型人才的課程體系,無法適應大數據時代以工程實踐能力、創新創業意識、新技術新方向為目標的人才培養。通過了解大數據環境企業對軟件工程人才的要求,分析我院2013-2015級軟件工程專業人才培養課程體系結構,發現存在以下問題:(1)缺少大數據技術方面的課程。傳統的課程體系中主要包括軟件工程專業一些傳統的課程,如數據結構、軟件工程、軟件體系結構等,而且課程內容較陳舊,所開設的一些應用軟件的學習不能緊密貼合行業和技術發展,軟件工程專業教育必須適應互聯網時展和大數據技術的需求,關注企業發展及大數據系統的建設問題,以滿足企業對應用型人才的需要。(2)實踐類課程學時所占比例較少。我院2015級軟件工程專業實踐類課程占總學時的10.8%,是因為傳統的課程體系注重知識傳授,而忽略了學生解決問題、動手能力的提高。地方高校在人才培養中重視理論內容、計算機編程能力,而忽略學生探索能力的培養,這些都不利于學生對新技術、新方向發展的把握,學生難以應對各種層出不窮、錯綜復雜的海量數據,很難挖掘出隱藏的數據價值并有效利用。(3)課程體系結構設置方面,一是存在通識教育類課程教學階段持續時間長,一直到第7個學期,這就影響了后面專業類課程的學習;二是專業基礎類分為專業必修和選修,沒有從課程教學階段不同來劃分,不能體現課程先后的銜接關系。
4大數據時代我院軟件工程專業課程體系建設改革
在大數據時代,軟件工程專業教育必須適應企業發展和大數據行業的需求。教學內容的設置應與行業需求接軌,根據我院學生特點調整2016級軟件工程專業課程體系。具體做了以下幾點的調整。(1)課程體系結構更合理。一是通識教育類課程的調整。一方面將教學階段全部調整到第1、2學年完成,這樣在第3學年學生就可以重點學習專業類技能課程;另一方面此部分增加了大學生心理健康和創新創業教育課程,主要可以加強學生團隊合作精神的培養。二是專業類課程結構的調整。將專業類課程分為專業(學科)基礎課程和專業技能課程兩大類,專業(學科)基礎課程主要包括數學類課程、計算機導論、程序設計語言、數據結構、操作系統、軟件工程、運籌學、數據分析與處理。專業技能課程又分為專業核心課程和專業方向課,專業核心課程包括面向對象程序語言類、軟件設計模式、算法分析與設計、軟件測試等軟件工程專業要求的核心課程,而專業方向課分為3個方向:大數據分析、Web技術應用、移動終端開發,鼓勵學生在學好專業基礎和核心課程的同時,發現自己專業類的興趣,選擇一個自己感興趣的方向集中學習,大數據分析方向是重點向學生推薦。在教學階段安排上,一般專業(學科)基礎課程要優先于專業技能課程,這樣可以讓學生在掌握了學科、專業基礎上,充分了解軟件工程專業技能的訓練。(2)增加了大數據技術方面的課程。在新調整的課程體系中,專業(學科)基礎課程和專業技能課程都增加了大數據相關內容。基礎課設置增添運籌學、數據分析與處理等,使學生了解大數據行業基礎知識,激發學生對大數據行業發展及大數據應用前景的興趣;專業技能課設置了數據倉庫與數據挖掘、大數據統計分析與應用、數據挖掘算法與應用等前沿科學技術相關課程以滿足大數據系統建設與應用的需要,培養更多企業需要的大數據管理分析軟件專業人才。院級選修課鼓勵研究大數據方向的教師積極申請大數據案例分析、大數據安全與隱私保護、HadoopMap/Reduce技術原理與應用等實用性強的課程,以補充對大數據方向特別感興趣學生的學習內容。(3)增加實踐類課程所占比例。相比較2015級,以培養地方應用型人才為總目標,實踐類課程課時由19課時增加到28課時,所占總課時比例提高了約50%。實踐類課程包括校內(課程設計和實訓)和校外(見習、實習、實訓、畢業論文),種類多樣化,使得學生多方面提升自己解決問題和動手操作能力。針對校內實驗我院教師結合大數據教學實驗平臺,根據課程內容設計實驗項目,從初級到高級,安排合理的階梯式學習,實驗內容持續更新,加入最新、主流的分析建模工具和挖掘算法,學生在免費、開放的平臺環境下進行大數據構建、存儲、分析統計等實驗內容,使學生熟練掌握Ha-doop、HBase、Spark等關鍵技術,提高大數據理論分析及技術應用的能力。做好校內實踐的同時,校外實踐更是尤為重要,首先在實習、實訓企業的選擇上,盡量選擇“口碑好、技術強、理念先進”的單位,目前我院已與鄰近城市西安與尚觀科技、中軟國際、華清遠見、藍鷗科技等西安多家企業聯合,第四學年分批組織學生到合作企業的實訓基地參加真實的實訓項目,體驗IT企業真實的工作環境、工作流程和企業文化,了解互聯網大數據、零售大數據、金融大數據等領域知識,學習海量數據搜集、分析、存儲技術,引導學生按照項目的需求、總體設計、詳細設計、編碼、測試等流程完成實踐內容,規范化文檔和代碼的編寫,培養學生的行業、職業素養。
5應用效果
目前應用此方案有2016和2017級兩級學生,雖然這兩級學生都還沒有就業,但在創新應用能力方面都較2015級之前學生有顯著提升。近兩年有10余組學生團隊獲得國家級、省級、校級“大學生科研訓練項目”立項資助,有8名同學獲得“藍橋杯”程序設計大賽國家級二等獎、三等獎,省級一等獎2項,二等獎、三等獎多項。2016年有兩隊學生獲得陜西省高校“互聯網+”創新創業大賽三等獎,一隊學生獲得咸陽市青年創業大賽二等獎。數十名學生在核心期刊上公開發表學術論文。從目前取得的成績來看,課程體系結構的調整,使得學生不僅獲得扎實的理論知識,而且具備了過硬的實踐和創新能力,我院軟件工程專業畢業生一定會深受用人單位喜歡。
6總結
針對大數據時代下地方本科院校軟件專業人才培養中課程體系存在的一些問題,筆者分析了大數據環境對軟件工程專業人才的要求,以地方本科院校咸陽師范學院為例,改革調整了課程體系,主要在在理論教學和實踐教學中增加大數據相關理論及技術內容,通過近年來的探索與實踐,此課程體系結構有效提高了學生的創新應用能力,為大數據時代企業發展培養了高水平、高素質的大數據分析人才,新的課程體系適應了大數據環境下軟件工程人才的培養。
參考文獻
[1]孫琳.大數據應用的創新路徑[N].人民政協報,2016-05-17.
[2]潘正高.地方應用型高校軟件工程專業課程體系的研究[J].西昌學院學報,2017,31(3):94-97.
[3]潘怡.應用型本科院校軟件工程專業課程體系設置探討[J].長沙大學學報,2008,22(5):98-100.
[4]教育部專業教學指導委員會.高等學校軟件工程專業規范[M].北京:高等教育出版社,2011.
用戶如何從這龐大的數據庫中提取對自己有用的信息呢?這就需要大數據分析技術和工具,而傳統的商業智能(BI)工具已經抵擋不住企業如此龐大的數據信息。提到大數據,不得不說的是與大數據相關的技術名詞:Hadoop、MapReduce、HBase、NoSQL等。業界的眾多廠商也都開始從技術入手,打造各自的大數據解決方案。一時間,Hadoop紅遍了全球,就像當年的Linux開源軟件系統一樣,成為了研究和設計大數據解決方案的主流平臺。
華麗的變形
Hadoop的發展基本上經歷了這樣一個過程:從一個開源的Apache基金會項目,隨著越來越多的用戶的加入,不斷地被使用、貢獻和完善,逐漸形成了一個強大的生態系統。
隨著云計算和大數據的發展,如今Hadoop已經是一個能夠讓用戶輕松駕馭和使用的分布式計算平臺。用戶可以在不了解分布式底層細節的情況下,輕松地在Hadoop上開發和運行處理海量數據的應用程序,并能充分利用集群的威力實現高速運算和存儲。Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性的特點,并且設計用來部署在價格低廉的硬件上,而且它提供高傳輸率來訪問應用程序的數據,適合那些有著超大數據集的應用程序。HDFS放寬了POSIX的要求,這樣可以用流的形式訪問文件系統中的數據。
Hadoop最受歡迎的是在Internet上對搜索關鍵字進行內容分類的工具,但它也可以解決許多要求極大伸縮性的問題。例如,如果您要grep一個100TB的巨型文件,會出現什么情況?在傳統的系統上,這將需要很長的時間。但是Hadoop在設計時就考慮到這些問題,采用并行執行機制,因此能大大提高效率。
如今,基于Hadoop的應用已經遍地開花:Yahoo通過集群運行Hadoop,以支持廣告系統和Web搜索的研究;Facebook借助集群運行Hadoop,以支持其數據分析和機器學習;百度則使用Hadoop進行搜索日志的分析和網頁數據的挖掘工作;淘寶的Hadoop系統用于存儲并處理電子商務交易的相關數據。
九年的長跑,Hadoop已從初出茅廬的小象華麗變形,成為了行業巨人,但還需戒驕戒躁、不斷完善。
性能大提升
Hadoop還是一個能夠對大量數據進行分布式處理的軟件框架。Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。
Hadoop是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。
Hadoop是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop可以將數千個節點投入計算,非常具有性能潛力。但并非所有的工作都可以進行并行處理,如用戶交互進行的數據分析。如果你設計的應用沒有專門為 Hadoop集群進行優化,那么性能并不理想,因為每個Map/Reduce任務都要等待之前的工作完成。
英特爾針對大數據的開放架構核心產品線,推出了英特爾Hadoop分發版,讓用戶可以實現“軟硬協同,體驗至上”的創新效果。例如,利用英特爾至強處理器平臺對網絡和I/O 技術所做的優化,與英特爾Hadoop分發版進行強力組合,以往分析1TB的數據需要4個多小時才能完全處理完,現在僅需要短短的7分鐘即可完成,極大地提升了大數據分析的速度。
Hadoop還是可伸縮的,能夠處理PB級數據。由于批量處理功能,Hadoop最好部署在這些場合:索引編制、模式識別、推薦引擎建立和情緒分析。在所有這些場合下,數據大量生成,存儲在Hadoop中,然后最終使用MapReduce函數來進行查詢。但是這并不意味著,Hadoop會取代數據中心里面目前的組件。恰恰相反,Hadoop會集成到現有的IT基礎設施里面,以便充分利用進入到該企業的海量數據。
曾聽過這樣一則案例:Hadoop集成到一家企業網站后,情況較之先前大有改觀:大大節省了時間和精力。來自Web服務器的日志數據不用經歷ETL操作,而是直接被完整地發送到了Hadoop里面的HDFS。然后,對日志數據執行同樣的清理過程,現在只使用MapReduce任務,一旦數據清理完畢,隨后被發送到數據倉庫。這個操作要迅速得多,這歸因于省去了ETL這一步,加上MapReduce操作速度快。而且,所有數據仍然保存在Hadoop里面,網站操作人員后續所需數據都可以查詢到。
開源的典范
Hadoop依賴于社區服務器,任何人都可以自由的下載、安裝并運行。由于它是一個開源項目,所以沒有軟件成本,這使得它成為一種非常吸引人的解決方案。Hadoop帶有用Java語言編寫的框架,因此運行在Linux生產平臺上是非常理想的。Hadoop上的應用程序也可以使用其他語言編寫,比如C++。
Hadoop稱得上開源創新領域的杰出典范。思科的James Urquhart曾經這樣說過:“Hadoop可以說是不涉及任何現有專利的開源項目在企業軟件方面所取得的首個里程碑式成功”。盡管里程碑不只這么一個,但能夠以這樣的規模將成功果實迅速擴展的例子還真不多見。
雖然大量的行業用戶開始學習Hadoop的技術架構,但在真實的生產環境中,依然顯得相當謹慎,很大一部分也是因為開源。Google雖然公開了MapReduce論文,但底層的GFS、BigTable等技術都不是開源的,因為這是互聯網的核心競爭力。很多企業的確想用這個技術,但是技術門檻比較高,前期投入非常之大。一旦進入維護和開發階段,Hadoop的真實成本就會凸顯出來。
群體的智慧
Hadoop作為海量數據分析的最佳解決方案,已經受到眾多IT廠商的關注,并由此而錘煉出風格迥異的Hadoop發行版以及支持Hadoop的產品。
例如,IBM在Hadoop系統領域的代表產品InfoSphere BigInsights,它是基于開源Apache Hadoop框架實現,增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究實驗室的數據分析、機器學習技術以及文本數據分析挖掘;IBM在流計算領域的代表產品是InfoSphere Streams,是目前業界獨有的流數據處理技術。Streams能夠在對諸如氣象信息、通訊信息、金融交易數據的管理中動態捕捉信息、進行實時分析,能夠對靜態數據的處理提供有效補充;在數據倉庫方面是InfoSphere Warehouse和etezza。Netezza克服了傳統數據倉庫在面臨大數據挑戰時的瓶頸,可以將大量數據整合到統一的平臺上,計算能力高達TB級。
關鍵詞:實踐教學;統計學;高校
中圖分類號:G642.3 文獻標識碼:A 文章編號:1002-4107(2017)04-0036-03
“大數據”是時下全球熱議的話題之一,數據無處不在,涉及各個行業領域。大數據技術研究與價值應用已成為新一輪科技競爭的戰略制高點,它給科學和教育事業帶來了新的生命力,同時對傳統教育也提出了新的挑戰。2014年中國大數據技術大會上了《中國大數據技術與產業發展白皮書(2014 年)》和《2015 年大數據十大發展趨勢預測》,指出“跨學科領域交叉的數據融合分析與應用將成為今后大數據分析應用發展的重大趨勢”[1]。在這種背景下,統計學專業應順應社會發展,探索教學模式,融合計算機、數據分析、統計等相關學科,引導學生認識和掌握數據處理的新技術,推動交叉學科應用型本科人才的培養。本文探索提升本科生的智能數據分析實踐能力的培養模式,以便提高其就業競爭力,滿足社會需求。
一、大數據新形勢對統計人才的新需求
統計學作為一個與大數據密切相關的學科專業,其需要及時調整和優化課程結構,改變教學內容與手段
等,以滿足社會人才需求和適應外部變化的環境。華東師范大學副校長朱自強接受光明日報采訪時指出:大數據技術會通過“學科交叉”戰略,為相關學科向更高層次的發展提供歷史性機遇[2]。據調查報告指出,數據科學家需要扎實的教育背景,其研究領域分布為數學與統計學(32%),其次是計算機科學(19%)以及工程學(16%)[3]。該領域中跨界融合型人才是未來的人才培養趨勢,統計學專業有獨特的優勢。據不完全調查發現,涉獵網站上谷歌、百度和格力等部分大公司對于大數據人才崗位需求及相關技能提出各自具體要求(見表1)[4]。
從表1中可以看出:數學和統計學功底、建模能力、運用R,SAS,Python等輔助軟件及掌握大數據平臺是大數據崗位的基本要求。處理數據是為了應用,無論哪一個崗位都會要求分析數據,包括需求分析、特征提取、結果分析與關聯分析。因此數據分析最重要的可能并不是軟件、算法,而是熟悉整個流程,例如數據清洗、分析工具的選取、參數的設置及原理、結果價值分析與解釋等。這要求統計專業的學生精通相關的軟件與編程的同時,還要熟練掌握本專業知識。因此,學生只有經歷過一套完整的程序過程,才能懂得如何從數據中發掘知識的原理及技術流程。
目前高校數學系開設的統計學專業主要是數理統計方向,重視統計推斷,進行各種證明,但案例教學較少,淡化了培養學生分析社會經濟現象的能力,其不利于學生應用統計知識解決實際問題。本文從分析當前的社會需求出發,借鑒“設計型學習”模式探索實踐教學改革,以此來提升培養學生認識數據和理解數據的能力[5-6]。
二、新需求導向下的統計學實踐教學改革
(一)重新定位人才培養目標
在網絡、大數據、云計算等新技術不斷發展的背景下,社會人才需求、教學資源和外部環境都在迅速發生改變,其促使各專業進行教學改革。對于統計學而言,統計數據已完全突破了傳統統計學所涉及的統計數據概念內涵,統計數據從數量、結構、類型上已經完全不同于魍騁庖逑碌耐臣剖據,其更具有現代“信息”的含義[7]。相應的統計數據收集技術,整理、傳輸和存儲管理方法、指標體系、分析方法等內容已發生根本變化。“懂數據、會分析”的復合型人才缺乏是當下國內外面臨的共同困難[8]。統計學專業應具有國際視野,重新定位培養目標、教學理念與機制,結合區域經濟發展為學生提供未來職業規劃指導服務,在各個環節中提升學生的數據處理能力,培養具有高階思維和高階能力的應用型人才。
(二)優化課程設置與教學手段
統計學本科專業課程設置要體現大數據時代對統計人才培養的要求。大數據背景下數據的管理、分析與挖掘類課程需要增加,尤其是實踐類課程,形成突出實踐能力培養的課程群或課程模塊。最主要的是針對社會需求,依托學校與數據相關的優勢學科,通過學科交叉和行業、企業、實務部門開展深度合作建設實踐教學基地,集聚相關資源協同創新,提升本科生數據分析能力。通過設計實踐課程的模塊,以產教融合、協同育人方式形成有效的課本知識與實踐操作的銜接,為學生創造理論與實踐相融合的社會情境。
當下,知識更新較快,需要課內和課外相互配合完成教學任務。慕課、微課、翻轉課堂已成為重要的課堂教學補充資源和課外自學學習平臺。豐富形象的圖片和視頻等教學材料,多感官的刺激不但符合現代學生的學習特點,而且能夠極大地激發學生的學習動力[9]。教師應積極應對這些新變化,及時學習新知識、新技術,調整教學觀念、教學內容、教學方法,更多地開展實踐教學。教師也應瞄準國際前沿,采取先進的教學理念,有效利用優秀的網絡資源開展課前和課后輔助教學和互動交流,引導學生逐漸實現自主發現式學習。在實踐教學手段中,重視高階思維和高階能力的培養,借鑒國外的先進實踐教學模型,改變實踐層面以嘗試和經驗總結為主的教學手段。例如設計型學習正在國際教育界興起,其強調學生在具體的任務或挑戰情境中主動探究,具有設計性、整合性、迭代性、反思性等品質特征。在分析和解決問題的能力、合作能力及創新能力等實踐上,設計型學習彰顯了其獨特價值。與過去那種單純強調知識呈現與傳遞的教學方式不同,設計型學習蘊含著新的學習和教學設計假設,其有效地融合了自主、協作、探究等新型學習方式。因此,設計型學習可以為當前教學方式改革提供一種新思路。借助于這一先進的實踐教學手段,引導學生注重“功在平時”。在課前教師幫助學生甄別選擇合適的資源,如問題背景、相關知識講解的網絡資源等。在課堂上,教師掌握課堂教學和學生自主學習結合策略,針對學生遇到的問題進行講解,小組之間進行交流、分享成果。然后讓學生在課后進行反思、修改、再設計,同時注意引導和關心后進生的學習狀態和方法,直到任務圓滿完成,從而形成線上線下相互配合的教學手段。
(三)強化校內實驗與實踐環節
以專業實驗室和教師科研課題為載體,依托學校相關的優勢學科,對接社會需求,利用學科交叉和對外合作機會匯聚各種創新要素,踐行協同創新理念,構建適合本科生的多層次的實踐教學體系。針對不同年級的學生,制訂不同的進實驗室計劃,一年級學生以認知教學為主,開拓其對理論基礎課的應用性和數據分析價值的認知視野。二、三年級的學生已經開始學習統計學專業基礎課和統計軟件,在相關課程實踐環節中以大作業形式,設計與課堂教學相關的擴展數據分析主題,引導學生對生活中的數據分析問題進行深入分析、尋找合適的選題,并依托各類相關科研課題達到對實際背景數據的理解、推理、發現和決策。例如:網上調查是一項重要的社會活動,用其得到的數據來分析和反映人們的活動規律及觀點。引導學生針對分析某類現象等進行設計問卷、發放問卷、回收統計和統計分析等活動。這一完整的環節讓學生了解調查過程中統計誤差成因及控制手段,加深對統計過程、數據質量的理解。鼓勵四年級學生利用實驗室、實習基地與專業教師的各類科研項目的資源,開展畢業論文工作,并獨立完成有關的實驗,全面培養學生的數據處理能力。例如,可以引導學生對某門課程輔助教學App需求統計分析、智能測試系統設計、代碼編寫。通過實踐活動,引導學生自主地基于已學的專業知識去學習新知識,自主走進數據世界、探索數據王國。
與此同時,學分設置、考核評價體系也要做出適當的調整。在實踐教學方面,積極推動“大學生創新創業訓練計劃”和“優秀本科生走進實驗室計劃”等創新實踐活動保障機制。在總學時不增加的前提下,施行大學生創新實踐學分確認制度,對學生在各種學科競賽、創業競賽及學術研究中獲得的成績給予學分認定。考核注重“功在平時”,評價學生的多方面能力,尤其是應用相關理論處理實際問題的能力。具體可以采用多種考核方法相結合的方式。如:增加平時的考核力度、增加實踐項目的考核、通過布置適當的項目論文,采用答辯的形式,以鍛煉學生獨立分析解決問題的能力[10]。
(四)注重校外實踐學習
目前統計學課程的校內實踐教學過程中,由于實踐資源不夠的限制,所涉及數據處理及統計建模等活動較多地使用統計年鑒或其他公開數據集,這種學習模式與真正的實際應用還有一段距離。為了更大程度上調動學生的學習積極性來接觸科技前沿,應充分發揮學科競賽與社會創新模式和平臺優勢,形成校扔胄M饈導教學協調促進的模式。
目前與統計學相關的競賽受到大型互聯網企業、學術團體及政府部門的關注,不定期舉辦開放型競賽為選手提供施展才華本領的機會。例如有全國大學生統計建模大賽、全國大學生大數據挖掘競賽和阿里巴巴大數據競賽等。這些競賽一方面是為高校學子提供接地氣的大數據實戰機會,推動高校和研究機構對大數據和算法的研究發展;另一方面也是為了加快相關領域的人才成長。這些競賽主題及選題、難度均適合統計學專業學生參與,其可以讓學生和教師接觸前沿的應用方向、有機會學習和嘗試解決真實的業務與社會問題。跟蹤這樣的競賽有助于提高學生的學習興趣,進而促進實踐教學方法的改革、提高創新人才培養的質量。
在大眾創業、萬眾創新的時代背景下,社會創新模式與平臺有助于開闊師生的視野,并可以為校內實踐學習與實踐應用提供有針對性的引導。因此在統計實踐過程中,嵌入創客教育的模式,與相關的創客平臺合作建立實習基地,讓學生接觸社會決策活動,拉近學習者與生活的距離[11]。創客教育強調的創新精神和綜合運用知識技能解決實際問題的能力,是將來學生在求職和就業中必不可少的能力,其可為學生創造理論與實際相結合的認知機會、促使學生形成以自身專業特長與興趣愛好結合的主動學習模式。
針對社會對人才的新需求,通過設計不同模塊的實踐活動對統計學專業實踐教學環節進行改革,其有利于發揮學生的特長,調動學生的學習興趣,為學生的職業發展做好充分的準備,從而順應大數據時代的發展,進而促進人才培養質量、促進專業辦學特色、促進經濟社會發展。
參考文獻:
[1]2015年大數據十大發展趨勢預測[J].中國教育網絡,
2015,(Z1).
[2]朱自強.高校可借大數據自我提升[N].光明網,2013-
11-12.
[3]九個成為數據科學家的必備技能[EB/OL].[2016-09-03].
http:///archives/38264.
[4]數據科學領域的職位劃分以及職責技能[EB/OL].
[2016-09-03].http:///archives/37376.
[5]李美鳳,孫玉杰.國外“設計型學習”研究與應用綜述
[J].現代教育技術,2015,(7).
[6]丁美榮,陳壹華.基于設計型學習的計算機網絡實驗教
學研究[J].計算機教育,2011,(1).
[7]張維群.大數據時代統計學科建設與教學改革專家研討
會紀要[J].統計與信息論壇,2015,(2).
[8]徐宗本.用好大數據須有大智慧――準確把握、科學應
對大數據帶來的機遇和挑戰[N].人民日報,2016-03-15.
[9]謝小蕓,李立清.項目教學法在獨立學院統計學實踐教
學中的應用[J].中國農業教育,2007,(4).
[10]王麗麗,楊帆.“互聯網+”時代背景下大學英語教學改
革與發展研究[J].黑龍江高教研究,2015,(8).
[11]李小濤,高海燕,鄒佳人等.“互聯網+”背景下的STEAM
關鍵詞:智慧管理;云計算;大數據;物聯網;能耗增值服務;智慧校園
一、引言
隨著信息技術的飛速推進,已然進入一個互聯網的時代。社會中,各方的發展也已是幾何級速度的發展,在這個物聯網、云計算和大數據推動社會前行的大潮中,對高校后勤集團能源管理也提出了更高的要求。節能管理由“綠色環保,打造節能型社會”作為一項國策寫入“十二五”規劃起進入了一個全新的時代。目前,科技創新管理的概念普遍被大眾所認知。管理中有一個被一再提及的詞語――量化,其歸根結底是對數據的需求體現。即量化要求的結果是數據的產出,這里的數據既包括管理中表面的數據,如被管理對象的數量、狀態等屬性基礎數據,也包括對基礎數據通過管理模型分析后所得到的具有決策依據功能數據,數據是實現管理智慧化關鍵。
高校后勤集團能源管理智慧化即利用大數據、云計算、物聯網等新一代信息通信技術,并通過這些技術變革原有的管理模式。[1]具體表現為,建立基于互聯網的開放系統,通過云計算技術實現能耗大數據潛在價值的挖掘,隨后,通過數字化和智能化技術應用決策數據進行實際的管理工作。這對高校后勤集團能源管理工作提出了更高的要求,以往的能源管理信息系統的設計已經遠遠不能適應發展的需要,其能力尚停留在能耗數據的采集、存儲、統計以及初級的簡單報警上,對于管理智慧化顯得力不從心。為了適應高校后勤集團能源管理的需要,應以物聯網、云計算技術、大數據分析技術為核心,以移動互聯網為有益補充,建立具備對能源,特別是能對水電能源具有監控、預警、測算、系統聯動和消費支付等管理決策及服務延伸能力的高校后勤集團能源管理智慧系統。這將是高校后勤集團能源管理由傳統的信息化管理轉型為能源管理智慧化的初期階段,兩種管理方法對于數據的處理及運用理念是截然不同的。
二、能源管理現狀分析
隨著教育的普及,學校需要不斷地提高教學質量和管理水平,而學校后勤管理就是對在校后勤情況的全方位管理。[2]其中,能耗管理是工作的難點與重點,學校是否以資源的高效利用和循環利用為核心,以“減量化、再利用、資源化”為原則,以低消耗、低排放、高效率為基本特征,符合可持續發展理念的經濟增長模式運行,[3]均與后勤集團能耗管理有著密不可分的關系。節約型校園概念的提出使得學校在辦學及校園設施建設、運營管理中遵循科學發展觀,充分體現節能、節水、節地、節材、環境保護建設及運營的管理思路和節約教育理念、形成良好節約型校園文化的校園。[3]目前,高校后勤集團能源管理主要依托于多年完善的管理制度,以及在這套制度上經過業務流程提煉后所開發的管理信息系統。
(1)管理制度化。各地高校后勤集團能源管理工作經過多年經驗累計,在校園能耗統計、校園能源審計、校園能效公示、需求管理、分項計量等方面均建立了較為完善的管理制度,并做到了不同部門、單位間的有效協調。在管理模式上采用了根據學科門類、各單位性質、事業發展情況、使用水電需求,科學合理定量,將水、電能源消耗指標分配到各有關學院和部門,對運行情況進行跟蹤分析,統籌協調,兼顧利益,量化管理,促進節約水電長效管理機制的形成。能耗管理制度的完善進一步推進了管理信息系統的建立與運行。
(2)管理信息化。隨著計算機及通信技術的不斷發展,結合自身管理的需要,高校后勤集團對于能源管理工作也做了業務的流程化定制,并依托物聯網工程、通信工程、計算機工程、工業設計、環境工程等學科,自主創新、自主研發了數字化能源監管系統。數字化能源監管系統分為計量采集部分、數據傳輸網絡、數據存儲系統,以及用戶交互系統等幾個主要部分。完成了能耗數據的采集、傳輸、存儲與展示,有效地數據處理方法提高管理中對于數據統計的需求。數字化能源監管系統的建立有效地提高了高校后勤集團能源管理水平,通過系統實現了能耗數據的實時性、完整性和準確性。即通過科技手段,實現高效管理,提高社會效益。
(3)存在的問題。如上,簡述了高校后勤集團能源管理的兩個主要方面,即制度與監管系統。制度與監管系統有效的提高了管理的水平與準確性,但在實際的工作中依然存在很多問題,如下列舉最為表層的三種。第一,設備的改造優化。高校中諸如學生宿舍、教學樓、實驗室等用能熱點比比皆是,僅就采用何種照明器具一項,就存在不同的說法,但很大一部分取自于照明器具廠家的宣傳與器具參數,沒有一個科學有效的方法能夠給出設備改造優化的決策方案。第二,消缺的即時高效。在能耗估計的過程中,由于設備和人為的因素會造成故障的出現,即時做出故障報警,迅速消除缺陷是節能的重中之重。舉例而言,校園供水會存在水管爆裂故障、籠頭節點故障、人為使用浪費等問題,這些問題單靠人員巡檢和制度約束是無能為力的,只有采用更新的技術手段,才能做到有效的管控。第三,用能指標的制定。在上文中提及高校后勤集團能源管理模式是根據學科門類、各單位性質、事業發展情況、使用水電需求,科學合理定量,將水、電能源消耗指標分配到各有關學院和部門,超標自負。實際上這里所謂的科學合理定量并沒有可靠的數據作為支撐,最常見的方法就是根據上一階段的用能歷史數據“大致”確定現階段的用量,看似合理,但并不科學,缺少合理的指標定制模型。
二、管理系統的智慧化變革與應用
對于高校后勤集團能源管理而言,僅就目前的數字化能源監管系統已經不能滿足發展的需要。高校后勤集團能源管理智慧化的設計目的是在與管理制度不斷的交互完善中,利用大數據、云計算、物聯網等新一代信息通信技術,并通過這些技術變革原有的管理模式,[1]這也包括原有數字化能源監管系統的功能,但絕不是簡單的系統升級。所有的管理變革均以建立新的管理智慧化平臺為基礎,提供“能源管理+能源便利+校區通信”的高校能源管理云服務。
(1)信息系統的變革。第一,系統架構的改變。高校后勤集團能源管理所采用的傳統C/S或B/S架構已經不能適應智慧化的需要。智慧化是建立在大數據分析的基礎之上,通過海量的數據分析,提煉決策數據。傳統的系統架構,能耗數據的采集密度對于分析工作遠遠不能滿足。加之,高校的擴招、擴建,分校機構的設立都對高校后勤集團能源管理的信息化系統提出了改變需求。就目前發展而言,其系統架構應該包含:數據采集服務、數據存儲服務、關系型數據庫服務和模型計算服務等部分,以及任務調度、安全管理和資源管理等方面的底層支持。第二,存儲方式的更新。系統架構的變革,為了適應更多的數據需求服務,這勢必產出海量的能耗數據,隨之而來的將是數據存儲問題。以往的數據庫服務器及熱備方式很難適應海量數據的壓力,建立或委托數據云存儲業務將是最終的出路,有效的數據存儲將是后期大數據分析的堅實基礎。第三,大數據的分析,如上一、二小節所講,系統架構的變革與存儲方式的更新皆是為了海量的能耗管理數據而進行。對數據做了如此之多的支持最終為了什么?這些數據有何意義呢?答案就是大數據分析。例如,Google通過全美各地區搜索H1N1及流感相關關鍵字頻率和分布,得出疫情暴發警報;對沖基金通過全球Twitter用戶每天關于情緒的關鍵字進行以億為單位的數據分析,用以為買入和拋售股票做參考依據;波士頓馬拉松爆炸案,警方通過數據分析,第二天抓獲嫌疑犯,制止再次作案;這些都是根據大數據分析的結果做出的決策。預測,是大數據的核心,準確的預測是最大的競爭力。高校后勤集團能源管理智慧化的核心就是對用能做出分析,根據結果做出科學的預測及決策。這也是智慧化與信息自動化的區別。
(2)應用功能的變革。目前,高校后勤集團能源管理的數字化能源監管系統具備實時監測用能情況的功能。智慧化依托于大數據分析及高效的分析模型為平臺帶來更多功能。能耗報警方面將不完全依附于計量終端的硬件功能,而是通過特定時段的用能數據分析,確定問題,并通過監控頁面、短信等方式推送報警信息。例如,用水管線的查漏報警和超指標報警等。節能測算,為用能改造提供依據。通過對實驗對象更換用能設備前后的數據對比分析,可以得出該改造方案及所采用的設備是否真正做到了節能。指標規劃,高校能耗管理的終極目標之一是能耗定額管理。通過能耗歷史數據的環比、同比,分析能耗大戶用電趨勢,結合人員設備總量,為能耗指標的合理分配提供支撐。系統聯動,管理智慧化要求系統與其他系統的聯動響應,如能耗監管系統與課表系統、宿管系統的聯動數據共享,達到根據課程及生活作息數據,利用能耗模型控制重點部位大型儀器開啟與關閉時間,通過能耗合理性分析,加強重點部位能耗監控。
(3)管理的最終蛻變。大數據分析帶來決策與預測依據,可以對特定用戶提供用能合理性分析服務;通過對線路負載數據的分析,判斷線路負荷是否正常,做出警報預測,即時整改。多系統協作,將延伸能耗系統的增值服務,如用能消費的支付手段,可以結合第三方支付系統完成用能的繳費。這樣,無論是實體充值點,或是移動支付,都能方便快捷完成支付動作。高校后勤集團能源管理智慧化帶來高校能源工作由管控到服務的最終蛻變。
三、新技術驅動下的發展方向
高校后勤集團能源管理是智慧校園的數據核心區域,其發展中涉及的互聯網(數據通訊)、移動互聯網(支付)、物聯網(采集傳感器)、安全監控、電信(通話、短信)都在產生海量數據。半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因學,創造出了“大數據”這個概念。再則,云計算已經成為當今信息技術領域中最重要的新概念,正在成為未來互聯網和移動互聯網結合的一種新型的計算模式。[4]
高校后勤集團能源管理將依托物聯網、云計算、大數據等技術,變革原有的管理模式。最終形成能耗云平臺,提供大數據分析服務,能源監管將以大數據分析的結果作為決策的依據,逐步演進為智慧化能源服務。
參考文獻:
[1] 黃念根.霧霾鎖城倒逼傳統能源智慧變革[J].智慧城市,2014
(3):60.
[2] 謝珊.學校后勤管理信息系統的設計與應用[D].成都電子科
技大學工學碩士學位論文,2010.
[3] 中華人民共和國住房和城鄉建設部、中華人民共和國教育部.高
等學校節約型校園建設管理與技術導則(試行)[Z].2008.
(一)大數據思維的內涵
對于大數據思維的詮釋有多種說法,《大數據時代》的作者維克托•邁爾-舍恩伯格認為:所謂大數據思維,是指一種意識,認為公開的數據一旦處理得當就能為千百萬人急需解決的問題提供答案[1]。王建華認為:大數據思維,指的是用大數據思想文化去思考解決問題的一種方法。大數據思想文化也就是用大數據去反映事物發展過程的環節、要素等,在此基礎上通過建立多種模型模式加以控制,以達到精準解決各類問題的目的[2]。黃欣榮認為:人們迅速地以數據的眼光來觀察世界和理解、解釋這個紛繁復雜的世界,就是所謂的大數據思維[3]。不管哪一種詮釋,都包含兩層意思:數據可以反映問題、數據可以指導問題的解決。借助大數據思維,開放教育教學工作者能夠進一步靠近并挖掘教育教學的潛在現實,有機會深入探索教育教學的變革與發展。
(二)大數據思維的特征
維克托•邁爾-舍恩伯格從數據本身出發,認為大數據有三個主要特點,分別是全體、混雜和相關關系。全體,指的是收集和分析更多數據,通過這種方式可以看到很多隨機抽樣得不到的細節。混雜,指的是接受混雜,大數據時代追求的,是在宏觀上失去精確性,在微觀上獲得準確性。相關關系,則是指應該關注“是什么”,而非“為什么”[4]。黃欣榮將大數據思維與小數據思維相比較,從數據的增長速率、使用范圍考慮,認為大數據思維具有整體性、多樣性、平等性、開放性、相關性和生長性等六大特征[5]。周世佳從數據產生的狀態、處理的模式、結果的呈現樣式出發,認為大數據思維的特征是:整體性與涌現性、多樣性與非線性、相關性與不確定性、并行性與實時性[6]。大數據思維是大數據時代形成的特定思維方式,與傳統的數據思維有所差別。本文從數據對象、關注點、數據處理方式、支撐技術等方面總結歸納了大數據思維與傳統數據思維的差異,如表1所示。
(三)大數據思維的教育應用
大數據思維在商業、金融、通訊、經濟、醫療等行業的應用已有較長時間,近期伴隨著移動互聯網、云計算、物聯網的發展而引起國內外廣泛關注[7]。然而大數據在教育領域的應用并不深入,“教學應用大數據分析處于起步階段,還需要幾年才能成熟。”[8]2012年10月,美國教育部了《通過教育數據挖掘和學習分析促進教與學》的報告,宣告了“數據驅動學校,分析變革教育”的教育大數據時代已經來臨,掀起人類教與學的又一次變革[9]。目前,大數據分析已應用到美國公共教育領域,成為教學改革的重要力量[10]。美國教育部門創造了“學習分析系統”——一個數據挖掘、模化和案例運用的聯合框架,旨在向教育工作者提供更多、更好、更精確的信息,從而了解學生到底是“怎樣”學習的[11]。美國的新興企業“希維塔斯學習”(CivitasLearning)運用預測性分析、機器學習來提高學生成績。加拿大“渴望學習”(Desire2Learn)教育科技公司的“學生成功系統”(StudentSuccessSystem)通過監控學生閱讀電子化課程材料、提交電子版作業、在線與同學交流、完成考試與測驗,讓其計算程序持續、系統地分析每個學生的教育數據[12]。2013年是中國的大數據元年,也是我國大數據在教育領域應用研究的起步階段[13]。國內教育技術領域掀起了基于大數據技術促進教育改革和創新發展相關研究的熱潮,大數據的教育應用研究迅速發展起來。部分高校開始實踐對教育數據的挖掘與利用。清華大學的“大規模在線教育研究中心”,通過大數據技術對眾多學習者在平臺留下的學習行為數據進行分析,得出學習者對哪些知識點比較感興趣、哪些學習工具和學習資料使用頻率最高等規律[14],進而打造更具適應性的智能學習平臺。華東師范大學對校園網站數據進行分析,從而改善用戶體驗[15]。浙江大學通過對資產的歸納、整理,最終形成權威、全面的資產數據,并基于資產數據提供數據查詢和分析服務[16],幫助教務處更好地利用教室、實驗室等資源。
二、開放教育領域教育教學數據應用現狀
(一)開放教育領域教育教學數據類型
隨著互聯網技術的發展與應用,遠程開放教育領域部署了眾多學習管理系統,比如三級“電大在線”遠程教學平臺、形成性測評系統、國家開放大學學習網,除此以外,還有招生、教務、考試報名等信息管理系統,這些系統經過多年的教育實踐,不但存儲著海量學習者信息及學習過程數據,還存儲著大量的管理數據。2012年,葛道凱等人根據教育活動中技術手段的差異,將教育數據來源劃分為傳統教育數據和遠程教育數據。根據業務活動的不同,將教育數據挖掘的數據來源劃分為教學數據、管理數據、科研數據三大類。[17]1.教學數據挖掘遠程教學數據主要來源于各類數字化學習環境,既可以是保存在服務器和客戶端上的日志數據[18],還可以是圖片信息、動畫、視頻、地理位置信息等,前者多為結構化數據,后者多為半結構化或非結構化數據。隨著智慧課堂等信息化項目的建設,各種電子教具、智能設備逐漸進入課堂,課堂教學過程也會產生并保存豐富的數據。對教學數據進行挖掘,對學習過程中產生的各類信息進行深度分析,能夠實時洞察學習者的行為,從而預測和把握每一個學習者的學習需求、學習風格、學習態度乃至學習模式,學校、教師可以為不同學習者提供合適的學習內容與指導,實現真正意義上的個性化教育。2.管理數據挖掘管理數據主要來自于教育機構、部門使用數字化管理系統過程中錄入、保存和管理的數據,主要表現為結構良好的報表形式。比如人事管理、招生管理、學籍管理、教務管理、師資管理等常見系統。在現今管理中,學校決策很多時候仍然主要依賴領導的經驗和直覺,而非基于客觀的數據。大數據思維可以重構決策路徑。挖掘并分析管理數據,能夠為教育管理人員提供參考,實現對管理對象(學生、教職工)及各種業務流程的更好理解,并據此優化各項管理工作。3.科研數據挖掘目前許多與科學研究有關的信息資料已被轉換為數字形式,存于數據庫中,并可通過各類檢索系統檢索使用。科研數據結構良好,非常適合進行數據挖掘。將科研數據庫,如文獻數據庫、政策數據庫、語料庫等的原始數據轉換為有用信息,可提高研究效率,優化研究成果的呈現方式,實現全面、快速、準確地了解某一研究領域的現狀,并預測未來的發展方向。比如,基于CNKI期刊論文數據庫的“終身教育與遠程教育”之關系的文獻研究[19]。
(二)開放教育領域教育教學數據應用現狀
盡管開放教育領域早已形成了“大數據倉庫”,但學校缺乏對數據的集中管理與有效利用,對數據的應用相當有限,絕大部分數據只是沉寂在數據庫中,很難從中發現規律和有價值的信息,這種情況主要表現為以下幾方面:1.業務部門難以提出數據的準確需求學校的業務部門對數據的采集、整理、分析主要出于業務驅動,業務流程結束后,數據也隨之沉睡,數據分析處于被動狀態。此外,很多業務部門不了解大數據及其應用場景和價值,尚未形成大數據思維來指導各項工作的開展,在實際工作中難以提出大數據的準確需求:要優化某項業務,到底需要哪些數據?這些數據應當如何獲取?采集的數據要按什么標準進行整理、挖掘和分析?數據的可視化處理應做到什么程度?2.對數據的應用受制于平臺和技術學校各級各類學習系統、信息管理系統的數據產量很大,但對數據的保存和利用率總體偏低。就數據的存儲和處理來說,存在數據類型多樣化、數據讀寫瓶頸、存儲壓力、系統性能瓶頸、數據分析效率低、數據安全等問題。比如開放教育的教務管理系統,龐大的學生成績數據已超出傳統系統的存儲和分析能力,導致對成績數據的處理停留在簡單的查詢、統計、打印和報表階段,未能對數據進行深入分析,獲得有利于教學工作的信息[20]。3.現存的數據分析是零散的、割裂的大數據時代,強調形成機構內部各模塊數據、數據庫網、多媒體數據、各類平臺數據、各類信息載體數據之間的互聯,力求最大限度地利用數據。但現有的教育數據存在機構化、部門化問題,數據呈現割裂、零散狀態,數據分析也較少關注數據之間的相關性。比如,教務處會有意識地整理每學期的在籍生人數、各專業人數、開設課程明細、學期選課人次、學生到課率、按期畢業率、學位獲取率、退學率、終結性考試及格率等數據,但卻很少挖掘這些數據之間的相關性和影響關系,更不用說不同部門數據之間的聯動關系。4.缺乏專門的數據分析崗位及人才大數據時代帶來很多新的理念和技術,擁有與過去完全不同的數據存儲和處理模式,但現有的系統管理員、數據庫管理員仍然習慣使用傳統關系數據庫管理系統,短期內很難具備面向未來的數據分析技能。究其原因,一方面在于學校對數據分析相關崗位和人才的需求態度尚未明朗,另一方面,新技術應用門檻較高,許多大數據技術在成熟度和可訪問性方面暫時不及傳統數據庫和數據管理套件,可用于幫助系統管理員熟悉這些環境的補充分析工具也非常有限。
三、大數據思維對開放教育數據挖掘的若干啟示
(一)自上而下,形成教育教學管理的數據思維
隨著廣播電視大學向開放大學的轉型,成人院校在辦學種類、辦學規模、專業結構和數量、師生來源、甚至所處環境都會發生變化。對開放教育數據進行挖掘與分析,有助于成人院校找準辦學定位,提高教育、教學、管理的科學性,也為學校改進和加強宏觀管理提供了有益的檢測模式和評估技術。大數據思維的推廣應用,需要學校的管理方式、架構、技術均與大數據時代相適配。因而有必要在區域或學校層面形成整體的大數據戰略,并將此作為學校的重要任務,通過大數據思維將信息化教學、信息化管理、遠程教育支持服務與學校日常工作相整合,通過協調化方式,所有部門共同培養和提高收集、存儲、管理、分析和共享海量數據所需的思維與技術,逐步實現數據管理的常規化、即時化、網絡化、公開化。
(二)從智慧校園建設入手,為數據挖掘與分析創造充分條件
隨著云計算和物聯網的出現,校園信息化建設應盡快從數字校園向智慧校園過渡。智慧校園建設通過把傳感器嵌入到校園的各種系統中,將校園管理的眾多軟件系統平臺融入到校園云,實現云、物聯網、互聯網的串通聯接,由此可實現校園實時數據的獲取、存儲和加工分析,從而為學校發展和教學應用提供有效的決策依據,智慧校園作為教育信息化建設的一個實體,對實踐大數據的價值提純有重要的現實意義[21]。此外,智慧校園還包括大數據的標準體系、校園數字化生態環境以及相應的信息化組織管理體系等方面的建設[22]。從基礎設施建設著手,逐步開展基于云計算的大數據應用,實現對教師網絡教學行為、學生遠程學習行為、學生個性特征等的分析和預測,為促進學生身心發展提供適時引導和幫助,提供學校運轉的實時動態數據,助力教學管理科學化、智能化。
(三)腳踏實地,充分挖掘和分析現有數據
大數據時代,數據類型豐富,除結構化數據以外,還混雜著大量的半結構化和非結構化數據。掌握分析半結構化和非結構化數據的能力對大多數學校來說是一個持續的挑戰。學校應將結構化數據挖掘作為大數據思維應用的切入點,注重收集和存儲用戶信息和行為數據,為將來各項應用做好充分準備;與此同時,借助已有的數據分析手段和研究方法,借助數據指導開放教育的發展。在初級應用階段,可以考慮從教學數據、管理數據兩方面進行教育數據挖掘:1.基于網絡教學平臺的數據挖掘(1)學習者特征識別:識別學習者特征,特別是學習者群體的特征,并依據某些關鍵特征對學習者群體加以細分,有助于做好前期的教學設計,并為個性化學習的實施提供依據。比如“學生數量統計與趨勢預測”和“學生特征分類與相關分析”。(2)學習者在線學習行為分析:基于網絡教學平臺中師生學習過程的數據,針對教師和學生的行為方式,如登錄、瀏覽資源、發帖、練習等行為和行為發生時間,以及各類資源、課程模塊的使用情況進行統計、可視化和挖掘。比如“學生登錄行為分析”、“學生資源瀏覽模式分析”、“師生交互論壇分析”和“學生行為影響因素分析”等。(3)師生交互分析:對網絡教學平臺交互論壇中的數據進行分析,幫助教師診斷學生對教學目標的掌握程度,以便給學生提供及時的反饋和指導。2.基于教育管理信息系統的數據挖掘(1)教職工管理:從人事信息數據庫、后勤信息系統、師資管理和測評系統挖掘現有數據,對學校在人才引進、教師績效評價、教師發展、職業規劃、后勤管理、教育決策支持系統等方面提供快速、準確的決策幫助。(2)學生管理:基于學籍數據庫、招生數據庫開展數據挖掘,優化學生管理工作,為學校的招生決策、就業指導、畢業生追蹤、課程設置等提供有益幫助。比如挖掘學生修業結果數據,開展畢業生(輟學學生)特征分析、畢業(輟學)結果影響因素和畢業(輟學)時間影響因素分析,進行畢業(輟學)結果預測規則和畢業(輟學)時間預測規則等。
(四)著眼未來,做好數據型人才儲備
大數據時代,學校的管理決策、課堂的教學決策和對成人學習者的學習支持服務決策都將依賴于海量數據的分析結果,數據分析與挖掘將逐漸成為學校的常規工作,除了注重提升各部門人員的數據分析能力外,成人院校還需有意識地培養和儲備以下人才:1.大數據管理人才在大數據教育應用的萌芽階段,學校對大數據管理人才需求的迫切性要遠超對技術人才的需求。信息技術發展日新月異,過去的教學、管理經驗甚至可能成為現在的束縛。為了應對新時代的挑戰,除設立專門的數據管理崗位外,管理者必須要有意識地轉變思維方式,學會用數據思考、說話和管理;必須學會用大數據的方法,去尋找合適的解決方案。2.大數據技術人才[23]要想對教育教學數據進行充分挖掘,成人院校無疑需要一批懂得大數據,且善于研究大數據、深挖大數據的專家。這部分人才要綜合掌握數學、統計學、數據分析、機器學習和自然語言處理等多方面知識。(1)數據科學家:具有數據分析能力,精通各類算法,能夠直接處理數據的人。(2)數據架構師:精通開放教育各項業務,了解業務需求和業務系統架構,能夠把數據和業務進行對接的人。(3)數據工程師:能夠搭建數據存儲、管理以及處理的平臺,并支撐數據科學家提出的數學模型或算法的運行。
四、小結
關鍵詞:大數據;發展脈絡;營銷趨勢;研究評析
一、問題的提出
云計算、移動互聯網等新信息技術的廣泛應用及社會化網絡的興起,使信息數據產生機制更復雜、傳播速度更快、類型更多樣,全球進入信息數據量“井噴式”增長的大數據時代。國際數據公司(In原ternationalDataCorporation,IDC)指出:全球創建和復制的數據量五年內增長近九倍,預計將以每兩年至少翻一番的速度繼續增長。僅2013年,世界范圍存儲的數據就達1.2ZB(1ZB抑1021B),將這些數據刻錄到CDR只讀光盤并堆起,其高度將是地球到月球距離的五倍[1]。生產和信息方式的變革引起管理規范及其深層次上價值觀的轉變。傳統企業營銷中,為避免無法獲取整體數據的弊端,多依據小樣本采樣統計推斷以形成所謂“科學決策”。然而采樣分析的成功取決于樣本的絕對隨機性,大數據時代,營銷調研建立在對大樣本持續收集數據的基礎上,實時分析和輸出調查結果將為營銷決策提供及時判斷臨界值。在大數據背景下對營銷活動進行研究,具有聚焦數據,提高營銷決策科學性;強調洞察,增強營銷活動“預見性”;重視創新,增強營銷理論“前瞻性”等研究價值[2]。特別是中國具有眾多人口和龐大市場,也使中國成為最為復雜的大數據國家之一。那么,大數據對營銷活動究竟會產生怎樣的影響?其內在機理是什么?通過文獻綜述,對大數據概念進行界定,梳理其發展的歷史脈絡,在此基礎上分析大數據對消費者行為、營銷決策模式、營銷戰略、營銷要素等的影響表征及其機理,最后對大數據的營銷應用研究做出述評。
二、大數據的發展脈絡及概念界定
(一)大數據的發展脈絡
大數據的概念最早要追溯到上世紀,只是在互聯網時代,大數據才從規模、類型等方面得以實現。早在1981年,美國著名未來學家Toffler在其著作《TheThirdWave》中,提及“大數據”,并稱之為“第三浪潮的華章”[3]。2001年,META集團(現為Gartner)的分析師Laney指出數據增長帶來規模性(Volume)、高速性(Velocity)、多樣性(Variety)等變化[4]。《Nature》則在2008年9月開設“BigData”專刊[5-7],同時《Sci原ence》也推出數據處理研究專刊“DealingWithDa原ta”,對數據洪流(DataDeluge)所帶來的社會變革及影響做出討論[8]。大數據研究的開創性論文是Gins原bergetal(2009)的“DetectingInfluenzaEpidemicsUsingSearchEngineQueryData”,該文探討了如何利用谷歌搜索引擎查詢詞來預測流行病[9]。只是在最近幾年,大數據才成為高頻詞。2011年5月,麥肯錫公司《大數據:創新、競爭和生產力的下一前沿》報告,指出“在數據滲透于各領域并成為生產要素的背景下,對海量數據挖掘應用,將帶來新的生產增長和消費者盈余浪潮”[10]。2012年3月,美國開始實施“大數據研發計劃(BigDataRe原searchandDevelopmentInitiative)”,將大數據喻為“未來新石油”,并視為與互聯網、超級計算機同等重要的國家戰略,這也是美國在“信息高速公路”計劃后所實施的又一國家級重大科技戰略。日本緊隨其后,推出“新ICT戰略研究計劃”。同年,世界經濟論壇《大數據、大影響》報告,從多個行業領域闡述大數據給世界經濟帶來的發展機會[11]。就國內而言,2011年12月,國金證券開創國內大數據研究先河,將其研究成果引入資本市場[12]。2012年5月,香山科學會議組織“大數據科學與工程:一門新興的交叉學科”為論題的會議,同年6月,中國計算機學會青年計算機科技論壇(CCFYOC原SEF)舉辦“大數據時代,智謀未來”會議,對大數據挖掘技術、組織架構、平臺治理等展開探討。2013年6月,國家自然科學基金委管理科學部、美國營銷科學學會(MSI)、南京大學商學院(管理學院)和香港中文大學工商管理學院聯合主辦“2013營銷科學與應用國際論壇”,也將“大數據、社會化、移動化對市場營銷的新挑戰”作為主要議題之一。2014年2月,北京銀行與小米科技就移動支付、便捷信貸、產品定制、渠道拓展等簽署協議,表明國內企業運用大數據戰略進入實質性階段。2014年3月5日,總理第一次把大數據寫進政府工作報告,闡明了國家對大數據產業鼎力支持的政策,隨后一系列公開講話進一步明確了這一戰略部署。2015年2月,百度公司利用百度遷徙、百度指數等大數據產品直觀地呈現了春運“景觀”,把大數據研究成果可視化地展示在電視屏幕上。2015年3月,政府工作報告中進一步提出“互聯網+”計劃,推動大數據與現代工業相結合。
(二)大數據的概念界定
大數據本身就是抽象的概念,當前對其概念界定尚未達成統一,不同組織及學者給予不同的表述,見表1。盡管各方對大數據概念并不統一,但其中“大規模數據”“體量、復雜性及速度超越傳統數據”“超越現代技術手段處理能力”等觀點得到基本認可。IBM公司及Laneyetal(2001)認為大數據具有“3V”特征:規模性(Volume),數據量一般要達到TB級甚至PB級;多樣性(Variety),數據結構類型包括結構化數據、半結構化數據和非結構化數據;高速性(Ve原locity),產生、處理、分析數據的速度加快。國際數據公司(IDC)在此基礎上,增加“價值性(Value),即“大數據價值很大但呈現低密度性”的特點,從而形成大數據的“4V”特征[16]。而NetApp公司認為大數據具有“ABC”三特征:大分析(BigAnalytic),通過對大數據實時分析構建新的業務模式并更好地了解顧客需求;高帶寬(BigBandwidth),快速有效地對數據進行處理分析;大內容(BigContent),包括各種類型數據,同時對數據存儲、擴展、安全等管理的高要求[17]。
三、大數據對未來市場營銷的沖擊
根據(移動)互聯網時代大數據的特征、消費者行為變化及營銷模式的可能演變,通過相關文獻梳理,勾畫的大數據對未來營銷活動的影響趨勢,見圖1。
(一)大數據對消費行為的影響
1援消費行為更理性。工業化時代,信息不對稱的客觀存在,消費者易受各種如低價促銷、廣告宣傳等影響。而大數據時代,消費者有更多、更方便的途徑獲取更詳細的商品價格、成本、產地、質量等信息,并可更方便地搜尋、比對和遴選,從而做出更理性的選擇[18]。2援消費行為冪律分布。大數據時代,消費者評價系統更廣泛,先前購物者的購后評價及經驗對新消費者具有重要參考。相比先前購物者的好評,消費者則會更關注其差評,以便做出正確的消費決策。同類產品中,質量好、價格有優勢、服務好的產品受到越來越多的青睞,并不斷吸引新的消費者,形成“滾雪球式”的“馬太效應”,消費行為呈現冪律分布。3援消費行為更個性化。工業化時代,商家追求規模經濟的考慮,只能在有限范圍滿足消費者個性化消費。而大數據時代,信息廣泛并快速傳播,消費者的消費認知及創造力大大提升,消費異質性不斷增大,對產品或服務的關注并不僅限于以往的質量、品牌、價格、售后等,更關注其個性化的滿足程度。
(二)大數據對營銷決策模式的影響
大數據時代,思維方式發生三個變革:其一,要分析與事務相關所有數據而不是少量數據所構成的樣本;其二,要接受數據紛亂復雜的事實,而不能過于苛求精確;其三,更加主動地分析相關關系而不再探究難以捉摸的因果關系[19],可以說,數據驅動型決策(Data‐drivenDecisionMaking)是大數據背景下決策的特點[20],以“數據化、智能化、實時化垣經驗”將成為大數據時代的營銷決策范式。1援數據決策技術升級,注重實時處理及相關分析。傳統分析多基于多元統計、計量經濟學模型等方法,對大量一手和二手結構化數據實施分析,從中尋求研究對象的內在聯系,常用方法有:聚類分析、因子分析、相關分析、回歸分析、A/B測試、數據挖掘等。大數據背景下,數據規模大、傳遞速度快、非結構化數據多等特點,使得傳統數據分析及數據庫管理手段很難適應時代要求。數據產生及傳播速度加快,要求數據應用實現從離線(Offline)向在線(On原line)的實時處理轉化[21]。數據關聯成為大數據的主要價值來源,但數據間交互廣、價值密度低、碎片化嚴重,也使決策重點從以往因果關系分析向相關關系分析轉變。2援決策參與主體向社會大眾傾斜,數據分析師地位加強。大數據使營銷決策越來越依賴于數據分析而非經驗或直覺[22],直覺判斷將被精準的數據分析代替。管理者決策重心在于正確發現并提出問題,一線員工對決策參與度將大大提升,決策主體從社會精英向社會大眾傾斜,扁平化組織架構、學習型企業文化將得到加強。同時,能綜合運用數據分析、分布式管理的數據分析師,將為企業營銷決策提供更多智力支持。
(三)大數據對營銷戰略的影響
1援激發協同營銷的競爭格局。大數據環境下企業與行業的邊界日趨模糊,營銷系統開放性更明顯。企業競爭不再局限于個體之間或供應鏈的鏈條間,而是向多主體所構建的商業生態系統間延伸[23]。企業營銷戰略的設計應打破傳統的個體競爭思維,在不斷提升自身營銷網絡化和動態化能力基礎上,利用外部資源,形成協同營銷格局。2援一對一營銷的精準定位。大數據背景下,企業可以記錄消費者在產品各個生命周期階段的品牌偏好、口碑評價等行為數據,基于社會學、心理學、營銷學、傳播學等相關理論,并借助數據挖掘、統計計量等,按一定的細分標準進行消費行為細分,從而結合自身資源優勢,形成目標市場的選擇和一對一營銷的精準定位。
(四)大數據對營銷要素的影響
1援產品:顧客參與式的產品設計和個人定制。大數據背景下,虛擬企業和智能車間將會越來越多地被采用,顧客參與式的產品設計和個人定制將大行其道。那些市場價值在較短時間發生貶值的短生命周期產品的時效性更強、需求波動大,與外界存在著復雜非線性關系[24]。而長周期產品特別是其中生產工藝復雜、流程管理復雜、客戶需求復雜的復雜品(ComplicatedProduct)將實現供應鏈縱向一體化整合及全生命周期數據整合[25]。“全息”生命周期的完整大數據可幫助企業構建消費者興趣圖譜,從而應用于營銷和新媒體關系定位中。2援渠道:渠道縮短及渠道多元化。大數據背景下,信息技術更為成熟,經由中間商的渠道模式將讓位于直銷,渠道長度越來越短。特別是具有及時反饋交互關系平臺技術的實施,使企業可開發出更多、更便捷的渠道與顧客連接,實現多渠道及跨渠道營銷。諸如微商等“屏幕+手指+快遞”的購物方式,配合超低的價格,使營銷渠道更趨多元化。3援價格:透明度更高,基于支付意愿的差異化定價。傳統營銷定價多從產品成本、利潤率、顧客接受度等簡單因素考慮,并依據先前相關銷售經驗建立精算模型。大數據背景下,傳統精算模型將被顛覆,價格不對稱性有所改善,定價透明度越來越高,明智的價格策略是企業“陽光”定價,基于支付意愿的差異化定價將成為主導,電子支付成為主流。4援促銷策略:促銷手段的數字化、互動化趨勢。大數據背景下,傳統電視、報紙、廣播等大眾傳媒的傳播效率不斷下降,而建立在數據庫基礎上的移動互聯網將成為促銷信息的重要傳播手段,促銷手段更具數字化。同時,促銷手段更新穎,目標受眾被多元化數據鎖定,并特別強調與顧客間的互動和情感溝通。
四、大數據研究在營銷中的應用評析
(一)研究層次:偏宏觀層面研究,輕微觀分析
當前對大數據的相關研究,更多從宏觀層面對其概念內涵、形成脈絡及其對社會所產生的影響方面展開描述,而對大數據所形成各種影響的內在機理缺少必要的微觀分析。大數據為未來營銷帶來深刻影響,但機會和挑戰并存,其合理利用前提是必須擁有準確、可靠、及時的高質量的數據[26],只有在此基礎上,才能提煉出有效的營銷決策信息,才能幫助企業實現精準定位。
(二)研究視角:多立足于信息科學視角,缺少管理視角
當前,國外從管理學視角應用大數據技術來支持管理決策已成為商科教育的熱點[27]。相比之下,國內相關研究還處于起步階段,數據驅動決策的管理模式還有待形成,現有的相關研究則更多立足于對數據信息的采集、處理、檢索、挖掘及離線分析等信息科學視角。而只有立足管理決策的視角,探討大數據對現代經濟組織的戰略定位、架構設計、營銷實施等實時問題,才能真正發掘大數據的“資源”價值,建立起信息引導決策的機制。
(三)應用范圍:國內多理論研究,實踐廣度、深度不夠
統計學論文2300字(一):統計學方法的發展及其在大數據中的應用論文
【摘要】現階段,統計學方法在我國企業管理中有廣泛應用。本文嘗試對統計學方法的誕生以及發展情況進行了簡要的分析,同時還對統計學方法在現今大數據時代的應用情況進行了探索。
【關鍵詞】統計學方法發展大數據應用
對于統計學方法來說,誕生的最初只是為了進行單純的計數以及描述,隨著統計學方法的不斷發展,其所涉及到的內容更加多樣化。在統計學家以及各個領域專家的不懈努力之下,統計學方法正在不斷的進步以及完善,在實際應用的過程中也發揮出了較為理想的效果。在現階段大數據的時代背景之下,對統計學進行深入探究是非常重要的,會對今后多個行業的快速發展起到促進作用。
一、統計學基本發展探析
對世界統計學的發展情況進行分析,會發現,其與科學界的發展趨勢較為類似,隨著統計學的不斷完善,也開始與其他科學進行融合發展。對統計學進行總結,可以發現,其主要具備兩個基本結合趨勢,即與實質性學科結合的趨勢以及與計算機學結合的趨勢。對于統計學來說,其與經濟學結合發展我國有廣泛的應用,并且產生了經濟統計這一專業;而統計學與教育的結合產生了教育統計。對于這些分支學科來說,其具有雙重屬性。一方面是統計學的分支;另一方面是實質性學科的分支。隨著計算機信息技術的不斷發展,其運算能力不斷提升,這也使得大規模的統計調查工作在實際展開的過程中取得了理想效果,不僅保證了數據計算的準確性,同時也保證了計算的高效性。因此,在進行統計學技術研究發展的過程中,與計算機技術的深入結合應用是重要發展途徑。通過對計算機軟件的有效應用可以使統計計算過程中一些疑難的部分得到有效解決,同時也使得統計計算的展開更加方便。從現階段我國經濟類統計專業的教育情況來看,一方面在對統計方法進行創新教育,另一方面在對學生利用商品化統計軟件包裝能力進行提升。由此我們可以看出,在今后統計學的發展過程中,勢必不能離開計算機技術的支持。在今后統計學相關專業的教育過程中,應該對學生的計算機程序設計以及利用能力進行培養提升,使得在展開統計工作的時候可以通過統計模型的編程來實現。
二、統計學方法在大數據中的應用趨勢
(一)統計學方法及相關領域的動態分析
目前,國內外對統計學都有較為廣泛的應用,主要應用在教育行業、生產制造行業以及企業管理當中,取得了較為理想的應用效果。根據CNKI數據庫中統計方法、機器學習分布情況可以看出,在機器學習領域的論文數量從2013年以后一直呈現出持續增長的勢頭,并且在2016年超過了統計方法領域的論文數量。由此可以說明,我國在機器學習領域的發展速度正現出穩定提升的趨勢,反映了我國在大數據領域研究方面越來越深入,所應用的研究方法也開始呈現出多樣化的特點。從總體上來看國內在統計學方法研究過程中已經取得了階段性的成果,并且其所面臨的拐點與國家上的統計學發展拐點基本保持一致,大概都是在2013年開始對大數據以及將其學習等方面有了深入的探究,并且開始逐漸取得突破性的成果。而機器學習方法的論文數量都是在2016年開始超過統計方法的論文數量。但是與此同時,我們也看出其差異性也很明顯,國內在統計方面研究的論文以及在機器學習方法方面研究的論文與國際相比較尚且存在較為明顯的差距,并且這種差距呈現出了持續性的特點,這也使得我國在這兩個領域方面還有很大的發展空間。
(二)統計學方法及相關領域研究方向分析
經過對CNKI數據庫中的統計方法以及大數據領域期刊論文分布情況進行分析之后,可以看出,統計方法領域中出現頻次最高的是“統計分析”以及“數理統計”、“人工智能”;在大數據領域出現頻次較高的是“云計算”、“圖書館”以及“物聯網”等關鍵詞。通過上述關鍵詞來看,其所涉及到的內容都是反映當前我國統計以及大數據技術所研究的重點以及熱點,同時我們也可以看出,現階段我國在統計與大數據領域方向的研究存在著一定的重合。在進行的數據研究的時候,需要應用到統計學方法,同時統計學方法在利用的時候往往也需要與大數據進行結合。
(三)統計學方法的發展展望
有數據的地方勢必就會涉及到統計學。從17世紀開始,國勢學派以及算數學派的爭論到今天大數據計算、計算機技術的相互作用,使得統計學的內容正在不斷完善,并且其應用領域也在不斷擴大,隨著大數據時代的來臨,使得傳統的統計學發展方向發生了一定轉變,開始從小樣本的統計推斷分析走向大數據量的挖掘分析,從而使其所掌控的數據量不斷提升。在未來統計學方法發展的過程中,應該注意將統計學與新的數據思維相結合,從而產生一種新型的、應用范圍更廣的大數據算法。從現階段我國大數據方法創新發展的情況來看,其與國際研究在深度以及廣度上還存在不小的差距,這也恰恰說明了我國在大數據統計學方面還有很大的進步空間。現階段,國內的大數據研究更多的是停留在信息化產業上,與其他行業的融合發展趨勢尚且不明顯,這也使得信息服務以及數據產業的創新發展受到了一定影響。在今后統計學發展的過程中,其研究熱點勢必會從數據分析以及數據發掘向算法方向轉移,這樣也使得大數據技術與統計學方法二者之間的聯系更加緊密。
結束語
綜上所述,我國統計學方法在今后發展過程中應該充分考慮到實際需求,積極適應時代變化,現階段大數據時代已經全面到來,并且大數據技術在我國有廣泛應用,在實際應用的過程中取得了較為理想的效果。將大數據與統計方法進行結合可以使統計學方法的作用得到更好的體現,也使得統計學方法不斷的進步以及拓展,在大時代背景之下,其功能性得到了更加充分的展現。
統計學畢業論文范文模板(二):線上線下混合式教學在生物統計學教學中的實踐與研究論文
[摘要]為提升生物統計學課程的教學水平,針對傳統生物統計學教學中的局限,分析和實踐基于線上網絡教學+線下面授教學的混合式教學模式在生物統計學教學中的應用策略和方法。實踐表明,通過線上+線下的互動與教學,能激發學生學習的興趣與動力,豐富生物統計學的教學形式與內容,促進生物統計學教學質量的提升。
[關鍵詞]線上線下;混合式教學;生物統計學;實踐
[作者簡介]嚴明(1981—),女,重慶人,博士,講師,研究方向:生物技術。
[中圖分類號]G642[文獻標識碼]A[文章編號]1674-9324(2020)25-0273-02[收稿日期]2020-03-18
生物統計學是生物醫學類專業的必修課程,學生通過學習本課程掌握實驗設計的原理和方法,并學會對實驗數據進行統計分析和處理。然而,生物統計學涉及到大量基礎理論,單純通過教師講解,學生理解度較低,學習效果不佳。如何在有限的課時內,改革傳統的以講授為主的教學方式,有效提高教學效果是生物統計學教學亟待解決的難題。
近年來,隨著互聯網信息技術的發展,一種基于線上網絡教學+線下面授教學的混合式教學模式應運而生。該模式可避免傳統教學模式中以教師為主導,學生學習主動性差的缺點,又可克服學生完全在線學習缺乏監管、學習效果不佳的困難。本文嘗試將混合式教學方法運用到生物統計學教學中,以期在有限的教學時間內最大限度實現教學目標,提升課程教學效果。
一、線上線下混合式教學的概念及內涵
線上線下混合式教學是一種新興的教學模式,授課教師利用網絡教學平臺向學生提供教學視頻和課件等教學資源,并設置作業、調查等互動模塊,學生利用課外時間自主完成學習任務,并通過平臺與教師交流。在線下課堂,教師根據學生在線學習的情況,對疑難問題進行有針對性的講授,幫助學生理解、掌握教學難點。
線上線下混合教學模式打破了教學的時空限制,學生可以靈活安排學習時間,通過學習在線資料提出問題,并帶著問題進行課堂學習,有效提升學習效率。線上線下混合教學還可幫助教師動態掌握學生學習情況,生成客觀的過程性評價材料,并豐富課程的教學形式,拓寬教學路徑,因此正逐漸成為高等教育領域的一大趨勢。
二、生物統計學課程教學面臨的困境
1.教學時長受限。目前,本校生物統計學面向生物醫學工程和醫學信息工程專業開設,每學期共32個課時。由于教學內容抽象,而且學生要通過大量實踐才能掌握統計學原理在生物研究中的應用,因此,教學難度高,課堂教學時間很難滿足教學需求。
2.教與學不同步。傳統教學模式下,教師與學生之間的溝通以課堂為主,教師按照教學安排按部就班地進行教學,對學生需求重視不足;學生缺乏主動反饋的意識,教師很難掌握學生的真實學習狀況,教與學處于不同步狀態。
上述困境對如何拓展教學時間,完成課程教學并指導學生學以致用提出了新的挑戰。
三、線上線下混合式教學在生物統計學教學中的實踐探究
1.構建線上教學平臺,實現課前線上自主學習。授課教師首先以超星泛雅平臺和學習通APP為依托構建線上教學平臺。教師在平臺上將課程每章的重難點列示出來,搭建課程框架體系,并上傳包括課件和教師根據課程知識體系錄制的教學視頻等資料。教學視頻時長控制在15分鐘以內,并保證精煉、易懂,讓學生不會因視頻過長而放棄觀看,提高學習時效。同時,在教學平臺提供視頻配套的課件資料,方便學生下載并配套觀看。教師還在平臺設置了視頻彈幕問答和闖關式章節測試,學生通過答題和測試后才能進入后續章節的學習。
在教學實踐中發現,線上教學平臺還可以為理論教學提供良好的拓展實踐平臺。教師可以在線上平臺提供實驗設計及實驗數據分析的實例供學生練習,實現對課時壓縮的有效彌補。學生普遍反映網絡教學平臺十分有利于自主學習,尤其是遇到知識難點時,學生可以通過反復線上觀看教學視頻來幫助理解,能達到較好的學習效果。
此外,線上教學平臺可以通過視頻回放次數、測試完成程度等數據統計幫助教師了解學生之間的差異性,既方便教師掌握學生學習狀態,分析存在的問題,也為線下課堂教學提供依據,在后續教學中因材施教,滿足不同層次學生的個性化學習需求提供依據。
2.線下檢測自主學習效果,實施針對性教學。采用線上線下混合模式教學,課堂教學的任務發生轉移。教師要集中精力對知識點進行梳理和歸納,并針對重難點以及學生在線上學習過程中的困難進行答疑解惑和查漏補缺。在教學實踐中,為完成上述任務,在每個章節的線上學習完成后均安排答疑和小組討論,讓每位學生通過多種方式修正和完善遺漏或理解錯誤的知識點。全部授課結束后,授課教師向學生發放了關于教學效果的調查問卷,結果顯示,78.2%(18/23)的學生認為采用混合式教學方法可以把重要知識點學透,在課堂上有更充裕的時間進行消化吸收,更有利于教學內容的掌握。
在線下教學中,教師還對教學場景進行了編排和優化。教師提供具體的實驗案例,并以某一具體實驗案例(如抗癌藥物篩選)為背景貫穿整個課程教學始終,模擬真實實驗場景,讓學生從實驗參與者的角度設計實驗流程、整理實驗數據、統計分析和解讀呈現的全部流程。幫助學生實踐生物學研究提出假說—實驗驗證—得出結論的基本流程,理解生物統計學對生物學研究的重要指導作用,培養學生知識遷移、應用和分析并解決科學問題的能力。
3.課后回顧學習并提升。在課堂教學完成后,師生的教學活動都還沒有結束。教師要對線上線下教學過程中容易出現的問題進行整理總結,并將解決方案到網絡平臺,供學生回顧性學習。學生要對課堂上遇到的問題,搜集學習資料進一步思考和鞏固。教師還要對學生課后學習情況進行挖掘,并根據學生的不同情況進行個性化的學習支持。對于有困難的學生,教師要單獨輔導和監管,幫助學生完成課程學習;對于學有余力的學生,可以鼓勵學生走進實驗室,跟隨教師的科研工作,完成真正的動手實踐,實現素質提升。最終通過師生配合,完成對課程教學效果的提升。
4.教學考核。由于教學形式發生變化,課程的教學考核模式也要隨之做出調整和改變。在實踐中,教師改變傳統的期末考核模式,充分利用線上線下教學記錄,實現全過程考核。考試成績包含網絡平臺學習考核(25%)、線下課堂表現(25%)和期末閉卷考試(50%)三部分。其中網絡平臺學習考核由系統根據學習時間、頻率以及測試情況生成;課堂表現根據學生聽課及參與討論情況,綜合學生互評和教師考核給分。上述考核方式,降低了期末考試在總成績中的比重,更加側重于學生的平時學習積累和實踐能力的培養。因此,可避免學生“突擊考試”的僥幸心理,促進學生向平時主動學習轉變,更符合現代教學模式和人才培養的需求。
[關鍵詞]大數據;決策樹;價值率;保險
[DOI]10.13939/ki.zgsc.2017.02.071
1 引 言
隨我國經濟快速增長,人民收入不斷增加,保險業也呈現出高速發展的趨勢,自國內恢復業務以來,保險業相比金融領域的其他行I,取得了不小的成績。新時代背景下的保險業所呈現出的信息多元化、海量化等特點,使得大量用戶信息以指數級增長趨勢存在于保險行業,多元化的媒體介質輸入導致數據預處理難度加大,用戶的興趣遷移導致構造用戶畫像模糊,而保險行業競爭日趨激烈,高風險性條件情況下保持客戶黏性,降低流失率對企業競爭就顯得尤為重要。
傳統的商業情報分析往往結合數據挖掘技術對歷史數據和已有的用戶信息進行挖掘,發現潛在的未知的具有一定商業價值的信息,但由于以往的客戶數據信息量較小,信息量更換慢,現有的保險業使用的傳統的運營環境和模型難以適應海量數據,以及傳統模型運行速度慢,運行代價高,準確率低,挖掘深度不夠等都是不容忽視的弊端。近些年,隨著大數據技術、人工智能、機器學習在工程和學術界的火熱發展,相關的數據模型都發展得十分完善充分,而決策樹其良好的魯棒性,全樣本挖掘性,準確度高,實施快捷,運行速度快,實現成本小都是它的優勢所在。
故本文首先引入“數據湖”的概念以緩解傳統數據處理處理異質數據問題,適應不同數據源存儲介質的需求,引入使用可擴展性大數據分析模型獲取用戶的興趣遷移特征,應用算法基于CART決策樹算法模型并以某保險公司具體用戶數據為實例構建應用場景進行模型訓練和數據預測,并創新性地引入價值率對用戶進行分類解決公司所面臨的處理用戶海量數據時間較長、效率較低、準確度不高等問題。
2 基于決策樹C4.5算法的數據模型
2.1 模型生成描述
數據基本處理:原始用戶數據錄入,形成基礎數據湖,并將數據導入HBase和Oracle數據庫中,對數據選取加工預處理并對數據進行選表、選鍵、連接器層選擇以匹配數據模型,通過數據表的前期基本處理清洗篩選形成基礎寬表,在形成寬表基礎上再對數據清洗機進行標準化處理,對樣本數據做簡單的描述統計、缺失值處理以及標準化(分層處理)工作。
模型生成:調用Apache Spark 中的Mllib決策樹中的類庫,根據樣本數據和用戶情景生成初始模型,對生成的模型進行訓練集和驗證機選取,我們此處以7/3原則進行選取,對大數據模型進行訓練,將數據抽樣導出到數據中介Oracle中,將傳統的SAS數據挖掘模型訓練導入JAR中以便對比,至此基本的模型池生成,經訓練測試后的用戶反饋信息對模型的各個參數進行調試,并對外服務模型,模型中所設計重要參數如表1所示。
數據預測:根據服務模型和用戶輸入的基本信息屬性進行加工,并對模型的預測產生結果集,再根據結果集進行場景信息預測并生成用戶畫像。
2.2 決策樹C4.5算法
3 實證研究
3.1 實驗數據
基于某保險公司的用戶數據,由于數據本身來源差異和獲取方式的不同,導致“數據湖”中本身存在大量的不完整、不一致、含噪聲和冗余數據,所以需要對數據進行一個簡單的處理分析工作,其一,減少數據集變量間的冗余,方便模型挖掘數據的效率和輸出預測信息的簡潔;其二,提高數據屬性列間的相關性,去掉關聯性較高的數據屬性列,如保險繳費與收入屬性具高相關性;其三,由于決策樹模型運行時離散型數據進行處理速率較快,故多連續性數據進行離散化處理。
數據選取基本上對寬表的行列維度數據進行處理,由于在實際過程中對數據生成一個大約20個屬性列的寬表,數據選擇可以避免數據處理時發生高維數據災難,并且在數據處理過程中進行部分數據歸一化處理,以適應模型的匹配度。見表1。
3.2 分析工具和平臺
本模型運行平臺基于Hadoop分布式文件系統,其良好的高容錯性和高吞吐數據訪問比較適合大規模數據集的應用,本模型應用的環境基于HDFS的基本運行環境,使用Python數據處理語言,操作系統版本:CentOS release 6.5(Final),搭建集群6臺,各個設備相關信息:Intel(R),E5606,@2.13GHz,2128.000MHz,cache size:8192KB。
3.3 模式評估與應用
算法模型的運行結果展示出哪些因素影響客戶流失的決策,通過評估可以得到更為有價值的客戶信息,評估方法有準確率,召回率,F1-score,PR,ROC等,其中,真正TP:樣本類型被數據模型正確歸類預測命中正確類的數量;假負FN:樣本類型被數據模型誤判為其他類型的數量;假正FP:樣本不屬于正確類別被數據模型誤判為正確類別的數量;真負TN: 樣本類型屬于正確類別被數據模型誤判為其他類型的數量。
全樣本數據運行模型的結果展示見表2。
經結果發現這里采用準確率、召回率以及F1_score,抽取用戶的預測值與評分值進行模型檢驗,得到值均在合理值范圍,模型運行時間2320.34s,較傳統的SAS跑出的34min23s,較為高效,據此此模型可以投入運用。
4 結論與展望
論文借助“數據湖”挖掘模型實現了保險業的用戶流失率檢測,取得了以下結論。第一,論文建立在HDFS運行環境中,一方面,通過對決策樹基本特點的研究,找到了決策樹與保險業用戶流失率的結合點,建立了基于用戶數據湖的大數據模型;另一方面,模型基于開源HDFS環境中,具有良好的可擴展性。第二,根據信息論的相關理論概念引入信息熵和客戶價值率,提高對客戶數據屬性分類的準確性,本文最后結合實例對所提出的模型進行驗證,證明數據模型的可靠性。
本文引入“數據湖”的概念以緩解傳統數據處理異質數據問題,極好地適應不同數據源存儲介質的需求,并引入使用可擴展性大數據分析模型以便適應用戶的興趣遷移,通過數據挖掘技術提高銷售凈利率,擴大企業市場所占份額,識別客戶等級,誠信度和價值率,降低企業風險,預測預警以及制訂相應的決策計劃,降低用戶流失率提高忠誠度,本文基于CART算法模型以某保險公司用戶數據具體數據為實例構建應用場景進行模型訓練和數據預測,并創新性地引入價值率對用戶進行分類解決公司所面臨的處理用戶海量數據時間較長效率較低準確度不高等問題。
由于時間和硬件環境的制約,本文仍存在一些有待進一步改進和深入研究的地方。第一,論文對于數據挖掘算法采用較為經典的決策樹方法,在數據處理時采用常規處理方法難免會導致部分數據的缺失和預測準確率的下降;第二,本文研究中數據均居于有限的數據集,隨傳輸媒介的變化,用戶的時間維度并未良好地考慮進去,對用戶仍舊缺乏較時間維度及其用戶標簽等級的良好劃分。
參考文獻:
[1]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013(1):146-169.
[2]王艷. 中國保險公司制度變遷與創新研究[D].長春:吉林大學,2014.
[3]丁兆云,賈焰,周斌. 微博數據挖掘研究綜述[J]. 計算機研究與發展,2014(4):691-706.
[4]Quinlan J R.C4.5 Programs for Machine Learning[M].California:Morgan Kaufmann,San Mateo,1993.
[5]趙強利,蔣艷凰,盧宇彤. 具有回憶和遺忘機制的數據流挖掘模型與算法[J]. 軟件學報,2015(10):2567-2580.
1數據智能分析師培養
就業前景分析方面,谷歌首席經濟學家哈爾•瓦里安預計,未來即將出現一類新型的專業人才和職業崗位——數據科學家,當然數據智能分析師也會應運而生。現下時代是數據時代,甚至稱之為大數據時代,企事業單位面臨大量數據如互聯網數據、醫療數據、能源數據、交通數據等,實際應用中普遍遇到分析能力弱、噪聲數據多、缺少分析方法、分析軟件能力差、模型可信度低等問題,其主要原因在于傳統數據分析方法不能滿足需要,而數據挖掘技術、機器學習技術、模式識別技術、知識發現等智能技術可以為數據智能分析方法與工具提供技術支撐。2014年4月24日,百度高級副總裁王勁在第4屆“技術開放日”上正式宣布推出“大數據引擎”,數據智能概念由此產生。數據智能分析是指通過數據挖掘技術、機器學習、深度學習、模式識別與分析、知識發現等技術,對數據進行處理、分析和挖掘,提取隱藏在數據中有價值的信息和知識,從而尋求有效解決方案及決策支持預測。目前社會急需懂得智能技術的各層次數據智能分析人才,可以預計,熟練掌握智能技術的數據科學家、數據分析師、數據挖掘人員將有廣闊的用武之地。培養手段探索方面:①以“點—線—面”結合的方式橫向縱向設置課程群,面向數據智能分析,以案例為導向貫穿“線”上的各關節點課程,比如以數學基礎課(線性代數、概率統計、數學分析)大類專業課(程序設計、數據結構、數據庫技術)數據智能分析專業課(數據挖掘、機器學習、多維數據分析)為主線,理論與實踐齊頭并進;②立足培養“計算技術+智能信息+知識技術”的高級數據分析師,理論學習—隨課實驗—集中實踐—科技活動—企業實習—畢業設計等教學環節協調配合,“資格認證—競賽獲獎—獎學資助”激勵培養;③以大數據智能分析為契機,積極培養本科生的大數據計算思維和認知能力,使其掌握大數據智能分析方法、機器學習數據挖掘工具和開發環境。政策導向分析方面:建議中國計算機學會與中國商業聯合會數據分析專業委員會等機構緊密協調合作,設立適應新時代社會與經濟發展的“數據智能分析師”認證[6],當然將大數據智能分析納入計算機水平考試的可選項也是當前的一種解決方案,提高智能科學與技術專業社會認可度,增強本專業學生的歸屬感,更好地培養各層次的數據智能分析人才。
2創新型智能技術人才培養
智能科學與技術的發展與計算機技術幾乎同時起步,但其進展比計算機技術要慢許多,根本問題在于高級智能的載體——“人腦”是世界上最復雜的系統,人類對它的認識和了解仍然處于初級階段。近年來通過智能技術解決實際應用問題有了長足進步,國內已相繼有20多所高校面向市場變化和未來需求,自2004年以來陸續開辦了智能科學與技術本科專業。盡管大多數智能技術的理論基礎還不完備,但實際應用的強勁需求與問題解決能力超越了薄弱理論基礎的約束。本專業課程的教學內容與課程實踐都適合教師與學生以研究者的身份參與到“教”與“學”的活動之中。1)研究型教學。蓬勃發展中的智能技術需要教師啟發式、創造式、批判式地“教”,學生也要創造式、批判式地“學”。教與學要能夠從研究思維、問題探索、模型改進、算法優化、腦認知和自然智能指導的角度推進教學活動,進行創新性教學和研究型學習。教學實踐活動中應強調學生半監督式學習與自監督學習為主導,鼓勵引導深度學習,經典案例、前沿講座、討論探索貫穿課堂教學,課程考核注重創新科技實踐、問題探索、課程內容探索、課程研究性專題報告、以課程為基礎的作品開發等創新效果和教學效果。2)“研究型分組”培養。智能科學與技術專業開辦時間不長,成熟教材不多,課程體系需要不斷適應學生和社會的需求做出調整,又加上智能科學專業課程本身的發展探索與實際應用現在處于同步發展階段,決定了專業老師大力推進“研究型班級教學”,在教學過程中實施“大班基礎講授”+“小班研究型討論”+“小組探索型課題實施與報告”的教學體系,同時來自相關研究方向的研究生也作為助教協助專業老師對小班(組)課題討論進行引導。3)科研訓練提高學習積極性。大類培養模式下實施科研訓練引導學習,大一、大二年級主要學習公共基礎課程和大類專業基礎課程,其中的數學基礎課,如線性代數、高等數學、概率統計、離散數學等,由于缺乏實際應用案例支撐,很多學生會懷疑這些知識在將來本專業學習中的用處,課堂課后處于被動學習狀態,個別學生還會由于認識滯后,產生厭學情緒甚至放棄基礎知識學習,以致于專業分流后表現為學習能力嚴重不足。通過吸收本科生參加科學創新實踐和科技活動,使他們發現數學知識能夠用來解決實際問題,有利于提高本科生學習基礎知識的積極性,變被動學習為主動學習。同時,教師也能從中發現部分優秀本科生的創新潛力和研究能力,激發他們科學研究的興趣,引導他們把智能科學技術作為研究方向并致力于攻讀相關方向碩士研究生、博士研究生,進一步強化其科學創新能力,勢必會使其獲得高水平創新性成果。大類培養模式下強化專業教育與實踐,專業老師要積極主動引導學生,變被動地等待學生選專業轉變為吸引優質學生,以大二上學期為主要時間點,引導大類專業學生對特色專業的興趣,通過科學研究和學生科技活動吸引選拔學生進科研團隊,同時實施科研成果進課堂、進教材、進學生活動。專業教師、班導師可宣講專業特色和就業前景,指導本科生申請大學生科研訓練計劃、參加科技競賽、開發智能技術特色作品。大類培養模式下實施科研訓練計劃,需要本科生積極主動地理解大類下各子專業的特點和特色,結合自己的興趣愛好和實際情況,在大類培養結束時分流到各特色專業。因此,本科生參加科研實踐和專業科技活動的時間點很重要,從大一結束后的暑假開始,一直延續到本科畢業,同時實施“泛畢業設計”(即大二選方向并實施課題基礎儲備,大三實施課題,大四結合專業實習完善畢業設計)[3],這樣既充分利用了本科生大二大三充裕的課后時間,也緩解了大四本科生面臨就業、考研、出國等問題的突出矛盾。
3智能系統開發人才培養
智能技術已成為當前技術革命創新的源泉,智能系統廣泛應用于工業、農業、服務業等各領域,比如2014年11月2日開始處女航的皇家加勒比郵輪公司“海洋量子號”郵輪也因為大規模運用了高科技智能系統而號稱“世界上第一艘智能郵輪”。智能系統是建立在“智能技術+計算技術”基礎上,結合了控制技術、信息技術的軟硬件系統。智能系統開發人才培養目標是社會急需的智能系統開發工程師,其從事的工作主要包括智能系統的設計、開發、維護、運營、服務及相關的技術指導。為了適應智能系統開發人才的培養,應該建設智能終端實驗平臺、計算智能實驗平臺、腦認知實驗平臺、高性能計算平臺等人才培養基地與實訓基地,推進實施智能終端軟件開發技術、智能系統應用課程設計、智能系統與工程課程設計、智能游戲開發與設計、人機交互系統開發與設計等教學實踐活動。
4復合型智能技術人才培養
智能科學與技術是一門綜合學科,智能技術也廣泛應用到智能交通、智慧城市建設、電子信息、信息安全、電子政務、電子商務、工業制造、教育、醫療、管理、農業現代化、國防現代化等眾多領域,需要大量復合型智能技術人才。筆者認為,以下4條措施是智能科學與技術新興專業培養復合型人才切實可行的培養方案:①充分發揮大類培養特色明顯的人才培養優勢,開放“全校特色專業選修課”,跨專業、跨學院科教團隊,與大學生科技創新計劃融合,重點培養學生的綜合性、復合性、應用性;②引導并嚴格要求B學分課程學習,特別是設計規劃實施好“科技創新”、“文體活動”、“技能認證”、“企業實習”、“暑期社會實踐”等綜合能力提高計劃;③交叉融合辦好本科生二專業,鼓勵學有余力的本科生對知識的渴求,允許學生在本專業的基礎上再輔修另一個專業,并提供配套措施,保證二專業學生能獲得優質教育,發揮學科交叉融合優勢,使本科生形成寬廣深厚的知識結構,培養有特色的智能科學技術專業復合人才;④通過與企業橫向合作,建立校企實訓基地,緊跟企業和市場需求,與企業聯合培養復合應用人才。
5結語