時間:2022-12-25 11:10:22
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據挖掘技術探討論文,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
大數據背景下的機器算法
專業
計算機科學與技術
學生姓名
楊宇瀟
學號
181719251864
一、 選題的背景、研究現狀與意義
為什么大數據分析很重要?大數據分析可幫助組織利用其數據并使用它來識別新的機會。反過來,這將導致更明智的業務移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯網和技術公司的支持下,大數據在2000年代初的數據熱潮期間出現。有史以來第一次,軟件和硬件功能是消費者產生的大量非結構化信息。搜索引擎,移動設備和工業機械等新技術可提供公司可以處理并持續增長的數據。隨著可以收集的天文數據數量的增長,很明顯,傳統數據技術(例如數據倉庫和關系數據庫)不適合與大量非結構化數據一起使用。 Apache軟件基金會啟動了第一個大數據創新項目。最重要的貢獻來自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數據準備和ETL的旗艦,可以為許多數據存儲或分析環境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發)通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。
隨著數據呈指數級增長,企業必須不斷擴展其基礎架構以最大化其數據的經濟價值。在大數據的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產系統非常昂貴且效率低下。要使用大數據,您還需要適當的人員和軟件技能,以及用于處理數據和查詢速度的硬件。協調所有內容同時運行是一項艱巨的任務,許多大數據項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業能夠勝過現有系統。
二、 擬研究的主要內容(提綱)和預期目標
隨著行業中數據量的爆炸性增長,大數據的概念越來越受到關注。 由于大數據的大,復雜和快速變化的性質,許多用于小數據的傳統機器學習算法不再適用于大數據環境中的應用程序問題。 因此,在大數據環境下研究機器學習算法已成為學術界和業界的普遍關注。 本文主要討論和總結用于處理大數據的機器學習算法的研究現狀。 另外,由于并行處理是處理大數據的主要方法,因此我們介紹了一些并行算法,介紹了大數據環境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數據量大的情況下算法和模型的關系,同時也會探討大部分細分行業數據量不大不小的情況下算法的關系。
三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)
1.視覺分析。大數據分析用戶包括大數據分析專業人士和一般用戶,但是大數據分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數據的特征,并像閱讀照片的讀者一樣容易接受。 2.數據挖掘算法。大數據分析的理論中心是數據挖掘算法。不同的數據挖掘算法依賴于不同的數據類型和格式來更科學地表征數據本身。由于它們被全世界的統計學家所公認,因此各種統計方法(稱為真值)可以深入到數據中并挖掘公認的值。另一方面是這些數據挖掘算法可以更快地處理大數據。如果該算法需要花費幾年時間才能得出結論,那么大數據的價值是未知的。 3.預測分析。大數據分析的最后一個應用領域是預測分析,發現大數據功能,科學地建立模型以及通過模型吸收新數據以預測未來數據。 4.語義引擎。非結構化數據的多樣化為數據分析提出了新的挑戰。您需要一套工具來分析和調整數據。語義引擎必須設計有足夠的人工智能,以主動從數據中提取信息。 5.數據質量和數據管理。大數據分析是數據質量和數據管理的組成部分。高質量的數據和有效的數據管理確保了分析結果在學術研究和商業應用中的可靠性和價值。大數據分析的基礎是前五個方面。當然,如果您更深入地研究大數據分析,則還有更多特征,更深入,更專業的大數據分析方法。
四、 論文(設計)的工作進度安排
2020.03.18-2020.03.20 明確論文內容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數據分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.
2 . 喻國明. 大數據分析下的中國社會輿情:總體態勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數據分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數據分析的分布式molap技術 .軟件學報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側大數據分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數據分析的輸變電設備狀態數據異常檢測方法 .中國電機工程學報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數”:2012年社會輿情運行態勢研究——基于百度熱搜詞的大 數據分析.編輯之友,2013.被引量:4.
六、指導教師意見
簽字: 年 月 日
七、學院院長意見及簽字
【關鍵詞】 共享數據時代; 數據挖掘; 應用統計
【中圖分類號】 C81 【文獻標識碼】 A 【文章編號】 1004-5937(2016)22-0024-02
第八屆國際數據挖掘與應用統計研究會年會于2016年7月23―26日在油城大慶隆重召開。本屆會議由國際數據挖掘與應用統計研究會主辦,東北石油大學、廈門大學數據挖掘研究中心、臺北醫學大學大數據研究中心、重慶允升科技大數據研究中心和重慶譽鋒宸數據信息技術有限公司聯合承辦。會議主題為“卓越數據共享統計的理論及應用研究”。來自國內外近百所高校、政府和企事業單位的200多位專家學者參會。
會議開幕式由東北石油大學數學與統計學院院長王玉學教授主持。東北石油大學副校長呂延防教授介紹了大慶市貌、學校環境和鐵人精神等,對本次會議的作用和意義進行了高度評價。教育部統計學類專業教學指導委員會主任、廈門大學曾五一教授從統計學科如何適應大數據時代的發展角度,對會議的召開提出了進一步的期望。臺北醫學大學謝邦昌教授結合大慶石油,暢談了大數據的應用前景。廈門大學朱建平教授從學會的起源到現狀,對學會未來的發展前景作了展望。
本屆大會除特邀報告外,入選論文52篇。按照論文所涉及的理論領域和方法應用,將入選論文分為數據挖掘與大數據應用、統計理論、統計方法應用及實證分析等專題進行了分組交流討論。主要學術觀點綜述如下:
一、數據挖掘與大數據研究現狀及未來趨勢研究
謝邦昌教授在《大數據發展現況與未來發展趨勢》中首先闡述了何謂BIG DATA。當你連上臉書按贊打卡、上傳照片到網絡相簿與朋友分享、上班收發e-mail、用悠游卡買杯咖啡、通過ATM領錢、走進大賣場刷卡購物甚至是進家門開燈,都正在源源不斷地創造“海量數據”。這正是云端時代的新金脈。其次是BIG DATA的理論及其應用。最重要的是如何對大數據進行分析,其基本方面如下:(1)數據可視化分析。決策者需要的不是數據本身及分析后的數值,而是龐大數據經分析之后的結果、趨勢或現象,利用可視化效果易于被接受。(2)Data Mining算法。這是大數據分析的理論核心,而深入挖掘和快速處理是兩大重要課題。(3)預測性分析。如何找出特性、科學建模、預測未來。(4)語義引擎。非結構化數據的多元化給數據分析帶來新的挑戰,要提高語義引擎設計的智能化水平。(5)數據質量和數據管理。高質量的數據和有效的數據管理可保證分析結果的真實和有價值。最后,真正制約或者成為大數據發展和應用的三個瓶頸:數據收集的合法性、產業鏈各個環節企業的均衡、大數據有效解讀。
國家統計局潘[博士在《我看當前對大數據的一些非議――兼議大數據應用面臨的問題》中指出近幾年中國的大數據應用取得了一定的進展,但面臨的諸多障礙依然存在,且不斷出現一些對大數據的非議之聲。這些非議有的有一定道理,有的則失之偏頗。潘[博士針對這些非議指出大數據是科學技術及社會生產力發展到特定階段的必然。盡管其發展進程中確實出現了失密、造假等嚴重問題,但這正說明必須正視大數據的撲面而來,并盡快制定各種應對措施,抓住機遇,保存價值,著力解決出現的各種問題。最后,提出完善法律法規、明確牽頭單位、統籌各部門和規范標準等措施。
重慶工商大學李勇在《網絡輿情數據挖掘方法及其在意識形態傳播新特點中的應用研究》中系統研究了當前網絡輿情數據挖掘的主要方法,并將這些方法應用于網上意識形態傳播新特點的研究中。對互聯網出現前后意識形態傳播呈現的不同特點進行了對比分析,提煉出意識形態傳播在當前DT時代的本質特征,結合主流意識形態提出相應的有效傳播方式和防范措施。
東北石油大學辛華博士在《基于密度分布的聚類算法研究》中通過密度聚類方法DBSCAN二次聚類提高了聚類精度。湖北經濟學院陳戰波、陶前功、黃小舟和王磊的《基于阿里云音樂平臺大數據的歌手流行趨勢預測及推薦研究》,山西財經大學舒居安、趙麗琴、劉逸萌的《基于網絡輿情的居民購買力傾向指數構造研究》和重慶工商大學李禹鋒的《基于網絡團購的重慶火鍋消費行為分析》等進行了大數據的應用研究。光環國際楊恩博的《大數據人才發展與培養》、廣州泰迪智能科技趙云龍的《大數據形勢下數據科學人才培養初探》和劉彬的《大數據雙創實踐探索與服務體系》,從業界不同角度探索了大數據人才培養。
二、統計基本理論及應用研究
臺灣淡江大學蔡宗儒教授在《Accelerated Degradation Tests》中,回顧了可靠度分析近期的發展,指出隨著制造技術的進步,產品可靠度大幅提升,進而提升了對產品可靠度分析的難度。而傳統設限方法和近代加速壽命測試法具有一定局限性,通過研究加速退化測試方法,指出如何針對加速退化數據進行統計推斷、評價其可靠度,如何在成本的考察下對加速退化測試實驗進行設計,以利后續的測試實驗參考。
北京大學房祥忠教授在《EM算法及其在置信推斷中的作用》中指出醫學或產品試驗費用昂貴等小樣本情況,其精確置信推斷尤為重要;Buehler置信限在多維參數或刪失數據時,難以計算,并將EM算法用于求精確置信限,給出了可靠性領域中的實證。
重慶工商大學李勇在《灰色統計基本理論及其應用》中系統研究了灰數的統計學基本理論和方法。他從隨機樣本產生灰色估計量和直接從灰色數據開始,構建了一套從數理統計逐步過渡到主要以灰色系統為研究對象的灰色統計方法,如灰數的區間估計、灰數的假設檢驗、灰數的相關分析和回歸分析等,并進行了實例分析。
哈爾濱工業大學張孟琦、田波平在《空間模型參數擬極大似然估計量的漸近性和實證》中提出了雙權重矩陣空間回歸模型參數的極大似然估計量,包括對數似然函數、集中似然函數和參數估計;證明了相合性和漸進分布性質,并實例進行了空間自相關檢驗和空間計量模型分析。
天津財經大學楊貴軍、于洋、孟杰的《基于AIC的粗糙集擇優方法》和楊貴軍、孫玲莉、董世杰的《三種線性回歸多重插補法的模擬研究對比分析》分別從粗糙集擇優和回歸插補進行了研究。云南財經大學張敏博士在《基于高層次結構的多水平發展模型的統計建模及應用》中研究了擬合高層次嵌套數據的多水平發展建模問題。集美大學紀的《模糊數據Jonckheere-Terpstra檢驗法及應用》探討了模糊數據檢驗。廣東財經大學的劉照德、林海明在《因子分析五個爭議的解答》中定量分析了因子分析的爭議問題。湖南大學周四軍、王佳星、羅丹在《基于門限面板模型的我國能源利用效率研究》中,基于柯布―道格拉斯生產函數理論構建了我國能源利用效率門限面板模型,并進行了實證分析。
三、統計方法及實證研究
天津財經大學楊貴軍、孟杰、鄒文慧在《基于模型平均的中國總和生育率估計》中指出目前國內學者對中國總和生育率的估計尚未形成一致性的結論,缺少高質量的數據源以及不完善的估計方法是影響總和生育率估計的主要問題;提出使用社會和經濟等“人口系統”外部數據,引入當前統計學和計量經濟學前沿的模型平均方法對中國總和生育率進行估計。
華僑大學項后軍和浙江財經大學何康在《自貿區的影響與資本流動――以上海為例的“自然實驗”估計》中,從自然實驗角度考察了樣本期內上海自貿區的設立對上海地區資本流動的影響。得出:基于雙重差分模型估計的自貿區對上海資本流動的影響顯著;基于改進后合成控制法得到的“合成上海”對上海設立自貿區之前的模擬程度更高;基于安慰劑檢驗,證實了自貿區政策的有效性。
湖南大學晏艷陽、鄧嘉宜、文丹艷在《鄰里效應與居民政治信任――基于中國家庭追蹤調查(CFPS)的證據》中,指出近年來居民對政府的信任危機頻發,矛盾不斷出現,嚴重制約著政府的行政效率;基于中國家庭追蹤調查(CFPS)截面數據,建立回歸模型進行實證分析,證實了其他信息獲取渠道與社會互動之間具有相互替代的關系,有效解決了關聯效應和反射性問題對鄰里效應估計帶來的影響。
中國南方電網科學研究院冷媛、傅薔、陳政和廈門大學范新妍在《基于MCP,Group MPC的先行、一致、滯后指標篩選》中,提出了基于MCP懲罰法的單一指標先行、一致、滯后性的判定方法和基于Group MCP的多指標系統下各個指標的先行、一致、滯后性的判定方法。冷媛、傅薔和廈門大學孫俊歌、梁振杰在《經濟景氣指數研究比較及思考》中梳理了國內外景氣指數的研究狀況。遼寧大學馬樹才、宋琪在《中國人口年齡結構變動對資本投入及經濟增長影響研究》中通過構建數理模型,就人口年齡結構對資本投入及經濟增長的影響進行研究,得出充足的勞動供給會提高教育人力資本和物質資本的使用效率,促進經濟增長,政府公共教育支出增加會提高教育人力資本對經濟增長的貢獻;并對面板數據進行實證分析。廈門大學劉云霞在《我國高技術產業創新績效影響因素動態比較研究――基于狀態空間和門檻模型相結合的研究》中確定了反映創新績效的指標以及影響創新績效的因素,再將狀態空間模型和門口模型進行有機結合,找出了各影響因素對創新績效的動態影響軌跡以及軌跡改變的關鍵點,并提出對策建議。
2Web數據挖掘
2.1Web數據挖掘概述
數據挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的和隨機的數據中提取人們事先不知道的、潛在有用的信息和知識的非平凡過程。
Web數據挖掘(WebMining)是從Web文檔和Web活動中抽取感興趣的、潛在的有用模式和隱藏的信息,是數據庫、數據挖掘、人工智能、信息檢索、自然語言理解等技術的綜合應用,是在一定基礎上應用數據挖掘的方法以發現有用的知識來幫助人們從WWW中提取知識。Web數據挖掘可以分為Web內容挖掘(WebContentMining)、Web結構挖掘(WebStructureMining)、Web使用記錄挖掘(WebUsageMining)三類。Web內容挖掘是指從文檔內容或其描述中抽取知識的過程,又可以分為基于文本的挖掘和基于多媒體的挖掘兩種。Web文本挖掘可以對Web上大量文檔集合的內容進行總結、分類、聚類、關聯分析等。Web結構挖掘是指從Web組織結構和鏈接關系中推導知識。通過對Web結構的挖掘,可以用來指導對頁面進行分類和聚類,找到權威頁面,從而提高檢索的性能,同時還可以用來指導網頁采集工作,提高采集效率。Web使用記錄挖掘是指從服務器端記錄的客戶訪問日志或從客戶的瀏覽信息中抽取感興趣的模式。
基于Web的數據挖掘技術的出現不僅為商家做出正確的商業決策提供了強有力的工具,也為商家更加深入地了解客戶需求信息和購物行為的特征提供了可能性。
2.2電子商務中Web數據挖掘的步驟
電子商務中Web數據挖掘的步驟如下:
①明確數據挖掘的對象—業務對象,確定商業應用主題,不能盲目地進行挖掘;
②將與業務對象的各類原始數據收集起來作為挖掘的數據源泉;
③對收集的數據進行預處理,一般包括數據凈化、用戶識別、會話識別、路徑補充、事務識別和格式化等階段,以提高挖掘效率,剔除無用、無關信息并對信息進行必要的整理。
④根據需要解決的問題建立合適的數據挖掘模型,然后利用已知數據對模型進行訓練和測試,并應用該模型得到挖掘結果;
⑤利用可視化技術,驗證、解釋挖掘的結果,并據此做出決策或豐富知識,即進行模式分析與應用。
在整個Web數據挖掘的過程中,被明確的業務對象是挖掘過程的基礎,它驅動整個Web數據挖掘的全過程;同時,也是檢驗挖掘結果和引導分析人員完成挖掘的依據。
2.3電子商務中Web數據挖掘的數據源
在電子商務中,可以用來作為數據挖掘分析的數據量比較大,而且類型眾多,總結起來有以下幾種類型的數據可用于Web數據挖掘技術產生各種知識模式。
①服務器數據。客戶訪問站點時會在Web服務器上留下相應的日志數據,這些日志數據通常以文本文件的形式存儲在服務器上。一般包括serverslogs、errorlogs、cookieslogs等。
②查詢數據。它是電子商務站點在服務器上產生的一種典型數據。例如,對于再現存儲的客戶也許會搜索一些產品或某些廣告信息,這些查詢信息就是通過cookie或是登記信息連接到服務器的訪問日志上。
③在線市場數據。這類數據主要是傳統關系數據庫里存儲的有關電子商務站點信息、用戶購買信息、商品信息等數據。
④Web頁面。主要是指HTML和XML頁面的內容,包括文本、圖片、語音、圖像等。
⑤Web頁面超級鏈接關系。主要是指頁面之間存在的超級鏈接關系,這也是一種重要的資源。
⑥客戶登記信息。客戶登記信息是指客戶通過Web頁輸入的、要提交給服務器的相關用戶信息,這些信息通常是關于用戶的人口特征。在Web的數據挖掘中,客戶登記信息需要和訪問日志集成,以提高數據挖掘的準確度,使之能更進一步的了解客戶。
2.4Web數據挖掘能夠獲取的知識模式
運用Web數據挖掘技術能夠對站點上的各種數據源進行挖掘,找到相關的一些知識模式,以指導站點人員更好地運作站點和向客戶提供更好的服務。一般運用Web數據挖掘可以在站點上挖掘出來的知識模式有以下幾個:
①路徑分析。它可以被用于判定在一個Web站點中最頻繁訪問的路徑。通過路徑分析,可以得到重要的頁面,可以改進頁面及網站結構的設計。
②關聯規則的發現。在電子商務中關聯規則的發現可以找到客戶對網站上各種文件之間訪問的相互關系,可以找到用戶訪問的頁面與頁面之間的相關性和購買商品間的相關性。利用這些相關性,可以更好的組織站點的內容,實施有效的市場策略,增加交叉銷售量,同時還可以減少用戶過濾信息的負擔。
③序列模式的發現。序列模式的發現就是在時間戳有序的事務集中,找到那些“一些項跟隨另一項”的內部事務模式。它能夠便于進行電子商務的組織預測客戶的訪問模式,對客戶開展有針對性的廣告服務。通過系列模式的發現,能夠在服務器方選擇有針對性地頁面,以滿足訪問者的特定要求。
④分類和預測。分類發現就是給出識別一個特殊群體的公共屬性的描述,這個描述可以用來分類新的項。分類的目的是通過構造分類模型或分類器,把數據庫中的數據項映射到給定類別中的某一個,以便用于預測;也就是利用歷史數據記錄自動推導出對給定數據的推廣描述,從而能對未來數據進行預測,進行適合某一類客戶的商務活動。
⑤聚類分析。聚類分析可以從Web訪問信息數據中聚集出具有相似特性的那些客戶。在Web事務日志中,聚類顧客信息或數據項能夠便于開發和執行未來的市場策略。這種市場策略包括自動給一個特定的顧客聚類發送銷售郵件、為屬于某一個顧客聚類中的顧客推薦特定的商品等。對電子商務來說,客戶聚類可以對市場細分理論提供有力的支持。通過對聚類客戶特征的提取,電子商務網站可以為客戶提供個性化的服務。
⑥異常檢測。異常檢測是對分析對象的少數的、極端的特例的描述,以揭示內在的原因,從而減小經營的風險。異常檢測在電子商務中的應用可以體現在信用卡欺詐甄別、發現異常客戶和網絡入侵檢測等方面。
Web數據挖掘的各項功能不是獨立存在的,而是在挖掘過程中互相聯系,發揮作用。
3Web數據挖掘在電子商務中的應用
3.1數據抽取方法在電子商務中的應用
與傳統商務活動相比,電子商務具有更多的虛擬和不確定的因素:如客戶購買的心理、動機、能力、欲望等。Web數據挖掘要解決的問題就是如何從零散的無規則的網絡數據中找到有用的和有規則的數據和知識,基本方法之一就是進行數據抽取,以期對數據進行濃縮,給出它的緊湊描述,如方差值等統計值或用直方圖等圖形方式表示,從數據泛化的角度討論數據總結,把最原始、基本的信息數據從低層次抽象到高層次,以便于企業決策。
3.2基于Web數據挖掘的智能化搜索引擎
電子商務企業在活動過程中面臨的問題之一是如何通過Internet全面、準確、及時地收集到企業內、外部的環境信息,尤其是一些隱性的、關系到企業經營成敗的關鍵信息,以提高競爭力。目前的搜索引擎存在著查準率低、返回無用信息多的問題,使企業無法得到優質的信息。鑒于此,將Web數據挖掘技術應用于搜索引擎,使之成為智能搜索引擎,從而提高性能,滿足電子商務企業的需要。Web挖掘技術主要在以下幾個方面對搜索引擎有借鑒作用:文檔的自動分類、自動摘要的形成、檢索結果的聯機聚類和相關度排序及實現個性化的搜索引擎。經過文檔的分類處理,可以對搜索結果進行分門別類,可以通過限制搜索范圍來使文本的查找更為容易,幫助用戶快速的對目標知識進行定位,從而提高用戶進行網上信息搜索的效率;自動摘要能夠解決大部分搜索引擎機械地截取文檔的前幾句和固定字數的摘要使信息反映不完整的缺陷,使用戶能較準確、快速、方便地了解檢索信息;通過對檢索結果的文檔集合進行聚類,可以使得與用戶檢索結果相關的文檔集中在一起,從而遠離那些不相關的文檔,將處理以后的信息以超鏈結構組織的層次方式可視化地提供給用戶,由用戶選擇他所感興趣的那一簇,將大大縮小所需瀏覽的頁面數量;將Web使用挖掘中的個性化技術應用在搜索引擎中,可以在大量訓練樣本的基礎上,得到數據對象間的內在特征,并以此為依據進行有目的的信息提取,使得搜索引擎可以按照用戶的興趣偏好擴充用戶搜索的關鍵詞,以使得檢索結果更接近用戶要求,或者根據用戶歷史瀏覽信息的分析獲得用戶興趣庫,調用個性化的搜索引擎可以提高用戶檢索的查全率與查準率。通過借鑒Web挖掘技術可以提高查準率與查全率,改善檢索結果的組織,從而使檢索效率得到改善。
3.3Web數據挖掘在客戶關系管理中的應用
①客戶關系管理的核心
客戶關系管理(CustomerRelationshipManagement,簡稱CRM)的核心是通過客戶和他們行為的有效數據收集,發現潛在的市場和客戶,從而獲得更高的商業利潤,通過完善的客戶服務和深入的客戶分析來滿足客戶的需求,保證實現客戶的終生價值。可以說CRM能給傳統企業帶來在網絡經濟時代謀取生存之道的管理制度和技術手段。它要求企業從“以產品為中心”的模式向“以客戶為中心”的模式轉移。
②Web數據挖掘在客戶關系管理中的應用
Web數據挖掘能夠幫助企業確定客戶的特點,使企業能夠為客戶提供有針對性的服務。將Web數據挖掘用在電子商務CRM中主要體現在客戶的獲取和保持、價值客戶鑒別、客戶滿意度分析及改善站點結構等幾方面。
通過Web數據挖掘,可以理解訪問者的動態行為,據此優化電子商務網站的經營模式。通過把所掌握的大量客戶分成不同的類,對不同類的客戶提供個性化服務來提高客戶的滿意度,從而保持老客戶;通過對新訪問者的網頁瀏覽記錄進行分析,就可以判斷出該訪問者是屬于哪一類客戶,是有利可圖的潛在客戶還是毫無價值的過客,達到區別對待、節省銷售成本、提高訪問者到購買者的轉化率的目的,從而挖掘潛在客戶;通過對具有相似瀏覽行為的客戶進行分組,提取組中客戶的共同特征,從而實現客戶的聚類,這可以幫助電子商務企業更好地了解客戶的興趣、消費習慣和消費傾向,預測他們的需求,有針對性地向他們推薦特定的商品并實現交叉銷售,可以提高交易成功率和交易量,提高營銷效果。
此外,站點的結構和內容是吸引客戶的關鍵。利用關聯規則的發現,針對不同客戶動態調整站點結構和頁面內容,把具有一定支持度和信任度的相關聯的物品放在一起以有助于銷售;通過路徑分析等技術可以判定出一類用戶對Web站點頻繁訪問的路徑,這些路徑反映這類用戶瀏覽站點頁面的順序和習慣,將客戶訪問的有關聯的文件實現直接鏈接,讓客戶容易地訪問到想要的頁面。這樣的網站會給客戶留下好印象,提高客戶忠誠度,吸引客戶,延長他們在網站上的駐留時間以及提高再次訪問的機率。
通過挖掘客戶的行為記錄和反饋情況,進一步優化網站組織結構和服務方式以提高網站的效率。通過Web數據挖掘,可以得到可靠的市場反饋信息,評測廣告的投資回報率,從而評估網絡營銷模式的成功與否;可以根據關心某產品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報率,降低公司的運營成本。③維護客戶的隱私權
維護客戶的隱私權是商家在商業運作過程中不能忽視的一個基本組成部分。因此,作為電子商務企業,應該盡量避免對單個客戶數據進行挖掘。企業管理客戶隱私權的保護應該從技術和管理兩個方面來實現:技術上,通常是采用加密標志符,并且盡量避免對單個客戶數據進行挖掘;管理上,很多電子商務企業現在已經增設了首席隱私官(CPO,ChiefPrivacyOfficer)職位,隱私官將能在個人對隱私的需求和公司以合理手段使用隱私材料的權利之間,建立適當的平衡關系。這種平衡關系的大成,需要以長期的實踐和經驗為基礎。除了電子商務企業以單獨的主體身份進行客戶隱私權保護的管理之外,行業自律也是保護客戶隱私權的一個行之有效的手段。目前,電子商務網站越來越傾向于通過行業自律的方式來樹立其在客戶心目中的形象,讓客戶放心地提交數據。
3.4Web數據挖掘在個性化服務推薦系統中的應用
電子商務個性化服務推薦系統是向站點企業提供在電子商務中更好地運作CRM,建立良好客戶關系的一種解決方法,是“以客戶為中心”、“一對一”的行銷的堅實執行者。
該系統主要是將數據挖掘的思想和方法應用到Web服務器日志及Web數據庫等資源上,挖掘出客戶的訪問規律;然后將在線訪問客戶歸結到某一類中去,根據該類用戶的訪問規律進行Web頁面的推薦;并且系統還可以通過不斷地跟蹤用戶的當前訪問,實時調整推薦集,為用戶提供個性化的訪問。該系統由五大模塊組成:數據收集模塊、數據預處理模塊、數據存儲模塊、離線挖掘模塊和在線推薦模塊。其系統結構模型如圖1所示:
圖1基于Web數據挖掘的個性化服務推薦系統結構模型
數據收集模塊主要用于收集Web數據庫、使用日志等數據,形成數據采集庫,為以后的挖掘做準備;數據預處理模塊主要是對所收集的數據進行預處理,數據預處理的質量與挖掘的效率和結果緊密相關;數據存儲模塊將預處理后的數據存入用戶事務庫;離線挖掘模塊中的挖掘引擎使用挖掘算法庫中的數據挖掘技術如統計分析、關聯規則、聚類分析、序列模式等,來發現用戶瀏覽模式,并通過模式分析對其進行分析與解釋,根據實際應用,通過觀察和選擇,把發現的統計結果、規則和模型轉換為知識,經過篩選后得到有用的模式用來指導實際的電子商務行為;在線推薦模塊在Web服務器前端設置了推薦引擎,它將用戶當前的瀏覽活動與瀏覽出的頁面推薦集結合起來考慮,生成相應推薦集,然后在用戶最新請求的頁面上添加推薦集的頁面,再通過Web服務器傳遞到用戶端的瀏覽器,為用戶實現實時個性化服務;同時將推薦結果送往網站管理中心,以便調整網站設計,優化網站結構,提高網站效率。
總的來說,在個性化服務推薦系統中運用數據挖掘技術有兩個階段:第一個階段是學習階段,離線進行。第二個階段是模式的使用階段,在線進行。挖掘和在線推薦的特征獲取和規則生成是離線處理的,而當用戶訪問該網站時通過在線推薦引擎進行在線服務。離線模塊和在線模塊相互聯系,在線模塊主要是利用離線模塊提供的規則模型對在線用戶推薦(推薦引擎);離線模塊主要是利用在線模塊積累的數據運用系統推薦算法形成相應的規則。挖掘算法和推薦策略可以根據不同類型站點的要求來具體選擇,挖掘結果和推薦集通過推薦引擎反饋給用戶。電子商務網站的客戶登錄網站以后,其訪問信息將會被記錄到服務器端。這些數據將在經過預處理后,在專用的數據挖掘模塊中,通過具體的挖掘算法和推薦策略來進行模式識別和模式分析。用戶訪問信息也會傳到推薦引擎,推薦引擎根據客戶的會員標識,向挖掘模塊抽取對應客戶的挖掘結果和推薦集,將其可視化地反饋給用戶,達到個性化服務的目的。
3.5基于Web的數據挖掘在商業信用評估中的應用
發達的社會信用水平是發展電子商務的重要基礎,通過Web數據挖掘對站點數據統計和歷史記錄之間的差別,結果與期望值的偏離以及反常實例進行充分的分析,可以有效地防范投資和經營風險。另外,通過數據挖掘技術對企業經營進行跟蹤,開展企業的資產評估、利潤收益分析和發展潛力預測,構建完善的安全保障體系,實施網上全程監控,監督網上言論,維護企業信譽,強化網上交易和在線支付的安全管理,利用數據挖掘的信用評估模型,對交易歷史數據進行挖掘發現客戶的交易數據特征,建立客戶信譽度級別,有效地防范和化解信用風險,提高企業信用甄別與風險管理的水平和能力。
4結論
本文對Web挖掘技術進行了綜述,介紹了其在電子商務中的典型應用。Web數據挖掘高度自動化地對電子商務中的大量信息進行分析和推理,從中挖掘出潛在的模式,預測客戶行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。Web數據挖掘是近幾年來數據挖掘領域的探討熱點,利用它的技術知識將它運用到電子商務,將會解決許多實際問題,具有豐富的學術價值。將Web數據挖掘技術和電子商務兩者有機結合,將會為企業更有效的確認目標市場,改進決策,獲得競爭優勢提供幫助,有著很廣闊的應用前景,使電子商務網站更具有競爭力,從而為企業帶來更多的效益。面向電子商務的Web數據挖掘能發現大量數據背后隱藏的知識,指導商家提高銷售額,改善企業客戶關系,提高網站運行效率,改進系統性能,具有良好的發展和應用前景,必將得到越來越多的關注。
參考文獻:
[1]毛國君.數據挖掘原理與算法[M].清華大學出版社.2005(07).
[2]張冬青.數據挖掘在電子商務中應用問題研究[J].現代情報.2005(09).
[3]李鳳慧.面向電子商務的Web數據挖據的研究[D].山東科技大學碩士學位論文.2004(06).
[4]楊風召,白慧.異常檢測技術及其在電子商務中的應用[J].情報雜志.2005(12).
摘要:文章探討高校圖書館開展文獻計量服務的基礎、內容、模式及業務框架,提出文獻計量服務作為拓展延伸圖書館服務的新生長點,能夠很好地適應當前高校及其科研工作者的需求,是圖書館轉變其職能角色,構建主導型服務模式的重要途徑,是實現高校圖書館可持續發展的需要。
中圖分類號:G251.5文獻標識碼:A文章編號:1003-1588(2015)03-0113-03
服務是圖書館永恒的主題,程煥文提出圖書館精神為“智慧與服務”[1]。2008年孫浩在論文《關于文獻計量服務的研究》首次提出文獻計量服務(Bibliometric Service)的概念以及相關理論。文獻計量服務工作是促進知識生產的配套措施,是采用數學分析工具和計算機技術對各類文獻計量特征進行統計分析,從而發現文獻情報規律、文獻管理方法以及學科發展趨勢的情報服務工作,向讀者和社會提供全方位的文獻分布藍圖[2]。文獻計量服務理念恰好符合圖書館智慧服務的精神,迎合了圖書館深層次、學科化服務的理念,作為拓展延伸高校圖書館科研支持服務的新生長點,在一定程度上能夠很好地適應當前高校及其科研工作者的信息需求,為圖書館轉變職能角色以及深化學科服務提供了切實可行的理論、方法和途徑。
1開展文獻計量服務工作的基礎
隨著網絡信息技術的飛速發展以及全面的數據庫資源的開發,分析型數據庫也隨之出現,其中比較著名的有SCI、SSCI、ESI、CSSCI、EI、Scopus、Incites等,這些數據庫可以為文獻計量服務提供全面而可靠的統計源,即硬件條件。文獻計量服務要求圖書館員掌握一定量的數學分析工具和計算機技術方法來對各種類型的文獻計量特征進行統計分析,這項工作具有很強的知識性與技術性。高校圖書館近年來引進大量高素質高水平人才,其中包含一批既具有學科背景又有圖書情報專業知識的全能型館員,雖然目前他們暫時分布在各個業務部門,但經過專業訓練,就會形成一支能夠開展文獻計量服務的隊伍,因此目前高校圖書館已經具備開展文獻計量服務的技術保障與人員力量,這為文獻計量服務工作的開展奠定了堅實的基礎。
2文獻計量服務的內容
文獻計量服務是使用文獻計量(信息計量)分析方法和工具,通過一定的情報分析和文獻數據挖掘技巧,對文獻進行深層次的加工,技術含量較高,屬于高層次的知識服務工作。在高校開展文獻計量服務,通過對各類文獻計量特征進行統計與分析,從而發現文獻情報規律、文獻管理方法以及學科發展趨勢,達到對研究機構、科研工作者或學科科研競爭力以及學科發展態勢發展狀況等進行客觀評估及分析[3],以評估科研績效和檢測科研發展態勢,從而輔助科研管理者進行科研決策,包括學校人才的整體狀況分析以及各學科師資力量的分布、科研課題的申報與獎勵,科研基金分配、成果獎勵、人才選拔與引進等。輔助研究者的科學研究包括分析本學科的發展態勢、個人的科研業績以及在同行中的競爭優勢、研究前沿、趨勢、引領學科發展等。具體可以通過對學術期刊、文獻的統計分析,了解研究機構分布、學科的成長階段判斷、發展趨勢預測等,以此作為評價學科發展的依據。通過對科研能力、優勢學科分布、發展狀況、人力資源狀況、科研效率等進行統計分析,可以對學術機構進行評價。還可以通過某一著者的科研論文及專著發表情況、研究領域與專長、學術貢獻、科研潛在能力等進行著者評價。文獻計量服務在很大程度上是以大型分析數據庫作為依據,主要以科研論文作為學科分析與評價統計源,具體的基于論文數據平臺的學科分析見表1。表1學科分析常用論文數據庫平臺
數據庫名稱評價指標評價內容評價維度ESI數據庫國際論文總量排名總體科研表現國際論文總被引排名總體學科影響力學科綜合實力Incites數據庫WOS數據平臺論文占全球的比例科研活躍度論文總被引占全球的比例科研影響力學科H指數學術綜合實力學術影響力Incites數據庫ESI數據庫WOS數據平臺篇均被引的全球均值比科研平均質量ESI高被引論文或熱點論文比例科研前沿性頂級期刊論文的國際份額同行認可度基金項目的論文質量項目完成質量學術質量Incites數據庫國際合作論文占全球的比例國際科研合作國際會議論文占全球的比例國際學術交流國際合作與交流WOS數據平臺跨院系的合作論文比例學科交叉活躍度跨院系的合作論文的學科分布學科交叉的聚度跨院系的合作論文的期刊及被引學科交叉的質量學科交叉王芳,龐德盛,楊錯:高校圖書館開展文獻計量服務的探索與思考王芳,龐德盛,楊錯:高校圖書館開展文獻計量服務的探索與思考學校的職能部門即科研管理者和科研機構及科研工作者對文獻計量服務的關注側重點各有不同,因此文獻計量服務針對不同的對象采取不同的服務內容,這樣服務才更合理、更具針對性。
3文獻計量服務的模式
根據文獻計量服務的特點,將服務模式分為兩種,主動推送和用戶個性化定制。主動推送就是定期通過微博、微信、圖書館主頁、簡報等平臺主動推送服務產品,或通過培訓講座、問卷調查、讀者沙龍等形式讓大家充分了解圖書館館員所做的工作及其價值,特別是工作開展初期,在用戶對文獻計量服務不了解的情況下,這種模式可以讓用戶了解文獻計量服務人員所能做的科研服務內容及服務價值。圖書館可以提供個性化服務,年齡在40歲以上的副教授和教授由于在業界已經有了一定名譽和地位,可以對他們進行團隊學術影響力的分析(包括團隊科研成果的產出情況、被引用情況及影響力、H指數以及與其他團隊合作情況進行分析),同時也關注教授個人在全球、國內、同行中的位置,如某教授本人的科研狀況分析,某教授科研論文發文量和被引情況分析。而對于剛進入科研領域的年輕教師,文獻計量服務就要重點關注學者個人學術影響力的分析和所在學科領域的發展態勢,還可以對教師本人在本學科領域的成就和影響力進行分析評價。文獻計量服務的個性化科研分析,不僅有利于挖掘學科領域中堅力量和有潛力的科研人才,還可以挖掘某一領域的知識淵源、演進脈絡、熱點研究等內容。通過對高校及其內部的各種計量對象進行統計分析,可以為高校管理者的科研決策提供參考。
4文獻計量服務的業務框架
通過分析文獻計量服務的對象、模式及核心業務流程,并將這些流程與服務業務框架有機融合在一起,初步建立起文獻計量服務的業務框架。文獻計量服務工作首先要確定服務對象的層次進而選擇相應的服務模式,然后找出與之相匹配的服務方法,再根據文獻計量服務的核心業務流程進行有效文獻計量產品的創造,最后綜合反饋的結果,進行數據的綜合分析,形成最終的文獻計量服務報告。
5討論
5.1文獻計量服務是圖書館構建主導型服務模式的途徑
近年來,隨著圖書情報事業外部發展環境的不斷變化以及圖書情報學新理論、新思想的不斷呈現,圖情專家開始從廣義的服務視角,思索探討發揮圖書情報機構的文獻計量功能。高校圖書館新時期提升工作水平的一個重要突破口就是著力強化決策服務功能,顯著提升參考咨詢工作水平。高校圖書館特別是研究型高校圖書館擁有豐富的文獻信息資源優勢,又集合了專業學科館員力量,大多具有調研課題的成功經驗,完全有條件建立文獻計量服務部門。圖書館應加快情報服務水平的提升,提供與教學科研相關的信息和情報研究產品,構建主導型服務模式。
5.2文獻計量服務是實現高校圖書館可持續發展的選擇
將文獻計量服務理念引入高校圖書館,更好地實現智慧服務,不僅可以提高圖書館對高校教學和科研的影響力,而且可以為圖書館尋求和發展服務新的生長點提供有力支持。隨著現代信息技術的不斷發展,圖書館情報學的技術含量也相應地提高,賦予其全新內涵,可以說,加強并大力發展圖書情報領域學科化服務必然成為高校圖書館可持續發展的要求。文獻計量服務為高校圖書館在大學中的角色轉變打開一扇新的大門,使圖書館參與到高校的科研發展、政策制定和學科引領之中,轉變其在高校發展中的邊緣角色。通過創新服務,真正迎合用戶科研支持服務需求,探索有效的文獻計量服務模式,建立可持續發展的長效服務機制,真正實現圖書館服務的不可替代性,實現高校圖書館的可持續發展[5]。
5.3文獻計量服務是高校發展的需要
學科建設是高等院校提高教學質量和科研水平的重要基礎,而學科發展策略的制定首先需要對自身的學科發展情況進行客觀準確的評估和分析,進而合理地完善自身的學科體系、加強重點學科的優勢。國內外高校也越來越重視通過各種類型的學科評估把握自身的學科發展態勢、本學科的優勢和劣勢、重點研究方向、資源分配方案等,從而對高校的學科發展戰略提供重要依據和指導意義。通過文獻計量和相關統計數據的分析能幫助科研人員很好地判斷出某一學科的發展現狀、發展趨勢及潛力,同時也能在一定程度上判斷出科研人員的科研能力、學術水平及影響力。隨著文獻計量理論研究和應用的不斷深入,適時在高校圖書館推出文獻計量服務模式是一種必然趨勢。在信息化大環境下,面對新的機遇和挑戰,高校圖書館必須積極分析自己的優勢并加以充分利用與發揮,提升圖書館的軟實力。
參考文獻:
[1]程煥文.實在的圖書館精神與圖書館精神的實在――《圖書館精神》自序[J].大學圖書館學報,2006(4):2-14.
[2]孫浩.關于文獻計量服務的研究[J].現代情報,2008(6):64-66.
[3]孫玉偉,劉昌榮,朱玉強.大學圖書館文獻計量服務實踐探索[J].圖書館雜志,2014(1):56-61.
[4]孫玉偉.面向科研決策的信息服務框架探析[J].情報雜志,2013(6):167-171.
關鍵詞:軟件工程;面向數據的軟件工程;面向數據的體系結構
一、軟件工程的發展歷程和研究現狀
軟件工程這一術語,是在上世紀70年代末在一次會議上被提出來的,其設立的目的就是為了規范整個軟件行業,從而進一步促進軟件行業的經濟效益,節約了大量的人力物力成本。現在公認的軟件工程的發展歷史包含以下四個時期。首先誕生的是面向過程的軟件工程。這一階段主要是采用結構化的方法,對軟件整個生命周期的過程進行設計、優化和測試[1]。隨著技術的發展,研究也在不斷推進,面向對象的軟件工程也被提出,其主要是對面向對象進行分析、設計、編碼、測試和軟件的后期維護等等,在當時這一理念比較先進,所以其很快被廣大從業者接受,并且推廣開來。但是面向對象的軟件工程仍不能很好地解決軟件在使用當中存在復用性低這一問題,因此有人提出了采用組件技術對軟件工程進行進行優化,經過實踐證明這一技術確實能夠提高復用率,降低軟件開發過程中的經濟成本。而后隨著軟硬件技術的提高,經濟的發展,用戶的商業需求也越來越高,軟件開發者提出了面向服務的軟件工程。時至今日,整個軟件開發行業仍是以面向服務的軟件開發為主導[2]。可是科技的發展不會一直止步不前,軟件工程也一樣,隨著這些年大數據、云計算思潮的影響,很多學者開始構思能不能開發出一種基于大數據的軟件工程。現在國內外已經有不少的學者提出了設計理念和相關模型,例如:我國學者何克清就詳細分析了大數據影響下的軟件工程的研究方向和一些關鍵技術。可是這一思想在現實的軟件工程中還沒有大范圍的應用起來。因為其存在兩個主要缺點:(1)現在的數據不僅形勢復雜,而且增長速率也十分迅速,不僅包含著數據,還包含數據集[3]。因此在數據的儲存、管理、分析和挖掘方面,相關的信息技術和軟件技術更是難以招架。而且隨著社會變革的加快,用戶理念也在不斷的轉變之中,這就為整個軟件的開發過程帶來了更多的問題。(2)當下的軟件開發方法存在一定的缺陷,例如開發復雜、生命周期短、維護難等問題導致軟件成本高。
二、面向數據的軟件工程的內涵和優勢
面向數據的軟件工程是基于面向數據的結構體系,然后對軟件進行開發。以數據為核心是此類體系的最大特點。整個體系結構以數據生態系統為基礎,構建的軟件體系能夠包含整個數據的生命過程,從保護到授權。相比較現在廣泛采用的面向服務的軟件工程來說其主要存在以下幾個優點:(1)兩者核心不同。一個是以數據為核心,具有一定的邏輯性,被數據驅動,可以根據用戶的具體需求來進行具體的服務。一個是以服務為核心,是典型的通過模型來驅動的,整個過程中服務不僅可以被發現而且是無狀態的[4]。(2)面向數據的體系結構在數據管理方面有著明顯的優勢,能夠通過數據注冊中心對數據完成有效管理、挖掘和分析,并且能夠在不同結構的系統中實現信息的分享,其相較于當下主流的軟件開發方式可以有效地解決信息數據的管理問題。(3)這兩種軟件工程所采用的軟件開發方式都能夠有效地提高軟件的復用率。以數據為基礎的軟件能夠滿足不同用戶的需求,追求用戶個人體驗的滿足,但是以服務為基礎的軟件開發方法卻受限于服務重用這一缺陷,沒法追求個性化定制。(4)這種面向數據的軟件工程能夠在數據未被使用時對數據進行加密保護,能夠在一定程度上對數據安全進行保護,提高軟件的安全性能。
三、結語
目前已經有研究人員提出了面向數據的軟件工程的具體方法,例如徐良在2014年設計的畢設管理系統就是采用了此類思想。清華大學的張桂剛教授就提出了一種以現有的軟件工程為基礎的大數據軟件開發過程和相關編程語言,最后還提出了軟件的設計模型。相信隨著研究的進一步深入,研究人員會更加深入的推進這個方向的發展。
參考文獻
[1]王雅怡.數據挖掘技術在軟件工程中的應用分析[J].科技與創新,2018,08:155-156.
[2]宋陽.基于物聯網和云技術的軟件工程實驗室架構設計[J].軟件開發,2018,04:48-49.
關鍵詞:大數據;發展脈絡;營銷趨勢;研究評析
一、問題的提出
云計算、移動互聯網等新信息技術的廣泛應用及社會化網絡的興起,使信息數據產生機制更復雜、傳播速度更快、類型更多樣,全球進入信息數據量“井噴式”增長的大數據時代。國際數據公司(In原ternationalDataCorporation,IDC)指出:全球創建和復制的數據量五年內增長近九倍,預計將以每兩年至少翻一番的速度繼續增長。僅2013年,世界范圍存儲的數據就達1.2ZB(1ZB抑1021B),將這些數據刻錄到CDR只讀光盤并堆起,其高度將是地球到月球距離的五倍[1]。生產和信息方式的變革引起管理規范及其深層次上價值觀的轉變。傳統企業營銷中,為避免無法獲取整體數據的弊端,多依據小樣本采樣統計推斷以形成所謂“科學決策”。然而采樣分析的成功取決于樣本的絕對隨機性,大數據時代,營銷調研建立在對大樣本持續收集數據的基礎上,實時分析和輸出調查結果將為營銷決策提供及時判斷臨界值。在大數據背景下對營銷活動進行研究,具有聚焦數據,提高營銷決策科學性;強調洞察,增強營銷活動“預見性”;重視創新,增強營銷理論“前瞻性”等研究價值[2]。特別是中國具有眾多人口和龐大市場,也使中國成為最為復雜的大數據國家之一。那么,大數據對營銷活動究竟會產生怎樣的影響?其內在機理是什么?通過文獻綜述,對大數據概念進行界定,梳理其發展的歷史脈絡,在此基礎上分析大數據對消費者行為、營銷決策模式、營銷戰略、營銷要素等的影響表征及其機理,最后對大數據的營銷應用研究做出述評。
二、大數據的發展脈絡及概念界定
(一)大數據的發展脈絡
大數據的概念最早要追溯到上世紀,只是在互聯網時代,大數據才從規模、類型等方面得以實現。早在1981年,美國著名未來學家Toffler在其著作《TheThirdWave》中,提及“大數據”,并稱之為“第三浪潮的華章”[3]。2001年,META集團(現為Gartner)的分析師Laney指出數據增長帶來規模性(Volume)、高速性(Velocity)、多樣性(Variety)等變化[4]。《Nature》則在2008年9月開設“BigData”專刊[5-7],同時《Sci原ence》也推出數據處理研究專刊“DealingWithDa原ta”,對數據洪流(DataDeluge)所帶來的社會變革及影響做出討論[8]。大數據研究的開創性論文是Gins原bergetal(2009)的“DetectingInfluenzaEpidemicsUsingSearchEngineQueryData”,該文探討了如何利用谷歌搜索引擎查詢詞來預測流行病[9]。只是在最近幾年,大數據才成為高頻詞。2011年5月,麥肯錫公司《大數據:創新、競爭和生產力的下一前沿》報告,指出“在數據滲透于各領域并成為生產要素的背景下,對海量數據挖掘應用,將帶來新的生產增長和消費者盈余浪潮”[10]。2012年3月,美國開始實施“大數據研發計劃(BigDataRe原searchandDevelopmentInitiative)”,將大數據喻為“未來新石油”,并視為與互聯網、超級計算機同等重要的國家戰略,這也是美國在“信息高速公路”計劃后所實施的又一國家級重大科技戰略。日本緊隨其后,推出“新ICT戰略研究計劃”。同年,世界經濟論壇《大數據、大影響》報告,從多個行業領域闡述大數據給世界經濟帶來的發展機會[11]。就國內而言,2011年12月,國金證券開創國內大數據研究先河,將其研究成果引入資本市場[12]。2012年5月,香山科學會議組織“大數據科學與工程:一門新興的交叉學科”為論題的會議,同年6月,中國計算機學會青年計算機科技論壇(CCFYOC原SEF)舉辦“大數據時代,智謀未來”會議,對大數據挖掘技術、組織架構、平臺治理等展開探討。2013年6月,國家自然科學基金委管理科學部、美國營銷科學學會(MSI)、南京大學商學院(管理學院)和香港中文大學工商管理學院聯合主辦“2013營銷科學與應用國際論壇”,也將“大數據、社會化、移動化對市場營銷的新挑戰”作為主要議題之一。2014年2月,北京銀行與小米科技就移動支付、便捷信貸、產品定制、渠道拓展等簽署協議,表明國內企業運用大數據戰略進入實質性階段。2014年3月5日,總理第一次把大數據寫進政府工作報告,闡明了國家對大數據產業鼎力支持的政策,隨后一系列公開講話進一步明確了這一戰略部署。2015年2月,百度公司利用百度遷徙、百度指數等大數據產品直觀地呈現了春運“景觀”,把大數據研究成果可視化地展示在電視屏幕上。2015年3月,政府工作報告中進一步提出“互聯網+”計劃,推動大數據與現代工業相結合。
(二)大數據的概念界定
大數據本身就是抽象的概念,當前對其概念界定尚未達成統一,不同組織及學者給予不同的表述,見表1。盡管各方對大數據概念并不統一,但其中“大規模數據”“體量、復雜性及速度超越傳統數據”“超越現代技術手段處理能力”等觀點得到基本認可。IBM公司及Laneyetal(2001)認為大數據具有“3V”特征:規模性(Volume),數據量一般要達到TB級甚至PB級;多樣性(Variety),數據結構類型包括結構化數據、半結構化數據和非結構化數據;高速性(Ve原locity),產生、處理、分析數據的速度加快。國際數據公司(IDC)在此基礎上,增加“價值性(Value),即“大數據價值很大但呈現低密度性”的特點,從而形成大數據的“4V”特征[16]。而NetApp公司認為大數據具有“ABC”三特征:大分析(BigAnalytic),通過對大數據實時分析構建新的業務模式并更好地了解顧客需求;高帶寬(BigBandwidth),快速有效地對數據進行處理分析;大內容(BigContent),包括各種類型數據,同時對數據存儲、擴展、安全等管理的高要求[17]。
三、大數據對未來市場營銷的沖擊
根據(移動)互聯網時代大數據的特征、消費者行為變化及營銷模式的可能演變,通過相關文獻梳理,勾畫的大數據對未來營銷活動的影響趨勢,見圖1。
(一)大數據對消費行為的影響
1援消費行為更理性。工業化時代,信息不對稱的客觀存在,消費者易受各種如低價促銷、廣告宣傳等影響。而大數據時代,消費者有更多、更方便的途徑獲取更詳細的商品價格、成本、產地、質量等信息,并可更方便地搜尋、比對和遴選,從而做出更理性的選擇[18]。2援消費行為冪律分布。大數據時代,消費者評價系統更廣泛,先前購物者的購后評價及經驗對新消費者具有重要參考。相比先前購物者的好評,消費者則會更關注其差評,以便做出正確的消費決策。同類產品中,質量好、價格有優勢、服務好的產品受到越來越多的青睞,并不斷吸引新的消費者,形成“滾雪球式”的“馬太效應”,消費行為呈現冪律分布。3援消費行為更個性化。工業化時代,商家追求規模經濟的考慮,只能在有限范圍滿足消費者個性化消費。而大數據時代,信息廣泛并快速傳播,消費者的消費認知及創造力大大提升,消費異質性不斷增大,對產品或服務的關注并不僅限于以往的質量、品牌、價格、售后等,更關注其個性化的滿足程度。
(二)大數據對營銷決策模式的影響
大數據時代,思維方式發生三個變革:其一,要分析與事務相關所有數據而不是少量數據所構成的樣本;其二,要接受數據紛亂復雜的事實,而不能過于苛求精確;其三,更加主動地分析相關關系而不再探究難以捉摸的因果關系[19],可以說,數據驅動型決策(Data‐drivenDecisionMaking)是大數據背景下決策的特點[20],以“數據化、智能化、實時化垣經驗”將成為大數據時代的營銷決策范式。1援數據決策技術升級,注重實時處理及相關分析。傳統分析多基于多元統計、計量經濟學模型等方法,對大量一手和二手結構化數據實施分析,從中尋求研究對象的內在聯系,常用方法有:聚類分析、因子分析、相關分析、回歸分析、A/B測試、數據挖掘等。大數據背景下,數據規模大、傳遞速度快、非結構化數據多等特點,使得傳統數據分析及數據庫管理手段很難適應時代要求。數據產生及傳播速度加快,要求數據應用實現從離線(Offline)向在線(On原line)的實時處理轉化[21]。數據關聯成為大數據的主要價值來源,但數據間交互廣、價值密度低、碎片化嚴重,也使決策重點從以往因果關系分析向相關關系分析轉變。2援決策參與主體向社會大眾傾斜,數據分析師地位加強。大數據使營銷決策越來越依賴于數據分析而非經驗或直覺[22],直覺判斷將被精準的數據分析代替。管理者決策重心在于正確發現并提出問題,一線員工對決策參與度將大大提升,決策主體從社會精英向社會大眾傾斜,扁平化組織架構、學習型企業文化將得到加強。同時,能綜合運用數據分析、分布式管理的數據分析師,將為企業營銷決策提供更多智力支持。
(三)大數據對營銷戰略的影響
1援激發協同營銷的競爭格局。大數據環境下企業與行業的邊界日趨模糊,營銷系統開放性更明顯。企業競爭不再局限于個體之間或供應鏈的鏈條間,而是向多主體所構建的商業生態系統間延伸[23]。企業營銷戰略的設計應打破傳統的個體競爭思維,在不斷提升自身營銷網絡化和動態化能力基礎上,利用外部資源,形成協同營銷格局。2援一對一營銷的精準定位。大數據背景下,企業可以記錄消費者在產品各個生命周期階段的品牌偏好、口碑評價等行為數據,基于社會學、心理學、營銷學、傳播學等相關理論,并借助數據挖掘、統計計量等,按一定的細分標準進行消費行為細分,從而結合自身資源優勢,形成目標市場的選擇和一對一營銷的精準定位。
(四)大數據對營銷要素的影響
1援產品:顧客參與式的產品設計和個人定制。大數據背景下,虛擬企業和智能車間將會越來越多地被采用,顧客參與式的產品設計和個人定制將大行其道。那些市場價值在較短時間發生貶值的短生命周期產品的時效性更強、需求波動大,與外界存在著復雜非線性關系[24]。而長周期產品特別是其中生產工藝復雜、流程管理復雜、客戶需求復雜的復雜品(ComplicatedProduct)將實現供應鏈縱向一體化整合及全生命周期數據整合[25]。“全息”生命周期的完整大數據可幫助企業構建消費者興趣圖譜,從而應用于營銷和新媒體關系定位中。2援渠道:渠道縮短及渠道多元化。大數據背景下,信息技術更為成熟,經由中間商的渠道模式將讓位于直銷,渠道長度越來越短。特別是具有及時反饋交互關系平臺技術的實施,使企業可開發出更多、更便捷的渠道與顧客連接,實現多渠道及跨渠道營銷。諸如微商等“屏幕+手指+快遞”的購物方式,配合超低的價格,使營銷渠道更趨多元化。3援價格:透明度更高,基于支付意愿的差異化定價。傳統營銷定價多從產品成本、利潤率、顧客接受度等簡單因素考慮,并依據先前相關銷售經驗建立精算模型。大數據背景下,傳統精算模型將被顛覆,價格不對稱性有所改善,定價透明度越來越高,明智的價格策略是企業“陽光”定價,基于支付意愿的差異化定價將成為主導,電子支付成為主流。4援促銷策略:促銷手段的數字化、互動化趨勢。大數據背景下,傳統電視、報紙、廣播等大眾傳媒的傳播效率不斷下降,而建立在數據庫基礎上的移動互聯網將成為促銷信息的重要傳播手段,促銷手段更具數字化。同時,促銷手段更新穎,目標受眾被多元化數據鎖定,并特別強調與顧客間的互動和情感溝通。
四、大數據研究在營銷中的應用評析
(一)研究層次:偏宏觀層面研究,輕微觀分析
當前對大數據的相關研究,更多從宏觀層面對其概念內涵、形成脈絡及其對社會所產生的影響方面展開描述,而對大數據所形成各種影響的內在機理缺少必要的微觀分析。大數據為未來營銷帶來深刻影響,但機會和挑戰并存,其合理利用前提是必須擁有準確、可靠、及時的高質量的數據[26],只有在此基礎上,才能提煉出有效的營銷決策信息,才能幫助企業實現精準定位。
(二)研究視角:多立足于信息科學視角,缺少管理視角
當前,國外從管理學視角應用大數據技術來支持管理決策已成為商科教育的熱點[27]。相比之下,國內相關研究還處于起步階段,數據驅動決策的管理模式還有待形成,現有的相關研究則更多立足于對數據信息的采集、處理、檢索、挖掘及離線分析等信息科學視角。而只有立足管理決策的視角,探討大數據對現代經濟組織的戰略定位、架構設計、營銷實施等實時問題,才能真正發掘大數據的“資源”價值,建立起信息引導決策的機制。
(三)應用范圍:國內多理論研究,實踐廣度、深度不夠
我從事計算語言學教學和研究已經50多年,在這半個多世紀的漫長歲月中,針對計算語言學的跨學科性質,我在北京大學學習過語言學,在中國科學技術大學研究生院學習過信息科學,在法國格勒諾布爾理科醫科大學學習過數學,前后花了將近20年的時間更新自己的知識,成為跨學科背景的計算語言學家。現在我們已經進入了信息網絡時代,以自然語言信息處理作為研究目標的計算語言學正越來越受到語言學家的關注。然而,由于大多數語言學家僅具有文科背景,他們對于計算語言學中涉及的數學知識和計算機知識了解不多,盡管他們懷著關注計算語言學的強烈愿望,可是一旦看到計算語言學的專業文獻、接觸到其中的數學和計算機方面的問題,往往望而生畏,敬而遠之。他們精研通達的語言學知識,難以與數學知識和計算機知識融會貫通起來,這是十分可惜的!
我常常想,如果有計算語言學家能夠用一般語言學家可以理解的方式,深入淺出地闡述計算語言學的原理和方法,一定會吸引更多的語言學家參加到計算語言學的隊伍中,更好地推動我國計算語言學的教學和研究。
2004年我在英國伯明翰大學訪問時,在伯明翰市中心的一個書店里偶然發現了Ruslan Mitkov主編的《牛津計算語言學手冊》,很快就被它簡潔明了、深入淺出的寫作風格吸引住了。我覺得這本書就是我多年來夢寐以求的深入淺出的計算語言學著作,非常適合文科背景的語言學家閱讀,決心把這本書引進到國內來。
2005年回國之后,我馬上找到外語教學與研究出版社的朋友,向他們介紹這本書的價值。他們被我的誠意感動,很快就決定引進這本書,并且與牛津大學出版社商量,雙方一致同意合作在國內出版。2009年9月,《牛津計算語言學手冊》正式在國內發行。這是一件大快人心的好事!
本書由Ruslan Mitkov教授主編,收錄了包括語言學家、計算機專家和語言工程人員在內的49位學者撰寫的38篇針對計算語言學主要領域的綜述性文章,各章的寫作風格力求一致,使得全書前后關聯、渾然一體、可讀性強。《牛津計算語言學手冊》內容豐富、深入淺出,全面地反映了國外計算語言學的最新成果,是我們了解國外計算語言學發展動向的一個窗口,正好滿足了我國語言學界學習和了解國外計算語言學的研究成果和最新動態的要求。
本書主編Ruslan Mitkov是計算語言學家及語言工程專家,畢業于德國德累斯頓大學(Dresden University),現為英國伍爾弗漢普頓大學(University of Wolverhampton)教授。他的研究興趣是回指消解、機器翻譯和自動索引,曾于2002年出版過名為《回指消解》(Anaphora Resolution)的專著。著名計算語言學家Martin Kay(馬丁?凱伊)為本書作序。Martin Kay是美國斯坦福大學語言學教授,曾任計算語言學會主席、國際計算語言學委員會主席,是國際計算語言學界的領軍人物。
二、內容簡介
本書內容分三大部分:1.與計算語言學有關的語言學基礎理論(1~9章);2.計算語言學中自然語言的處理、方法與資源(10~26章);3.計算語言學的應用(27~38章),幾乎涵蓋了計算語言學的所有領域。書末有按照字母順序編排的計算語言學術語表,每個術語均有簡要的定義和解釋,便于讀者查詢。下面分別介紹各章的內容。
第1章“音系學”(phonology)介紹了描寫音系學和計算音系學的基本知識,著重介紹了非線性音系學中的有限狀態模型、音位的特征-值矩陣描述方法以及音系學研究中的計算工具。
第2章“形態學”(morphology)介紹了諸如語素、詞、屈折、派生等形態學的基本知識,分析了形態學對于音系學的影響,著重介紹計算形態學中的有限狀態分析方法,并介紹了雙層形態學和雙層規則的形式化描述方法。最后介紹了結構段形態學。
第3章“詞典學”(lexicography)首先簡要地回顧了詞典學的發展歷史,接著討論了人編詞典在計算機應用中的不足,說明了計算詞典學對于傳統的詞典編纂技術提出的挑戰。本章著重討論了詞匯在計算語言學中的功能以及計算技術在詞典編纂中的作用;說明了計算技術改變了詞典編纂工作的面貌,為新型詞典的編纂提供了有力的技術手段。本章強調指出,計算機輔助的詞典編纂應該成為今后詞典編纂工作的發展方向。
第4章“句法學”(syntax)首先列舉了一些有趣的句法現象,分析了這些現象在計算上的意義,接著介紹正則語法和有限狀態語法、上下文無關的短語結構語法、轉換語法、擴充轉移網絡、各種基于約束的特征結構語法(功能語法、詞匯功能語法、中心語驅動的短語結構語法、PATR語法)。最后,介紹了兩種在語言學和計算上有意義的句法框架(廣義短語結構語法、樹鄰接語法)。
第5章“語義學”(semantics)集中介紹了計算語義學的基本內容。首先討論語義的表示問題,介紹了語義的高階邏輯(higher-order-logic)表示法和語義的特征值矩陣(Attribute-Value Matrix)表示法。其次討論句法語義接口,介紹了“并行對應模型”(Parallel Correspondence Model,簡稱PCM);針對 Frege的“組成性原則”(principle of compositionality),介紹了“非組成性的語義學”。最后介紹了語義解釋的動態模型。
第6章“話語”(discourse)首先列舉了一些話語平面的現象,闡明“話語”研究的對象是句子之間的關聯問題,計算語言學中的話語研究要揭示句子之間關聯的機制。接著討論參照表示(referring expressions)和話語結構(discourse structure),說明參照表示的工作原理和參照表示的選擇方法,并討論主題(theme)與述題(rheme)、話題(topic)與焦點(focus),以及預設(presupposition)、蘊含(implicature)等問題。最后討論“話語樹”(discourse tree),介紹了“修辭結構理論”(rhetorical structure theory)和“中心理論”(centering theory)。
第7章“語用學和對話”(pragmatics and dialogue)討論語用學及其在計算機對話模型中的應用。首先介紹言語行為(speech act)、言外語力(illocutionary force)、合作原則(cooperative principle,簡稱CP)、關聯(relevance)等語用學的基本概念,并且介紹了意圖(intention)、信念(belief)、知識(knowledge)和推論(inference)等與概念表達有關的問題。著重討論了計算語用學中的對話模型(dialogue model),說明了從話語行為到對話行為的計算機制,并介紹了對話的管理模型(dialogue management models)。
第8章“形式語法與形式語言”(formal grammars and languages)介紹形式語言理論的基本知識,分別論述了形式語法和自動機,把形式語法看成是語言的生成裝置,把自動機看成語言的識別裝置。為了便于文科背景的讀者理解本章的內容,對于一些基本概念都給出了定義和實例;為了避免抽象的數學推理,對于一些基本的結論不在數學上加以證明。首先介紹了Chomsky的形式語法,給出了形式語法的Chomsky分類,分別討論了上下文無關語言(context-free languages)、線性和正則語言(linear and regular languages)、半線性語言(semilinear languages)、上下文有關語言(context-sensitive languages)、柔性上下文有關語言(mildly context-sensitive languages)。接著介紹自動機理論,分別討論了有限自動機(finite automata)、下推自動機(pushdown automata)、線性有界自動機(linear bounded automata)、圖靈機(Turing machine)。
第9章“計算復雜性”(complexity)介紹自然語言處理中的計算復雜性問題。首先介紹計算復雜性的度量方法和計算復雜性的類別,分別討論了多項式算法(Polynomial algorithm,簡稱P)和非確定多項式算法(Nondeterministic Polynomial algorithm,簡稱NP),并介紹了自然語言處理中關于“NP完全問題”(NP-complete problem)的一些研究。接著討論正則語言問題的計算復雜性,介紹了確定性(determinism)和非確定性(non-determinism)的概念、線性(linearity)和有限狀態特性(finite-stateness)的概念,說明了有限狀態方法的可應用性。然后討論上下文無關語言的計算復雜性,介紹了基于搜索的上下文無關識別(search-based context-free recognition)、自頂向下識別(top-down recognition)、線性時間與空間中的確定性語法識別(deterministic grammar recognition in linear time and space)。最后討論了概率語法和啟發式搜索、并行處理和實際效用等問題,說明計算復雜性分析在理解自然語言的復雜性以及在建立實際的自然語言處理系統中的用途。
第10章“文本切分”(text segmentation)介紹兩方面的內容:一方面是“詞例還原”(tokenization),一方面是“句子分離”(sentence splitting)。詞例還原的目標是把文本中的單詞、標點符號、數字、字母數字字符切分出來,以便進行進一步處理。本章分別介紹了單詞自動切分、縮寫切分(例如:“Mr.,Dr.,kg.”中的小黑點)、連字符處理(例如:“self-asessment,forty-two,F-16”中的連字符)的技術,并且討論了漢語和日語等東方語言中有關“詞例還原”(也就是“切詞”)的特殊問題。句子分離的目標是把文本中的句子分離出來,在很多自然語言處理系統中,都需要進行句子分離。本章介紹了基于規則的句子分離、基于統計的句子分離、非規范輸入文本中的句子分離等技術。
第11章“詞類標注”(part-of-speech tagging)介紹了詞類標注器(POS tagger)的設計技術以及兼類詞的排歧(disambiguation)方法。簡要回顧了詞類標注發展的歷史,介紹了基于局部性手寫規則的詞類標注器、基于n-元語法的詞類標注器、基于隱馬爾科夫模型(Hidden Markov Models)的詞類標注器、基于機器學習的詞類標注器、基于全局性手寫規則的詞類標注器、基于混合方法的詞類標注器,重點介紹了手工排歧語法(handwritten disambiguation grammars)。
第12章“句法剖析”(parsing)介紹了自動句法剖析的基本概念和關鍵技術。句法剖析的深度因自然語言處理的具體要求的不同而不同,有淺層的句法剖析(shallow parsing),也有深層的句法剖析(deep parsing)。本章首先介紹了淺層句法剖析,這種剖析只要把句子剖析為語塊(chunks)就可以了。之后,介紹了依存剖析(dependency parsing)。在介紹上下文無關剖析(context-free parsing)時,比較詳細地討論了CYK算法、自底向上剖析、左角分析法、自底向上的活性線圖分析法(bottom-up active chart)。在介紹基于合一的剖析(unification-based parsing)時,討論了特征-值矩陣。剖析時可能得到若干個結果,因此,本章還討論了剖析結果的排歧問題。最后,討論了剖析算法準確性的評測、剖析程序的效率以及剖析語法覆蓋面的度量方法等問題。
第13章“詞義排歧”(word-sense disambiguation,簡稱WSD)討論如何利用上下文來確定多義詞的準確意義。首先介紹了在計算語言學研究早期所提出的WSD優選語義學方法、詞專家剖析方法。這些方法由于缺乏可供使用的詞匯資源,出現了“知識獲取的瓶頸問題”(knowledge acquisition bottleneck)。這些問題由于大規模詞匯庫和知識庫的出現而得到緩解,又由于統計方法和機器學習方法的應用而可以從語料庫中獲取精確的數據。近年來,在WSD中普遍使用基于詞典的方法、聯結主義方法(connectionist)、統計方法、機器學習方法,取得了很大的進步。最后討論WSD的評測,介紹了SENSEVAL的評測活動,并介紹WSD的一些實際應用。
第14章“回指消解”(anaphora resolution)首先列舉了一些回指現象,說明了回指現象的各種變體。接著討論回指消解所需要的知識源、回指消解的過程、回指消解在自然語言處理中的應用。最后回顧了回指消解研究的發展歷史和現狀,討論了今后回指消解研究中應當注意的問題。
第15章“自然語言生成”(natural language generation,簡稱NLG)介紹了自然語言生成研究的理論和實踐問題,力圖說明在人們的心智上以及在計算機中,語言究竟是怎樣產生出來的。自然語言生成是一個知識密集的問題,可以從語言學、認知科學和社會學的角度來探討。可以把自然語言生成看成一個映射問題,也可以把它看成一個選擇問題,還可以把它看成一個規劃問題。自然語言生成可以分為四個問題:宏觀規劃(macroplanning)、微觀規劃(microplanning)、表層實現(surface realization)、物理表達(physical presentation)。對于宏觀規劃,介紹了說話內容的規劃、文本的規劃,以及使用修辭結構理論的規劃方法;對于微觀規劃,著重介紹了詞匯生成的問題。最后介紹了表層生成的技術。
第16章“語音識別”(speech recognition)研究如何把作為聲學信號的聲波轉換為單詞的序列。現在,最有效的語音識別方法是語音信號統計建模的方法。本章簡要地介紹了語音識別中的主要方法和技術:聲學語音信號的建模、語音識別中的詞匯表示、語音識別中的語言模型和解碼。重點介紹獨立于說話人的大詞匯量連續語音識別(large-vocabulary continuous speech recognition,簡稱LVCSR)的最新的技術。目前,語音識別主要應用于自動聽寫機的設計、口語對話系統、語音文獻的自動轉寫、語音信息檢索等領域中。最后討論了語音識別技術未來的研究前景。
第17章“文本-語音合成”(text-to-speech synthesis,簡稱TTS)介紹文本-語音合成的最新成果。TTS既涉及自然語言處理技術,也涉及數字信號的處理技術。本章主要從自然語言處理的角度來介紹TTS。首先介紹TTS系統的概貌以及它的商業應用價值。然后描述TTS系統的功能結構以及TTS系統的組成部分,TTS系統中的自動形態-句法分析、自動語音分析、自動韻律生成,說明了如何從文本中近似地計算語音的聲調和時長。最后介紹了聲波生成的兩種技術:規則合成技術(synthesis by rules)與毗連合成技術(concatenative synthesis)。
第18章“有限狀態技術”(finite-state technology)首先舉例介紹有限狀態語言、詞匯轉錄機、重寫規則等基本概念,然后介紹基本正則表達式的運算方法和復雜的正則表達式,最后討論有限狀態網絡的形式特性。
第19章“統計方法”(statistical methods)介紹了計算語言學中的統計方法。目前,統計方法已經成為自然語言處理的主流方法。本章首先介紹數理統計的基本概念(如:樣本空間、概率測度、隨機變量、條件概率、熵、隨機過程)以及如何把它們應用于自然語言的模擬問題,分別介紹了隱馬爾科夫模型(hidden Markov models)和最大熵模型(maximum-entropy models),最后介紹了這些模型的一些技術細節,如:韋特比搜索(Viterbi search)、最大熵方程(maximum-entropy equation)等。
第20章“機器學習”(machine learning)介紹了如何通過有指導的訓練實例(supervised training examples)來自動地獲取語言資源中蘊含的決策樹(decision-tree)和規則(rules),描述了怎樣從經過標注的訓練實例中進行推理的各種算法和知識表達技術,并介紹了如何使用已經獲得的知識來進行分類的基于實例的分類方法(instance-based categorization),較詳細地介紹了k-鄰近分類算法(k nearest-neighbour categorization algorithm)。這些機器學習的技術可以應用來解決計算語言學中的形態分析、詞類標注、句法剖析、詞義自動排歧、信息抽取、前指消解等各種各樣的問題。
第21章“詞匯知識的獲取”(lexical knowledge acquisition)首先介紹了詞匯知識自動獲取的一些背景,包括詞匯知識的形式、詞匯知識獲取的資源和工具、單詞的共現和相似度。然后介紹了從語料庫中自動獲取詞匯的搭配關系(lexical collocation)和聯想關系(lexical association)的方法,詞匯相似度(similarity)計算與敘詞表(thesaurus)構建的方法,動詞的次范疇框架(subcategorization frame)的獲取方法;分析了詞匯語義學(lexical semantics)和詞匯知識獲取的關系。最后介紹了從機器可讀的詞典中獲取詞匯知識的方法。由于在自然語言處理中越來越重視詞匯知識的作用,自然語言處理的形式模型中越來越多地采用“詞匯化”(lexicalized)的方法,詞匯知識的自動獲取是當前計算語言學研究的亮點之一。
第22章“評測”(evaluation)專門討論自然語言處理系統的評測問題。評測是推動自然語言處理研究發展的一個重要手段,評測的結果對于自然語言處理系統的投資者、開發者和使用者都是很有價值的。在自然語言處理技術發展的早期主要使用基于技術的評測(technology-based evaluation),在自然語言處理技術比較成熟時,就可以使用以用戶為中心的評測(user-centred evaluation)。根據評測時的輸入與輸出,評測技術又可以分為分析成分的評測(evaluation of analysis components)、輸出技術的評測(evaluation of output technologies)和交互系統的評測(evaluation of interactive systems)。分析成分的評測把語言映射為它的內部表達作為輸出(例如:有標記的片段、樹形圖、抽象的意義表達式等)。輸出技術的評測要把處理的結果用具體的語言表示出來(例如:文摘、生成的文本、翻譯的譯文等)。這種評測可以分別使用內部評測指標(intrinsic measures)和外部評測指標(extrinsic measures)來進行。交互系統的評測容許用戶與系統進行交互。本章總結了評測的各種技術,并指出它們的優點和缺點。
第23章“子語言和可控語言”(sublanguage and controlled language)首先討論了在限定語義領域中的計算語言學,指出了在當前的水平之下,在某些限定領域中應用自然語言處理技術的必要性。然后舉例說明了某些自發形成的子語言,分析了子語言的特性,討論了子語言在機器翻譯、文本數據抽取、自然語言生成、自動文摘中的應用問題。接著討論可控語言,分析了使用可控語言的必要性和局限性,介紹了可控語言的一個實例――簡化英語AECMA。最后討論子語言與可控語言的關系,分析了把子語言轉變為可控語言的途徑。
第24章“語料庫語言學”(corpus linguistics)主要討論了語料庫在自然語言處理中的應用問題。首先從語料的抽樣框架、語料的代表性、語料的平衡性等方面說明了建立語料庫的基本要求,簡要地回顧了語料庫的發展歷史,然后著重地討論了語料庫的標注(annotation)問題。標注過的語料庫的優點是:開發和研究上的方便性、使用上的可重用性、功能上的多樣性和分析上的清晰性。學術界對于語料庫標注的批評主要來自兩方面:一方面認為,語料庫經過標注之后失去了客觀性,所得到的語料庫是不純粹的;另一方面認為,手工標注的語料庫準確性高而一致性差,自動或半自動的標注一致性高而準確性差,語料庫的標注難以做到兩全其美,而目前大多數的語料庫標注都需要人工參與,因而很難保證語料庫標注的一致性。在分析了語料庫在自然語言處理中的應用問題之后,作者指出,不論標注過的語料庫,還是沒有標注過的語料庫,在自然語言處理中都是有用的,語料庫語言學有助于計算語言學的發展。
第25章“知識本體”(ontology)討論了知識本體及其在自然語言處理中的應用。首先,分別介紹了哲學傳統的知識本體、認知和人工智能傳統的知識本體、語言學傳統的知識本體,并討論了語言學中的知識本體與詞匯語義學的關系;然后,說明在自然語言處理中,知識本體可以用來幫助系統進行語言的結構分析(例如:英語中的PP附著問題、錯拼更正、句法檢錯、語音識別),也可以用來進行局部的自然語言理解(例如:信息檢索中的問題搜索、文本分類),并具體說明了知識本體在信息檢索、信息抽取、自動文摘、語義相似度計算、詞義排歧中的應用。
第26章“樹鄰接語法”(tree-adjoining grammar,簡稱TAG)介紹一種局部化的語法形式模型:樹鄰接語法(TAG)和詞匯化的樹鄰接語法(lexicalized tree-adjoining grammar,簡稱LTAG)。首先討論上下文無關語法CFG的局部化問題,說明TAG與CFG的不同:TAG以句法結構樹作為核心操作對象,在樹的基礎上來組織語言知識,它的產生式規則也對應著樹結構,它以線性的一維形式來表達二維的樹結構;而CFG以符號串作為操作對象,CFG是一個基于符號串的形式語法,而TAG是基于樹的形式語法。然后討論上下文無關語法CFG的詞匯化問題,介紹了LTAG。LTAG對于TAG的擴充主要在于把每一個初始樹(initial tree)和輔助樹(auxiliary tree)都與某一個或某一些叫作“錨點”(anchor)的具體單詞關聯起來。最后討論LTAG的一些重要特性及其與別的形式系統的關系。
第27章“機器翻譯:總體回顧”(machine translation:general overview)介紹了從20世紀50年代到90年代的基于規則的機器翻譯系統(rule-based machine translation,簡稱rule-based MT)的主要概念和方法:直接翻譯方法、中間語言方法、轉換方法、基于知識的方法,并介紹了主要的機器翻譯工具,簡要回顧了機器翻譯的歷史。
第28章“機器翻譯:新近的發展”(machine translation:latest developments)介紹了當前機器翻譯系統的研究、開發和應用的情況,討論了經驗主義的機器翻譯系統:基于實例的機器翻譯(example-based MT)和統計機器翻譯(statistical MT),并把它們與傳統的基于規則的機器翻譯系統進行了對比,同時還介紹了把各種方法融為一爐的混合機器翻譯系統(hybrid MT)。當前基于規則的機器翻譯的開發中,回指消解的研究以及基于中間語言和基于知識的機器翻譯的研究取得較大進展,本章也做了介紹;此外,還介紹了口語的機器翻譯,討論了少數民族語言和不發達語言的機器翻譯前景,討論了因特網上的機器翻譯(特別是網頁翻譯)問題。最后,本章介紹了譯者的電子翻譯工具,特別討論了雙語語料庫、翻譯記憶、雙語上下文索引等問題,并介紹了一些面向譯者的詞處理工具。
第29章“信息檢索”(information retrieval)主要介紹了文本的信息檢索。信息檢索系統的任務在于,對于用戶提出的提問或者命題,給出與之有關的文獻集合,作為檢索的結果。首先分析了信息檢索系統的軟件組成成分,包括文獻處理、提問處理、檢索匹配技術。然后討論自然語言處理技術對于信息檢索的推動和促進作用,講述了如何使用自然語言處理所得到的形態信息、短語信息、句法信息來改進信息檢索中的索引技術,并且指出,當前的趨向是使用語義信息來進行信息檢索。最后展望信息檢索的發展前景。
第30章“信息抽取”(information extraction,簡稱IE)討論如何從自由文本中自動地識別特定的實體(entities)、關系(relation)和事件(events)的方法和技術。本章主要討論兩種類型的信息抽取:一種是名稱的自動抽取(extraction of names),一種是事件的自動抽取(extraction of events),并介紹書寫抽取規則的方法。對于名稱的自動抽取,本章介紹了名稱標注器(name tagger);對于事件的自動抽取,介紹了事件識別器(event recognizer)。同時,還介紹了如何從已經標注了有關名稱或事件信息的文本語料庫中自動地學習和抽取規則的方法,這種方法也就是信息抽取的統計模型。最后,介紹了信息抽取的評測和應用。
第31章“問答系統”(question answering,簡稱QA)討論如何從大規模真實的聯機文本中對于指定的提問找出正確回答的方法和技術,這是文本信息處理的一個新的發展趨向。由于QA要對指定的提問給出一套數量不多的準確回答,在技術上,它更接近于信息檢索(information retrieval),而與傳統的文獻檢索(document retrieval)有較大的區別――QA要生成一個相關文獻的表作為對于用戶提問的回答。與信息抽取相比,QA要回答的提問可以是任何提問,而信息抽取只需要抽取事先定義的事件和實體。在開放領域的QA系統中,使用有限狀態技術和領域知識,把基于知識的提問處理、新的文本標引形式以及依賴于經驗方法的回答抽取技術結合起來,這樣,就把信息抽取技術大大地向前推進了一步。本章首先介紹了QA系統的類別和QA系統的體系結構,接著介紹了開放領域QA系統中的提問處理、開放領域QA系統中的提問類型以及關鍵詞抽取技術,并討論了開放領域QA系統中的文獻處理方法和提問抽取方法,最后展示了QA系統的發展前景。
第32章“自動文摘”(text summarization)介紹對單篇或多篇文本進行自動文摘的方法。首先討論自動文摘的性質和自動文摘的過程。接著介紹自動文摘的三個階段:第一階段是主題辨認(topic identification),第二階段是主題融合(topic fusion),第三階段是文摘生成(summary generation);并介紹了多文本的自動文摘。最后,介紹自動文摘的評測方法,討論了自動文摘評測的兩個指標:壓縮比(compression ratio,簡稱CR)和內容保留率(retention ratio,簡稱RR)。
第33章“術語抽取和自動索引”(term extraction and automatic indexing)介紹術語自動處理的技術。術語廣泛地出現在科技文獻中,術語的自動識別對于科技文獻的分析、理解、生成、翻譯具有關鍵性作用。隨著網絡的普及和數字技術的發展,出現在互聯網、政府、工業部門和數字圖書館中的專業文獻日益增多,術語的自動處理對于這些文獻的信息檢索、跨語言問答、多媒體文本自動索引、計算機輔助翻譯、自動文摘等都具有重要作用。本章把面向術語的語言自動處理分為術語發現(term discovery)和術語識別(term recognition)兩個部門,分別介紹了主要的技術和系統,最后介紹了雙語言術語的自動抽取技術。
第34章“文本數據挖掘”(text data mining,簡稱TDM)介紹了本文數據挖掘技術。文本數據挖掘的目的在于從大規模真實文本數據中發現或推出新的信息,找出文本數據集合的模型,發現文本數據中所隱含的趨勢,從文本數據的噪聲中分離出有用的信號。本章首先討論文本數據挖掘與信息檢索的區別,分析了文本數據挖掘與計算語言學和范疇元數據(category metadata)的關系。本章舉出實例,具體說明了怎樣使用生物醫學文獻中的文本數據來推測偏頭痛(migraine headaches)的病因,怎樣使用專利文獻中的文本數據來揭示專利文本與已經發表的研究文獻之間的關系,并介紹了LINDI(Linking Information for Novel Discovery and Insight)系統。這個系統的軟件能夠根據大規模的文本集合來發現文本中蘊含的重要的新信息。
第35章“自然語言接口”(natural language interaction簡稱NLI)介紹計算機自然語言接口系統。這樣的NLI系統可以把用戶使用的口頭自然語言或書面自然語言提出的問題轉化為計算機可以處理的形式。首先介紹了NLI系統的基本組成部分、意義表達語言(meaning representation language,簡稱MRL)、同義互訓軟件(paraphraser)、問題生成軟件(response generator)以及可移植工具(portability tools)。然后介紹口語對話系統(spoken dialogue systems,簡稱SDS),分別介紹了SDS的單詞識別軟件、任務模型、用戶模型、話語模型、對話管理軟件、消息生成軟件、語音合成軟件。最后討論SDS系統的靈活性、現狀以及將來的應用前景。
第36章“多模態和多媒體系統中的自然語言”(natural language in multimodal and multimedia systems)討論自然語言在多模態系統和多媒體系統應用中的重要作用,說明了怎樣把自然的口語或書面語與多媒體輸入協同地融合為一體,怎樣把自然語言與其他的媒體結合起來以生成更加有效的輸出,怎樣使用自然語言處理技術來改善多媒體文獻的存取。首先介紹包含自然語言的多模態和多媒體輸入的分析問題,討論了怎樣把自然語言處理技術作為多模態分析的基礎,怎樣把不同的模態結合起來的技術。接著介紹包含自然語言的多媒體輸出的生成問題,討論了怎樣把自然語言處理技術作為多媒體生成的基礎,并討論了不同模態的協調問題(包括不同模態的配置、不同模態輸出的裁剪、模態輸出中空間和時間的配合)。還討論了用于多媒體數據存取的自然語言處理技術(包括基于自然語言處理的圖形和圖像檢索、圖形和圖像數據庫的自然語言接口、多媒體信息的自然語言摘要)。最后討論在多媒體環境中使用語言的問題。
第37章“計算機輔助語言教學中的自然語言處理”(natural language processing in computer-assisted language learning)介紹在計算機輔助語言教學(computer-assisted language learning,簡稱CALL)中使用自然語言處理技術的問題。首先介紹CALL的發展歷史,接著介紹在自然語言處理背景下的CALL,語料庫與CALL,雙語語料庫,討論自然語言處理技術在形態學教學、語法教學、偏誤的識別與診斷中的應用。最后討論自然語言處理技術在CALL中應用的評估問題。
第38章“多語言的在線自然語言處理”(multilingual on-line natural language processing)討論在因特網上的多語言處理問題。因特網現在已經發展成多語言的網絡,英語獨霸互聯網天下的局面已經成為歷史,非英語的網站越來越多,語言障礙日益嚴重。為了克服語言障礙,機器翻譯當然是一個最重要的手段,除了機器翻譯之外的各種使用自然語言處理技術的多語言處理工具也雨后春筍般地開發出來。本章介紹了語種辨別(language identification)、跨語言信息檢索(cross-language information retrieval,簡稱CLIR)、雙語言術語對齊(bilingual terminology alignment)和語言理解助手(comprehension aids)4個方面的研究情況。語種辨別的目的在于讓計算機自動地判斷書面文本是用什么語言寫的,這顯然是多語言自動處理必須經過的第一步。跨語言信息檢索CLIR的目的在于使用一種語言提問來檢索其他語言文本的信息。本章介紹了在CLIR中的譯文發現技術(finding translation)、翻譯變體的修剪技術(pruning translation alternatives)和翻譯變體的加權技術(weighting translation alternatives)。在這些應用中,雙語言詞典或多語言詞典是最重要的資源,而這些詞典的覆蓋面可以通過使用雙語言術語對齊的技術來加以提升。語言理解助手的功能在于給用戶提供軟件工具來理解外語書寫的文本,而不必使用全自動機器翻譯的技術。本章介紹了施樂公司歐洲研究中心(Xerox Research Centre Europe,簡稱XRCE)的語言理解助手LocoLex和語義模型,并介紹了施樂公司使用語言助手來改善數字圖書館Callimaque的技術。
本章最后附有各章作者簡介、計算語言學術語表、作者索引和主題索引,便于讀者查閱。
三、簡評
本書是手冊性的專著,有如下三個明顯特點:
1.深入淺出。本書各章寫作風格一致,內容協調,渾然一體,特別適合對計算語言學感興趣和初入門的讀者閱讀。本書使用流暢的文筆和有趣的實例來介紹艱深的技術問題,尤其適合文科背景的讀者閱讀。
2.專家執筆。本書的38章分別由各個領域內的46位知名專家執筆,由于這些專家具有所屬領域的精湛知識,對于自己的領域有深刻的理解,有力地保證了本書的學術質量和專業水平。
3.涵蓋全面。本書幾乎涵蓋了計算語言學的所有領域,反映了當前計算語言學的最新成就,使我們對計算語言學能夠獲得全面而系統的認識。
我國曾經翻譯出版過有關計算語言學和自然語言處理的大部頭專著,如馮志偉和孫樂翻譯的《自然語言處理綜論》(電子工業出版社,2005)被稱為自然語言處理教材的“黃金標準”。但是,這部專著主要針對理工科背景的讀者而寫,數學公式較多,文科背景的讀者閱讀和理解起來常常會感到困難。與《自然語言處理綜論》相比,本書盡量避免使用繁難的數學公式,文筆淺顯而流暢,內容新穎而有趣,更適合文科背景的讀者閱讀。目前,計算語言學這個新興的學科不僅吸引了大量理工科背景的研究人員,同時也有不少文科背景的研究人員投身到計算語言學的研究行列中來。本書的上述特點正好可以滿足文科背景研究人員的需要。當然,由于本書內容涵蓋面廣、專業性強,對理工科背景的研究人員也有很大的參考價值。
關鍵詞:地理信息系統;空間數據倉庫;數據倉庫;認知過程
0引言
進入21世紀后,對空間數據倉庫的研究方興未艾,在許多次的國際學術會議上都有相關[1~3]。例如在泰國召開的ISPRS第三屆動態與多維GIS會議暨CPGIS第十屆地理信息年會、北京召開的第20屆國際制圖協會國際學術會議、南非召開的第21屆國際制圖協會國際學術會議等。還有一些ESRI公司的白皮書、全球性用戶大會、SSD國際會議、數字地球國際會議、GIS國際會議等也開始討論空間數據倉庫問題[4~8]。將空間數據倉庫技術引入到我國大概是20世紀90年代末,文獻[9~14]的發表開創了我國空間數據倉庫理論與技術研究的新局面,此后又陸續出現了一些這方面的論文。
總體說來,上述工作對空間數據倉庫的理論和方法進行了初步研究,在概念、原理、結構、操作與算法等方面進行了初步論述,已取得了卓有成效的成績。但是到目前為止,空間數據倉庫的概念框架和認知過程等方面還是缺乏系統的論述,沒有形成一套比較完整的空間數據倉庫概念框架體系和認知過程體系。
1概念框架
空間數據倉庫是GIS技術和數據倉庫技術相結合的產物,其定義很多,但中心思想包含三方面內容:①空間數據倉庫是在網絡環境下,實現對異地、異質、異構不同源數據庫中地理空間數據、專題數據及時間數據的統一、整合、集成處理,形成用戶獲取數據的共享操作模式;②空間數據倉庫可根據需求對這些數據再進行測繪專業處理,提供多種空間數據產品,滿足用戶更高層次——對數據產品的需求;③基于空間數據產品,空間數據倉庫可從多維的角度進行空間數據立方體分析和空間數據挖掘分析,提供綜合的、多維的、面向分析的空間輔助決策支持信息,滿足用戶空間決策分析的需求。
空間數據倉庫的概念框架分為外部結構、內部結構。外部結構主要描述空間數據倉庫與外部系統的關系;內部結構主要描述空間數據倉庫的內部功能模塊組成。
1.1外部結構
數據庫系統處于空間數據倉庫系統的最底層,管理著若干種不同的地理空間數據庫和專題數據庫,它們各自獨立,形成了各式各樣的異地異質異構的數據庫系統,它們主要為空間數據倉庫提供數據源。應用系統處于空間數據倉庫系統的最上層,它通過一個標準的接口從空間數據倉庫中提取地理空間數據、空間數據產品和空間輔助決策分析信息,為應用系統服務。其具體外部結構如圖1所示。
1.2內部結構
空間數據倉庫的內部組成應由八個獨立功能模塊構成,分層次實現空間數據倉庫系統。其中,第一層次的功能模塊是空間數據倉庫的基礎處理模塊,由多源空間數據抽取、多源空間數據整合、多源空間數據統一、空間數據倉庫元數據組成;第二層次的功能模塊是空間數據倉庫的服務模塊,由空間數據產品服務、空間數據立方體分析、空間數據挖掘分析組成;第三層次的功能模塊是空間數據倉庫的對外數據接口模塊,由對外數據交換格式組成。第一層次的功能模塊為第二層次的功能模塊服務,第二層次的功能模塊為第三層次的功能模塊服務。其具體內部結構圖如圖2所示。
當應用系統提出需求時:①多源空間數據抽取功能模塊從各源數據庫系統中抽取出相應地理范圍(矩形、多邊形、橢圓)的不同種類的地理空間數據、專題數據;②多源空間數據整合功能模塊對這些由圖幅范圍組織的地理空間數據進行相應地理范圍的裁剪、拼接、接邊、圖形編輯、拓撲重組等整合處理,形成裁剪拼接和接邊好的、具有完整拓撲關系的、物理上無縫的、按區域范圍組織的地理空間數據;③多源空間數據統一功能模塊對這些整合處理好的地理空間數據進行數學基礎、數據編碼、數據格式、數據精度等方面的統一處理,形成能相互疊加的地理空間數據;④將經抽取、整合、統一處理好的地理空間數據提交給空間數據產品服務功能模塊,經過集成、融合、派生和關聯等測繪專業算法處理,生成應用系統所需的各種空間數據產品;⑤基于已生成的空間數據產品,進行空間數據立方體分析和空間數據挖掘分析,得到面向空間輔助決策分析的結果;⑥將這些空間數據產品和空間輔助決策分析結果,以對外數據交換格式的形式提交給應用系統使用。
2認知過程
2.1認知過程概念圖
空間數據倉庫是描述地理現象的一個重要分支,其認知過程應與地理空間信息的認知過程基本一致,不同之處在于其描述的內容和范圍大小的區別。因此,建立空間數據倉庫的認知過程,實際上是要經過一個地理現象認識、抽象、組織、分析和應用的過程。其具體的認知過程概念框圖如圖3所示。
2.2認知過程描述
這14個世界模型和13個轉換算子的組合構成了三個層次世界,即實體世界、目標世界和產品世界。其中,現實世界、地理現實世界、地理工程現實世界和地理工程概念世界這四個世界模型,以及命名、選擇、抽象這三個轉換算子,共同構成實體世界;地理工程尺度世界、地理要素分類世界、地理要素編碼世界、地理要素幾何世界和地理要素集合世界這五個世界模型,以及度量、分層、編碼、測量和聚集這五個轉換算子,共同構成目標世界;地理空間抽取世界、地理空間整合世界、地理空間統一世界、地理空間產品世界、地理空間決策世界這五個世界模型,以及提取、處理、變換、計算、分析這五個轉換算子,共同構成產品世界。
數據庫概念設計階段、地理空間數據庫實現階段和空間數據倉庫實現階段構成了空間數據倉庫系統實現過程的三個階段,這三個階段分別對應著三個層次世界,即實體世界、目標世界和產品世界。其中,前兩個階段是為地理空間數據庫的建立服務的,由它們實現實體世界向目標世界的轉換;后一個階段是為空間數據倉庫的建立服務的,由它們實現目標世界向產品世界的轉換。
由此可見,空間數據倉庫的認知過程主要就是這14個世界模型通過這13個轉換算子的轉換實現三個層次世界的過程。這個認知過程指導了空間數據倉庫的實現。
3認知的概念定義
3.1世界模型
實際上,這些世界模型主要是依靠具體的實體模型或數據模型描述來實現的。每個世界模型均有其描述的地理空間對象,因此這些世界模型描述的內容大不相同,必須定義出這些世界模型。
3.1.1現實世界模型
現實世界中,人們能看到一系列物質和現象,對于這些物質和現象,不管是否能叫上名字,它們都是客觀存在的,并且相互之間通過它們的關系組成了自然界的千差萬別。由此可見,能將現實世界中所有物質和現象集合以及它們之間的相互關系用一定的形式進行描述就是現實世界模型。
現實世界的物質和現象集合中,隱含著許多不同的地理現象類,如地質、礦產、石油、自然地理等地理現象類。地理現象類是現實世界的一個子集。由此可見,能將現實世界中所有地理現象類集合以及它們之間的相互關系用一定的形式進行描述就是地理現實世界模型。
本文原文
3.1.3地理工程現實世界模型
地理現實世界的地理現象類集合中,特指一個或若干個地理現象就是地理工程現實世界,如自然地理等。地理工程現實世界是地理現實世界的一個子集。由此可見,能將地理現實世界指的地理現象以及它們之間的相互關系用一定的形式進行描述就是地理工程現實世界模型。
3.1.4地理工程概念世界模型
要用計算機來描述地理工程現實世界中的地理現象,就必須對它們進行抽象描述,形成地理現象在人們頭腦中的反映,生成概念模型。由此可見,能將地理工程現實世界指的地理現象以及它們的內部關系用一定的形式進行抽象的概念描述就是地理工程概念世界模型。
3.1.5地理工程尺度世界模型
將地理現象抽象成概念模型,僅有這些還遠遠不夠,因為現實世界中的所有地理現象均是有度量的,所以用計算機描述這些地理現象時,也必須是可度量的。度量主要包括描述地理現象的歐幾里德幾何坐標系和數學單位尺度。由此可見,對地理工程概念世界中的抽象地理現象進行歐幾里德幾何坐標系和數學單位尺度描述就是地理工程尺度世界模型。3.1.6地理要素分類世界模型
按照GIS理論,概念中的地理現象最終都是通過多種地理要素來表達的,因此如何對地理要素進行合理的設計和劃分就顯得十分重要。根據ARC/INFO的分層理論,只有將這些地理要素進行分類分級,才能高效地處理它們。由此可見,對地理工程尺度世界中具有尺度度量的地理現象進行地理要素的分類分級描述就是地理要素分類世界模型。
3.1.7地理要素編碼世界模型
要使計算機能識別和處理地理要素,就必須給這些地理要素進行分類分級編碼,即用一串數字來表示它們,該分類分級編碼就成為該地理要素在計算機中的唯一標志符,以便計算機能識別和處理。由此可見,對地理要素分類世界中具有明確分類分級定義的地理要素進行分類分級編碼描述就是地理要素編碼世界模型。
3.1.8地理要素幾何世界模型
為了便于計算機的存儲和管理,必須將地理要素細分為幾何目標。地理要素幾何目標包括基本目標和復合目標。基本目標按地理要素的空間特征劃分為點狀目標、線狀目標、面狀目標、體狀目標和表面狀目標等五種;復合目標由基本目標集合嵌套構成。由此可見,對地理要素編碼世界中具有明確分類分級編碼的地理要素進行幾何目標的劃分和描述就是地理要素幾何世界模型。
3.1.9地理要素集合世界模型
因為地理要素在一定的條件下由相同或不同的點、線、面、表面和體等五類空間目標組合而成,所以在實際使用中,必須通過計算機系統把數據庫中存儲的基本目標、復合目標還原成地理要素。由此可見,對地理要素幾何世界中具有基本目標、復合目標描述的地理要素進行數據庫的幾何目標集合操作就是地理要素集合世界模型。
定義9地理要素集合世界模型。設Con中地理要素點狀目標、線狀目標、面狀目標、體狀目標、表面目標集合分別表示為Po、Lo、Ao、To、So,Atr為地理要素的某一地理特征集合,則地理要素集合世界模型為Ent={e|(Po,Lo,Ao,To,So)∈Atr}。
3.1.10地理空間抽取世界模型
地理空間抽取的主要功能就是從源數據庫中按地理區域范圍(矩形、橢圓、多邊形等)抽取出滿足一定條件的不同種類的地理空間數據。由此可見,對地理要素集合世界中的地理空間數據按一定地理區域范圍和地理特征進行抽取的操作描述就是地理空間抽取世界模型。
3.1.11地理空間整合世界模型
數據庫中存儲的地理空間數據是以圖幅為單位組織的,但應用系統使用數據是無圖幅概念的,是以地理區域范圍為組織的。由此可見,對地理空間抽取世界中抽取出的地理空間數據進行圖形裁剪、圖形拼接、圖形接邊、圖形編輯和拓撲重組等整合處理,形成以地理區域范圍為組織的無縫數據集合操作就是地理空間整合世界模型。定義11地理空間整合世界模型。設Con中圖形裁剪、圖形拼接、圖形編輯、圖形接邊、拓撲重組功能分別表示為Cut、Stitch、Meet、Edit和Topology,整合功能集合表示為Fun={Cut,Stitch,Meet,Edit,Topology},則地理空間整合世界模型Pro={e|(e∈Ext,e∈Fun)}。
3.1.12地理空間統一世界模型
實現地理空間數據整合后,必須對來自不同源數據庫中的地理空間數據進行統一,因為地理空間數據存在著差異。這些差異表現在如下方面,即數學基礎差異、數據編碼差異和數據格式差異、數據精度差異。由此可見,對地理空間整合世界中的地理空間數據進行數學基礎、數據編碼、數據格式、數據精度的統一操作和描述就是地理空間統一世界模型。
3.1.13地理空間產品世界模型
隨著應用的深入,單純的地理空間數據已越來越不能滿足用戶的需求,用戶更加希望使用的是經過測繪專業處理的、經過二次加工處理的地理空間數據產品,后者在實際中具有更大的應用價值。由此可見,對地理空間統一世界中的地理空間數據進行測繪專業處理生成空間數據產品的操作就是地理空間產品世界模型。
定義13地理空間產品世界模型。設Con中單一、集成、融合、派生和關聯的功能分別表示為Single、Integrate、Fuse、Derive和Relate,測繪專業處理算法集合為Fru={Single,Integrate,Fuse,Derive,Relate},則地理空間產品世界模型Pdu={e|(e∈Uni,e∈Fru}。
3.1.14地理空間決策世界模型
建立空間數據倉庫的最終目的是為空間決策支持服務,為用戶提供大量的具有空間決策支持的信息,這可通過空間數據倉庫中的空間數據立方體分析和空間數據挖掘分析來實現。由此可見,對地理空間產品世界中的空間數據產品進行空間數據立方體分析和空間數據挖掘分析,生成空間決策支持信息的操作和描述就是地理空間決策世界模型。
定義14地理空間決策世界模型。設Con中的空間數據立方體分析和空間數據挖掘分析分別表示為Scube、Smine,空間決策分析算法集合為Sdss={Scube,Smine},則地理空間決策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。
3.2轉換算子
在空間數據倉庫的認知過程中,14個世界模型的變換離不開13個轉換算子,即命名、選擇、抽象、度量、分層、編碼、測量、聚集、提取、處理、變換、計算和分析,由它們實現每兩個世界模型的轉換。這些轉換算子主要是依靠元數據來實現的,因為每個世界模型均有描述它的元數據,要實現兩個世界模型的轉換,通曉這兩個世界的元數據是轉換的前提。雖然這些轉換算子的具體定義不同,但它們都是實現每兩個世界模型的轉換,從數學的定義上說就是由某個世界模型通過函數轉換到另一個世界模型上,因此這些轉換算子的宏觀數學定義是一致的。
4結束語
目前,空間數據倉庫理論和技術研究才剛剛起步,其目標是支持數字地球發展、空間數據集成、空間決策支持發展的需求。因此應該抓住這個千載難逢的好機會,將我國的空間數據倉庫研究與建立邁上一個新臺階,以支持我國的空間數據基礎設施建設。本文對空間數據倉庫的概念框架和認知過程體系進行了一定程度的技術探討,希望能起到拋磚引玉的作用。
參考文獻:
[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.
[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.
[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.
[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).Esri/com/base/compay/opengis.
[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.
[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.
[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.
[9]趙霈生,楊崇俊.空間數據倉庫的技術與實踐[J].遙感學報,2000,4(2):157-160.
[10]李琦,楊超偉.空間數據倉庫及其構建策略[J].中國圖像圖形學報,1999,4(11):984-990.
[11]楊群,閭國年,陳鐘明.地理信息數據倉庫的技術研究[J].中國圖像圖形學報,1999,4(8):621-626.
[12]周炎坤,李滿春.大型空間數據倉庫初探[J].測繪通報,2000,22(8):22-23.
關鍵詞:統計學專業;應用型人才;實踐教學
隨著我國高等教育從精英教育向大眾化教育的轉變,應用型人才培養已經成為課程建設及其一般本科院校特別是新建地方本科院校的必然選擇,也是我國經濟社會發展的必然要求。所以,探索、創新應用型人才培養模式和培養體系,建立起促進應用型人才培養的體制機制,以更好地適應地方經濟建設和社會發展對人才的需要,這是高等教育人才培養工作面臨的重要課題。近幾年來,作為新建地方院校的廣西財經學院對此進行了積極探索,本文結合該校統計學專業應用型人才培養實踐進行了較深入的探討。
一、圍繞應用型人才類型定位,科學制定統計學專業人才培養方案
1.統計學專業應用型人才的培養目標定位
根據教育部統計學專業教學指導委員會對經濟管理類統計人才培養目標的界定,結合廣西財經學院實際,我校統計學專業培養目標定位為:以滿足市場需求為導向,培養具有良好的數學和經濟學、管理學素養,掌握統計學的基本理論、方法和思想,能熟練運用現代信息技術進行數據處理和統計分析的復合型、應用型、創新型經濟管理類專門人才。具體表現為“寬口徑、厚基礎、重應用、高素質”培養目標要求。“寬口徑”是指所培養的學生有廣泛的適應性,既是統計人才又是經濟管理人才,其知識結構能夠適應現代市場經濟發展對“復合型”人才的要求;“厚基礎”是指所培養的學生有較扎實的經濟管理的理論基礎、統計學基礎、計算機基礎和數學基礎,增強學生對經濟發展和社會需求的適應性;“重應用”指所培養的學生主要是應用型經濟管理統計人才,要著重培養學生應用經濟理論和統計方法去處理現實問題的能力,包括調查研究、分析和預測和參與政策咨詢和決策的能力等,體現了作為方法論、管理工具的統計學學科性質;“高素質”是指所培養的學生有較高的綜合素質,包括專業素養、品德素質、心理素質和較強的獲取知識、更新知識和進行知識創新的能力、適應社會的能力。
2.以“雙體系、雙平臺、多模塊”框架構建應用型統計學專業課程體系
按照知識、素質、能力一體化教育的思想,在課程體系設計過程中,我們注意把握以下幾方面:一是保證統計學專業基礎課程的學時、學分,夯實專業基礎;二是給足統計學專業主干課程學時、學分,力求專業主干課能講深講透;三是強化實踐教學,課內與課外、校內與校外實踐相結合;四是突出統計學專業“市場調查與定量分析”核心競爭能力培養要求;五是邀請用人單位參與人才培養方案的制定,以更好地適應生產實踐、社會發展需要。從2006級統計學專業開始,我們按照學校的統一架框要求,按照“雙體系、雙平臺、多模塊”框架構建了應用型統計學專業課程體系。“雙體系”是指在人才培養中堅持理論教學和實踐教學的有機統一,構建教學與科研互動、理論教學與實踐教學并重的教學體系。理論課程體系包括公共基礎課、專業基礎課、專業主干課和選修課,其中的專業基礎課程包括數學、計算機和經濟學、管理學等重在夯實專業基礎;實驗實踐課程體系分為兩個模塊:模塊一為學校各專業統一規定的軍訓、就業指導等實踐課程,模塊二則是根據統計學專業要求設置的獨立實踐實驗模塊。“雙平臺”是指加強通識教育、提高學生人文精神和修養的公共基礎理論課程平臺,以及幫助學生拓寬口徑、加厚基礎,以適應專業和人生發展的統計學專業基礎核心課程。專業主干課程有概率論與數理統計、多元統計分析等8門,約占理論課程總學分的25%,該模塊作為統計學專業核心內容,既保證了統計學專業的基本理論、基本方法教學,也突出了統計學專業的核心知識、能力培養。“多模塊”是以“雙體系”、“雙平臺”為基礎支撐,按照統計學科專業的服務方向和人才規格要求以及學生的興趣特長、人生志向等,從理論和實踐兩個維度設計多個不同的學習模塊,即“社會經濟統計”、“市場調查與數據分析”、“風險管理與精算”三個專業方向,讓學生自主選擇,因材施教。三個方向的課程設置,既突出本方向的知識、能力要求,也考慮到了統計學與經濟學、管理學的結合,有助于提高學生的專業技能和實踐創新能力。
二、加強實踐教學和職業素養,提高學生的綜合素質和實踐創新能力
1.整合、優化實踐課程體系設計,突出統計應用主線
從2005級到2009級,我們每年都在不斷總結、逐步完善實踐課程體系設置,到2008級形成了比較完整的實踐課程體系,實踐實驗課程學分超過總學分的26%。實踐實驗課程包括兩方面:一是獨立實驗實踐課。以ERP(企業資源計劃)為平臺,構建以統計核算、分析為主,會計核算、業務核算相互支持的企業實踐課程群,使學生了解、把握企業的創辦與整體運作,用數據解讀企業經營,此課程群包括ERP沙盤模擬對抗、創業計劃實訓等。同時,結合統計工作過程,設置了SPSS軟件應用、統計分析綜合實訓等獨立實訓課程,從應用計算機技術處理數據到分析報告撰寫進行強化,加強統計學專業核心能力的掌握。二是課內同步實驗實踐課。主要包括專業主干課程的課內同步實驗實踐課,如多元統計分析、計量經濟學等課程的課內實驗,一般安排本課程總課時的1/4課時,主要實訓內容為EXCEL、SPSS應用、課程論文等。
2.加強實踐教學的基礎建設,為學生提供實戰型實訓平臺
實踐教學的基礎建設重點是實踐教學基地建設。一是校內實驗室建設。這幾年來,我校重點建設了一批專業實驗室和綜合實驗室,并努力使其成為集實踐教學、科學研究及社會服務為一體的產學研創新實踐基地。統計學專業建成了自治區級重點建設實驗室――財經科學實驗中心分室的統計實驗室、數學建模實驗室,以及目前廣西高校唯一的市場調查與數據挖掘中心,配備了SPSS、CATI(計算機輔助電話調查系統)等先進統計教學軟件。二是校外實踐基地建設。目前已經建成了國家統計局廣西調查總隊實踐教學基地等多個實踐實訓基地,每年安排統計學專業學生到基地實習,參與實習單位研究項目的數據收集、數據處理等工作。在校外實習基地建設和運行過程中,在共同合作、互惠互利的基礎上,我們一方面吸引和聘請基地依托單位的專家和相關人員一起參與實習教學計劃的制定與管理;另一方面充分發揮我校作為廣西高校唯一經濟管理類統計學專業的學科專業優勢,積極幫助基地依托單位開展職工統計業務及軟件應用培訓等,合作開展項目研究與開發,使實習基地同時成為人才培訓和師生科研的基地。
3.充分利用好課外實踐創新平臺,課外實踐創新活動納入本科教學全過程
統計學專業應用型人才培養,不僅需要理論教學和實驗、實訓教學等第一課堂,還需要結合統計學專業特點,積極指導、組織學生開展學術講座、創業大賽、市場調查和數學建模等課外實踐活動,使課外實踐活動成為第一課堂的延伸和拓展,這對于促進統計學專業課程教學改革,明確統計學專業學習目標,學會如何做人做事、增強社會責任意識和培養大學生的團隊精神和實踐創新能力等具有積極意義。這幾年來,我們組織學生開展的主要課外學術科技活動有:一是開展學生科研項目立項,探索以問題和課題為核心的探究性教學模式。另外,也吸收了一些優秀學生參與教師科研項目研究。二是積極組織學生參加“挑戰杯”全國大學生創業計劃大賽和課外學術科技作品大賽、數學建模大賽等科技創新活動。三是組織學生參與廣西統計信息服務中心、中國-東盟博覽會等實習單位的數據收集、處理和分析等統計工作,積累實際工作經驗,培養了實際工作能力。四是開展職業技能教育,增強學生的就業技能和職業素養,如會計從業資格、統計職稱等,邀請政府部門、企業高管或相關業務專家到校開展專題講座、職業生涯規劃、就業創業指導。此外,為了更好地貫徹因材施教原則,指導學生學習和成才,我們實施了本科生導師制,從學生的思想、生活、學業和就業等各方面進行更系統、更有針對性的指導,起到了教學相長的作用。
4.改革畢業實習方式,強化畢業論文(設計)的現實性和專業特色
針對近年來高校畢業生畢業實習難、分散形式效果較差的現實,我們在加大實踐基地建設力度的同時,逐步改革畢業實習方式,變“放羊式”畢業實習為集中實習為主、集中與分散實習相結合,切實提高實習效果。對于畢業論文(設計)工作,一是改革畢業論文指導方式,將社會實踐、學年論文、畢業實習和學生平時的一些競賽活動與畢業論文緊密結合,使學生較早了解畢業論文的有關要求及素材積累;二是向實習單位或用人單位征集部分畢業論文(設計)現實問題選題,并且適當邀請實踐基地部分專家或業務骨干參與學生畢業論文指導,通過畢業論文撰寫為實際工作部門解決一些實際問題;三是進一步強調統計學的專業特色,要求論文必須用數據說話,以檢驗學生綜合統計分析能力,減少抄襲現象的發生。
三、整合教學內容,加強課程建設,突出實踐應用
根據統計學專業的知識結構和能力培養要求,以打破“學科本位”,突出應用能力培養為主線,我們對課程體系的各知識點進行合理梳理、歸類,特別是對統計專業課程中內容交叉重復部分進行整合,進一步明確各門課程內容歸屬,合理確定各門課程的教學內容,使課程體系中的知識點不重不漏,課程內容更科學適用。之后,將各門課程按照內在聯系和教學要求歸并成若干個課程模塊,分塊建設。制定分階段課程建設規劃,重點是專業主干課程建設,明確課程建設的目標和具體內容,包括教學大綱、教案、電子課件、參考材料、試題庫、課程網站等內容,進而形成了每一門課程完整的課程檔案。
在教材的選用與建設方面,對于專業課程,選用理論內容體系較完整、豐富,與經濟社會實際緊密結合、實踐性強,面向21世紀的優秀新教材、國家“十一五”規劃教材或國外優秀教材;對于實踐課程,目前部分選用兄弟院校現成教材、實驗指導書,部分實訓教材通過自編完成。下一步,我們計劃用1-2年時間完成本專業完整的實踐教材體系建設,形成本專業特色系列實踐教材,如統計學案例教程、商務研究方法與應用等。這些實驗(實訓)教材可作為一些專業主干課程的同步實驗教材,也可作為統計學專業獨立實驗教材。
四、以人為本,改革教學方式方法,進一步提高課程教學質量
在教學內容、課程體系確定后,如何教成為提高教學質量的關鍵環節。我們鼓勵教師探索不同教學方式方法,激發學生學習的主動性、創造性,提高課堂教學效果。近年來,我們嘗試對《統計學》課程內容進行分模塊、與非統計專業的專業教師合作進行教學,即將非統計學專業的《統計學》課程分解為“統計學基礎理論和方法”、“統計理論與方法在本專業中的應用”兩大模塊,前一部分內容由統計專業教師上課,后一部分內容由統計專業教師和非統計專業的專業教師合作上課,將統計方法教學與各經濟管理類專業課程教學過程中的應用分析結合起來。在《統計學》(或《統計學原理》)教學過程中,試行“讀(閱讀)寫(寫作)議(討論)講(講課)”教學模式改革。“讀”是指在課外閱讀統計教材及相關教學資料,通過教師引導,使學生讀好書、會讀書,奠定學生良好的理論素養和數據意識;“寫”是指學生在閱讀基礎上,結合專業課程教學內容,有計劃、有目的地撰寫讀書筆記、調查報告、課程小論文等;“議”是組織學生開展案例討論、課堂辯論,實施交互式教學;“講”是讓學生充當教師角色,就統計教材或現實某一問題進行講解,之后教師進行評議。分模塊教學、“讀寫議講”教學方式充分體現了“以人為本”的教育理念,把統計理論方法與非統計學專業的專業學習、課內教學與課外學習有機地結合起來,有利于引導學生主動參與和自主學習,培養學生創新思維和發現問題、解決問題的能力,所以分模塊教學、“讀寫議講”教學方式改革得到了學生普遍好評,教學效果顯著。《多元統計分析》、《市場調查與分析》等專業主干課程也借鑒此思路進行了教學改革,采取“課堂講授+實驗(實踐)教學+課程論文”教學方式,重點培養學生“寫”(分析)的能力,強調統計理論方法在社會實踐和現代經濟管理中的運用。目前,我們正在針對不同課程特點,分別制定各門專業主干課程的教學方案,將“重思想、重應用”的教學理念貫徹到每一門主干課程教學過程中。經過上述訓練,學生應用統計理論方法解決實際問題的能力大大增強,研究能力也有不同程度的提高。
參考文獻:
[1] 陳相成.經濟管理類統計專業的改革發展思路[J].統計研究,2008,(5).
[2] 蔡敬民,魏朱寶.應用型人才培養的思考與實踐――以合肥學院為例[J].中國大學教學,2008,(6).
[3] 曾五一.關于經濟與管理類統計學專業教學規范的若干問題[J].統計與信息論壇,2004,(4).
肖文杰(1985-),男,助教,主要從事計算機網絡教學,研究方向為計算機網絡,數據挖掘。
摘 要:《數據結構》在傳統教學模式的教學過程中,存在諸多現實問題:學生與老師的互動性較差,學生自覺參與意識不強和學生實踐動手能力差等。針對以上問題進行分析,結合《數據結構》課程特點,論文提出了“PBL與CBS相結合的教學模式”。從教學應用和實踐效果看,采用這一教學模式后,學生不僅在筆試成績上有大幅度提高,而且實踐能力也得到大幅度提升,同時對提高學生的綜合素質有很好的幫助。
關鍵詞:數據結構;PBL教學法;CBS教學法;教學模式
《數據結構》課程,既是計算機專業核心的專業基礎課,同時也是眾多其它專業的重要的選修課程[1]。在采用傳統教學模式進行教學時,筆者發現教學過程中,學生無論是在課堂還是課外,學習自覺性和主動性不是很高,教學間缺少有效的互動環節等。這種教學模式,學生很容易產生了消極態度,最終導致教學效果不是很理想。
為了解決這些問題,筆者結合自己多年教學經驗,在借鑒前人研究成果基礎上,利用基于問題學習法(Problem-based Learning,PBL)和基于案例學習法(Case-based Study,CBS)相結合的教學模式運用在《數據結構》課程教學中,希望通過此教學模式的運用,能改變這種現狀。PBL和CBS兩種教學模式,最初都是運用在醫學教育中的教學方式。其中PBL是起源于20世紀50年代,是近年來比較流行的一種新型教學模式[2-3]。PBL強調以問題為學習主軸,以學生為主體,以教師為導向的啟發式教育,以培養學生的能力為教學目標[4-5]。基于案例學習的教學法,強調以案例為教學核心,是一種對案例進行分析的教學模式[6]。
1.研究對象及實施過程
對于具體教學活動的實施,分別在南昌工學院和南昌師范學院(原江西教育學院)兩個學校同時進行。
1.1研究對象
在南昌工學院選取2012級軟件技術專業三年制專科學生,共106人和2012級網絡工程專業四年制本科
學生,共84人。在南昌師范學院選取2012級軟件技術專業三年制專科學生,共122人。具體實施教學過程中,將學生隨機進行分組教學,即分成傳統模式教學組和PBL與CBS相結合教學組。
1.2授課教材和教師
授課教材的選擇:相同專業學生選用同種教材。而參考書學生根據需要自己選擇。授課教師都為具有多年教學經驗的雙師型教師。另外,在進行PBL與CBS教學之前,首先對授課教師進行PBL和CBS教學模式的相關培訓,對PBL和CBS教學理念和方法進行了系統學習。
1.3教學模式實施過程
1.3.1傳統教學模式
《數據結構》的傳統教學方法,主要采用“多媒體+黑板”方式進行課堂授課,在此教學模式中,整體采用“預習-課堂授課-課后復習-考試”的一個教學思路,即在實施過程中,要求學生對上課前對課本進行預習,正式上課過程中,主要以教師為主進行授課,授課過程中,適當安排提問和互動環節,在課后,也同樣要求學生對課堂所學的進行復習,最后進行期末考試。
1.3.2PBL與CBS相結合的教學模式
PBL與CBS相結合的《數據結構》課程教學,是
指在《數據結構》教學過程中,授課教師采用PBL教學理念,同時結合CBS教學法,采用“設置問題―小組討論―問題總結”三段式,展開教學活動。教學中,
以學生為主體、以問題為基礎、以案例為載體,進行引導式的綜合教學。教師具體實施教學過程中,將引導同學們按如下步驟學習:
(1)設置問題和資料準備階段。在這個階段,授課教師在授課前一段時間內,事先按照《數據結構》課程的教學大綱和授課計劃要求,結合學生學習層次和現有的知識水平結構,對將要學習的知識點進行提煉,同時配合使用具體案例,設置好若干個問題點,并同時為學生提供必要的教學素材,以供學生學習使用。學生在收到這些問題后,對其進行分組參與學習。各小組之間,進行協調分工,根據設置的問題和教師提供的素材,進行預習,借助于網絡資源、圖書館資源,查閱相關資料。
(2)小組討論和交流階段。在這一教學活動環節中,以學生為主體、教師輔助參與。授課教師首先利用簡短時間對本堂課程知識進行簡單介紹,對基本定義、算法和應用進行概括性的點撥。然后各小組進行交流和討論。討論中,通常會要求每組選出小組代表,進行小組發言,同時與教師和其它各小組進行交流。
(3)問題總結和教師評價階段。在課堂規定的時間內,完成交流和討論后,這時,再由授課教師對本次課堂學習進行總結和歸納。首先,授課教師對各小組對問題的討論結果、解決問題的方法和存在分歧給出點評。其次,在實施PBL與CBS相結合的教學模式下,授課教師還應對各小組在解決問題過程中的方法和表現情況等進行總結和點評。
2.考核與評價
為了比較傳統組和PBL與CBS相結合教改組在《數據結構》教學過程中的實施情況,采用筆試+實踐、學生自我評價和教師評價三種考評方式。
2.1筆試、實踐考核設計及效果
教學考核設計,建立由筆試和實踐操作組成的考核辦法。為了保證試題的公平性和客觀性,筆試題均從學校試卷庫中隨機抽題組成試卷,題型包括:單選題、填空題、綜合應用題和算法設計題等;而實踐考試包括課程設計和小型項目實踐操作等題。
通過筆試和實踐操作考試,經統計和整理,得出傳統組和PBL與CBS相結合教改組(簡稱教改組)的考核結果。筆試成績情況如表1所示;實踐操作考核情況如表2所示。(注:實驗組和傳統組,每組人數總數為30人)
從表1和表2中,我們可以發現,無論是筆試成績還是實踐操作成績,教改組學生都明顯高于傳統組學生。
2.2學生自我評價與問卷調查分析
另外,在考核中我們增加了學生自評考核手段。為此,我們設計了614份調查問卷,實際發放了610份,最后收回有效的調查問卷為598份。經對調查問卷整理和統計,得出了教改組學生的一些自我評價結果。調查中發現,在運用PBL與CBS相結合教學模式下教學的學生(即教改組),對于學習積極性、學習興趣和自學能力提高等方面都表示更多的贊同和支持。
2.3教師評價分析
本次調查中,也對參與教學實踐的授課教師采取了座談和調查。據授課教師的普遍反映,在《數據結構》課程教學中,運用PBL與CBS相結合的教學模式進行授課,學生們自覺參與教學過程的熱情大幅度得到提高,學生與老師、學生與學生之間的交流和互動機會明顯增多。同時,學生對于作業的完成情況也比原來有很好的改善和進步。
3.PBL與CBS相結合教學模式在《數據結構》教學中的理性總結
3.1有效的提高了學生的學習成績
從考核的結果來看,在PBL與CBS相結合教學模式下授課的學生(教改組),對于《數據結構》這門課程的成績,無論是筆試成績,還是實踐考試成績都比傳統模式下授課的學生有較大的提高。教改組學生在綜合應用題和算法設計題得分率,明顯高于傳統教學模式下的學生。
3.2有利于促進學生學習動機的形成
《數據結構》是一門理論和實踐結合比較緊密的課程。在傳統教學模式下的“灌輸式”授課,學生缺乏實踐及親身體驗的過程,老師通常講什么學生就去學什么,完全處于一種被動學習狀態。學生主動學習意識和主觀能動性無法得到很好的好培養和訓練。PBL與CBS相結合教學模式通過“問題+案例”為核心,學生以問題為基礎,學生帶著問題去查詢資料、學習、實踐、最終去解決問題。這種模式,倡導以教師為主導、以學生為主體,能夠充分調動學生主動能動性。
3.3促進批判性思維和質疑精神的培養
在《數據結構》課程中,批判性思維主要體現在對數據結構問題的確定、分析及問題的解決的能力。學生只有具備良好的批判性思維,才能對問題進行界定和分析,利用數據結構的知識解決實際問題。在以教師為主體的傳統教學模式中,學生無法發揮主動探索性和對問題的質疑性。PBL與CBS教學模式,對于學生的批判性思維和質疑的培養具有明顯優勢。
3.4對學生綜合能力的培養和訓練有幫助
PBL與CBS相結合的《數據結構》教學實踐中,采用小組的方式進行學習,無論對問題分析、問題討論和問題的解決過程中,都需要小組成員的共同努力和協作去完成。在這種以團隊形式教學實踐中,學生要學會與人溝通、交流和和合作。在這種不斷以小組形式的學習過程中,學生們的信息獲取能力、與人交流能力和團體協作能力等都會得到較好培養和訓練。
4.結束語
筆者將PBL與CBS相結合的教學模式運用于《數據結構》課程教學,將近有兩年的時間。結合考核結果、學生自評和教師評價來看,該組合模式在《數據結構》課程教學中,取得了良好的效果,學生對于《數據結構》課程學習的興趣有了很大提高,考試成績也有比較好提高,另外,學生問題分析與解決能力、團體協作能力等綜合素質都有不同程度提升。
另外,在運用PBL與CBS相結合進行《數據結構》課程教學中,我們也發現存在一些問題,有部分學生反應對該授課模式不太適應和缺乏系統性等。這對授課教師提出了更高的要求:
(1)授課教師在授課前應有充足的備課基礎。不僅包括對課程的授課知識有充分熟悉,而且要求對授課中的問題設置、計劃安排、節奏的控制等都要有很好的把握等。
(2)授課教師要有更強的自我學習能力。要能夠主動地自我學習,不斷地加強對新知識、新技術、新觀念、和新方法等的學習,以提高自身的綜合素質。(1.南昌工學院信息學院;2.浙江大學計算機系統工程研究所;3.吉首大學旅游與管理工程學院)
基金項目:2012年江西省教學教育改革研究課題(基金號:JXJG-12-24-2)。
基金項目:吉首大學2013年實驗教學改革研究項目2013SYJG038資助
參考文獻:
[1] 寧子嵐.PBL教學法在《數據結構》課程中的應用[J].現代計算機(專業版),2011,9:30-31.
[2] 萬里勇,徐新愛.基于PBL的《數據庫原理及應用》教學實踐研究[J].江西教學學院學報(綜合版),2012,33(3):70-72.
[3] 李東,張英濤,宋穎慧.“基于問題的學習”及其在計算機組成技術教學中的應用[J].計算機教育,2011,22(11):43-46.
[4] 葉曉鳴,楊力.PBL與CBS相結合的軟件測試課程教學模式研究[J].科教文匯(下旬刊),2011,02:44-45.
關鍵詞:智慧景區; IT能力; 服務感知; 游客服務
收稿日期: 2013-03-18; 修訂日期: 2013-11-13
基金項目: 北京市教委重點項目 “基于Web 2.0的首都高新技術產業決策機制研究與應用”(SZ201311417001)
作者簡介: 陳建斌(1970-),男,博士,北京聯合大學商務學院教授,研究方向為知識管理、商務智能等。鄭麗(1966-),女,北京聯合大學商務學院教授,研究方向為旅游電子商務。張凌云(1960-),男,北京聯合大學旅游學院教授,研究方向為旅游經濟、旅游地理與旅游管理。2008年國際商用機器公司(IBM)基于物聯網、云計算等概念提出了“智慧地球”戰略①后,得到全球產業界的熱烈響應和快速推廣,從而引發了“智慧城市”、“智慧旅游”等系列概念的誕生。2009年11月1日,國務院下發《關于加快發展旅游業的意見》,決定把旅游業培育成國民經濟的戰略性支柱產業和人民群眾更加滿意的現代服務業,為我國旅游業跨越式發展提供了政策支持。景區作為旅游產業的核心要素,它的智慧水平決定了服務質量和游客滿意度,并極大地影響著產業戰略目標的實現。一般認為,智慧景區就是結合景區特點,將物聯網、云計算等新興信息技術集成起來構建信息與決策網絡,增強人類感知、控制和管理的能力,更加精細和動態地管理景區,達到“智慧”狀態(李洪鵬,等,2011) 。智慧景區受到政府主管部門、行業協會及各地景區的重視,在國內掀起了建設熱潮。但是,由于智慧景區的研究剛剛興起,其權威性闡釋尚未樹立,建設理論尚未完善,并且這些關鍵問題尚未引起人們的充分關注,導致實踐層面的形式化和無序化。本文從“智慧”的本質出發,首先探討智慧景區的實質內涵;然后以企業IT能力理論為指導,構建智慧景區的IT能力系統框架;最后,提出智慧景區建設的核心系統,用于支持智慧目標的實現。本文力圖在理論層面闡釋智慧景區的概念和能力建設的本質要求,為景區信息化建設和向智慧狀態的演進提供指導。1智慧景區研究現狀關于智慧景區的研究尚不多。國外與“智慧景區(Smart Famous Scenic Sites)”相關的研究主要是探討景區的智能服務系統,如為旅游景區提供決策支持、行程規劃和解說服務的專家系統(Venturini,Ricci,2006;Kramer,et al.,2007) 、目的地的推薦系統和基于上下文感知的移動式旅游服務系統(Fesenmaier,et al.,2006;Martin,et al.,2011)等。從中國知網檢索到的智慧景區論文僅有數篇,主要是探討智慧景區的內涵與總體框架(邵振峰,等,2010;黨安榮,等,2011)、從數字景區向智慧景區的轉型探索(李洪鵬,等,2011)等。關于智慧景區的內涵,黨安榮等(2011)認識到要利用現代信息技術實現對景區全面、系統、及時的感知與可視化管理;李洪鵬等(2011)進一步明確智慧景區是利用最新技術“增強人類感知、控制和管理的能力,實現更加精細和動態的方式管理景區,達到智慧狀態”。顯然,這些理解已經注意到了“智慧”的實質是能力的增強。張凌云等(2012)進一步圍繞能力建設,提出了智慧旅游的CAA框架:智慧旅游的能力(Capabilities) 、屬性(Attributes) 以及應用(Applications),定義了智慧旅游的核心能力模型。該文雖然明確提出智慧建設是能力建設,但對核心能力的討論并未深入。
從相關文獻來看,多數智慧景區的理解存在著技術驅動的偏好,少數文獻涉及IT內化為能力建設的必要性。智慧景區建設,并不僅僅是技術及其系統的堆砌,而是需要從技術到人到企業運營管理的全面的變革,特別需要強調人的重要地位以及流程變革的關鍵作用。2智慧景區建設理論
2.1智慧景區的內涵闡釋所謂智慧,是指對事物能迅速、靈活、正確地理解和解決的能力(《新華字典》第10版,商務印書館)。智慧景區,當然強調的是景區具備了對旅游資源和游客及其活動等要素迅速、靈活、正確地理解和解決的能力。因此,本文認為,智慧景區是指能夠應用物聯網、云計算等現代信息技術整合景區資源,在游客感知、決策支持和游客服務方面具備了獨特的企業能力,從而提升景區競爭優勢、實現景區戰略的高度信息化的景區,是基于數據集成、流程優化后實現了“以游客為中心”管理模式的景區。智慧景區的實現路徑必須遵循信息化建設理論與方法。利用IT整合組織資源,建立競爭優勢,這是基于資源觀的企業IT能力理論核心思想。
2.2企業IT能力理論基于資源理論提出的“IT能力理論”認為,每個企業的IT資源和IT能力應該是獨特的、復雜的、難以模仿的。并且,已有學者提出,信息技術發揮效能的關鍵在于集成(彭賡,霍國慶,2004)。單一IT能力成分,可以輕易被競爭對手獲取、模仿,不符合戰略性企業資源的特性。相比企業的其他能力,IT能力更強調各成分的協同效應,更強調IT資源和能力作為一個緊密的系統被使用。因此,“企業IT能力系統”是企業IT資源與能力的集成體,反映了企業IT能力的個性特征和競爭力特性(陳建斌,等,2010)。根據Bharadwaj(2000)的分類,IT能力系統的基本構成包括IT基礎設施、人機綜合資源和無形資源。(1)IT基礎設施(IT Infrastructure)屬于有形資源,包括計算機、通訊產品與其它共享技術平臺以及數據庫。(2)人機綜合資源(Human IT Resources)包括技術性的信息技術技能(Technical IT Skills)與管理性的信息科技技能(Managerial IT Skills),前者是指系統分析設計、編寫程序等信息技術應用能力,后者指企業信息部門的管理能力、統合最終用戶需求的能力,以及為了達到以上目標必備的管理與領導技巧。(3)無形資源是指信息技術內嵌的無形資源與能力(ITEnabled Intangibles),可分為顧客導向、知識資產、協同效應等3個維度。協同效應(也稱“綜效”)指的是企業內資源與功能能夠實現跨部門的共享,知識與信息的共享使企業能夠更迅速地響應顧客需求。相應地,IT能力系統可以包括3個層次的能力:IT基礎設施能力、IT人本能力和IT驅動的無形能力。其中,IT基礎設施能力更可細分為共享能力、服務能力和柔性能力(張嵩,等,2004)。
2.3智慧景區IT能力系統企業IT能力理論為智慧景區的建設提供了理論依據。一方面,信息化實踐證明,信息技術必須與業務緊密融合和集成,才能發揮其技術優勢,鑄造企業競爭能力;另一方面,智慧景區本身需要管理和服務能力的提高,而不僅僅是技術裝備性能的提高。在技術采納和效能的浸延過程中,人作為能動要素發揮關鍵作用,所以,在IT能力系統中,有專門的人本能力體現。智慧景區強調景區在履行各項職能過程中表現出足夠的“智慧”。因此,景區信息化的過程,就是通過現代信息技術在景區管理與服務中的應用,實現數字化、信息化、智能化和智慧化,從而實現管理水平和服務質量的提升,實現服務模式和業態創新。其中,智能化強調景區結構化、程序性決策的自動化;智慧化強調決策的柔性、靈活性和主動性。景區信息化的過程,是景區IT能力不斷培育和成長的過程;智慧景區的形成,是景區IT能力成為一種體系、對景區管理和服務實現高效支持的結果。
2.3.1智慧景區的IT能力及其系統框架智慧景區的IT能力主要包括以下3種能力。(1) IT基礎設施能力 IT基礎設施能力是智慧景區的IT能力體系中最基礎的部分,也是景區數字化和信息化的基礎條件。IT基礎設施能力包括以下3個層面。第一,共享能力,反映IT基礎設施覆蓋的物理區域和信息范圍。覆蓋區域由計算機和傳感器網絡的配置和布設范圍決定,反映景區能否實現部門內部、部門之間、景區與游客、景區與供應商、景區與政府和其他合作者的連接;信息范圍反映能夠處理的信息類型,如門票信息、辦公文檔、設施實時狀態信息等,反映業務信息的數字化、結構化程度。第二,服務能力,反映IT 基礎設施的服務能力,表現為服務的數量和深度。從服務數量來看,一般包括業務系統管理、通信管理、數據管理、IT培訓與教育、IT研發與管理、安全管理、體系結構與標準管理、渠道管理等IT治理層面的內容;從服務深度來看,表現為選擇性提供和廣泛性提供,即某種服務是所有部門都需要的,還是部分部門選擇性使用的,反映了這種服務的需求強度。第三,柔性能力,反映IT基礎設施應用層面的靈活性,與業務流程緊密相關,也是某個景區具有個性和競爭力的IT應用層。其中應用邏輯(業務邏輯) 的組件化及其之間接口的標準化是關鍵。IT基礎設施柔性的程度依賴于每一項IT基礎設施應用所包含的業務流程的特征。(2) IT人力資源能力 景區的IT人力資源能力包括IT的技術技能和管理技能兩個方面。IT的技術技能是指景區信息技術部門或業務部門的信息化崗位員工所掌握的IT技能,主要包括技術人員的軟硬件技術方面的能力,如數據庫管理能力、程序編寫和修改能力、(網絡)操作系統的使用和維護能力、服務器及各種網絡產品的使用能力等。它體現了景區通過建設業務信息系統或電子商務平臺,提高景區工作效率和服務質量的能力。IT的管理技能是指景區規劃、開發和應用信息技術來支持和提高景區服務能力的技能,如景區信息管理部門的戰略規劃能力,與顧客、供應商互動整合其需求的能力,以及為了達到以上目標所具有的管理與領導能力(戰略分析能力、技術管理能力、項目管理能力、業務需求識別能力、跨部門協調能力以及各種業務管理能力等)。上述兩者,技術能力是基礎,管理能力是關鍵。一般說來,企業信息化與管理標準化是互相促進、相互依賴的關系。智慧景區的建設,實質上是景區利用信息技術促進“保護、管理和服務”三大職能持續改善的過程,最終表現為景區管理的高度智能、服務的高度智慧和保護的高度有效。因此,IT人力資源能力中,管理能力是最重要的,體現在管理業務的嵌入性。游離于業務流程之外的人力資源,無法形成企業能力。(3) 基于IT的智慧能力景區基于IT的無形能力可以稱為智慧能力,是集中體現景區信息化建設成果的層面,也是實現技術應用與流程變革協同效應的層面。基于IT的智慧能力可從3個方面進行考查。第一,客戶導向能力。包括對游客偏好的挖掘與跟蹤能力、整合各部門信息滿足游客需求的能力、IT部門與業務部門合作決策的能力。這種能力要求景區建立客戶導向的管理機制,培養以客戶為中心的經營理念,實施以客戶為中心的業務流程,并以此為手段來提高景區的獲利能力、收入以及游客滿意度。第二,知識管理能力。是指衡量信息技術推動景區各種知識的集約、應用、傳播和創新的能力。景區的智慧性,更重要的是決策能力的智慧性。決策依賴于對游客行為的準確感知和對游客需求的正確把握,這些都屬于游客知識。而游客知識更多地分布在一線員工頭腦之中。智慧景區要求建立合理的知識治理機制、高效的知識管理制度和有效的知識管理系統,并把知識管理融入業務處理,建立知識密集的景區服務與管理流程。第三,景區協同能力。通過信息系統實現資源共享、及時溝通、跨部門協作,低成本高效率研發新產品/新服務,高度響應游客需求的能力。協同是指系統的各個個體通過協作導致新的空間結構、時間結構和功能結構形成的過程或狀態(Haken,1978)。基于IT的景區協同,是在景區戰略指導下,實現了技術應用創新、流程創新和管理創新后,把景區相關資源全面集成一體,構建成一個以游客需求為驅動力的能力系統,實現了全面的時空和功能重構,表現為高度智慧的經營實體。這種景區協同能力,由諸多IT資源與業務資源全面整合形成,具備了戰略競爭資源所需要的價值性、稀缺性、不可模仿和不可替代性等特性(陳建斌,等,2007)。
2.3.2智慧景區的IT能力系統框架景區的功能有三大類:資源保護、運營管理、游客服務。景區三大功能決定了它必須具備3個核心能力,即資源保護能力、運營管理能力和游客服務能力。而IT能力則是服務于3個核心能力,并高度嵌入這些核心能力,最終實現景區的高度智慧化。智慧景區的IT驅動的整體能力模型如圖1所示。
圖1智慧景區IT能力框架
3智慧景區的建設內容智慧景區的建設內容應該遵循能力建設路徑,著重于“智慧”能力的培育和加強。智慧是一種理解和解決問題的能力,并且是“迅速、靈活、正確”的理解和解決。那么智慧的景區,就應該具備突出的理解游客、服務游客的能力。理解的前提是敏銳的感知和深邃的思考,服務的前提是快速的反應和有效的實施。因此,本文認為,“游客感知系統、決策支持系統和游客服務系統”是智慧景區的建設核心。
3.1游客感知系統游客感知系統是一個綜合性、靈敏性要求較高的神經網絡,既要把“神經末梢”通過互聯網、物聯網等伸展到游客可能到達的各個接觸點,也要把游客信息盡可能全面和及時地傳遞給數據中心和決策中心。這需要基于位置信息、數據倉庫、數據挖掘技術和人工智能對游客行為進行詳盡分析,并進行全面的信息資源規劃和感知網絡建設規劃。游客感知系統包括由傳感器感知旅游資源的ID、屬性、狀態、位置等各類信息的神經末梢、由無線傳感自組網絡技術與互聯網傳遞信息的神經網絡,以及GIS、商務智能、信息資源整合技術進行數據分析和再利用的大腦系統組成。景區對游客的感知,可以分為游前、游中和游后3個階段。游前,游客基于互聯網的信息查詢和預訂,能夠讓景區感知到游客的基本身份信息和游覽需求;游中,根據移動通信、GPS、RFID等,可以感知到游客的來源、游覽路線、交通工具和關注的景點、游覽內容等;游后,可以根據游客反饋獲得游覽的體驗信息和改善信息。
3.2決策支持系統景區的決策支持是景區信息化研究的熱點,成果比較多,如景區的專家系統、推薦系統、導覽系統等(Venturini,Ricci,2006;Kramer,et al.,2007;Fesenmaier,et al.,2006;Martin,et al.,2011),應用范圍主要有旅游監測和預測(杜軍平,周亦鵬,2009;江兵,等,2011),也有面向游客的規劃系統(李強,等,2008)。其中,人工智能是智慧旅游用來有效處理與使用數據、信息與知識,利用計算機推理技術進行決策支持并解決問題的關鍵技術(張凌云,等,2012)。智慧景區的決策支持,應該包括景區管理決策和游客個人決策兩個方面。這兩層決策又相互聯系、相互支持。因此,智慧景區的決策支持系統就是集成應用多種決策技術(人工智能、數據倉庫、數據挖掘與OLAP、Agent技術等),基于多種數據(傳感器數據、移動通信數據、網絡訪問數據、景區資源)建立景區游客行為模型和管理決策模型,并根據個性化推薦系統和實時監測系統,動態響應游客的個人決策請求(預訂決策、路線決策、購物決策等),并輔助景區管理者做出調度決策(客流控制、資源調配、應急救援等)。智慧景區的決策支持系統是大腦中樞,負責集中處理游客感知系統采集到的大量數據,根據算法和模型進行仿真、挖掘,并驅動游客服務系統實施決策結果,為游客行為決策和景區管理決策提供支持,因此它是智慧景區的核心。
3.3游客服務系統游客服務系統是一個高集成度的信息系統,既包括基于互聯網的旅游信息查詢、個性化推薦等數字服務,也包括為游客提供實體服務的信息管理系統(如門禁系統、導覽系統、解說系統、餐飲管理系統、交通管理系統、住宿管理系統、娛樂設施管理、購物管理系統等)。游客服務系統是游客實際游覽過程中食、住、行、游、購、娛等實體服務的神經系統,應具有以下特征。(1)高度集成性。即以“游客”及其行為為主體,通過建構游客全生命周期模型,集中管理和調度景區資源,為游客提供全方位一致性的跟隨服務。(2)高度智能性。即由于有了決策支持系統的內核驅動,服務系統具備了一定的“智能”性,能夠感知到游客的個性化需求,并提供相應的個性化服務。(3)高度響應性。即通過廣泛分布的游客信息感知單元,能夠及時感知和響應游客需求并實現快速調度設施和服務,讓游客感受到無所不在的即時服務。4結論與展望智慧景區建設是一個漸進的發展過程,任重道遠,不可能一蹴而就。智慧景區的實現,與信息技術應用效果、面向游客的流程重組、景區信息化的努力程度和科學態度密切相關。智慧景區并不是技術構架起來的物理系統,而是一個由“人、機、物、活動”構建起來的包括制度創新在內的社會系統。智慧景區的建設要點是,IT投入以后的景區智慧能力的培育與增強,以及各種IT資源和能力集成后形成的協同效應,從而構建獨有的企業IT能力系統。本文從企業IT能力理論出發,初步探討了智慧景區的能力內涵和IT能力體系,并提出了圍繞智慧能力需要建設的3個核心系統:游客感知系統、決策支持系統和游客服務系統,為智慧景區的建設提供了一定的理論基礎。關于智慧景區建設能力模型的進一步研究和應用,以及建設內容的細化,或許是智慧景區未來的研究重點和發展方向。
參考文獻:
[1]陳建斌,方德英,汪惠.企業IT能力系統動態演變的分析模型研究[J].管理評論,2010(3):6368.
[2]陳建斌,方德英,黃愛華.多元化企業IT協同能力的構成及其形成研究[J].外國經濟與管理,2007(10):2631.
[3]黨安榮,張丹明,陳楊.智慧景區的內涵與總體框架研究[J].中國園林,2011(9):1521.
[4]杜軍平,周亦鵬.基于數據的旅游管理決策支持系統研究[J].自動化學報,2009(6):834840.
[5]江兵,劉健康,胡崇德.太白山自然保護區旅游監測決策支持系統研究[J].計算機工程與設計,2011(8):28972900.
[6]李強,衛海燕,王威.面向游客旅游決策支持系統的設計與實現——以西安翠華山國家地質公園為例[J].測繪科學,2008(6):211213.
[7]李洪鵬,高蘊華,趙旭偉.數字景區轉型智慧景區的探索[J].智能建筑與城市信息,2011(7):112113.
[8]彭賡,霍國慶.企業信息系統進化中的信息集成軌跡[J].管理評論,2004(1):1520,63.
[9]邵振峰,章小平,馬軍,鄧貴平.基于物聯網的九寨溝智慧景區管理[J].地理信息世界,2010(5):1217.
[10]張凌云,黎巎,劉敏.智慧旅游的基本概念與理論體系[J].旅游學刊,2012(5):6674.
[11]張嵩,李文立,黃麗華.電子商務環境下企業IT基礎設施能力的構成研究[J].計算機集成制造系統,2004(11):14591465.
[12]Bharadwaj A S(2000).A resourcebased perspective on information technology capability and firm performance:An empirical investigation[J],MIS Quarterly,March,24(1),169196.
[13]Fesenmaier D,Werthner H,Wober K(2006).Destination Recommendation Systems:Behavioral Foundations and Applications[M].Cambridge,MA:CAB International.
[14]Haken H(1978).Synergetics[M].SpringesVerlag,Berling Hoidelberg,NewYork.
[15]Kramer R,Modsching M,Ten Hagen K(2007).Development and evaluation of a context driven,mobile tourist guide[J].International Journal of Pervasive Computing and Communication,3(4),378399.
[16]Martin D,Alzua A,Lamsfus C(2011).A contextual geofencing mobile tourism service[C].Information and communication technologies in tourism:191202.Vienna,Austria:Springer Verlag.
[17]Venturini A,Ricci F(2006).Applying Trip@dvice recommendation technology to [C].4th prestigious applications of intelligent systems(PAIS2006).The 17th European Conference on Articial Intelligence,Riva del Garda,Italy,Aug 28thSept 1st.
A Study on the IT Capability Model of Smart
Scenic Area and Its Core Components
CHEN Jianbin1, ZHENG Li1, ZHANG Lingyun2
(1.Business College of Beijing Union University;
2.Tourism Institute of Beijing Union University, Beijing 100025, China)
(中國石油大學(北京)信息學院,北京102249)
摘要:針對當前計算機基礎教學的現狀,分析石油院校計算機基礎教學發展與改革的歷程及面臨的困境,提出在當前以計算機思維為導向的計算機基礎教學改革目標指導下,如何面向專業應用能力培養計算機思維,闡釋其課程體系及其運行機制。
關鍵詞 :大學計算機基礎教育;計算思維;程序設計
文章編號:1672-5913(2015)17-0076-03
中圖分類號:G642
基金項目:中國石油大學(北京)本科教學改革項目( 2014yb098);中國石油大學(北京)研究生質量與創新工程項目( 2013yb039)。
第一作者簡介:王新,女,副教授,研究方向為數據庫、數據挖掘,xinwang@cup.edu.cn。
0 引言
隨著計算機技術的飛速發展和廣泛應用,計算機科學與多種學科相互滲透,產生了多種邊緣學科。計算機基礎課程內容不斷地改革和調整,教學理論和教學目標也在發展和深化,其中有幾次重大改革:①1997年提出的計算機文化基礎課程體系,以計算機技能培養為主;②2004年提出的大學計算機基礎課程體系,以計算機應用能力培養為主;③2010年,以《九校聯盟( C9)計算機基礎課程教學發展戰略聯合聲明》為標志,以計算思維培養為主的新一輪課程改革開始了。
1 計算機基礎教育現狀與面臨的困境
隨著互聯網的應用與發展,計算機基礎教學產生了越來越多的困境。其主要原因:中小學信息技術教育的普及,入校的新生對計算機操作的技能大幅提升,使得計算機科學與技術具有平民化的趨勢,部分專業人士認為計算機基礎教育可弱化或取消;按教育部要求,高校各專業總學分大幅縮減,計算機基礎課的教學學時被壓縮,教學資源配置不充分;很多人將計算機科學等同于計算機編程,淡化了計算機的科學意義,削弱了計算機學科的內涵。計算機基礎課程教學內容過分偏重計算機工具及其使用方法;教材基本上是有關領域的濃縮版,學生進入大學后,對第一門計算機課程興趣不大;課程教學在分層次、分類別上也存在明顯不足,使得計算機基礎教育教學自身的地位也有所降低;更為關鍵的是信息化素養與專業技能融合缺少具體的實施方案和有效的實現途徑。基于上述原因,2010年,教育部高等學校計算機基礎課程教指委明確提出:計算機基礎課程應成為大學通識類課程;與大學通識類課程地位相適應,大力推動以計算思維為導向的計算機基礎課程的教改;持續開展在計算機基礎課程教學中體現計算思維能力培養的一系列研討、立項和交流培訓工作。
2 石油高校計算機基礎教育重在計算思維的培養
眾所周知,石油、石化行業是計算機技術廣泛應用的領域,石油高校計算機基礎教學承擔著培養石油、石化專業人才計算機應用能力的重任,而信息技術與專業技術相融合是提升學生專業應用能力和創新能力的迫切需求。培養創新型人才,首先要培養人才的科學思維方式,即訓練人才的實證思維、邏輯思維和計算思維。由此可見,訓練計算思維是培養復合型人才的需要。
3 面向專業應用能力,培養計算機思維
大學計算機課程的改革進程可分為4個層面:理論層面上研究計算思維的內涵與表現形式;系統層面上規劃大學計算機課程的知識結構和課程體系;操作層面上將大學計算機課程作為培養計算思維能力的有效手段;實踐層面上探索不同層次培養目標、不同專業應用需求的途徑。
鑒于以上指導意見,明確計算機基礎教育的總體目標和課程的知識結構、構建課程體系、建設教學資源是我們深化大學計算機課程改革的總體思想。
計算機基礎教學的總體教學目標分為3個層次,即“普及計算機文化,培養專業應用能力,訓練計算機思維能力”,為此需明確石油高校計算機基礎教學的基本要求和課程體系。
(1)計算機基礎教學的要求。面對石油各專業,計算機基礎教育總體上應使學生了解計算機科學,會構建計算環境,熟練掌握數據處理方法與表達方式,提高計算機應用能力,善于靈活運用計算機解決問題。這就要求學生具體達到以下要求:比較系統地了解和掌握計算機系統與網絡、程序設計、數據庫以及多媒體技術等方面的基礎概念與基本原理,了解信息技術的發展趨勢;熟悉正確的程序設計方法與思想,具有初步的應用軟件開發基礎;具有數據庫應用系統的初步設計、開發與應用能力;能利用常用工具處理多媒體數據,初步掌握多媒體應用系統的集成與開發能力;培養良好的信息素養,訓練計算思維,能夠利用計算機手段進行問題表達與交流,學會像計算機科學家一樣思考與解決問題;利用Internet進行主動學習,增強專業應用能力,為專業學習奠定必要的計算機基礎。
(2)計算機基礎教學的知識結構。按照教育部的指導意見,我校計算機基礎教育的知識結構應滿足3個層次、4個知識領域。
3個層次:①概念性基礎,要求學生掌握計算機學科的基本概念和主要的基本理論知識,是各專業學生必學的內容;②技術與方法基礎,要求學生掌握本專業常用的計算機應用軟硬件技術和相關理論方法,不同類別的專業有不同的側重點;③應用拓展技能,結合各專業、各知識領域中有較大共性的、最主要的一些應用性技能,使信息技術與專業技能相結合,不同類別的專業各有側重。
3個層次的教學過程始終貫穿一條主線:網絡數據庫多媒體,以計算思維訓練為導向。
4個知識領域:計算機系統與平臺、程序設計基礎、數據分析與信息處理、信息系統開發與應用,使學生充分了解計算機軟硬件系統的基本結構和工作原理,問題分析與表示方法,系統設計與實現的主要算法,數據的組織、管理以及處理過程,應用系統實現與平臺構建的流程。
(3)構建計算機基礎教學課程體系。①課程設置指導思想:根據我校不同專業對計算機應用的不同要求,從知識、能力、素質要求出發,計算機基礎教學課程設置的原則是:以訓練計算機思維為導向,重基礎、強實踐,培養學生的綜合應用能力;②計算機基礎教學的典型核心課程主要包括大學計算機基礎(大學計算機基礎理論+大學計算機基礎實踐)、算法與程序設計基礎、計算機硬件技術基礎(微機原理與應用、單片機原理與應用)、數據庫技術與應用、網絡技術與應用、多媒體技術與應用,不同類別的專業可根據學分要求選取不同的知識模塊(見表1);③課程設置方案:各專業采用“1+X”的方案,即大學計算機基礎+若干必修/選修課程,而將大學計算機基礎實踐作為獨立設置的實踐環節,以滿足各專業認證的實踐需求。對本校各類專業選修計算機課程的建議見表1。
4 主要的改革措施和成果
(1)加強師資隊伍建設。在各高校中從事計算機基礎教學的教師通常被認為是“沒有前途的”,導致基礎教學的師資不穩定。我校2010年之后經過院系調整,明確了由軟件工程系組織管理計算機基礎教學,基礎課教學由計算機學科教師共同承擔,形成了穩定的基礎課教師隊伍,教師均為計算機學科的碩士、博士,年齡在35~50歲之間,精力充沛、教學經驗豐富。
(2)激勵教學研究,鼓勵發表教改論文。計算機基礎教學內容更新快、變化大,授課對象層次參差不齊,必須不斷地研究教學內容、教學方法與教學手段、考核與評價方式、教材選用與教材建設以及教學過程的內在規律。近年來學校對大班授課、小班討論,卓越班和創新班的培養方案,研究型、研討型、MOOCs、翻轉課堂、知識碎片化等授課方式,以及任務驅動、項目管理、案例化教學等教學改革項目予以大力支持,鼓勵教師發表高水平的教學改革論文。
(3)教學團隊建設。計算機基礎課程授課面大,上同一門課程的教師較多,教學團隊的管理極為重要。團隊發展規劃是否科學、日常教學活動組織安排是否合理,關系到每個教師的成長。重點建設公共基礎課教學團隊是學校團隊建設的原則。目前計算機軟件基礎課程教學團隊為北京市優秀教學團隊,C語言教學團隊為校級優秀教學團隊,大學計算機基礎教學團隊為校級培育教學團隊。
(4)積極輔導學生參加學科競賽。學科競賽是展現學生應用能力的平臺,也是促進學生學習興趣的有效途徑。計算機基礎課教師承擔著全校學生參加全國信息技術應用水平大賽(原ITAT大賽)、藍橋杯大賽(全國軟件專業人才設計與創業大賽)以及各種計算機相關應用學科競賽的課外輔導工作,承擔校內C語言程序設計大賽的考試與評審工作。
5 結語
鑒于計算機基礎教學的學時被逐漸壓縮的事實,提高各專業相關人員對計算機應用能力和計算思維的認識極為重要,這是信息社會中培養具有科學思維的創新人才的要求,而構建與學校特色、學生層次相適宜的課程體系和運行機制是培養計算思維的有力保障,研究并實施新的教學方法與手段是訓練計算思維的有效途徑,探討并執行信息素質與專業素質相互滲透的實施方案是培養具有綜合應用能力的復合型創新人才之有效途徑。
參考文獻:
[1]陳國梁,董榮勝,計算思維與大學計算機基礎教育[J].中國大學教學,2011(1): 7-11.
[2]劉桂松,李茂國.大學計算機系列課程改革思考[J].中國大學教學,2012(11): 39-41.
[3]教育部大學計算機課程教學指導委員會,關于申報大學計算機課程改革項目的通知[Z],2012.
[4]教育部高等學校計算機基礎課程教學指導委員會,高等學校計算機基礎教學發展戰略研究報告暨計算機基礎課程教學基本要求[M].北京:高等教育出版社,2009: 21-23.