發布時間:2022-05-05 10:46:22
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的1篇網絡信息檢索論文,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
[摘要]搜索引擎是人們使用Internet信息資源的重要工具。本文對目前的中文搜索引擎進行了簡要的分析,指出了其存在的缺陷和發展的方向。
[關鍵詞]信息檢索中文搜索引擎存在的問題發展方向
隨著Internet信息資源的迅速增長,如何在浩瀚的信息海洋中準確、方便、快速地找到自己所需的信息,成了迫切需要解決的問題,從1995年開始出現的信息檢索工具——搜索引擎很好地解決了這一問題。然而各種搜索引擎,特別是尚處于發展初期的中文搜索引擎還存在著很多的缺陷有待改進,本文旨在分析目前中文搜索引擎存在的主要問題,并為解決此類問題提出一些建議和方法。
一、搜索引擎的概念和及類型
搜索引擎又稱檢索引擎,是指運行在Internet上,以信息資源為對象,以信息檢索的方式為用戶提供所需數據的服務系統,主要包括信息存取、信息管理和信息檢索三大部分。
目前,中文搜索引擎主要有三種類型:目錄式搜索引擎、機器人搜索引擎(又稱全文搜索引擎)和元搜索引擎。
1.目錄式搜索引擎。目錄式搜索引擎是以人工或半人工方式收集信息,建立數據庫,由編輯人員在訪問了某個web站點后,對該站點進行描述,并根據站點的內容和性質將其歸為一個預先分好的類別。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,其搜索的準確度較高,導航質量也不錯。但因其人工的介入,維護量大,信息量少,信息更新不及時都使得人們利用它的程度有限。國內著名的新浪、搜狐、中文雅虎都屬于這種類型。
2.機器人搜索引擎。這是一種目前運用較廣泛的搜索引擎。國內以百度,google、天網為代表。它是使用自動采集軟件Robot,搜集和發現信息,并下載到本地文檔庫,再對文檔內容進行自動分析并建立索引。對于用戶提出的檢索要求,通過檢索模塊檢索索引,找出匹配文檔返回給用戶。
機器人搜索引擎具有龐大的全文索引數據庫。其優點是信息量大,范圍廣,較適用于檢索難以查找的信息或一些較模糊的主題。缺點是缺乏清晰的層次結構,檢索結果重復較多,需要用戶自己進行篩選。
3.元搜索引擎。元搜索引擎是一種調用其他搜索引擎的引擎。它是通過一個統一的用戶界面,幫助用戶在多個搜索引擎中選擇和利用合適的搜索引擎來實現檢索。中文元搜索引擎開發較少,較成熟的則更少,萬緯搜索是目前有一定影響的中文元搜索引擎。
二、現階段中文搜索引擎存在的主要問題
1.信息覆蓋面有限。現階段搜索引擎所覆蓋的數據庫的規模是非常有限的,據美國科學期刊Natures一篇報告中稱,全球最大的搜索引擎也只能覆蓋現有網頁的16%。中文搜索引擎因起步慢、中文信息所占互聯網全部信息的比例小(只占全部網絡信息的5%)等原因在這方面尤為突出。
2.查全率不高。查全率是指檢索出的相關信息量與存儲在檢索系統中的全部相關信息量的百分比,是判斷檢索系統質量的度量之一。
國內絕大多數的網站組織的信息大多都是通過瀏覽方式獲得內容。即使是經過精心組織、編排非常合理的網站,也會有70%~80%的網頁不能被搜索引擎檢索到。中文目錄式搜索引擎因需人工介入、維護量大,在這方面表現較明顯。
3.查準率較低。查準率更是判斷檢索系統質量的重要尺度。是指系統所檢索到的真正與查詢內容相關的文檔占檢索出的所有文檔數的百分比。
造成查準率低的原因是,部分搜索引擎的分類體系與科學知識體系之間缺乏內在聯系;類目之間邏輯關系模糊,導致檢索路徑與搜索引擎類目錯位;信息加工深度不夠;檢索功能單一;檢索詞的專指性較差;大部分的檢索結果是題錄式而非全文式,其內容簡單等等。機器人搜索引擎的分類和索引缺乏人工的參與,其查準率不如目錄式搜索引擎,且檢索結果中還含有大量的重復、虛假的信息。
4.專業性的搜索引擎發展遲緩。專業性的搜索引擎是為專門收錄某一行業,某一主題的信息而建立,能夠提供專題信息查詢服務的搜索引擎。目前中文搜索引擎大多是綜合性的,能同時收錄各行業、各學科的多種信息,但在反映某一行業或某一專題的信息方面很難做到全面、精確,不能給用戶提供特定的信息服務。這就使得專業人員,特別是某一領域的學者、專家不愿意利用中文搜索引擎去查詢資料。
5.檢索功能方面存在缺陷。一是檢索中符合布爾邏輯運算符的搜索引擎極為有限;二是關鍵詞檢索輸出的結果相關度排序方式雜亂,不能根據用戶需要來選擇信息輸出的方式;三是多數的搜索引擎是面向主題搜索不是面向用戶搜索,不能重復利用用戶檢索過的成果,更不能對特定的用戶進行定題跟蹤服務;四是檢索網站的主頁不規范,有些太簡,有些又太繁,而且廣告內容太多,無法進行有效檢索。三、中文搜索引擎的發展方向
1.提高查全率。首先是需要開發分布式的系統。這種系統可以把各個接點當作是新的信息資源,擴大數據庫的規模,正在興起的元搜索引擎屬于這種系統,它在接受了用戶的查詢命令后,可同時用多個搜索引擎進行查詢;二是把專業數據庫資源納入自己的檢索范圍。除了Web信息資源外,網上還有大量的非Web信息資源,如聯機檢索系統、光盤檢索系統、專業數據庫系統。如中文搜索引擎能把這些Web和非Web資源結合起來使用,即使有的只能查到題錄、文摘等內容,也大大擴展了檢索范圍,能為用戶提供較全面的檢索需求。
2.提高查準率。需解決以下幾個難關:首先需提高搜索引擎的信息過濾功能。在對網絡信息進行集中的搜集之后,搜索引擎還需對這些信息進行鑒別和過濾,即剔除大量的無用信息,而把有效的信息提煉出來并加以聚集;第二則是需對專家過濾后的信息進行一定的檢索標引,并給予相關的標識符號,如關鍵詞、分類號、主題詞等各種標識,其關鍵是利用智能檢索技術,提高準確性;把檢索的結果存儲在相應的數據庫中,并由URL與Internet建立鏈接供用戶使用;還需注意信息定期更新,以保證信息的新穎性和鏈接的可靠性。
3.建立垂直化專業領域的搜索引擎。網絡用戶所從事的職業千差萬別,不同的用戶對信息搜索往往有不同的要求。綜合性的搜索引擎收錄的范圍太廣、太大無法滿足某一特定的需求。垂直化專業搜索引擎則可解決這一難題。它只面向某一特定的領域,專注于自己的特長和優秀技術,能保證對該領域的信息的收錄齊全與更新迅速。在提供專業信息方面有著大型綜合搜索引擎無法比擬的優勢,所采用的技術都是些較成熟的技術。
中文垂直化專業搜索引擎的發展已取得了一定的成功,如新浪的新聞搜索,博客搜索、雅虎的個性化旅行路線搜索、百度的MP3搜索、Google的學術搜索,航班搜索等都為用戶提供了較好的搜索功能,為今后的繼續發展奠定了基礎。
4.搜索引擎的智能化發展。智能搜索引擎是未來搜索引擎的發展趨勢。可以通過自然語言與用戶交互,最大限度地了解用戶的需求。智能檢索一是表現在搜索引擎技術的智能化,研究重點放在自然語言處理技術和人工智能技術的研究上;另一表現是體現在搜索引擎面向檢索者的智能化,它致力于通過分析檢索者的檢索和瀏覽行為來學習檢索者的需求,利用搜索引擎現有的服務有選擇地為檢索者提供個性化的服務。
5.加強搜索引擎的檢索功能。首先需強化全文檢索功能。利用Robot實現對站點頁面文字內容的全面檢索技術。比起目錄檢索,全文檢索提供了全新的檢索功能,可以直接根據文獻資料的內容進行檢索,支持多角度、多側面地綜合利用信息資源,全面、準確、快速是衡量全文檢索系統的關鍵指標;同時改善用戶檢索界面,設計簡潔、明白的界面引導用戶進入檢索狀態;更方便、實用的檢索技巧的利用,中文搜索引擎需簡化和統一語法規則,如布爾邏輯檢索符號的利用:空格或“*”代替“與”、“+”代替“或”、“-”代替“非”,規范語法符號,節省用戶的檢索時間;還需研發查詢圖像、聲音、圖片和電影的搜索引擎。
6.完善元搜索引擎。元搜索引擎彌補了獨立搜索引擎不全的特點,提高了檢索的全面性。現開發出的中文元搜索引擎的數目很少,還有諸多缺陷,需在各方面進一步改進。
元搜索引擎要對各獨立的信息特色進行較細致的調查,以確定自己要收錄的范圍;在對目標搜索引擎的組織中突出獨立搜索引擎的檢索特色,并設計各搜索引擎之間的檢索方式的轉換算法,提高用戶檢索行為的針對性;建立更為靈活的,面向用戶的信息檢索服務。檢索界面要統一和友好,檢索方法的設置要提供給用戶更多的自由空間,使用戶可以按照自己的意愿合理的組織檢索式;在檢索結果的顯示中要開發出一個有效的檢索結果去重、選擇、排序和優化算法,這是中文搜索引擎開發中的一個重點和難點。
1 引言
所謂信息檢索(Information Retrieval),廣義地說,是指將信息按照一定的方式組織和存儲起來,并能根據信息用戶的需要指出其中相關信息的過程,因此它的全稱叫“信息存儲與檢索”(Information Storage and Retrieval)。狹義的信息檢索則僅指該過程的后半部分,即主要是如何從存儲的信息集合中找出所需要的信息的過程,相當于人們通常所說的信息查詢(Information Search)。
進入20世紀90年代以后,互聯網的發展風起云涌,人類社會的信息化、網絡化進程大大加快。與之相適應的信息檢索的交流平臺也迅速轉移到以WWW為優秀的網絡應用環境中,信息檢索步入網絡化時代,網絡信息檢索已基本取代了手工檢索。
2 網絡環境下信息檢索的特點
2.1信息檢索的范圍不斷拓寬
因特網本身就是由分布在全球的各個計算機網絡組成的一個“網際網”,它跨越了地域的界限,真正實現了全球化連接,是一個全球性的網絡。其信息資源分布在世界各地的服務器上,各類信息資源通過網絡互聯,實現了全球范圍的共享,可供檢索的資源包括大量的主頁、多種報紙期刊全文、各種組織機構的信息以及原始技術報告、各類數據庫等,人們可以隨時進行文獻、數據、圖片等資源的檢索,以獲取所需的信息。網絡信息資源分布及服務的全球化,極大地擴展了網絡信息檢索的空間和范圍。
2.2信息檢索手段更加容易
隨著網絡和計算機的普及,信息檢索用戶逐漸由專業人員向個人用戶轉移,這就決定了大部分信息檢索用戶不可能像圖書情報專業的專業人員那樣熟練地使用主題詞、分類號、邏輯組合等嚴格的專業查詢語言來檢索網上的信息資源。而互聯網良好的“人-機”會話界面、強大的搜索引擎和方便的幫助支持系統,不需要用戶花太多時間去學,只要掌握一些簡單的檢索方法和技巧就可以檢索自己需要的信息,使用起來簡單、方便。
2.3信息檢索的途徑更加靈活
網上信息種類繁多,因此用戶可以根據需要從多種載體、多種角度進行檢索,如可以利用搜索引擎從網站、網頁等各種途徑檢索自己所需的信息。另外,在專門的數據庫檢索系統中,多提供標題、作者、機構、刊名、關鍵詞等檢索途徑,用戶可以根據需要靈活選擇,可以大大提高檢索效率。
3 網絡環境下信息檢索的發展趨勢
隨著計算機的普及,以及計算機技術、網絡技術及數字化技術的發展,網絡信息檢索將越來越受到廣大用戶的青睞及廣泛應用,這也就決定了網絡信息檢索必將朝著智能化、可視化、多樣化方向發展。
3.1智能化
智能化將是網絡信息檢索發展的主要方向。因為智能檢索是基于自然語言的檢索形式,可以用自然語言和用戶交互,采用諸如語義網絡、框架等各種知識方法來充分體現各個主題概念和標識之間的關系,還可進一步在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典形成一個知識體系或概念網絡,給予用戶智能知識提示。另外,智能檢索還包括歧義信息的檢索處理,甚至還能體會用戶的言外之意,最終幫助用戶獲得最佳的檢索結果。
3.2可視化
可視化指的是運用計算機圖形學和圖像處理技術,將數據轉換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。據統計,人獲取信息有70―80%靠視覺,20%靠聽覺,10%靠觸覺。用圖像取代文字幫助人們檢索的優點在于:圖像的表達更生動、形象、準確,效率更高,具有交互性、多維性、可視性等特點,可以大大加快檢索速度,使時刻都在產生的海量數據得到有效利用。
3.3多樣化
首先表現在可以檢索的信息形態多樣化,如文本、聲音、圖像、動畫等。目前網絡信息檢索的主體仍是文本信息,基于內容的檢索技術和語音識別技術的發展,將使多媒體信息的檢索變得逐漸普遍。其次表現在檢索工具的服務多元化。網上檢索工具已不僅僅是單純的檢索工具,正在向其他服務范疇擴展,例如提供站點評論、天氣預報、新聞報道、股票點評、航班和列車時刻表等多種面向大眾的信息服務、免費電子郵箱等,以多種形式滿足用戶的需要。
4 結語
21世紀是信息時代,網絡信息資源已成為人們日常工作和生活必不可缺的資源。那么,如何在浩如煙海的網絡信息中,獲取自己所需的信息呢?相信,隨著計算機技術、通信技術和網絡技術的逐漸普及,網絡信息檢索會越來越為人們所熟悉,網絡信息用戶只需掌握一定的檢索工具的使用方法和技巧,就能迅速地在浩瀚無涯、豐富多彩的海量信息中排除不良信息,過濾出適用信息,花最少的時間得到最相關的查詢結果,輕松獲得所需信息。
摘要:本文分析了現有分詞算法存在的不足,研究了機械分詞方法、堆棧技術理論以及最大匹配法自動分詞工作流程,在此基礎上,構建了堆棧-最大匹配自動分詞模型,詳細闡述了該模型基本結構和運行流程。最后針對該算法,進行了簡單舉例分析。
關鍵詞:堆棧;最大匹配法;分詞算法
自動分詞問題是搜索引擎的優秀問題,本文針對該問題,在對現有的分詞算法分析研究的基礎上,結合最大匹配分詞法(MM法)和堆棧技術理論,提出了堆棧-最大匹配自動分詞模型,該分詞算法在對文章中的詞進行自動切分時,具有良好的效果,實現了對MM分詞算法的進一步改進。
一、機械分詞方法和堆棧技術理論
機械分詞方法的思路是先查詞庫進行匹配,然后再適當利用部分詞法規則進行歧義校正。機械分詞法之所以稱之為“機械”,是因為它的切分過程是依賴于詞庫進行。詞庫中詞條的數目、詞條的選擇直接影響到最后的分詞效果。機械分詞法加歧義校正屬于機械分詞法的一種改進,它主要利用詞法規則對歧義進行校正,以提高切分精度,事實證明這種改進是有效的,而且這種改進最終導致了知識分詞方法的出現。目前屬于機械分詞領域的分詞方法主要有:最大匹配法、高頻優先分詞法、雙向掃描法等。其中最大匹配分詞法是機械分詞方法的典型代表。
二、堆棧-最大匹配自動分詞模型構建
堆棧-最大匹配自動分詞技術主要是結合最大匹配分詞法和堆棧技術對文章中的詞進行自動切分,是對最大匹配法的改進。基于最大匹配自動分詞的思想,結合堆棧技術理論,我們可以得出:最大匹配法重視的是字符長度,如果遇到在分詞過程中后面字符串出現不可分的情況,能自動彈棧回退,并且重新檢索出另一個成功匹配的詞作為分詞結果,就有可能解決后面字符串不可分的窘境。所以堆棧-最大匹配自動分詞模型構建基本設計思想是:
首先按照文章中的標點符號將文章內容切分成語義塊,每個語義塊就是一個字符串,針對每一個字符串作循環。每次只處理一個漢字,將該漢字假設為詞首,并且在詞庫中檢索以該漢字為詞首,檢索該漢字后的字符匹配。根據檢索出來的詞作為分詞結果的備選項,按長度排列,首先取出長度最長的那個詞,即最大匹配,假設這個詞就是以該漢字為首的分詞結果,加入到這個語義塊的分詞結果棧中,然后繼續該詞語位置之后的下一個漢字的處理。在該方法實現的過程中,筆者將語義塊中已經分詞成功的那部分字符串在壓棧的同時,從語義塊中去掉。如果分詞結果棧中出現分詞歧義需要彈棧時,將彈出的結果加在原來語義塊字符串的首部。這樣就不需要在每得到一個分詞結果后計算下一個即將處理的漢字的位置了。
三、堆棧-最大匹配自動分詞算法
根據堆棧-最大匹配自動分詞方法的基本思想和模型,形成了相應的堆棧最大匹配自動分詞算法。堆棧-最大匹配自動分詞的優秀算法如下:
①在現有的句子中以標點符號為標界,且分成多個語義塊block,存為字符串數組;設置另一個字符串數組result,存放單個block的分詞結果;設整型數組undone,用來記錄不可分的漢字的出現位置。②循環字符串數組,對數組中每個語義塊block進行步驟③,直到整個字符串數組被處理完畢。③對單個的語義塊每次都是從block的首個漢字開始進行分析,執行下一步;④如果result的總長度與原語義塊的長度相等,或者是block的長度為零,說明該語義塊分詞完畢,執行步驟⑩;當分詞過程遇到該漢字時,將該漢字暫時略過;執行步驟③;⑤取singleword=block.SubString(0,1),繼續;⑥在詞語表中查找以singleword為首詞語,存為一個字符串數組temp,作為分詞的備選項,繼續以下判斷;⑦如果temp的長度為零,即if(temp.Length==0),則說明不存在以該字為首的詞語;比較該漢字的位置是否在不可分數組undone中有記錄,如果有則略過該漢字,執行步驟③;⑧如果temp的長度為1,即if(temp.Length=1),只有一個分詞結果備選項,那么該結果就是所要的分詞結果,該詞語壓入分詞結果棧中result數組中,執行步驟③;則說明在詞語表中從block首部取出;⑨如果temp的長度大于1,即if(temp.Length>1),則說明分詞結果備選項中存在多個結果,按照temp數組中的字符串長度的次序由小到大排列,取數組最后一個元素的字符串,在block首部去掉該詞,壓入分詞結果棧result中,執行步驟③。⑩如果不可分數組undone不為空,則對數組中的元素和分詞結果中的元素進行人為干預,將新詞錄入詞庫,執行下一步;?開始下一個語義塊的分詞,將上一個語義塊的分詞結果輸出,并且將分詞結果棧result清空,執行步驟②。
四、自動分詞舉例
假設在文章的句子中,已經有了切分好的語義塊。例如,有一句話“這些學生會員都來了”。詞庫中已經有以下的詞語了:這些、學生、學生會、會員、都、來、了
那么,應用上述的自動分詞算法,依次對該句的漢字進行分析,其詳細過程如下:①檢索“這”,發現“這些”在詞庫中并且與原文匹配;②檢索“學”,發現有兩個匹配,分別是“學生”和“學生會”,取字符長度最長的那個匹配項“學生會”;③檢索“員”,發現詞庫中沒有以“員都”或“員”這樣的詞語,因此不存在匹配,于是將先前的棧頂元素彈出,壓入第二長的分詞備選項“學生”:④檢索“都”,這是一個副詞,在詞庫中;⑤同理,“來”和“了”依次被分出來。
實踐證明,利用該分詞算法進行自動分詞,其分詞復雜度得以大的改善,該分詞算法在對文章中的詞進行自動切分時,可以大大降低分詞過程中的匹配次數,提高了分詞的響應速度,尤其適合大量中文信息的分析與處理。
摘要:互聯網是一個巨大的信息資源庫,其內容包羅萬象,覆蓋了不同學科、不同領域、不同地域、不同語言的信息資源;在這個信息海洋中,如何準確、迅速地找到并獲得自己所需的信息呢?“工欲善其事,必先利其器。”這就需要掌握有關的檢索工具以及使用的方法和技巧。通過以百度地圖搜索等為例,介紹相關網絡信息檢索工具以及如何在短時間內能夠掌握利用和運用Internet的資源找到自己所需要信息的方法。
關鍵詞:網絡信息檢索;百度地圖搜索;Google學術搜索;天網搜索
網上的信息浩如煙海,網絡資源以十倍的速度增長,一個搜索引擎很難收集全所有主題的網絡信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確又專業,使得檢索結果中出現太多無用的信息。
在信息檢索工具趨向于專業化、服務內容趨向于深化的發展下,一些檢索工具已經不再盲目追求加大收錄和標引量,而是更加注重突出其專業特色。因此,垂直主題的搜索引擎以其高度的目標化和專業化在各類搜索引擎中占據了一席之地,比如像股票、天氣、新聞、MP3及地圖等類的搜索引擎,具有很高的針對性,用戶對查詢結果的滿意度較高。
下面,介紹一些常用的專門網絡檢索工具。
1 百度地圖搜索
登陸百度//網址。如圖1所示,百度產品線中,除了網頁搜索外,還提供了MP3、新聞、知道、地圖、圖片、影視及法律等等細分的專業主題搜索。
圖1 百度產品線
下面百度地圖為例介紹一下。百度地圖搜索是百度聯合國內知名的電子地圖服務提供商推出的本地化地圖搜索服務。通過百度地圖搜索,你可以找到指定的城市、城區、街道、建筑物等所在的地理位置,也可以找到離你最近的所有餐館、學校、銀行、公園等等。百度地圖搜索還為你提供了路線查詢功能,如果你要去某個地點,百度地圖搜索會提示你如何換乘公交車,如果你想自己駕車去,百度地圖搜索同樣會為你推薦最佳路線。
百度地圖搜索的使用很簡單,無論你是要找地點(如:王府井 餐廳)還是乘車路線(如:從銀科大廈到月壇公園),均只需在一個搜索框內直接輸入,按回車鍵或者點擊“百度搜索”按鈕,即可得到最符合你要求的內容。例如,搜索“王府井餐廳”,可得結果頁面如圖3所示。點擊小圖標,將在地圖中顯示此地點的簡單信息。你還可以在地圖上進行移動、放大、縮小及測距等操作。
3 天網搜索
天網搜索的前身是北大天網。北大天網由北京大學網絡實驗室研究開發,是國家重點科技攻關項目“中文編碼和分布式中英文信息發現”的研究成果。北大天網于1997年10月29日正式在 CERNET上向廣大互聯網用戶提供Web信息搜索及導航服務,是國內第一個基于網頁索引搜索的搜索引擎。天網搜索致力于探索和研究中英文搜索引擎系統的優秀技術并不斷推出更新的搜索產品。目前天網搜索引擎維護的文檔數量達到 6億之多,并正在以平均每月一千萬頁文檔的數量擴大著規模。天網搜索的中文文檔數量超過4億,其中包括html、txt、pdf、doc、ps、ppt等多種類型的文檔和資源。
圖6 天網資源搜索界面
目前天網搜索主要提供三種搜索服務:網頁搜索、資源搜索和商機搜索。
1) 網頁搜索
天網網頁搜索是基于頁面文字內容的搜索,主要是http文件搜索。通過關鍵詞檢索,用戶可以單擊瀏覽關鍵詞所在的原始網頁和網頁快照。
2) 資源搜索
天網資源搜索是為高級用戶查找特定文件尤其是FTP文件提供的方便、快捷的檢索服務。它提供關鍵詞檢索和資源分類瀏覽檢索兩種檢索功能。用戶只需要在檢索框輸入檢索詞,即可進行檢索。同時,關鍵詞檢索還提供文件類別限定功能。檢索的結果包括文件全名,創建日期、文件大小、網頁快照、原始地址等信息。
3) 商機搜索
天網商機搜索是面向中國企業的搜索服務,目前包括全部網站、職位信息、供求商機、黃頁、所有網頁等類型的搜索。
4 結語
本文詳細地介紹了一系列在短時間內如何利用和運用Internet的資源找到自己所需要信息的方法。運用的時候,需要具體按照使用信息資源目的進行相關的操作。熟練情況下,大家就可以按照自己的習慣暢游在Internet浩瀚大海之中,快速地摘取需要的信息。
摘要:在介紹P2P 網絡及其應用的基礎上,分析了P2P網絡共享文件的可靠性及安全性問題。介紹了基于文件內容和基于節點的信譽評價系統模型,這兩種體系模型都是通過收集各個節點的評價信息,來保證共享文件的真實性和可靠性。在P2P 網絡環境中,節點間的信任來自于兩個方面:一個是對節點本身所能提供的服務質量的信任;另一個是節點對于其他節點的評價的信任。
關鍵詞:P2P網絡;信任;文件共享;安全性;信譽系統;評價體系
1 引 言
計算機對等網peer-to-peer(P2P)大幅地提高了Internet中信息、帶寬和資源的利用率,這種技術可以廣泛地應用于網絡互聯技術各個領域。P2P文件共享是P2P 網絡目前發展迅速的方面,比如Napster和Freenet都是文件共享方面的著名應用。P2P網絡和傳統的網絡體系一樣,面臨著各種各樣的安全問題;同時,由于自身體系結構的特殊性,P2P網絡還需要解決自己特有的一些安全問題。本文主要討論P2P共享文件的安全性。本文的第二部分羅列了共享文件安全的主要內容,第三部分強調了p2p的優秀安全需求,第四部分給出了一個基于信譽的評價系統。文章最后總結了p2p安全技術的現狀和不足。
2 P2P共享文件的安全需求
共享文件的安全需求包括:(1)信任關系,在分布式系統中,如何建立不同網絡節點間的信任關系是建立系統安全的一個基礎問題 (2)標識,對等用戶必須能夠通過標識建立唯一的、可驗證的數字身份。(3)認證和授權,網絡用戶必須能夠通過網絡遠程,安全地驗證一個對等點的標識,并通過授權控制對本地資源和服務的訪問。(4)機密性和完整性,提供了對用戶進行篡改、重發等主動或被動攻擊下的保護。這些是P2P 應用系統所必須提供的安全服務。
3 p2p的優秀安全需求
P2P文件共享的優秀安全需求是信任關系。由于這種文件共享系統的目的特殊,它們所需要的安全性不是很高。在信任關系上,系統信任者所的內容是“真實”的,消費用戶信任者,者和管理員對消費用戶的信任度沒有特別的要求。但是,文件共享應用中信任關系管理仍然是十分必要的,系統成員間信任關系的建立是
保證系統可用性的基礎。下面就簡單介紹一個目前較先進的基于內容的信譽評價系統。
4 基于內容的信譽評價系統
在實際的P2P網絡文件共享系統中,文件下載者最關心的是被共享文件本身是否真實可信,而該文件是由哪個節點提供的則不是很重要。所以,直接基于共享文件本身內容的評價比基于節點行為的評價更能描述共享文件的真實程度,也更加滿足下載者的需求。而對節點行為的評價可以進一步描述共享節點的可信度。這兩方面的評價結合起來,就組成了比較完整的信譽評價系統。
4.1 對共享文件的評價
對共享文件的評價其實就是對文件內容真實性的一種描述。
例如,節點A共享了一個文件a,并且注明作者、版本、文件內容等相關信息。節點B下載該文件后,發覺文件a內容和文件描述完全一致,則節點B把該文件標記為“內容與描述完全一致”,并把這個評價反饋給P2P網絡系統,從而完成本次評價過程。
系統則建立起該文件的檔案(包括文件名、文件大小、文件創建時間、下載者的評價等)。C、D、E、F等節點下載完該文件a后,也做出相應的評價,系統根據評價不斷修改補充評價內容和數量,從而逐步建立起對于該文件的評價描述。當節點P需要下載該文件時,根據前面B、C、D、E、F等節點對該文件的評價描述就可以決定是否下載該文件,而不需要關心從哪個節點下載的文件更可靠。如果節點B、C、D、E、F等下載a后也向其他節點提供共享,雖然它們和節點A的信譽值不一樣,但是共享的這個文件擁有相同的可信度,因為都是共享的同一個文件。如果某個節點更改了這個文件的文件名或其他描述信息,雖然內容還是完全一樣,但是也要被系統區分為不同的文件,重新建立新的評價檔案。
4.2 對節點的評價
如果節點A共享了一個新文件,節點B下載該文件時還沒有任何評價或者評價太少,不足以判斷該文件的真實性,那么節點A的信譽值就是判斷的一個重要依據。節點的信譽值反映該節點以前的共享行為,并不代表節點將來的行為。但是,節點B可以根據節點A以前的行為推測將來的行為:節點A的信譽值高,說明節點A以前共享的文件可信度高,其將來共享文件的真實性也越大;信譽值低,說明以前共享文件的可信度低,其將來共享文件的真實性也越值得懷疑。這種推測是符合常規和實際的。節點的信譽值直接用數字描述,正數為節點的正面評價,負數為節點的負面評價。
4.3 做出反應
通過對共享文件和節點的評價,用戶在下載前不僅對將下載文件內容的真實性一目了然,而且對提供文件下載服務節點的可靠性也放心,從而避免了大量垃圾文件和有害文件的傳播。在評價體系中,一方面文件提供者接受其他節點的評價,從而獲得自己的信譽評價值,另一方面文件接收者也應該受到約束,不能任意甚至惡意地對文件提供者進行評價。
為了保證網絡系統的正常運行,需要對不同行為的節點采取不同的獎懲措施:(1)獎勵,信譽評價系統應對信譽值高的節點,應提供獎勵機制。一些專家建議,獎勵機制應包括兩種,提高信譽值高的節點的服務和給予信譽值高的節點經濟上的獎勵。(2)懲罰,獎勵機制在P2P網絡中可以有效地發揮作用,但為了削減P2P網絡中的惡意行為,還需要對惡意節點進行懲罰。如果信譽評價系統能夠識別出在線的惡意節點,系統應能不僅僅警告其他節點,還要能做出反擊,禁止其訪問網絡。最后,P2P系統在使用上述策略時,要特別謹慎,以免惡意節點利用這些策略來破壞系統。
5 總結
雖然目前的Peer-to-Peer應用日益廣泛,但仍然缺乏有效的機制以提高系統整體的可用性,這非常顯著地表現為應用中大量欺詐行為的存在以及不可靠的服務質量。以眾多的文件共享應用為例,25%的文件是偽造文件(faked files),同時,不負責任的用戶隨意地中止(文件上載)服務,使得服務質量無法得以較好的保證。一種可能的辦法是對用戶評定信任等級,在多個同樣服務可選的情況下,信任等級高的節點成為首選。本文通過對P2P文件共享的安全性進行具體分析,得出了詳細安全需求。在此基礎上,我們進一步總結了P2P 應用的一般安全需求,并指出信任關系是其中的優秀安全需求。介紹了共享文件的信任關系的分類,重點介紹了一種基于共享文件內容本身的信譽評價系統,和傳統的方法相比,增加了對文件內容的具體分析,提高了共享文件的可信度。通過對共享文件的內容評價和節點的信譽評價,共同保證P2P網絡中共享文件的可信度。信譽評價系統建立后,還需要對各節點的行為作出反應。
作者簡介:中國礦業大學05級碩士研究生。
摘要:Web2.0網站在現有網站中的比例越來越高,其具有的互動性、提倡個人體驗等特點給信息搜索帶來了新的挑戰。該文分析了Web2.0的特點,指出Web2.0的某些特點會導致很多信息隱蔽化,并從隱蔽信息檢索的角度嘗試性地提出了解決辦法。
關鍵詞: Web2.0;隱蔽化;信息檢索
1 Web2.0的特點
Web2.0的概念始源于Tim Reilly和MediaLive International分會。Web2.0作為一個新的商業概念,根據會議的觀點,具有自由平臺、集體智慧、用戶體驗等七個特征[1]。
國內和國外學者對于Web2.0有不少研究,但是對其實質還沒有統一的理解。Web2.0在學術界和實際工作領域有不同的內涵和外延,至今沒有清晰的定義。技術研究者眼中的Web2.0是SNS、BLOG、RSS等社會性軟件的繁榮昌盛;blogger認為Web2.0是人與人之間更個性更便捷的互動;而在風險投資商眼中,Web2.0代表了新商業的規則逐漸形成[2]。
為便于分析,本文所指的Web2.0是相對Web1.0的新一類互聯網應用的統稱。是以Flickr、等網站為代表,以Blog、TAG、SNS、RSS、Wiki等社會軟件的應用為優秀,依據六度分隔、xml、ajax等新理論和技術實現的互聯網新一代模式。Web2.0具有個性化服務、用戶參與、集體智慧和網絡社區等特點。
Web1.0到Web2.0的轉變,模式上,是從讀向寫、信息共同創造的一個改變; 基本結構上,則由網頁向發表和展示工具的演變;轉變工具上,是由互聯網瀏覽器向各類瀏覽器、RSS閱讀器等內容的發展;運行機制上,由Client service向Web service的轉變,互聯網內容的締造者也由專業人士向普通用戶拓展。
Web2.0使互聯網絡用戶從信息接受者轉變成為信息制造者和傳播者,從受眾轉向主體,從個體轉向社團的新型互聯網服務模式與理念,其成型的優秀應用主要有Blog、WIKI、RSS、SNS、Podcast等。
1.1 Blog
Blog是Webblog的簡稱,是個人或群體以時間順序所作的一種記錄,并且不斷更新。用戶以網絡日志的形式簡易迅速地自己的心得,及時有效地與他人進行交流,簡單使用與維護網站。
對知識管理和創造而言,Blog提供了新的形態和途徑。從交往形態考察,網志空間設定了積極的讀者、作者、編者互動轉換關系,針對一定的話題和讀者創造信息。
1.2 WIKI
WIKI:百科全書,是一種多人協作的寫作工具。這種超文本系統支持面向社群的協作式寫作,同時也包括一組支持這種寫作的輔助工具。WIKI的寫作者構成了一個社群,WIKI系統為這個社群提供簡單的交流工具。與其它超文本系統相比,WIKI有使用方便及開放的特點,可以在一個社群內共享某領域的知識。
1.3 RSS
RSS是站點用來和其它站點之間共享內容的一種簡易方式。它能夠把網站內容如標題、鏈接、部分內容甚至全文轉換為可延伸標示語言的格式。
RSS搭建了信息迅速傳播的一個技術平臺,使得每個人都成為潛在的信息提供者。一個RSS文件后,包含的信息就能直接被其它站點調用。
1.4 SNS
SNS:社會網絡。理論依據是六度分隔理論,通過互聯網的方式,可以將人際關系網的資源完全挖掘出來。在SNS的幫助下,可以輕松認識“朋友的朋友”,擴展自己的人脈,還可以更科學地管理人際網絡資源。
SNS這種新興的網絡社交方式一出現,迅速流行歐美國家,已經成為精英階層拓展人際關系的主要方式之一。
1.5 Podcast
Podcast:播客,它是收音機、ipod、博客和寬帶互聯網的集體產物。它是數字廣播技術的一種,與一些便攜播放器相結合而實現,是一種在互聯網上音頻內容并允許用戶訂閱feed以自動接受新文件的方法,它使用RSS2.0文件格式傳送并允許個人進行創建與。
2 Web2.0網站信息的隱蔽化
隱蔽網絡,也稱不可見網絡(Invisible Web)或深網(Deep Web),是一個與可見網絡相對應的概念。最初由Dr. Jill Ellsworth于1994年提出,意指那些普通搜索引擎難以發現的信息內容。2001年,Christ Sherman和Gary Price合著《隱蔽網絡:揭開搜索引擎看不到的信息源》,將隱蔽網絡定義為:雖然通過互聯網可以獲取,但普通搜索引擎由于受技術限制而不能,或者經審慎考慮后而不作索引的那些文本頁、文件或其他通常是高質量、權威的信息[3]。
隱蔽網絡所儲存的信息有7500TB,可見網絡所儲存的信息有19TB,隱蔽網絡所儲存的信息是可見網絡的440~550倍。當前存在超過20000個隱蔽網絡站點。60個最大的隱蔽網絡站點擁有大約750TB的信息,一半以上的隱蔽網絡站點內容存在于主題數據庫中,95%的隱蔽網絡信息是公開的,不需付費和訂閱。發表在《自然》雜志的一份日本NEC公司研究院的研究報告估計,具有最大搜索能力的Google 和Northern Light也只能搜索到全部網絡信息的0.03%[4]。
Chris Sherman和Gary Price(2001)認為產生隱蔽網絡的原因有技術和非技術兩個因素[5]。非技術因素是指搜索引擎開發公司出于費用方面的考慮,不愿意索引某些網絡內容。技術因素主要有:1) 普通搜索引擎對非ASCII文本格式的內容,如Postscript、Flash、影音文件、壓縮文件等進行索引時存在困難;2) 社區論壇、數據庫入口處設置的賬號、口令等提問是機械式搜索引擎難以跨越的障礙。
Michael K. Bergman(2004)將隱蔽網絡劃分為陰暗網絡(the opaque Web)、私人網絡(the private Web)、專有網絡(the proprietary Web)、真正的隱蔽網絡(the truly invisible Web)等4種類型[6]。
2.1 不透明網絡
不透明網絡是指搜索引擎可以索引但沒有索引的網頁,主要由以下幾個因素造成:1) 搜索深度,受經濟因素制約,搜索引擎只搜索一定深度的網頁,超過搜索深度但有價值的網頁就成為了不透明網絡;2) 搜索的最大數,即使在搜索深度之內搜索的網頁數也有可能超過其最大容量,超過容量部分就成為不透明網絡;3) 搜索頻率,互聯網上的信息日新月異,而搜索引擎的搜索速度有限,新出現的網站(頁)也就成為不透明網絡。
2.2 私人網絡
私人網絡就是指含有個人的非公開信息、限制訪問的網頁,其形成原因主要有:1) 網站口令的設置,目前許多私人網站需要注冊并使用用戶名和密碼登錄后才能訪問,這一部分內容搜索引擎難以索引;2) 知識產權的負面影響,有些網站出于保護知識產權或個人隱私的考慮,會使用“Robots.txt”協議來阻止搜索。
2.3 專有網絡
專有網絡是指只對注冊用戶開放的網頁,這部分網頁都需要用戶輸入用戶名和密碼,其資源才可被利用。機械式的搜索引擎無法填表注冊,當然也就無法索引。另外收費的商業在線信息服務商如DIALOG、OCLC、SIRS、InfoTrac等,或是在線百科全書,對于未付費的用戶來說也是不可見的[7]。
2.4 真正的隱蔽網絡
真正的隱蔽網絡主要包括非HTML格式的文檔、動態網頁、實時數據及網絡數據庫,其形成原因主要包括:1) 目前大部分搜索引擎只能索引HTML,而對于其它包含pdf、mp3、avi等格式的網頁,搜索引擎無法搜索其包含的內容;2) 搜索引擎索引動態網頁及網絡數據庫的能力有限,不能實現實時更新。
3 Web2.0使更多網站信息“隱蔽化”
Web2.0崇尚個性化的服務,用戶體驗和社會網絡,擁有用戶參與的一個“社會網絡”將包含比現有網絡更多內容的數據信息。個性化和用戶參與信息,一般都是以數據庫或其他動態的方式存在,加大了搜索引擎搜索的難度,而用戶參與的信息,出于個人隱私或個人其他方面考慮,很多是帶有訪問權限的,有些即使不帶有權限,但是沒有鏈接到其他的網站,形成了一個個孤立的信息“島嶼”,深層化和隱蔽化的程度明顯增加。
《中國Web2.0 現狀與趨勢調查報告》調研發現,高達61.7%的人認為Web2.0 帶來一個屬于自己的空間,能夠更加自由和個性化,其次才是能夠進行更好的資源和思想的分享和交流。由此可見,擁有訪問權限的“自己的空間”可能在給搜索引擎進行一般搜索的時候造成訪問權限上的阻礙。比如設置權限的msn live空間,如果拒絕RSS聯合,那么搜索引擎將無法進入空間進行有效的搜索。
其次,個性化的搜索要求已經使得現有的搜索引擎力不從心。基于一般搜索的搜索引擎,很難以再滿足顧客個性化的搜索要求。個人的信息偏好受個人的教育背景差異和興趣的影響。越來越多網民自發在網上結成不同的社區來討論和關注他們所關心的事物,從而形成一個個小的圈子。這種小的圈子,小的社區,往往是互聯網中最活躍群體,所探討的話題往往也是很深入的。但是這些是一般搜索引擎搜索不到的。
第三,法律上的障礙。對敏感信息檢索問題,法律上還沒有明確的規定。很多Web2.0的網絡按照Chris Sherman和Gary Price的分類屬于私人網絡,對這些網絡的搜索和引用在法律上尚存在盲點。
第四,Web2.0實時更新速度快,很容易造成搜索引擎在兩次搜索之間很多網頁“不透明”。根據Chris Sherman和Gary Price的搜索引擎搜索速度“大概為1-2千萬頁/天”,在大量Web2.0網頁出現的時代這樣的搜索速度很難跟上網絡的發展。
4Web2.0信息檢索對策
4.1 建立Web2.0網站選擇性指南
Web2.0具有集體智慧,網絡社區等特點,每個網站或子網站具有特定的主題。選擇性指南是一個主題指南,按照主題分類提供大量網站的鏈接。檢索精度高、資源權威、使用方便且大部分可免費獲取,用它來查找主題相對寬泛,質量相對較高,已經過選擇、評價、標注的信息資源來說效果較好,目前常用的選擇性指南包括Findlaw、InfoMine、The Invisible Web Directory及等。
4.2 改進搜索技術與工具
當搜尋Web2.0的范圍比較狹窄或者是希望能利用更新的檢索技術時,可以通過一般的或專業的搜索引擎進行檢索。因為搜索引擎能根據用戶的檢索要求到各網絡數據庫進行檢索并返回符合檢索要求的資源,而不需要像目錄指南那樣一層層地去瀏覽、查詢。
但是現有的搜索技術對于Web2.0迅速更新的信息檢索還是力不從心,且往往不能檢索像Podcast形式存在的多媒體文件和由不同程序產生的非格式文件。因此必須改進現有的搜索技術:1) 發展多元搜索技術,提高檢索準確度;2) 改進常規搜索引擎,使之能夠索引更多格式的文件,研發檢索音頻、視頻的搜索技術;3) 開發各類專門搜索引擎,必要時人工處理部分信息;4) 開發部分監控技術,對Web2.0不斷產生的新信息不斷監控,側重檢索新增信息。
4.3 元數據與Web2.0相結合
元數據(Metadata)是關于數據的數據,是對網絡數據進行組織和處理的基礎。元數據的思想由來已久,都柏林優秀集(Dublin Core)的不斷發展,現已經得到廣泛應用。利用元數據來標注網絡資源可以大大提高檢索效率,那么將元數據思想應用于Web2.0也就理所當然。
Web2.0很多信息都是由特定的程序產生并組織,所以在相關程序編制的時候就必須考慮采用一定的標準方便搜索引擎檢索,比如在產生的網頁上加上網頁性質描述和關鍵詞,多媒體信息以tag標簽的形式說明內容等,并嚴格按照元數據的要求組織和處理包含的信息,方便信息檢索。
4.4 提高用戶的信息素質
所謂信息素質,即指從各種信息源中檢索、評價和使用信息的能力,是影響網絡信息資源利用的一個重要方面。Web2.0用戶體驗、集體智慧等特點決定了Web2.0信息具有非權威性,對采集到的Web2.0信息的甄別也是信息檢索的一個重要內容。培養用戶的信息素質,提高其信息意識、信息能力,也是有效檢索Web2.0信息的一個重要方面。首先,提高用戶的信息意識,使其認識到自己是一個積極的“尋獵者”而非被動的“檢索者”,培養其敏銳的洞察力;其次,培養用戶的信息能力,增強其判斷、分析、查找、整理、利用信息的能力,合理有效地利用好Web2.0網絡所包含的信息。
4.5 完善網絡信息呈繳制度
從網絡信息生產的趨勢看,很多價值高、規模大的信息存在于網絡社區等數據庫中,而現在大部分的網絡機器人無法對Web2.0網絡中的Flash和Script等動態網頁和數據庫進行采集。為了解決這一問題,很多國家的網絡信息資源保存機構開始采用制度和技術兩種手段并重的方式保障Web2.0信息資源的采集和保存。在網絡環境下,由圖書館、檔案館等保存機構與網絡出版機構進行協商,將呈繳本制度擴展到網絡領域,出版社根據協議定期將被選擇的網絡信息通過物理載體移交或網絡傳遞給保存機構,或者是保存機構根據協商從出版社網站上進行鏡像復制或直接使用軟件獲取。通過呈繳的方法,可以保證所采集Web2.0信息的相對完整性,同時也避免搜索引擎在采集過程中遭遇的技術、法律等障礙。
提要:介紹了相關反饋技術的基本思想,設計了網絡信息檢索中相關反饋系統的功能與結構,探索如何在現有的公共網絡搜索引擎基礎上,利用Java語言實現具有相關反饋功能的搜索引擎接口。
關鍵詞:相關反饋;搜索引擎;信息檢索;Java
相關反饋(Relative Feedback)技術是近年來信息檢索領域的一項熱門技術,它利用用戶的反饋信息來研究用戶需求,力求達到檢索結果與檢索要求之間的最佳匹配。一些著名的檢索系統如:WAIS、SMART等,很早就應用了該項技術,并取得了良好的效果。但是目前相關反饋技術在因特網信息檢索中的應用卻并不多見,大部分的搜索引擎都沒有提供用戶反饋機制。因此本文將從網絡信息檢索出發,就如何利用Java語言實現基本的相關反饋功能作一些探討。
1 設計思想和系統結構
相關反饋技術的研究對象主要是用戶的查詢要求,在一般的網絡搜索引擎中,通常先由用戶輸入查詢詞,再尋找與這些查詢詞相匹配的信息記錄。但是,用簡單的查詢詞來表達查詢要求并非易事。網絡搜索引擎的絕大部分普通用戶在檢索的初始階段時常常會“詞不達意”,只有在查看過檢索結果后,才會意識到真正需要哪些查詢詞。但是,一般的網絡搜索引擎在用戶輸入查詢詞后就不再與用戶進行交互,因此無法進一步提高相關性。如果應用了相關反饋技術,用戶就可以從檢索結果中選擇出相關的信息,系統對這些信息進行分析,計算出最能夠表達這些信息內容的標引詞,由于這些標引詞是從用戶認為符合其要求的信息中提煉出來的,因此在一定程度上反應了查詢要求。如果將這些標引詞有選擇的作為查詢詞加入到查詢式,就有可能提高查詢式表述查詢要求的準確程度。
為了以較小的代價實現相關反饋的功能,本文中的系統將被設計成為一個介于用戶和公共網絡搜索引擎之間的接口。它的主要功能是接收用戶的查詢式并提交給搜索引擎,然后將搜索引擎返回的結果顯示給用戶進行選擇,根據用戶選擇的相關信息計算新的查詢式,經用戶確認后再次提交給搜索引擎,如此反復,直至用戶獲得滿意的結果為止。
根據其設計目的,本系統可以由如下幾個功能模塊組成:分詞模塊、權值計算模塊、查詢式修改模塊、數據庫讀寫模塊和用戶界面。系統結構如圖1所示。
2 實現方法
本系統采用Java語言進行設計,設計環境是Window操作系統,開發工具選用JBuilder企業版,公共網絡搜索引擎選用“百度網頁搜索引擎”()。
本系統的數據庫管理工具選用Microsoft Access。數據庫中的數據包括:檢索結果記錄、標引詞和查詢詞。因此數據庫FBDB(feedback database)可以由SearchResult、WordDictionary和QueryItem三個表組成,表中的字段及數據類型如表中。
下面對系統中的幾個主要功能模塊的實現方法進行討論。
2.1 分詞模塊的實現
分詞模塊從SearchResult中讀出相關的檢索結果的內容(一段文本),分割成單個的標引詞,并在WordDictionary中為每個標引詞建立一條記錄。
本系統中的分詞函數庫采用的是東北大學計算機科學研究所中文信息處理實驗室研究開發的詞性標注函數庫(CipPos-SDK Ver1.01)(研究版)。由于該函數庫采用C++語言開發,提供了動態函數庫文件(CipPosSDK.dll、CipPosSDK.lib、CipPosDll.h),因此在本系統中使用時,必須利用JNI(Java Native Interface)實現Java和C++的接口。
利用上面代碼可以同時實現分詞和標注詞性的功能,例如:傳入文本“中文信息智能處理軟件開發”,函數將返回“中文(n)信息(n)智能(n)處理(v)軟件(n)開發(v)”,其中括號中的英文字母代表該詞的詞性,如n代表名詞,v代表動詞。分詞完成后,對新字符串進行解析,根據詞性去除掉沒有實際意義的詞,再將剩下的標引詞和它的詞性、所在的檢索結果記錄號一起組成一條記錄,存入WordDictionary表中。
2.2 權值計算模塊的實現
權值代表了標引詞與查詢要求之間的相關程度。一般權值越大的詞,就越能反應查詢要求,也就越有可能被選擇作為新的查詢詞,因此權值的計算是相關反饋中的重要環節。計算權值的算法有很多,本系統中將某個標引詞在相關信息中出現的總次數作為其權值,主要是利用JDBC和SQL語句對WordDictionary表進行詞頻統計,并將頻度最大的5個詞作為查詢詞,記錄到QueryItem表中。
2.3 查詢式修改模塊的實現
對查詢式的修改就是將新的查詢詞添加到查詢式中,或者是將無用的查詢詞去掉的過程。在本系統中,用戶可以通過用戶界面選擇是否將某一查詢詞加入到查詢式中,還可以手工輸入新的查詢詞或去掉已有的查詢詞。
由于本系統是用戶和網易搜索引擎間的一個接口,因此查詢式是以URL的形式發送到網易的搜索頁面的,例如:要檢索“中國對保護環境的政策”,查詢詞是“中國”、“保護”、“環境”和“政策”,URL是“///s?wd=中國+保護+環境+政策”,因此修改查詢式的過程就是生成新的URL的過程。
2.4 用戶界面的實現
本系統的用戶界面利用JBuilder的可視化開發環境設計,用戶可以通過它輸入查詢式、查看結果、選擇相關信息和選擇查詢詞,并隨時可以打開Internet Explorer查看結果網頁。具體實現方法同其他的視窗環境下的Java程序大同小異,故此不再贅述。
3 結論
本系統實現了相關反饋的基本功能,增強了搜索引擎和用戶之間的交互,可以一定程度上幫助用戶更準確地表達查詢要求,以檢索“到武漢中山公園的行車路線”為例,初始查詢式為“武漢 中山公園 路線”,經過相關反饋后,系統返回“公汽”、“地址”、“乘車”、“公交”、“旅游”等新的查詢詞,選擇添加“公交”、“地址”,并去掉“路線”,再次檢索后系統返回的結果減少了,但是精度卻提高了。
應該指出的是,本系統旨在驗證網絡檢索中相關反饋技術的可實現性,著眼于基本架構和基本思想。事實上,在此基礎上還有很多可以改進的地方,比如:對于權值的計算,可以利用許多更精確的算法,如tf-idf算法。另外本系統中只考慮了相關文獻,而實際上,不相關文獻的選擇也可以反映查詢要求。針對這些問題,在今后的研究中將對系統模型做進一步的完善,以更好的發揮相關反饋技術的作用。
摘 要:數字圖書館是計算機領域綜合發展重要成果,它實現了文獻信息的整合和優化,提高了信息查詢的效率和實用性,促進信息的傳播和共享。
關鍵詞:數字圖書館;信息檢索;網絡環境
隨著信息時代的來臨,信息的重要性日益突出,計算機技術的發展,為數字圖書館的發展和普及提供了良好的環境,數字圖書館正朝著多樣化、個性化和智能化的方向發展,為人們檢索信息和文獻提供了極大的便利。
一、數字圖書館
數字圖書館是以計算機技術為支持,實現圖書文獻資源存儲和處理、信息整合的新型圖書館。數字圖書館的建設基本包括如下幾個環節:(1)加工和存儲。數字圖書館將圖書資源信息整合到自身的圖書館數據資源庫中,并發展了多樣性的存儲方式,提供不同的數據處理方法,方便用戶對信息檢索的需求。(2)檢索和傳輸。用戶根據自己的需要,在數字圖書館中檢索文獻和信息,系統在圖書館數據資源庫中迅速反應,整合資源,對用戶所需信息進行傳遞,具有及時性和有針對性。整個過程都對計算機技術和軟件有很強的依賴性,日益發展的計算機技術讓數字圖書館的功能日益強大,為讀者提供更多更便捷的服務。
二、數字圖書館信息檢索的過程
(1)確定檢索要求:包括學科、時間、文獻類型等方面。(2)選擇信息檢索系統:選擇貼近個人所需、收錄相關文獻的檢索系統。(3)確定檢索關鍵詞:使用規范的檢索詞,應該以所需文獻內容的主要內容詞匯為主要檢索詞,提高檢索篩選的效率。(4)確定檢索策略:在進行檢索之前,要熟悉檢索系統的性能,以用戶所需內容和要求為參照進行準確輸入。(5)檢索結果的處理:根據用戶檢索的需求進行匹配,輸出符合需求的內容。(6)獲取原始文件:獲取原始文件有多種方式,信息檢索數據可以幫助用戶更迅速獲得大量原始文件。
三、網絡環境下數字圖書館信息檢索的發展現狀
數字圖書館正處于不斷發展當中,計算機技術的突破和發展也為數字圖書館的建設提供了技術支持,提高了搜索的速度和準確性,但是也應該看到,仍然有很多問題限制了信息檢索的效率。
(一)信息檢索效率低下
信息分散性是提高檢索效率的一大障礙,網絡內容龐雜分散,信息系統難以一次性定位準確的內容,人們需要反復檢索同一內容才能獲得符合需求的內容。部分網站通過標題吸引但是內容不符方式來提高網頁點擊量,妨礙了信息檢索的效率的提高。
(二)檢索對象范圍受限
隨著信息時代的發展,人們對文獻信息的需求量也不斷加大,但是互聯網在處理音頻和視頻等文件形式的檢索上仍存在技術缺陷,無法滿足日益增長的需求,這也就造成了對這些文件檢索上的困難,導致了檢索效率的低下。
(三)信息覆蓋率有限
隨著對文獻需求的加大,人們要求信息艘若的覆蓋面也不斷加大,但是實際情況是,檢索范圍和信息更新速度總是難以跟上用戶需求的增長。
(四)檢索功能單一
計算機技術雖然極大的促進了數字圖書館的發展,但是信息檢索功能仍然比較單一化,無法為用戶提供精確的信息檢索服務。
(五)缺乏個性化服務
隨著時代的發展,人們對個性化的要求越來越高,這與目前數字圖書館信息提供缺乏個性化形成了巨大的矛盾,搜索引擎職能提供大量但卻與用戶需求匹配不高的內容,用戶需要花費大量時間重新在其中進行選擇,不利于用戶及時獲得有效信息。
四、網絡環境下數字圖書館信息檢索的發展趨勢
數字圖書館的重要性不斷凸顯,這項工程的發展也帶來了很多衍生產品,圖書館信息檢索技術日益向多功能、智能化和個性化方向發展,不斷提高檢索的效率和便捷服務。
(一)信息檢索的智能化
信息檢索的智能化的主要形式是自然語言檢索和可視化檢索。計算機軟件根據用戶輸入的關鍵詞,在搜索出來的信息基礎上分類加工,選擇出更貼近用戶需求的信息。智能化建立在多個專家系統基礎上進行檢索,結合律人工智能與檢索技術,提高了檢索效率。
(二)信息檢索服務多樣化
信息檢索將突破原來的單一化方式,逐步向多樣化發展。隨著信息檢索服務的普及,信息共享也不斷提升,信息檢索將不斷融合多種功能,包括文獻檢索功能和文獻提供功能等,不斷完善檢索體系。另外,信息服務也將趨于集中化,提供更全面豐富的信息資源,可以滿足不同用戶的需求。同時,信息檢索服務的質量也不斷得到提高,更加凸顯個性化服務。
(三)網絡虛擬信息的組織與管理
數字圖書館擁有大量的信息資源,這些資源具有數量龐大、分散、種類多等特點,這對用戶篩選和整理信息造成了一定的妨礙,所以信息的組織和管理就顯得更加重要。準確定位有效信息是用戶對數字圖書館的期待,所以網絡虛擬信息的管理和組織應該努力解決這一問題,讓用戶在更短的時間內完成信息的檢索和整合,提供貼近用戶需求的資源。
五、結語
通過上述論述,我們可以知道,數字圖書館在當今時代扮演著越來越重要的角色,信息時代的發展也對數字圖書館的建設提出了更多的要求,而檢索服務是用戶使用這一資源的通道,我們應該關注目前檢索服務所存在的問題,把握檢索服務智能化、網絡化、多樣化和個性化的發展趨勢,不斷提高數字圖書館的服務水平,滿足不同層次客戶的不同需求,充分發揮數字圖書館的信息提供功能,促進我國信息社會的發展。