真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 搜索引擎研究

搜索引擎研究

時間:2023-06-01 08:51:09

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇搜索引擎研究,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

搜索引擎研究

第1篇

隨著互聯網技術和互聯網應用系統的快速發展,各個領域的互聯網應用系統都已經積累了海量的Web數據,包括產品數據、用戶數據、評價數據、關聯數據、狀態數據等等。這些數據不僅內容極其豐富,而且很大程度上都開放給互聯網用戶,可以免費的訪問、下載和處理。這就為進一步集成和開發這些Web數據的潛在價值,建立增值應用提供了重要基礎。聚類搜索是近年來發展最為迅速的互聯網數據集成和增值技術。聚類搜索是在垂直搜索基礎上發展起來的新型搜索技術。垂直搜索是主要針對行業的專業搜索,側重于某一行業領域,其目的是使用戶能夠更加方便地找出所需的專業信息。而聚類搜索是為了進一步提高搜索的精度使其符合用戶的搜索習慣和興趣,在搜索引擎的搜索結果中進行聚類,把搜索出來的信息進行分類處理,將使信息資源更加清晰明了。

目前國內對聚類搜索引擎的綜述主要見于文獻[1]和文獻[2],雖然這兩篇文章對聚類搜索引擎進行了很好的綜述和分析,對聚類搜索引擎的形成和發展過程進行了說明,并對主流聚類搜索系統進行了測評和分析,但是對于聚類系統的功能分析還不夠詳盡,對于聚類搜索引擎未來的發展沒有給出明確的定位。

本文首先給出了典型聚類搜索引擎系統的基本工作流程,對聚類搜索引擎的發展歷史和現狀進行了概括式綜述,然后從聚類對象、聚類功能和聚類算法三個角度對聚類搜索引擎進行研究,并全面分析了若干著名聚類搜索引擎。

本文結構:第1節介紹聚類搜索引擎的發展現狀;第2節對聚類搜索引擎的功能進行分析;第3節對典型聚類搜索引擎進行綜述;第4節描述聚類搜索引擎的發展趨勢;第5節總結全文。

1聚類搜索引擎的研究現狀

1.1聚類搜索引擎概念和工作過程

所謂聚類搜索引擎,就是運用聚類技術對搜索結果進行自動聚類分析的搜索工具。其特點是去重性強、分類性強、匯集性強,即可以及時去除重復信息,對搜索的結果進行分門別類,并可以匯集各大知名搜索引擎的信息資源。目前,典型的聚類搜索引擎的基本工作步驟為:①依據用戶查詢的關鍵字,從一個或多個搜索引擎獲取搜索結果;②對搜索結果進行預處理,過濾掉重復、無效信息;③將文檔中關鍵短語作為特征提取出來生成聚類標簽;④將文檔分配到生成的聚類標簽下;⑤將聚類后的搜索結果進行排序并顯示給用戶。

1.2國內外聚類搜索引擎的發展現狀

搜索引擎的發展階段總共經歷了三個階段[3],其中第1代搜索引擎主要是基于人工分類的通用搜索;第2代主要依靠機器進行自動爬取和分析,利用鏈接分析技術實現更為準確的搜索,如Google、百度等;第3代搜索引擎更加體現了智能化、互動式和人性化。功能包括自動聚類、去重、用戶習慣記憶等方面,是未來搜索引擎主要的發展方向。

近幾年,國際上對聚類搜索引擎系統的研究日漸火熱,已經出現了一些知名的聚類搜索系統。其中,Scatter/Gather系統[4]是第一個在搜索引擎上使用聚類方法的系統;Vivisimo[5]是一種商業化聚類搜索引擎,符合用戶使用習慣,搜索效率高。基于Java的開源Carrot2聚類搜索引擎[5]可自動的把搜索結果歸類到相應的語義類別中,它的一個亮點是速度和易用性的提高。中文搜索領域,早期比較有實力的聚類搜索引擎有Bbmao,Bbmao搜索系統推出了去重功能,為網民解決了大量閱讀重復信息的煩惱。Bbmao的聚類功能,能夠提高查找信息的效率,它還具有云集各大搜索引擎結果的功能,同時完成海量信息的分門別類。近期出現的baigoogleledu綜合了谷歌、百度兩大搜索引擎。其基本出發點是兩大搜索引擎的搜索結果的很大的差異性。這類系統對搜索結果進行聚類分析,在一定程度上緩解了廣告泛濫的局面,使用戶更便捷地找到需要的信息。

有關國內外聚類搜索引擎的相關技術,主要有聚類分析、聚類算法、中文信息處理等技術。Anton等人[7]致力于把分類體系引入評估體系來評價聚類效果質量的研究。Sudipto Guha等研究人員[8]應用概念關聯代替傳統的計算歐式距離,來衡量數據之間的相似度,從而確定聚類,達到了很好的效果。

國內一些學術組織和團體很早就開始對自動文本分類、聚類領域等相關內容進行研究,從“天網”和“網絡指南針”開始北京大學和清華大學就開始致力于網頁的聚類技術研究。此外,北京科技大學的麻雪云提出了一種基于關鍵名詞短語聚類的中文搜索結果聚類方法[9],利用百度、谷歌、雅虎三大搜索引擎來獲取互聯網信息,對搜索結果進行聚類分析。國防科技大學的肖坤對STC算法和Lingo算法進行了比較,并對STC算法進行了改進,設計實現了一個面向校園網聚類搜索引擎系統[10]。

2聚類搜索引擎的功能分析

2.1聚類對象分析

現有聚類搜索引擎的聚類對象主要包括三類數據:商業數據、評價數據、社交數據。

商品數據主要包括對服裝、電器、化妝品等數據信息進行分類整理,例如用戶在淘寶網輸入“牙膏”關鍵字,在網頁上立馬顯示出“功能”、“品牌”、“產地”等分類信息,并按照銷量、價格、信用進行了排序,對商品的聚類分析清晰明確。評價數據主要包括論壇對相關主題的討論信息,博客的交流信息,商業網站對商品的滿意度評價信息等。大連海事大學的魯明羽、姚曉娜等人提出一種基于模糊聚類的網絡論壇熱點話題挖掘算法,通過分析帖子和用戶間的影響力傳遞,來判斷是否為焦點人物和熱門話題[11]。社交數據主要包括社交網絡注冊用戶個人資料信息、用戶關注度信息、用戶之間交互信息等社交數據資源。社交數據隱含了大量可以用于聚類的關聯信息,對實現智能和個性化聚類搜索具有重要意義。此外,聚類對象按數據類型還可以劃分為文本數據、多媒體數據等。

2.2聚類功能分析

聚類搜索引擎的聚類功能主要有智能聚類、去重、多媒體、覆蓋性等能力。

智能聚類:聚類搜索引擎大多具有這項功能。目前做得最好的如Vivisimo系統,它最大的特色是會對搜索結果自動分類,采用專門開發的啟發式算法來集合或聚類原文文獻。

去重:去重可以取掉大部分的廣告網頁并節省掉用戶的選擇時間,是十分實用的一項聚類功能。國內的比比貓的去重功能非常出色,在用戶獲得多個搜索引擎的搜索結果后,比比貓可以自動為用戶獲取最有搜索結果并取掉重復的信息。

多媒體:除了文本聚類,聚類搜索引擎還關注視頻、音頻等多媒體信息進行聚類的功能,商業化、集成化、多媒體化的氣息更加濃厚。搜狗音樂推出了新版的聚類頁面,可視化強,用戶輸入音樂名稱,將獲得全新的聚類結果,該結果首先按照音頻特征聚類,再按照文本信息聚類,保證搜索界面顯示的音樂相關度最高。

覆蓋性:聚類搜索引擎一般基于一些大型通用搜索引擎的數據資源,這樣能夠保證搜索的結果覆蓋全面,可聚類的對象內容豐富。

2.3聚類算法分析

聚類搜索引擎的聚類算法主要有層次聚類、樹狀聚類、網狀聚類、圓形聚類。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系統使用層次聚類的方法,按照來源及站點進行聚類。PinkySeach[12]和Mnemomap(mnemomap.org)系統是使用樹狀結構的聚類算法,將聚類的結果以列表的形式展示出來。UJIKO系統(ujiko.com)是使用圓形結構的聚類算法,它將搜索結果聚類后按照主題自動分類成圖形界面顯示出來。Quintura系統(quintura.com)是使用網狀結構的聚類算法,是通過標簽云的形式將在語義上相關的詞聚類,構成網狀鏈接。

3典型聚類搜索引擎

3.1 Vivisimo系統

Vivisimo系統[5]的基本步驟包括:首先系統自動地、并行地向多個大型搜索引擎提交查詢請求,然后匯集每個查詢返回的結果,對查詢的結果進行聚類分析,經過去重、合并、分類等步驟后,通過輸出處理顯示給用戶。Vivisimo的聚類對象是從多個搜索引擎返回的搜索結果,主要是文本信息。Vivisimo的聚類功能主要是文本的聚類,通過對文本內容進行搜索和歸類分析,vivisimo的軟件可以使用戶從沒有預先標記或分類的資源中整合、分類內容。Vivisimo采用啟發式算法,借鑒了人工智能的理念,對檢索的結果進行聚類,可以把文本信息自動地分成等級排序的類目,它的每一步都是自動化的,不需要人工干預。

目前Vivisimo的商業應用十分廣泛,它對信息的分類很體貼,具有人性化。其細致的檢索結果顯示方式使它成為了業界的精品,連續多年成為“最佳元搜索引擎”。但是,Vivisimo于沒有自身的數據資源庫,依附于其他大型搜索引擎,獨立性較差,檢索功能有待加強。

3.2 Carrot2系統

Carrot2是基于Java開發的開源聚類搜索系統[6],主要用于對搜索結果進行聚類。與Vivisimo相似,首先也是用戶輸入關鍵字在Bing、baidu、google等知名搜索引擎進行搜索,然后對返回的搜索結果進行聚類,并通過樹形的分類圖進行顯示出來。Carrot2的聚類對象主要是各大搜索引擎返回的搜索結果,其通過文檔聚類平臺workbench,對搜索的數據進行聚類分析,并通過文檔聚類服務器DCS,將聚類結果作為REST服務呈現。最后,Carrot2以WebApp方式將聚類結果作為網絡應用呈現給終端用戶。Carrot2采用的聚類算法主要是Lingo(基于奇異值分解的索引結果聚類)算法和STC(Suffix Tree Clustering)后綴樹聚類算法。

目前Carrot2支持的聚類算法較多,代碼開源可以進行版本的更新和改進。該系統應用廣泛、可移植性較好。但是Carrot2中文分詞效果不好,可視化效果不佳。

4聚類搜索引擎發展趨勢

文獻[1]通過對大量搜索引擎的評測,發現獨立性差、專用算法欠缺、搜索速度慢等一系列問題,但該文主要對搜索結果的聚類方法進行了評測,對聚類搜索引擎的趨勢的分析也主要側重于聚類方法。本文認為聚類搜索引擎未來將向數據海量化,鏈接社交化,聚類綜合化三個方向發展。

4.1數據海量化

現階段的聚類搜索由于數據集較為單一,聚類算法過于老舊,造成呈現給用戶的檢索結果數量少,內容貧乏,這樣必然影響聚類搜索的發展壯大。所以未來聚類搜索必然要向數據海量化發展。近期,美國互聯網公司“耶寶”日前推出一種更具人性化的搜索引擎,有別于當今主流搜索引擎網站提供的單維搜索,并非一般的羅列搜索結果,而是通過對搜索的詞條和海量的網頁的內容進行分析,自動對搜索結果進行聚類和分類,為用戶提供豐富而直觀的結果。

4.2鏈接社交化

在搜索引擎中引入社交元素,由于目前Web社交網絡形成了一個巨大的Deep Web(針對網絡爬蟲而言),而這個數據量對搜索引擎來說是非常大而且有用的,搜索引擎作為用戶獲取信息的主要渠道,勢必需要這些用戶活躍度和新鮮度很高的數據資源。由于社交數據中蘊含著大量數據之間的潛在鏈接,因此基于社交數據進行聚類搜索可望更好滿足用戶的個性化需求。

4.3聚類綜合化

聚類的多元化、跨領域、綜合化將是新型聚類搜索的重要特點。局限于單個應用領域的聚類搜索已經難以適應需要,跨領域聚類將是未來聚類搜索面臨的主要挑戰。

5結束語

隨著Web2.0的蓬勃發展,網頁數量成級數增長,為了使互聯網用戶更加方便、快捷的得到需要的信息,聚類搜索代表著一種重要搜索引擎的發展方向。隨著聚類搜索引擎的算法和數據源的逐步完善,聚類搜索引擎技術將得到迅猛發展和更為廣泛的應用。(來源:電腦知識與技術 編選:)

參考文獻:

[1]蘇建華,張燦,聚類搜索引擎研究[J].新世紀圖書館,2009(6):72-75.

[2]蒼宏宇,譚宗穎,聚類搜索引擎發展現狀研究[J],圖書情報工作,2009,53(2):125-127.

[3]沈賀丹,潘亞楠,關于搜索引擎的研究綜述[J].計算機技術與發展,2006.16(4):147-152.

[4] Banos R,Gil C,Reca J,et,al.Implementation of scatters search for multi-objective optimization:A comparative study.Computational Optimization and Applications,2009,42(3):421-441.

[5] Koshman Sherry,Spink Amanda,Jansen Bernard.Web Seaching on the Vivisimo Search Engine[J].Journal of the American Society for Information Science and Technology,2006,57(14):1875-1887.

[6] Carrot2 Framework.Carrot2:Design of a Flexible and Efficient Web Information Retrieval Framework[C].Third International Atlantic Web Intelligence Conference(AWIC2005),Lodz,Poland,2005:439-444.

[7] Anton V Leouski,W Bruce Crift.An Evalution of Techniques for Clustering Seach Results[J].Computer Science Depart-ment,1996:1-19.

[8] Stdipto Guha,Rajeev Rastogi,Kyuseok Shim.ROCK:A Robust Clustering Algorithm for Categorical Attributes[J/OL].[2008-08-12].

[9]麻雪云,基于聚類的元搜索引擎設計和實現[D].北京:北京信息科技大學,2008.

[10]肖坤,面向用戶興趣的校園網聚類搜索引擎的研究與實現[D].長沙:國防科技大學,2010.

第2篇

互聯網對商業發展產生了巨大的推動作用,我國商業信息網站已經發展到成千上萬家,在傳播商業政策和信息方面發揮了顯著作用。隨著網絡信息數量的迅猛增長,“信息過載”、“信息超載”現象引起了人們的重視。如何高效、準確的獲得包含用戶所需的信息的網頁,日益成為需要迫切解決的問題。

垂直搜索引擎是解決這一問題的一個有效方法。面向商業的中文專題垂直搜索引擎有針對性的搜索網上商業專題信息,從而使商務人員高效檢索所需的信息。而隨著萬維網上的信息數量呈指數增長,大量信息垃圾也混雜其中。如何向商業用戶提供質量好且數量適當的檢索結果成為垂直搜索引擎關注的方向之一。

二、國內外現狀與發展趨勢

垂直搜索引擎大都處于研究和試驗階段,利用其搜索的結果再加上專業人士的加工而形成的面向某一學科、領域的垂直門戶網站也已經出現。目前在國外,對有關主題搜索引擎的研究已經成為一大熱點,我國主題搜索引擎的研究則剛剛起步。

目前面向主題的網絡搜索主要有兩種技術:

一是基于內容的搜索,這種搜索方式是傳統的信息檢索技術的延伸。它的主要方式就是在搜索引擎內部建立一個針對主題的詞表,搜索引擎的爬行器根據其內設的詞表對網上的信息進行索引。各個不同的系統詞表建設的復雜度也大不相同。

二是基于鏈接分析的搜索。網頁之間的鏈接指引關系與傳統的引文索引非常相似,通過對鏈接進行分析,可以找出各個網頁之間的引用關系。由于引用網頁與被引用網頁之間內容上一般都比較相關,所以就可以很容易地按照引用關系對大量網頁分類。

三、技術關鍵

基于面向商業的垂直搜索引擎服務具有其自身的特性,下面列舉出實現商業信息垂直搜索引擎的四大關鍵技術。

1.針對性、實時性和易于管理的網頁采集技術:面向商業的垂直搜索帶有專業性或行業性的需求和目標,所以只對局部來源的網頁進行采集,采集的網頁數量適中,但其要求采集的網頁全面,必須達到更深的層級,采集動態網頁的優先級也相對較高。在實際應用中,垂直搜索的網頁采集技術應能夠按需控制采集目標和范圍、按需支持深度采集及按需支持復雜的動態網頁采集,即采集技術要能達到更加針對性、實時性和易于管理,并且網頁信息更新周期也更短,獲取信息更及時。

2.結構化數據的網頁解析技術:由于面向商業的垂直搜索引擎服務的特殊性,往往要求按需提供時間、來源、作者及其他元數據解析,包括對網頁定內容的提取。在商業垂直搜索服務中,要求對于作者、主題、地區、機構名稱、產品名稱以及特定行業用語進行提取,才能進一步提供更有價值的搜索服務。

3.全文索引和聯合檢索技術:面向商業的垂直搜索由于在信息的專業性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結果排序方式。另外,還要求按需支持結構化和非結構化數據聯合檢索,比如結合作者、內容、分類進行組合檢索等。

4.智能化的文本挖掘技術:面向商業的垂直搜索是以結構化數據為最小單位。基于結構化數據和全文數據的結合,垂直搜索才能為用戶提供更加到位、更有價值的服務。整個結構化信息提取貫穿從網頁解析到網頁加工處理的過程。同時面對上述要求,垂直搜索還能夠按需提供智能化處理功能,比如自動分類、自動聚類、自動標引、自動重排,文本挖掘等等。這部分是垂直搜索乃至信息處理的前沿技術。

四、設計方案

1.技術路線。采用如下的研究開發路線:

(1)針對商業信息的分布特點以及用戶的實際需求,在充分調研的基礎上,詳細了解和比較其他研究人員在類似領域取得的一些重要而有一定創新性的成果,在此基礎上初步提出平臺的整體架構。

(2)結合面向對象設計技術,對上一步設計出的平臺進一步細化,從而明確對該項目所采用的具體設計模式。

(3)根據設計模式所面臨的具體問題(例如,如何提高爬行速度問題、系統資源限制問題、網頁分類器問題、HTML文檔解析問題等)給出有效的解決方案。

(4)將以上的方案付諸實施,形成一個面向商業的信息查詢與共享平臺;同時對系統的各種參數進行進一步測試,不斷地完善和優化,最終形成一個界面友好、響應速度/查全率/查準率均符合用戶要求的面向商業的垂直搜索引擎。

2.創新點。為達到商業信息搜索引擎預期的響應速度、查全率和查準率,在系統的開發中有如下創新點:

(1)系統總體為模塊化結構,各個模塊之間高內聚,低耦合。

(2)系統使用面向對象語言開發,能夠有效地重用系統部分代碼。

(3)在設計過程中,使用面向對象的思想做指導,建立系統類圖,便于開發人員之間的交流。在編碼過程中,不斷重構代碼,使得代碼具有很高的運行效率,大大提高其重用性。

(4)系統集成時,使用XML文檔作為模塊間傳遞信息的工具。

第3篇

關鍵詞:搜索引擎 付費搜索 廣告檢索

中圖分類號:TP391.3 文獻標識碼:A 文章編號:1007-9416(2012)06-0099-02

1、引言

伴隨著新一代搜索引擎公司如Google和百度的興起,搜索引擎從后臺服務走向前臺服務,成為獨立的互聯網產業。它們的成功,一方面是由于搜索引擎技術的改進和突破,另一方面也是得益于嶄新商業模式的發現和完善。這個嶄新的搜索引擎利益模式就是付費搜索(Sponsored Search)。

但是,目前尚缺乏對付費搜索模式的歸納與總結又缺乏對付費搜索利與弊的深入分析,針對這一現狀,本文借鑒國內和國外的部分研究成果,對付費搜索技術做一個歸納與總結,并指出付費搜索技術存在的問題和未來發展方向。

2、付費搜索歷史及技術現狀

21世紀以來,網絡經濟的不斷發展,繼“注意力經濟”、“眼球經濟”之后,另一種經濟考慮用戶需求、采用技術手段精準投放廣告的新的經濟形態——“意愿經濟”已經出現。付費搜索的發明,是“意愿經濟”成功的最好典范。

付費搜索的發明者是比爾·格羅斯[1](Bill Gross)。他所創建的Overture Services在1998年率先推出了付費搜索服務。內容網站推廣者、廣告商,為其所要推廣的網頁創建文字鏈接廣告,選擇相關關鍵詞出價;在同一熱門關鍵詞上,不同廣告商相互競價。當用戶搜索該關鍵詞時,搜索引擎按競價從高到底逐次展示推廣網頁的鏈接。

成立于1998年的Google[2],作為搜索引擎的后起之秀,并沒有采用Overture的付費搜索服務,而是在其模式基礎上自行研發加以改進,在2003年推出了自己的付費搜索服務系統AdWords。

在中國,創建于1999年底的搜索引擎公司百度,于2002年推出了自己的競價排名服務,現稱“百度推廣經典版”,2009年底百度的付費搜索服務全面切換至“鳳巢”系統,完成從百度推廣經典版到百度推廣專業版的遷移。“鳳巢”系統通過對搜索用戶的需求分析,試圖分析出用戶當前查詢過程中的商業意圖,與傳統付費搜索技術不同的是,這種廣告投放不是基于簡單的關鍵詞匹配,而是試圖對用戶的意圖進行更加精準的識別。

3、付費搜索原理

付費搜索是由搜索引擎公司搭建和經營的網絡推廣平臺。在這個平臺上,網民用戶、推廣企業和搜索引擎公司三方形成了一個互動的商業生態環境。

推廣企業為自己的創意選擇關鍵詞,并在每個關鍵詞下參加競價拍賣。廣告投放后,企業最關心的就是推廣效果,即投放的ROI(Return On Investment,投資回報)。因為是按點擊計費,如果一個推廣創意C通過關鍵詞K一天被展現Nd次,得到Nc個點擊,其中有Na個點擊完成了交易。假設每次點擊,推廣商要付給搜索引擎的價錢是Pc;而每個成功交易,推廣商能掙到Ra。那么,每天該推廣商在創意—關鍵詞(C,K)上的盈利Profita是

Profita=營收—成本=Na·Ra—Nc·Pc=Nc·(Ca·Ra—Pc)

這里Ca=Na/Nc,被稱作“點擊轉化率”(conversion rate)。創意—關鍵詞(C,K)對推廣商若是有效果的投放,那么久必須:

(Ca·Ra—Pc)>0

這要求推廣商選擇與自己產品高度相關的關鍵詞,否則即使用戶點擊進入鏈接網頁,也會很快離開,沒有交易發生,即Ra≈0。當然,如果點擊價格過高,也會使投放得不償失。對一個有效果的投放(C,K),推廣商總是希望得到更多點擊Nc來擴大盈利。增加Nc,可以通過提升競價價格以提高該創意被展現機會和展現位次來達到,也可以通過改進創意的描述以吸引更多的相關點擊來做到。

搜索引擎公司作為付費搜索的經營者,其目標是在推廣商和網民的商業需求之間牽線搭橋,并從服務中盈利。如何有效的組織推廣市場,從如何定價、如何選取排列和如何收費是要解決的主要問題。

4、廣告檢索和匹配算法

廣告商在選擇關鍵詞競價投放時,可以選擇精確匹配(exact match)和寬泛匹配(broad match)等匹配條件。精確匹配時,當用戶搜索該關鍵詞時才有可能被展現。在寬泛匹配時,用戶的查詢詞與該關鍵詞相關時即有機會被展現。用戶查詢與查詢內容的匹配有三個層面[10]:

(1)字符串匹配(string matching):精確匹配就是嚴格的字符串匹配。

(2)語義匹配(semantic matching):可以參加匹配的還有查詢詞的同義詞、近義詞以及關聯詞,這樣搜索結果得到了擴充。

(3)意圖匹配(intent matching):通過日志分析挖掘,了解一些常見查詢詞背后用戶的查詢意圖,不僅有助于改善搜索引擎的相關性,也有利于提升付費搜索投放效益。

不管是那種匹配方式,推廣的投放效果都可以由統計計算的點擊率CTR來客觀衡量。在基于Q * bid的排序機制下,統計得到的CTR可用于未來投放中推廣的選取和排序;這種不斷試驗、不斷改進的勘探-開發(Exploration & Exploitation)機制,使付費搜索可以不斷優化投放效果。無論是對于新的推廣,還是對于新的稀疏查詢,它們的CTR準確預估都是很挑戰性的技術問題。機器學習中的分類、回歸等建模方法,都可以發揮關鍵作用。

5、付費搜索技術存在的問題

第4篇

【關鍵詞】搜索引擎;商標侵權;關鍵詞;責任認定

一、搜索引擎商標侵權概述

1.搜索引擎商標侵權的界定

搜索引擎商標侵權是指將他人的部分或者全部商標設置為自己的Meta標簽,或者通過競價排名購買他人的商標作為自己的關鍵詞從而引起互聯網用戶的混淆,并由此牟取不正當利益的行為。根據互聯網調查數據表明,在互聯網的熱門服務中,搜索引擎以64.5%的使用率位居第三。由于網頁的廣告和銷售收入與網頁的訪問量成正比,因此網頁經營者們為了提高網頁的點擊率、增加收入,往往都會利用搜索引擎技術吸引客戶,由此引發的搜索引擎商標侵權糾紛也就越來越多。研究搜索引擎商標侵權問題不僅可以更好地保護商標權人的利益,保護相關商標的商譽,打擊侵害商標權的違法行為,還可以凈化互聯網的競爭環境,促進互聯網更快更好地發展。

2.搜索引擎商標侵權類型分析

第一種,Meta標簽引起的商標侵權。Meta標簽可以用來描述網頁的基本情況,還可以對關鍵詞及網頁等級進行設定,在網頁設計中會將Meta標簽嵌入網頁源代碼中。當互聯網用戶使用搜索引擎查找某一信息時,搜索引擎可以根據Meta標簽快速的找到相關的信息網站。[1]一些網頁設計者為了提高自己網頁的點擊率或者其他牟利的原因,利用一般的互聯網用戶看不到Meta標簽這一特點,將他人的商標設置為自己的Meta標簽,互聯網用戶使用搜索引擎查找該商標時,網頁就會轉到將Meta標簽設置為該商標的網站,這便引起了商標侵權糾紛。

第二種,關鍵詞檢索引起的商標侵權。將Meta標簽設置為他人商標存在不會被搜索引擎搜索到的風險并且容易被技術檢測出來引起商標侵權糾紛,于是一種更為隱蔽的網絡推廣手段出現了,即為關鍵詞檢索。關鍵詞檢索的原理是公司向搜索引擎網站購買與公司產品或者服務相關的關鍵詞,當用戶搜索該關鍵詞時,該公司的網站頁面就會出現在搜索結果頁面中較為突出的位置。而一些公司為了推廣自己公司的產品或者服務向搜索引擎網站購買他人公司的關鍵詞,當用戶搜索該關鍵詞時,很容易因為誤認就進入了購買該關鍵詞的公司網站,這就是關鍵詞廣告引起的商標侵權類型。[2]

第三種,搭載廣告引起的商標侵權。搭載廣告引起的商標侵權是指某公司并未購買某關鍵詞,但是當用戶搜索某一關鍵詞時,該公司通過搭載廣告的形式仍然出現在搜索結果的頁面上。典型的廣告搭載的例子就是“淘寶”和“易趣”這兩個購物網站,互聯網用戶使用谷歌搜索“淘寶”時,搜索結果中會出現“想淘寶,上易趣”這個廣告鏈接,而點擊該鏈接就會進入易趣網站。其實搭載廣告也是利用了關鍵詞來進行商標侵權的,某些搜索引擎商利用搜索結果,將一些關鍵詞提供給該關鍵詞購買者的競爭對手作為搭載廣告從而從中獲利。

二、搜索引擎引起的商標侵權的認定

傳統的商標侵權的認定可以適用《侵權責任法》上關于侵權行為的規定,那么搜索引擎引起的商標侵權應該如何認定呢?筆者認為搜索引擎引起的商標侵權是傳統商標侵權在網絡中的延伸,其同樣可以適用《侵權責任法》,即從過錯,違法行為,損害事實以及因果關系這四個方面來認定搜索引擎引起的商標侵權。[3]

1.過錯

對于主觀過錯的認定同樣要從搜索引擎服務提供商和作為鏈接的第三方網站這兩個方面去分析。對于搜索引擎服務提供商,應適用過錯推定原則。即如果其在提供競價排名服務時沒有盡到審查義務或者已知侵權情況發生而沒有及時采取相應的補救措施就應當認定為其主觀有過錯。對于作為鏈接的第三方網站,如果其有將他人的部分或者全部商標設置為自己的Meta標簽或者購買他人已注冊的商標作為自己的關鍵詞這種行為就應當認定為其主觀有過錯,除非網站經營者能夠證明自己沒有過錯。適用過錯推定原則一方面避免了受害方在網絡環境下舉證困難的不利因素,另一方面保證了網絡交易的順暢發展。[4]

2.違法行為

搜索引擎商標侵權主體不僅包括搜索引擎服務提供商,還包括作為鏈接的第三方網站。因此從這兩個主體分別分析其行為有無違法性。首先看搜索引擎服務提供商違法行為的表現形式。搜索引擎服務提供商并不是商標的直接侵權者,他對商標侵權的責任在于在提供競價排名服務時他對第三方網站提供的關鍵詞沒有盡到審查義務,致使商標專用權人受到了損害或者是商標專用權人已經告知其這種侵權行為,而搜索引擎服務提供商沒有積極的采取補救措施。再來分析作為鏈接的第三方網站行為的違法性,如果他在自己的網頁代碼中將他人的 部分或者全部商標設為Meta標簽,這種行為無疑是具有違法性的。如果該第三方網站只是參與了競價排名服務,那么這種行為是否具有違法性還要看其購買的關鍵詞是否是已注冊的商標以及其是否具有不正當經競爭的目的等。

3.損害事實

損害事實,既包括對公共財產的損害,也包括對私人財產的損害,同時還包括對非財產性權利的損害,只要對他人人身或財產利益造成了受損的事實,均構成損害事實。[3]商標是一種無形資產,一個有著良好商譽的商標能給商標權人帶來巨大的商業利益,商標的損害后果相較于其他損害事實來說是特殊的。結合《商標法》的立法宗旨,我們要認定搜索引擎引起的商標侵權的損害事實,其包括以下幾個方面:

(1)是否侵害了商標專用權人的商業利益,是否使商標所享有的信譽降低以及是否侵害了生產經營者的利益;

(2)是否侵害了消費者的利益;

(3)是否破壞了網絡交易秩序等。[5]

4.因果關系

侵權行為中的因果關系是指違法行為與損害結果之間的客觀聯系,即特定的損害事實是否是行為人的行為必然引起的結果。只有當二者間存在因果關系時,行為人才應承擔相應的民事責任。因此,因果關系是侵權行為構成要件的必備環節。因果關系也可以分為直接的因果關系和間接的因果關系。作為鏈接的第三方網站將他人的部分或者全部商標設置為自己的Meta標簽或者參與競價排名服務購買他人的商標作為自己的關鍵詞,這種侵害他人商標專用權的行為與損害事實有著直接的聯系。而提供競價排名服務的搜索引擎商幫助第三方網站侵害商標權人的利益,這種行為和損害事實有著間接地聯系。

三、完善搜索引擎商標侵權責任的具體建議

1.明確搜索引擎商標侵權的責任承擔主體

(1)搜索引擎服務商的審查和補救義務

要減少搜索引擎商標侵權的糾紛,搜索引擎服務商需要盡到一定的審查義務,同時在侵權情況發生后商標專用權人提出異議時也應當及時進行補救。首先,搜索引擎服務商應當對第三方網站申請購買的關鍵詞進行審查,隨著現在網絡技術的發展,程序人才輩出,搜索引擎服務商應當設計一套程序。這套程序中應當包含所有已注冊的商標,區分為馳名商標和普通的注冊商標。對于馳名商標,與其有關的關鍵詞一律屬于商標權人,不得賣給其他任何第三方網站。而對于普通的注冊商標,如果購買人能夠提供合理的說明,則可以進行關鍵詞購買。其次,搜索引擎服務商應當對購買關鍵詞的第三方網站進行審查。如果作為鏈接的第三方網站將關鍵詞作為自己的商標,使消費者產生了混淆,那么應當及時刪除,否則將會侵害商標權人的利益。最后,一旦侵害情況發生,且商標權人已經及時將此情況告知搜索引擎服務商,搜索引擎服務商應當立即對鏈接的第三方網站進行刪除或者屏蔽,否則就應當共同承擔侵權責任。

(2)作為鏈接的第三方網站的責任

作為鏈接的第三方網站在合理使用關鍵詞的情況下不構成商標侵權,但是我國對于合理使用并沒有作出一個明確的界定,而搜索引擎中商標侵權的認定又比較的復雜,可以從以下兩個方面對第三方網站是否屬于商標侵權責任承擔主體進行認定。

(1)作為鏈接的第三方網站主觀上有沒有惡意,有沒有使用他人商標增加點擊率的不良意圖,會不會使互聯網用戶對第三方網站的商標和使用的關鍵詞商標產生誤認。由于這種善惡意都是主觀狀態,所以我們應該從以下幾個方面去考察,第三方網站購買關鍵詞是在該商標成為知名商標前還是之后;第三方網站是否必須使用該關鍵詞來描述自己的網站;第三方網站使用該關鍵詞是否使消費者產生了混淆,有沒有對這種混淆采取避免措施等。

(2)作為鏈接的第三方網站使用該關鍵詞只是為了描述自己的網站,而并非出于搭便車的心理。一些關鍵詞雖然被作為商標,但是它并沒有失去其本身的含義,第三方網站購買該關鍵詞只是為了說明自己的服務或者產品,并沒有將其作為商標使用使消費者產生混淆或者在自己的網頁中采取了避免混淆的措施,在這種情況下作為鏈接的第三方網站就不需要承擔侵權責任。

2.明確搜索引擎商標侵權的責任形式

從一些案件的判決結果可以看出,在搜索引擎商標侵權中是以共同侵權責任制度來解決搜索引擎服務商這一間接侵權行為。根據《中華人民共和國侵權責任法》第八條第二款及《民法通則》第130條的規定,認定搜索引擎服務商與作為鏈接的第三方網站對商標權人承擔連帶責任。在司法實踐中,用共同侵權來解決搜索引擎商標侵權案件有一定的弊端。如果搜索引擎服務商與作為鏈接的第三方網站承擔連帶責任,由于我們很容易找到搜索引擎服務商,而作為鏈接的第三方網站經營者我們很難找到,所以商標權人往往會選擇實施了間接侵權行為的搜索引擎服務商,這無疑是不公平的。在網絡技術發達的今天,如果使搜索引擎服務商與作為鏈接的第三方網站承擔連帶責任,那么搜索引擎服務商的注意義務將大大提高,這不僅僅會造成不公平,更不利于互聯網的發展。基于以上理由,應當是搜索引擎服務商和作為鏈接的第三方網站分別承擔相應的民事責任,搜索引擎服務商承擔其間接侵權的責任而第三方網站承擔其直接侵權的責任。這樣有主有次,一方面搜索引擎服務商因為會承擔相應的間接侵權責任而盡到自己的審查義務,另一方面作為鏈接的第三方網站也會為自己的侵權行為買單,既體現公平,也能夠加強商標的保護,促進互聯網的發展。

3.搜索引擎商標侵權責任的承擔

根據我國《侵權責任法》的相關規定,考慮到搜索引擎商標侵權主要是侵害了商標權人所擁有商標的商譽,所以搜索引擎商承擔侵權責任的方式主要有停止侵害、賠禮道歉、消除影響及賠償損失等四種方式。其中我國現行計算商標侵權的損害賠償主要依據是權利人的損失、侵權人的獲利以及法定的賠償數額。搜索引擎引起的商標侵權也依然適用這三個標準,即作為鏈接的第三方網站的獲利、商標權人的損失以及法定的賠償數額。作為鏈接的第三方網站的獲利可以根據其在侵權行為持續期間所獲的全部銷售收入減去成本之后,都作為侵權人的獲利,而這里第三方網站的獲利是由于消費者對其產品產生混淆得來的。[6]而商標權人的損失則是由于第三方網站的侵權使得商標權人的產品銷售量減少從而產生的損失,這一部分損失應當由商標權人來舉證。法定賠償是指在人民法院無法查清受害人實際損失和侵權人營利數額時,人民法院按法律規定的賠償數額確定的賠償數額。[7]

參考文獻

[1]張乃根,符望.全球電子商務的知識產權法[M].上海:上海交通大學出版社,2004:222.

[2]焦文銘.搜索引擎侵權的法律分析[J].江蘇警官學院學報,2007(2):2-3.

[3]孫艷花.商標侵權認定研究[J].商業文化,2011(7):9-10.

[4]鄧富國,曹新明.網上搜索引擎商標侵權探析[J].人民司法,2002(4):5-6.

基金項目:本文系2011年度遼寧省大連市科技計劃項目“大連市知識產權保護能力建設的法律對策研究”(項目編號:2011D12ZC137);遼寧省社會科學規劃基金項目重點項目(遼寧文化產業發展法律問題研究(項目編號:L12AFX001)支持。

作者簡介:

第5篇

關鍵詞: 搜索引擎;網絡爬蟲;實現;設計;主題

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)17-0023-02

Abstract: In the information age, the Internet is full of all aspects of our lives, and the application of the search engine for our life brought great convenience .The research on the realization of web crawler in search engine is of great significance to improve the efficiency of search engine. This paper analyzes the realization of the web crawler in the subject oriented search engine, and puts forward the corresponding methods and measures.

Key words: Search Engine; Web Crawler; Implementation; Design; Theme

1 概述

使用搜索引擎,人們可以方便快捷地在網上獲取有用信息。隨著大數據時代的到來,傳統的通用搜索引擎面臨著索引規模、更新速度和個性化需求等多方面的挑戰。主題搜索引擎以提供分類精細、數據全面、更新實時的搜索服務為目標。網絡爬蟲是搜索引擎的基礎模塊,是搜索引擎的重要基礎。

網絡爬蟲是一種能自動提取網頁內容的程序,利用網頁信息格式進行網頁分析,也可以定期搜集某個或某些網站的內容,跟蹤網站的發展歷程。隨著網絡爬蟲技術的快速進步,網絡爬蟲更加廣泛地運用于網站結構分析、個性化信息獲取以及用戶興趣挖掘等多種服務中。

2 主題搜索引擎簡述

搜索引擎是一種用來在萬維網上檢索資源文件的計算機程序。搜索引擎根據用戶輸入的檢索關鍵詞推測出用戶的查詢意圖,然后快速地返回相關的查詢結果信息供用戶使用。

大數據時代互聯網數據爆炸性地增長,急切地需要一種快速、準確細致、全面深入且更新及時的信息檢索方法。主題搜索引擎克服了傳統搜索引擎的諸多困難,使信息檢索變得更加精確細致,使搜索到的信息更加全面深入,同時使專題信息和學科信息的更新更加及時。

3 網絡爬蟲簡述

網絡爬蟲從一個初始URL隊列開始,從中獲取一個URL,獲取網頁,從網頁中提取所有的URL,并將新的URL添加到URL隊列中。然后網絡爬蟲從隊列中獲得另一個URL,重復前面的過程,直到達到停止條件。這種爬取資源的方式存在著網絡連接不穩定、網頁特征多樣化、URL不規范等一些問題。

4 網絡爬蟲分類

第一個網絡爬蟲是美國麻省理工學院的學生Matthew Grey于1993年寫成,后來改進了爬蟲程序并將其引入到搜索引擎中。隨著搜索引擎技術的不斷進步,爬蟲程序也越來越復雜,后來產生了通用爬蟲、限定爬蟲和主題爬蟲等幾種不同類型的爬蟲。

4.1通用爬蟲

基本原理上文已分析,但爬取的范圍過大,爬取順序要求低,對爬取速度和存儲空間要求較高。

4.2限定爬蟲

限定爬蟲是一種能爬取用戶感興趣的某一類網頁的爬蟲程序。但它不要求爬取所有的網頁,只需爬取某些特定種類的網頁即可。工作過程是:采用樸素貝葉斯方法用網頁樣本訓練一個文本分類器,然后用這個文本分類器指導爬蟲的偏好,從爬蟲隊列中選擇出用戶感興趣的網頁。

4.3 主題爬蟲

主題爬蟲先確定一個或多個主題,根據一定的分析算法過濾與主題無關的URL,保留與主題相關的URL并將其放入等待URLs隊列中;然后使用某種搜索策略從等待隊列中選擇下一個要抓取的URL,并重復上述過程,直到達到某種停止條件。

首先主題爬蟲需要判定當前抓取與設定的主題的相關性,其次主題爬蟲采用按相似度大小抓取網頁的策略來抓取網頁。相比通用爬蟲它極大地節約了硬件和網絡資源,加快了爬取速度,還可以滿足人們對特定領域的需求。

5 主題爬蟲的爬取策略

主題爬蟲以通用網絡爬蟲為基礎,在此基礎上進行優化和擴展,使其具備主題網絡爬蟲特有的功能,進而實現面向主題的網頁信息提取。

主題爬蟲盡可能搜集與主題相關的網頁,減少下載無關網頁的可能。主題爬蟲與通用爬蟲相比需要解決以下問題:主題的描述和定義、網頁內容與主題相關性的判定、鏈接重要程度的判定、如何提高主題爬蟲資源覆蓋率。

面向主題的信息采集系統可分為4個部分,即主題集選取、Web信息提取、頁面預處理、鏈接過濾。

5.1 主題集選取

主題網絡爬蟲中,為有效進行剪枝和過濾操作,需要對主題進行定義或描述,以此來確定采集的方向,主題集的好壞直接影響到了最終的采集效果。主題可以是幾個關鍵詞,還可以是自然語言。用戶可以自己定制主題,對主題做進一步的描述。主題集的合理選擇是主題爬蟲的基礎。

5.2 Web 信息提取

從采集起點開始,主題爬蟲開爬取Web上的信息資源,通過各種Web協議自動爬取站點的有效信息。為了高效地獲取信息,主題爬蟲系統中大多都采用了多線程的方式來提取Web信息。

5.3 頁面預處理

把主題爬蟲抓取到的Web頁面規范化,主要包括:頁面語法分析,頁面去噪等操作,提取網頁中的有效信息,然后判定網頁信息的主題相關性,過濾與主題無關的頁面,從而提高主題爬蟲的主題信息提取的準確性。

HTML網頁內容可以從正文、標題、標記信息、鏈接信息等方面反映。因此,對網頁信息的提取只需將這些特征信息提取出來。讀取頁面時,找到標記,將標記中間的內容中的所有標記去除,就得到了頁面正文;標記中的內容就是網頁的標題,它顯示在標題欄中。

即使提取的URL通過了主題相關性判別,提取到的頁面內容與設定的主題也可能有很大差距。所以,在頁面提取之后應對頁面信息進行與主題相關性判別,淘汰與主題無關頁面。

5.4 鏈接過濾

要提高主題Web信息的提取速率和準確性,系統需對采集到的UI進行URL和主題的關系的判定,叫做鏈接過濾,或鏈接預測。

鏈接過濾常用的算法是EPR算法。在鏈接關系的基礎上加入針對鏈接的相關主題的權重,再引入鏈接網頁之間的主題相關度權重,使產生的重要頁面是針對某一主題的,這形成了EPR算法。

6 結束語

網絡爬蟲的發展為搜索引擎的成功奠定了堅實的基礎,然而隨著互聯網技術的迅速發展,人們對搜索引擎的需求越來越大,信息檢索服務也在向著個性化、精細化的方向發展,人們對網絡爬蟲的進一步設計優化提出了更高的要求。

主題爬蟲核心問題是主題頁面群的采集和無關頁面的過濾問題。網絡爬蟲具有重復性,如何將頁面動態變化的規律與先前的搜索統計結果相結合,提高爬取效率是一個值得研究的問題。目前網絡爬蟲采用的搜索策略都較固定,缺乏適應性,如何提升爬蟲的自適應性有待進一步研究。

參考文獻:

[1] 劉金紅,陸余良.主題網絡爬蟲研究綜述[J].計算機應用研究,2007,24(10):26-29,47.

[2] 盛亞如,魏振鋼,劉蒙.基于主題網絡爬蟲的信息數據采集方法的研究與應用[J]. 電子技術與軟件工程,2016(7):168-169.

[3] 梁萍.搜索引擎中網絡爬蟲及結果聚類的研究與實現[D].中國科學技術大學,2011.

[4] 于娟,劉強. 主題網絡爬蟲研究綜述[J].計算機工程與科學,2015,02:231-237.

第6篇

關鍵詞:垂直搜索;web技術;信息化

中圖分類號:TP393 文獻標識碼:A文章編號:1007-9599 (2011) 12-0000-01

Reservoir Agriculture Vertical Search Engine Construction Study

Yuan Feng

(Chongqing Three Gorges College,Chongqing404155,China)

Abstract:With the Internet and the rapid development of Web technology,Internet has become indispensable for information exchange huge information space.Faced with such a huge mass of information,people are looking for the information they need is often lost.How to quickly and accurately from the vast information resources to find the information they need has become a major problem plagued users.Vertical search engine web search is the research focus areas of most concern.And my school is located in the Three Gorges reservoir area,agriculture is the main professional school for China's"agriculture through science and technology"and the spirit of sustainable development,concepts and techniques from this paper describes two aspects of vertical search engine,workflow and key technologies and study the factors vertical search technology and rural issues together,to solve reservoir rural areas,farmers and agricultural information-poor,the concept behind the status quo,agricultural production information.

Keywords:Vertical search;Web technology;Information

一、庫區農業發展瓶頸

(一)信息化對于農業的重要性

在農村經濟運行中,信息把整個農村社會生產力的各個環節,各個方面緊密地銜接起來,把產經銷各個部門有序地組織協調起來,是農村經濟運行的重要中介和紐帶,因此,許多農民也體會到信息致富的重要性,對信息的要求更加迫切。

(二)庫區農業信息化發展現狀

重慶三峽庫區的農業信息化發展在近年來雖然有了較大進步,但是相比農業高速發展對于高新信息的需要,還有較大差距,特別在鄉鎮,農業信息人員不能有效利用計算機網絡獲取和信息,計算機的應用還更多地停留在打字上。造成農民和企業的信息需求不能及時上報和外發,網上的政策、技術、市場信息難以傳遞給農戶。從而在鄉鎮級失去了信息的“橋梁”作用,影響信息的共享和應用。

二、垂直搜索引擎介紹

(一)什么是垂直搜索

所謂垂直搜索,是針對某一特定領域,某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點就是專、精、深,且具有行業色彩。它是與通用搜索引擎截然不同的引擎類型。垂直搜索引擎專注具體、深入的縱向服務,致力于某一特定領域內信息的全面和內容的深入,這個領域外的閑雜信息不收錄。

(二)垂直搜索引擎的工作流程和主要技術

垂直搜索引擎主要分為3個功能模塊(圖1),網頁抓取模塊(Web Spider)是垂直搜索引擎的第一步,該模塊從互聯網海量的信息里抓取與搜索引擎的主題相關的網頁,例如,設計一個摩托車行業的垂直搜索引擎,就可以到摩托車門戶網站進行抓取。這一模塊還包含對網頁進行預處理,去除掉一些不符合主題規范的網頁,然后進行網頁凈化,使之符合抽取的規范。

第二步是信息抽取和索引模塊,該模塊的主要目的是生成倒排索引,并且存儲到數據庫中,便于查詢模塊中查全率和查準率的提高,該模塊承前啟后,是一個垂直搜索引擎中最重要的一環,最為關鍵的步驟就是對第一步得到的大量網頁進行信息抽取,從大量結構化和非結構化的數據中提取信息。然后對提取的信息進行中文分詞,建立倒排索引,生成索引文件,存儲到數據庫中。

第三步就是設計查詢頁面和查詢的算法,使用戶可以按照第二步得到的索引文件進行查詢,該步的關鍵在于如何設計優秀的查詢算法,評定網頁的“重要度”,努力提高查全率和查準率。

三、庫區農業垂直搜索引擎的構建

(一)尋求技術支持,抓取相關關鍵網頁

構建農業垂直搜索引擎需要大量農業核心技術相關網頁,所以需要和一些農業門戶網站聯系,尋求他們的支持,將大量農業相關頁面抓取到我們的搜索引擎的數據庫中。

第7篇

關鍵詞:搜索引擎; 分類; 類目

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2013)18-4174-03

目錄型搜索引擎采用網站登錄收錄方式,依據主旨、用戶對象及網絡資源狀況構建分類體系,把收集到的本地的網站頁面進行人工編輯,層層類分,形成縱向隸屬、橫向關聯的網站目錄數據庫。用戶依據類目體系及其規則分類檢索,逐類瀏覽,直至獲得所需資源[1]。

目前,中文分類搜索引擎正蓬勃發展,猶如雨后春筍般相繼出現,但各家搜索引擎的分類目錄多為自編,這些自編的分類類錄或多或少的存在著問題,不能完全的滿足用戶的檢索需求[2]。所以筆者認為,建立統一的分類類錄體系勢在必行。該文在研究多數分類搜索引擎的基礎上,歸結出分類類錄的大致類別,以期為相關研究機構和人員提供參考。

1 樣本來源及研究方法

1.1樣本來源

本文選取的樣本來自于中國網站排名(.cn)。中國網站排名由中國互聯網協會主辦,主要提供網站綜合排名TOP榜、網站流量趨勢、統計工具、互聯網市場信息等業務。

本文主要研究的是搜索引擎的分類,所以選取的搜索引擎須滿足兩個條件:一是目錄型搜索引擎;二是綜合性門戶網站。結合這兩點,在網站排名TOP100中,剔除掉全文搜索型引擎(如, 、.hk、等),以及專項式搜索引擎,例如購物網站(、等),銀行網站(如.cn類),視頻網站(如 、等),游戲網站(、等),交友網站(、等)等等,選取11個具有代表性的目錄式綜合搜索引擎進行研究,分別是:騰訊網()、新浪網(.cn)、鳳凰網()、搜狐()、網易()、中華網()、新華網()、中國雅虎()、人民網(.cn)、北方網(.cn)、環球網()(表1)。

1.2研究方法

根據中國網站排名,選擇具有代表性的11種目錄式綜合搜索引擎,收集并整理目錄(表2),為方便統計,將同一意思的目錄統一名稱,例如,“購車”轉換為“汽車”、“IT”轉化為“科技”、“圖庫”轉化為“圖片”、“臺灣”轉化為“臺海”、“尚品”轉化為“時尚”、“地方站”簡化為“地方”、“懸賞問答”簡化為“問答”等等;統計搜索引擎類目,計算個類目的詞頻;按詞頻的高低進行排序;最后對詞頻表進行分析研究。

2 數據分析

將表2進行統計整理,總共獲得105個不同類目,對每個類目出現次數進行統計,并將結果降序排列,得到類目的詞頻統計圖(表3)。再將表3中的類目詞頻進行統計,獲得高頻詞低頻詞統計表(表4)。

由表3可知,類目“汽車”、“新聞”、“科技”、“體育”、“娛樂”、“財經”、“房產”“旅游”是詞頻排名前三名的類目,說明它們是分類體系的主流類,目錄型搜索引擎基本上都有著幾大類;由表4可知,高詞頻(詞頻[≥]7)類目數很少,只占到總數的12.38%,相反,低頻詞(詞頻[≤]3)類目數卻很多,占總數的76.19%,這顯然是不合理的。

3 類目詞頻統計結果分析

3.1搜索引擎類目分類存在的問題

1) 分類類目數差距大

根據表1顯示,搜狐的一級類目有34個,鳳凰網和人民網的類目有32個,而環球網的類目只有19個,網易和北方網也只有21個,最大的差距有多大15個。類目數過多,分類過于龐雜、外延溢出,例如搜狐的“高考”屬于“教育”的外延溢出,其完全可以并入“教育”類;類目數過少,知識覆蓋不全,體系過于簡單,查詢者需要層層遍歷,才能找到所需信息,浪費時間,例如想在環球網查找體育相關的信息,就必須同時查找“新聞”、“社會”、“評論”等類目,層層遍歷,直到找到體育相關的信息。

2) 歸類不科學,劃分有失恰當

許多搜索引擎的分類體系未能嚴格的按照類目的內涵和外延進行科學地歸屬類目[3],其分類體系劃分失誤的種類主要有以下幾種:①劃分出來的類目相包容。例如,新浪網的“新浪大片”類目完全可以歸納在“視頻”類目中,搜狐網的“彩票”類目可歸納在“財經”類目中;②劃分過窄。例如,環球網的“歷史”類目,內涵過窄,可以開辟一個“文化”大類,將“歷史”這一類目作為它的二級類目;③劃分過寬。例如,北方網的“文娛”類目,外延過于寬泛,可以拆分成“文化”和“娛樂”兩個類目。

3)類目排列隨意,界面欠友好

某些網站的界面友好層度比較低,廣告太多,類目布局不合理,以及類目和二級類目混雜,版面混亂,給查詢者的視覺效果不良[4];鳳凰網的左側右側均插入了廣告,并且隨滾動條滾動,版面不夠潔凈,然讓看了不舒服。例如,搜狐網的一級類目和二級類目混雜在一起,且字體大小一樣,導致類目過多,看的人眼花。相反,新浪網設有網頁導航,左側邊欄為一級目錄,右側為二級和三級目錄,一目了然,分類清晰。

4)類名不規范,缺乏統一的類名體系

搜索引擎分類體系中普遍存在類名不統一的現象,各家搜索引擎同內涵和外延的類目卻分別標示著不同的類目名稱。例如,搜狐、人民網、北方網出現了“IT”這一類目,而騰訊、新浪、鳳凰網、網易用的是“科技”這一類目;騰訊、新浪的“女性”類目和搜狐、網易、中華網的“女人”這一類目也是同屬一個概念。

5)出現生僻類,類下缺乏注釋

中文搜索引擎在其分類體系中采用了網頁制作者自己自編的類目名稱或是廣大網名自發形成的網絡用語、俗稱、簡稱、英文縮寫、慣稱等自然語言[3],但有些類名缺乏規范化處理,類下有無注釋,用戶很難判別其內涵和外延,增加用戶的額外負擔。例如,搜狐的“白社會”、北方網的“18街”、中華網的“有料”、中國雅虎的“心香一脈”等,在沒有注釋的情況下,用戶無從知道這些類目到底代表著什么樣的內容[5]。

4 對搜索引擎類分類體系的思考

根據各類目出現的頻次,將類目體系分為四類:主流類,次流類,商榷類,修改類(表5)。

4.1 主流類和次流類

主流類中的類目頻次都是大于或等于7的,即它是由高頻詞組成的,這些類目是搜索引擎的主流類目,幾乎所有的搜索引擎基本上都有這13個類目,在編制搜索引擎類目體系時,這13個類目可保留,直接使用;次流類是由類目頻次小于7大于等于4的類目組成,這些類目是搜索引擎的基本類目,將近一半的搜索引擎都有這12個類目,對于這12個類目,可直接保留使用,也可稍作微調,例如,將“讀書”歸入“文化”類、“手機”納入“數碼”類、“微博”與“博客”合為一類,搜索引擎分類體系可根據自身情況借鑒使用。

4.2 商榷類

商榷類類目是由頻次等于2和3的類目組成,這一類類目比較龐雜,界限不明確,需要調整后使用,分兩種情況:

1)保留型,將其比較典型的類目,與其他類目外延交叉較低的類目保留下來,例如“親子”、“女性”、“環保”、“問答”等;

2)調整型,將外延重疊交叉的類目進行調整,例如,“歷史”納入次流類的“文化”類,“動漫”歸入“游戲”類,“彩票”納入“財經”類,“女人”和“女性”合并為一類等。

4.3 修改類

修改類全部是由頻次等于1的類目構成,對于這類類目,要進行大幅修改,才可以投入使用。修改方式有四種:

1)保留型,一些類目雖然不常使用,但也是屬于一種新類別或是實用價值比較高的類目應予以保留,例如“男人”類目(因為有“女性”這一類目,為公平,應也有“男人”這一類目)導航(實用性很強);

2)包容型,一些類目的外延與其他類目交叉重疊了,所以不必要單獨列出來,例如,“教育”已經包括“高考”這一類目,“新浪大片”包含在“視頻”類目中,“華人佛教”屬于“文化”范疇等等。

3)注釋型,一些類目太過標新立異,僅看名字無法理解其內涵,不方便用戶使用,因此,需要加以注釋,例如,“白社會”、“節會”、“寬頻”、“18街”、“有料”、“心香一脈”。

4)摒棄型,一些類目是完全不必要出現在一級類目中,需要直接舍棄掉,例如,“服飾”、“高爾夫”、“心理測試”等。

綜上所述,一般性綜合搜索引擎的一級類目應大致有:“新聞”、“財經”、“科技”、“體育”、“娛樂”、“教育”、“房產”、“汽車”、“旅游”、“論壇”、“視頻”、“公益”、“健康”、“游戲”、“地方”、“博客”、“讀書”、“郵箱”、“軍事”、“文化”、“時尚”、“數碼”、“圖片”、“環保”、“女性”“問答”、“國際”、“男人”、“導航”這28個類目。在編制搜索引擎的類目體系時,考慮自身搜索引擎的特點、偏向,具體問題具體分析,借鑒使用。

參考文獻:

[1] 羅德一.農業分類搜索引擎分類體系研究[D].南京:南京農業大學,2004:3.

[2] 刑志宇.分類搜索引擎探析[J].河南圖書館學刊,2006(10).

[3] 余義芳.中文搜索引擎分類體系存在的問題及對傳統分類法的借鑒[J].圖書與情報,2004(3).

第8篇

關鍵詞:支持向量機;行為日志;檢索函數;Nutch;搜索引擎

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)21-30420-02

Study on the Use of Server Log Search Engine Optimization

LU Wen-chao

(Anhui Tongling Colored Copper Crown Jianan Corporation, Tongling 244000,China)

Abstract: The site is set up in the future, we must think of how to make their own web site and let more people know how to attract more people to visit it in order to give themselves the potential for more customers. There are many ways to promote, for instance, can do advertising or signs Lightbox television and paper media publicity, but the price of such a biased propaganda expensive, or you can, in some Renqihenwang the BBS, or by adding their own above other sites links, or simply people on the e-mail to promote their own, but this situation is not very effective. And a "chipping away" feeling, may be more suited to those individuals Home publicity. By contrast, registered search engine integrated with the approach that results are good, the scope broad and effective long time. This paper introduces the Support Vector Machine (SVM) Category theory, discusses how to improve the use of SVM algorithm from the user updated study of the log retrieval function to meet the needs of different groups of users, the final use Nutch Construction of a search engine to validate our methods .

Key words: Support vector machines; User behaviors log; Retrieval function; Nutch; Search engine

1 引言

隨著因特網信息量的日益增長,網絡用戶對搜索引擎的功能、智能化程度和檢索效果有了更高的要求,希望搜索引擎能夠提供更為準確、可靠與符合其個性化需要的檢索結果。檢索函數的性能對一個成功的檢索系統來講是至關重要的。專業人士認為,目前的搜索引擎的檢索函數還存在兩大不足,一、沒有真正解決相關性。相關性是指搜索詞和頁面的相關程度。僅僅通過鏈接、字體、位置等表面特征,不能真正判斷搜索詞和文章的相關性。二、搜索結果的單一化。在搜索引擎上,任何人搜索同一個詞的結果都是一樣。這樣顯然不能滿足訪問者。搜索引擎技術的改進和優化,都直接反應到搜索結果的排序上。檢索函數的任務是對數據庫中保存的數據對象與用戶查詢之間的相關性進行度量。檢索系統根據相關度的大小對數據庫中的對象進行排序并返回給用戶。相關度取決于用戶的判斷,是一個主觀概念,不同用戶做出的判斷很難保證一致,即使是同一用戶在不同時期、不同環境下做出的判斷也不盡相同。傳統的文檔檢索系統通常基于向量空間模型或者語言模型,檢索函數是用啟發式的方法直接定義的,而不是學習出來的[1]。本系統根據用戶行為日志推導用戶偏好,然后利用機器學習方法SVM算法定時學習更新檢索函數。

2 日志分析

用戶利用搜索引擎檢索時,常常會返回大量的結果,瀏覽檢索結果時,假如是自己需要的信息,用戶就會點擊該鏈接,仔細閱讀,有時還會下載下來,若是不需要的信息,就會立即關閉網頁,即用戶的信息需求可以通過點擊與否和訪問時間來確定。網絡日志中記錄了用戶的訪問時間,同時也記錄了用戶訪問的URL,對這些數據進行凈化、用戶識別和會話識別等處理,就能體會用戶的弦外之音,獲得用戶偏好。本系統日志中記錄了有關用戶訪問網站的時間和頻率的信息,日志分析只要對這些信息進行統計分析,找到那些用戶經常訪問的而且花了較長時間去瀏覽的網頁,實際上也就是那些得到了用戶認可的感興趣的網頁,然后由搜索引擎通過一定的算法提高這些網頁的權值,使他們在檢索結果中的排名靠前,我們認為對于每個查詢詞,用戶感興趣網頁的相關度大于排在其前且沒被點擊的網頁[2]。本系統記錄的日志信息如圖1所示:

3 SVM算法原理

Svm是在現代統計學理論基礎上發展的一種新的學習方法。 Svm針對線性情況進行分析,尋找最優分割超平面把不同類別樣本分開。對于非線性情況通過使用映射函數將低維線性不可分的樣本轉化到高維特征空間使其線性可分。所謂最大間隔超平面就是不但能把兩類正確分開,而且分類面距離樣本的間隔最大的平面。設分類超平面的方程為x•w+b=0,設線性可分得訓練樣本集(xi,yi),i=1,2,...,n x∈RN ,y∈{-1,+1},滿足條件: yi(w•xi +b)-1≥0,i= i=1,2,...,n,為了得到最大間隔分類超平面,需要求解下面的最優化問題:

這個最優化問題的拉格朗日對偶形式為:

解這個最優化問題便得到線性最大間隔分類函數,對于給定的未知樣本x,只需計算分類函數的符號,就可以判斷x所屬的類別。

在線性不可分情況下,可以在條件中增加一個松弛項ξi≥0,將約束放寬為yi(w•xi+b)≥1-ξ, ξ≥0,i=1,……n, 此時目標函數變為 ,其中C為可調參數,表示對錯誤的懲罰程度,C越大懲罰越重。相應的對偶問題為:

對于非線性問題,引入核函數技術。對偶問題只涉及訓練樣本之間的內積運算,這種內積運算是可以用原空間中的函數實現的,根據泛函的有關理論,只要一種核函數K(xi•xj),滿足Mercer條件,它就對應某一變換空間中的內積,如果核函數選取得適當,可將輸入空間中的線性不可分問題轉化為特征空間中的線性可分問題。

4 學習檢索函數

本文采用基于機器學習的文檔檢索方法(Ranking SVM)學習針對每個查詢詞的檢索函數。在這種方法中,文檔被表示成度量其與查詢詞之間相關度的特征向量,然后從訓練數據中學習一個定義在這些特征向量之上的檢索函數(排位函數)。我們選用線性檢索函數即為rel(di,q)=w•Φ(di,q),Φ(di,q)是文檔特征向量,w是特征向量的權重,因此學習檢索函數實際上是學習和優化w。

4.1 文檔特征向量

在排位函數(即檢索函數)學習問題中,文檔被表示成與查詢詞依賴的特征向量,目標是從訓練數據中學習出一個能夠根據文檔與查詢的相關度對文檔進行排位的函數。之所以稱作查詢依賴的特征向量,是因為特征向量描述了文檔與查詢間的相關度,而不是文檔本身的屬性。所以,每個查詢依賴的特征向量對應于一個“查詢-對象”數據對。除了特征向量,訓練數據還包括關于“查詢-文檔”數據對的相關性判斷信息。所謂相關性判斷是指一個文檔與查詢間的相關度的陳述。相關性判斷可以是絕對的(比如,對象A 是相關的,對象B 不相關,而對象C 居中)或者是相對的(比如,對象A 比對象B 更相關)。相對的相關性判斷也被稱為偏好性判斷。對于每個查詢詞,我們認為用戶感興趣網頁的相關度大于在返回的檢索結果列表中排在其前且沒有被點擊的網頁。若對于查詢詞q在檢索得到的文檔集合中,文檔di的相關度高于dj記作:di>q dj ,相應的w•Φ(di,q)> w•Φ(dj,q)。Φ(di,q)是反映查詢詞和文檔相關度的特征向量。文檔向量化首先選取特征然后對其賦值,經分析我們的文檔特征向量由排序特征和查詢詞/文檔特征構成。排序特征從已存在的檢索函數中得到,為對每一個查詢詞我們只考慮結果的前100條記錄,定義28個排序特征(rank1,2…,10,15,…,100),若文檔排在定義的排序特征之前則該特征被賦值為1否則為0。例如對于某查詢詞排在第三位的文檔排序特征向量為(0,0,1,…,1),如果文檔沒有出現在前100條記錄中,則其特征向量為零。我們可以根據排序特征得知原始搜索結果的排序情況,可以實現不同檢索函數的混合排序。 查詢詞/文檔特征表明查詢詞和文檔間的關系,用查詢詞在某HTML標簽的出現的次數(TITLE,H1,H2,…)表示。

4.2 Ranking SVM原理

近年來,SVM算法被廣泛地用于檢索函數學習問題并且表現出了卓越的性能。檢索被當作分類問題來對待始于1976 年的Robertson 和Jones。他們提出了二元獨立性檢索模型來估計相關的概率。Joachims則在最大間隔原則下處理排位函數學習問題,提出了排位SVM 算法(Ranking SVM),此算法的目標并不是學習相關性這一概念,而是學習直接對事物進行排位。這類算法使用的訓練數據是相對相關性判斷信息,即按照相關性排序的有序樣本對[4]。本系統就是借鑒此方法學習排位函數。當di >q dj 時, w•Φ(di,q)> w•Φ(dj,q),將查詢文檔對轉換為特征向量作為SVM的輸入,經學習訓練后得到w得值。文檔特征向量對應空間的一個點,可以用各點在超平面上的投影來排序這些文檔。構造最優超平面的方法類似SVM分類,對于線性不可分情況引入松弛變量以增大間隔距離,約束條件變為w•Φ(di,q) ≥w•Φ(dj,q)+1-ξij,優化問題變為:

其中C 為分類間隔和訓練錯誤之間的折中控制參數,這里c的取值為0.1。

5 實驗結果

我們利用Nutch構建了自己的搜索引擎并加入了中文分詞模塊[5]。在實驗中,本引擎的搜索范圍為校園網()。用戶輸入查詢詞圖書館后顯示如圖2所示,經過搜集用戶行為分析得到用戶偏好,由Ranking SVM算法訓練學習后得到新排位函數,新的排位函數生成后,用戶再次輸入“學生”檢索結果如圖3所示。

訓練時,我們使用SVM線性核函數取c=0.1,設最小權重Wmin=0.02。試驗結果表明算法能夠準確得分析站點用戶行為的共性,并自動學習更新原始的檢索函數將經常訪問頁面排在前面,方便用戶瀏覽能夠滿足站點用戶的群體需求。但系統還存在著不足,合并相近查詢詞、用戶興趣聚類等問題還需要進一步研究[6]。

參考文獻:

[1] 李曉明,閆宏飛,王繼民.搜索引擎―原理、技術與系統[M].北京:科學出版社,2004.

[2] 葛蓉.利用網絡日志分析提高搜索引擎的檢準率[J].情報科學,2004,22(10):1251-1253.

[3] 孟海濤,劉鵬.一種改進的SVM支持向量分類方法[J].現代電子技術,2007(1):150-152.

[4] 付巖.基于機器學習技術的生物信息檢索研究[D].北京:中國科學院計算技術研究所,2007.

[5] 胡濤,路紅英.基于 Nutch 的搜索引擎的研究[J].計算機時代,2007(1):57-59.

第9篇

報道還顯示,搜索引擎用戶的收入水平高于全國網民的整體水平,具有較高的商業價值。在用戶行為上,搜索用戶在第一次搜索失敗后平均會采用2種以上應對措施。95%以上搜索用戶在搜索時都會有習慣使用的關鍵詞類型。

搜索用戶在第一次搜索失敗后平均會采用2種以上應對措施

CNNIC研究表明,當用戶在第一次搜索不能得到理想結果后,會做出不同的反應。當一次搜索得不到理想結果時,平均每個用戶會有2.03個不同的應對措施。有60.5%的用戶會在搜索不到理想結果后采用“更換關鍵詞”的方法重新搜索,有46.6%的用戶會用“增加或者減少關鍵詞”的方法重新搜索;另外有40.0%的用戶會選擇更換搜索引擎,30.4%的用戶會選擇從結果中再次搜索,還有26.1%的用戶表示放棄繼續搜索。提高首次搜索結果的滿意度是搜索廠商應該重點關注的問題。

搜索引擎用戶的收入水平高于全國網民的整體水平,具有較高的商業價值

CNNIC報告顯示,目前中國的搜索引擎用戶中,1000元以下收入的用戶約占40.8%,月收入在1001-2000元的用戶所占比例為25.9%,月收入在2000元以上的用戶占總體的33.3%。搜索引擎用戶的收入水平高于全國網民整體的收入水平,擁有較高的消費支付能力,搜索引擎作為互聯網的基礎應用之一,具有較高的商業價值。

用戶結構進一步優化

目前使用搜索引擎的用戶中,最主要的為年輕群體,30歲以下占70.1%,不過與往年相比,30歲以上的搜索用戶所占比重也在逐漸增大;從學歷構成來看,學生用戶占據31.7%,在非學生用戶中,高中學歷約占30.3%,其次是大專和大學本科學歷,分別占比28.8%和25.1%。

從數據中可以看出,中高年齡段與高中學歷的用戶所占比例明顯增加,這與近年來中國網民的劇增以及中高齡群體所占比例的不斷上升有關,這一現象也說明搜索引擎用戶中各種類型群體的結構比例正在進一步優化。

休閑娛樂為主要搜索目的關鍵詞類型大多固定

休閑、娛樂成為網民使用搜索引擎的兩大最主要目的,報告顯示,網民對生活信息的搜索需求要略高于對專業工具的搜索需求。而在以休閑娛樂為目的的搜索中,音樂搜索的選擇率最高,達32.6%,百度音樂、搜狗音樂等搜索引擎應用的火爆都證明了這一點;此外,在生活信息搜索中,主要以新聞信息的搜索為主;在專業工具的搜索中,專業資料的需求最高,選擇率達31.3%。

從應用上看,搜索引擎用戶中,95%以上的用戶都能夠自述進行搜索時首先輸入的關鍵詞類型,只有4.2%的人群不固定地輸入關鍵詞。其中輸入“主要一個關鍵詞”的搜索用戶占比最高,達38.1%。據此,分析指出,搜索引擎用戶使用關鍵詞的特征關系到搜索引擎優化和營銷戰略的推廣,所以,搜索用戶關鍵詞的使用習慣今后將會一直為搜索引擎商家所關注。

百度、谷歌繼續領銜搜索引擎市場

第10篇

近年來網絡發展迅速,信息爆炸帶來的知識需求也日益增長,搜索引擎也呈現百花齊放、百家爭鳴的局面。在此背景下,如何應用搜索引擎獲取準確有效的信息成為人們非常重視的研究問題 [1]。為此,我們在教師的指導下開展了面向高校學生的搜索引擎評價研究,希望結合教學改革項目,進行教學實踐課題的研究。我們希望通過搜索引擎評價,篩選出面向高校學生的、更有效的信息收集方法,提高高校學生信息收集效率和效果。

1 搜索引擎評價

網絡信息資源評價的指標一般分為網絡信息資源內容、網絡設計、可獲得性 、成本等方面[2]。搜索引擎的評價受到許多因素的影響。國內外有許多學者研究了如何評價搜索引擎,提出了相應的評價指標體系。蘇君華進行了搜索引擎評價的研究綜述,從內容層次、技術層次、界面/交互層次、用戶層次、服務層次以及環境層次的評價幾方面梳理了搜索引擎評價研究[3]。馬志杰進行了國外以及我國搜索引擎評價的研究綜述,指出了國外搜索引擎評價的特點及趨勢,分析了我國搜索引擎評價的指標、方法,指出了我國搜索引擎評價研究存在的問題以及主要發展策略[1] [4]。

2 搜索引擎分析

使用者對于搜索引擎的評價很多地依賴于一些專業網站的搜索引擎排名。根據數據專家網站統計分析平臺提供的搜索引擎使用情況分析報告,表1列出2013年9月搜索引擎排名,表2列出2014年8月搜索引擎排名。占有率指使用某搜索引擎的獨立訪客數占總訪客數的比例;使用率指某搜索引擎產生的頁面瀏覽量占總頁面瀏覽量的比例[8]。由表1、表2可以看到,對于不同的評價指標,搜索引擎的排名結果不全相同。

3 基于AHP的綜合評價

根據以上的分析,我們認為搜索引擎評價不能簡單地從一、二個指標進行,而應該進行綜合評價。層次分析法是定性定量相結合的系統決策方法。我們考慮應用層次分析法進行搜索引擎的綜合評價。在查閱、學習相關文獻的基礎上,我們認為搜索引擎應該從全面性、準確性、目的性、時間性、用戶友好性等方面進行評價。在此基礎上,我們確定了搜索引擎評價指標。我們考慮了搜索結果、可獲得性、界面設計、功能幾個大類為一級指標。這些一級指標又分為相應的二級指標。搜索結果的二級指標有全面性、準確性、時效性;可獲得性的二級指標有使用復雜度、鏈接方便性、響應速度;界面設計的二級指標有美觀性、布局合理性、交互性;功能的二級指標有豐富性、獨特性。

層次分析法構造判斷矩陣進行因素對比若同等重要,標度的量化值為1;若稍微重要,標度的量化值為3;若較為重要,標度的量化值為5;非常重要,標度的量化值為7。若介于兩相鄰判斷的中間值,標度的量化值分別為2,4,6,8。我們應用了專家打分法確定搜索引擎評價指標的權重。一級指標可獲得性與搜索結果比值0.1669,界面設計與搜索結果比值0.2490,功能與搜索結果比值0.2327,界面設計與可獲得性比值1.6610,功能與可獲得性比值1.8644,功能與界面設計比值1.3218。二級指標搜索結果類指標準確性與全面性比值2.4662,時效性與全面性比值2.2787,時效性與準確性比值0.3952;可獲得性類指標鏈接方便性與使用復雜度比值1.5731,響應速度與使用復雜度比值1.9693,響應速度與鏈接方便性1.5874;界面設計類指標布局合理性與美觀性比值1.6984,交互性與美觀性比值2.4929,交互性與布局合理性比值1.6475;功能類指標獨特性與豐富性比值0.8061。

各指標通過了一致性檢驗。在此基礎上,我們進行了二級指標的權重計算,可以得出二級指標的權重:全面性為0.102267,準確性為0.325395,時效性為0.174129,使用復雜度為0.030989,鏈接方便性為0.045011,響應速度為0.065953,美觀性為0.017442,布局合理性為0.028499,交互性為0.045167,豐富性為0.091441,獨特性為0.073707。我們可以得到各指標的權重排序:(1)準確性指標,權重為0.325395;(2)時效性指標,權重為0.174129;(3)全面性指標,權重為0.102267;(4)豐富性指標,權重為0.091441;(5)獨特性指標,權重為0.073707;(6)響應速度指標,權重為0.065953;(7)交互性指標,權重為0.045167;(8)鏈接方便性指標,權重為0.045011;(9)使用復雜度指標,權重為0.030989;(10)布局合理性指標,權重為0.028499;(11)美觀性指標,權重為0.017442。

4 問卷調查

對于現在比較流行的幾個搜索引擎:百度、好搜、搜狗、必應、谷歌等,我們進行了問卷調查。我們設計了調查問卷,在網上并且收集了高校學生的反饋信息。搜索引擎評價調查問卷題目有:(1)請評價下列搜索引擎的搜索結果是否全面(內容來源是否廣);(2)請評價下列搜索引擎的搜索結果是否準確(與你想得到的內容是否相符);(3)請評價下列搜索引擎搜索結果的時效性(是否是較新的內容);(4)請評價下列搜索引擎界面的美觀性;(5)請評價下列搜索引擎界面的結構設計(結構、布局是否合理);(6)請評價下列搜索引擎界面的交互性是否良好;(7)請評價下列搜索引擎是否簡單易用(操作方便);(8)請評價下列搜索引擎的鏈接是否方便(鏈接是否容易獲得);(9)請評價下列搜索引擎使用時的響應速度快慢;(10)請評價下列搜索引擎的功能是否豐富;(11)請評價下列搜索引擎的功能是否獨特。

我們共回收調查問卷131份,有效問卷131份。高校學生對搜索引擎百度進行問卷調查評分的平均值對于指標全面性、準確性、時效性、使用復雜度、鏈接方便性、響應速度、美觀性、布局合理性、交互性、豐富性、獨特性為:5.58、5.23、5.5、6.11、5.96、5.94、5.47、5.66、5.66、5.96、5.26。高校學生對搜索引擎谷歌進行問卷調查評分的平均值對于上面的指標為:5.8、5.69、5.55、5.81、5.63、5.18、5.64、5.64、5.5、5.9、5.57。高校學生對搜索引擎必應進行問卷調查評分的平均值對于上面的指標為:4.44、4.69、4.86、5.05、5.06、5.02、5.11、5.03、5.02、5.08、4.87。高校學生對搜索引擎搜狗進行問卷調查評分的平均值對于上面的指標為:4.44、4.49、4.84、5.12、5.06、5.15、4.73、4.82、4.74、5.01、4.64。高校學生對搜索引擎雅虎進行問卷調查評分的平均值對于上面的指標為:4.37、4.42、4.69、4.84、4.89、4.76、4.76、4.85、4.82、4.89、4.73。高校學生對搜索引擎好搜進行問卷調查評分的平均值對于上面的指標為:4.11、4.32、4.5、4.83、4.69、4.86、4.48、4.64、4.66、4.85、4.55。高校學生對搜索引擎有道進行問卷調查評分的平均值對于上面的指標為:4.01、4.18、4.43、4.85、4.72、4.75、4.53、4.6、4.6、4.64、4.6。

我們根據層次分析法得到的指標權重以及高校學生問卷調查的結果,計算了百度、谷歌、必應、搜狗、雅虎、好搜、有道搜索引擎得分并進行了搜索引擎排名。搜索引擎谷歌排名第一,總分5.643732;搜索引擎百度排名第二,總分5.524589;搜索引擎必應排名第三,總分4.82446;搜索引擎搜狗排名第四,總分4.718028;搜索引擎雅虎排名第五,總分4.620574;搜索引擎好搜排名第六,總分4.490624;搜索引擎有道排名第七,總分4.398873。表3 問卷調查的結果

對于被調查的七大搜索引擎,谷歌的綜合得分最高,排名第一。國內最大的搜索引擎百度排名次之,其布局合理性、交互性、使用復雜度、鏈接方便性、響應速度、豐富性指標得到最高的評價。而必應、搜狗、雅虎、好搜、有道分別排名3到7位,且綜合得分與前兩名差距較大。這些搜索引擎的各項指標得分都較低,還有待改善。

第11篇

關鍵詞 網絡侵權 搜索引擎 深度鏈接

中圖分類號:D923.4 文獻標識碼:A

一、基本概念闡析

版權是指民事主體依法對其文學、藝術、自然科學、社會科學、工程技術等領域內的作品所享有的專有權利。 網絡作品泛指在計算機網絡上出現的作品。搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。百度和谷歌等是搜索引擎的代表。

鏈接技術是搜索引擎的關鍵。深度鏈接是指繞過被鏈接網站的首頁直接鏈接到分頁的鏈接方式,是它繞開了鏈接網站的主頁和主頁上的廣告,直接接觸到他人網站深層次的具體內容。因此,用戶常會誤認為自己依然位于設連者的網頁,以為被鏈接內容本來就是該網站的一部分,尤其是在被鏈接的分頁也沒有明顯的網站標識的情況下, 這就有可能會導致使用者對網站所有者的誤判,容易引起侵權糾紛。

二、網絡作品版權侵權糾紛的法律分析

(一)網絡中介服務商的責任風險。

網絡中介服務提供者指為互聯網提供信息傳播中介服務的機構或個人。網絡中介服務者的侵權責任風險主要有兩個來源:一是直接侵權責任,即為其本身的計算機系統或其他設施存儲和傳播的侵權信息承擔侵權責任;二是間接侵權責任,即網絡中介服務者為他人借助其提供系統、設施或者搜索工具的中介服務而實施的侵權行為承擔侵權責任。對于搜索引擎技引起的版權侵權糾紛,顯然更注重第二方面的問題。

(二)網絡作品版權侵權糾紛的歸責原則。

筆者認為,追究網絡環境下的侵權責任應適用過錯責任原則,即行為人有過錯的追究侵權責任;沒有過錯的,行為人履行停止侵害的義務,不承擔行政責任。對于過錯之認定,也宜采用主觀主義,即是否“明知”或“應知”。

深度鏈接服務的特點之一就是服務提供者不對搜索、鏈接的內容進行選擇、編輯或加工,服務提供者沒有能力做到對用戶搜索到的內容進行合法性審查,對其注意義務的設定不宜過高。

(三)網絡作品版權侵權糾紛的免責規則。

1、美國“避風港”規則。

在互聯網發展初期,美國曾適用嚴格責任;但嚴格責任過度保護權利人個人利益,侵害了網民在互聯網中的自由,不利于技術進步,便逐漸確立了過錯責任原則。美國《數字千年版權法(DMCA)》增訂第512條,提供ISP“避風港”的功效,即在符合一定條件下,ISP不必就其客戶的侵害版權行為承擔責任,以免阻礙網絡科技的發展。概言之,網絡服務提供者只要遵循了預先確定的程序和規則,就可以證明自己對侵權行為沒有過錯,就不必對此承擔侵權責任。

2、“通知”與“反通知”規則。

通知是指版權人向網絡服務提供商發出的其系統或服務器中包含版權侵權材料的書面文件。反通知是指網絡用戶在得知網絡服務提供商的侵權通知,以及有關內容被刪除或阻止訪問后,向網絡服務提供商發出的不侵權書面文件。

《互聯網版權行政保護辦法》第5條規定:“版權人發現互聯網傳播的內容侵犯其版權,向互聯網信息服務提供者或者其委托的其他機構發出通知后,互聯網信息服務提供者應當立即采取措施移除相關內容,并保留版權人的通知6個月。”第7條規定:“互聯網信息服務提供者根據版權人的通知移除相關內容的,互聯網內容提供者可以向互聯網信息服務提供者和版權人一并發出說明被移除內容不侵犯版權的反通知。反通知發出后,互聯網信息服務提供者即可恢復被移除的內容,且對該恢復行為不承擔行政法律責任。”

三、依法強化我國網絡作品版權保護的建議

(一)強化版權意識,加強網絡法治教育。

首先要將網絡法治教育納入國家的全面普法計劃中,讓群眾了解國家的網絡立法,自覺遵守法律;其次是要將網絡法治教育與計算機專業教育和培訓接軌,讓在校學生和從事IT行業的人員在學習計算機網絡知識、掌握網絡技術的同時,就能學習網絡的法律常識,從一開始就牢固的樹立網絡法治觀念。

(二)完善“通知與反通知”制度。

《信息網絡傳播權保護條例》中并未明確通知或者反通知后采取行動的具體時間期限,建議將《條例》第15條修改為:“網絡服務提供商接到權利人的通知書后,應當在3天內刪除涉嫌侵權的作品、表演、錄音錄像制品,或者斷開與涉嫌侵權的作品、表演、錄音錄像制品的鏈接,并在刪除上述涉嫌侵權內容3天內將通知書轉送提供作品、表演、錄音錄像制品的服務對象;服務對象網絡地址不明、無法轉送的,應當在刪除上述涉嫌侵權內容3天內將通知書的內容于信息網絡上公告。”

(作者單位:武漢理工大學文法學院)

注釋:

魏紀林.知識產權法學.湖北人民出版社,2008年10月第一版.

搜索引擎.百度百科http:///view/1154.htm.

第12篇

1建立搜索引擎質量評價體系的意義

面對浩如煙海的網絡信息,搜索引擎作為最流行的網絡檢索工具越來越受到大眾重視。同時,用戶也常常到無所適從的問題:當成千上萬的搜索結果到來之時,卻很難從中找到所需要的結果。根據searchengine watch對5個著名英文搜索引擎的統計,各大搜索引擎的搜索結果優良率均在40%以下。造成這種局面的原因很多,有技術難題:如人機交流實現方式問題,技術難題的解決需要計算機科學的不斷進步來解決;也有搜索引擎的設計運行問題,這一問題的解決可以通過建立既反映用戶要求,又符合現有技術能力的搜索引擎評價質量體系,指導用戶使用和搜索引擎網站改進產品

1.1有利于公眾更好的利用搜索引擎進行網絡信息檢索

盡管搜索引擎在網絡檢索中起著不可替代的作用,但受知識水平、信息渠道的限制,許多用戶常常不能正確的選擇和使用搜索引擎。面對多元化的網絡信息,不同的搜索引擎都有各自的強項。搜索引擎評價體系可以建立用戶與搜索引擎網站交流的橋梁,幫助和指導用戶甄別和使用合適的搜索引擎。如搜索引擎評價體系通過建立專業搜索引擎推薦序列,指導用戶利用某一專業搜索引擎檢索該專業資料,會收到較好的效果。

1.2指導普通網站進行搜索引擎優化

據統計,大多數網站訪問量的70%是通過搜索引擎獲得的,所以網站在搜索引擎上“表現”如何,直接影響到了網站的推廣程度。建立搜索引擎評價體系可以用來指導商業網站進行搜索引擎優化。例如搜索引擎質量評價體系可以促進搜索引擎對搜索關鍵詞的標準化設置,指導普通網站根據企業建站的思路設置網站核心關鍵詞,提高網站的搜索引擎排名。

1.3指導搜索引擎網站改進產品

搜索引擎評價體系可以通過反映用戶的要求和專家的觀點建立對搜索引擎的科學評價,指導搜索引擎的改進。目前搜索引擎網站的升級速度落后于通用軟件,已經影響了用戶對網絡資源的使用。搜索引擎評價體系可以促進用戶與搜索引擎供應商之間進行交流。普通用戶對搜索引擎的認識往往是感性的,所提出的要求缺乏針對性和可操作性,往往得不到搜索引擎網站的足夠重視。搜索引擎評價體系將用戶的普遍要求翻譯成專業的、量化的改進建議,將其反映到搜索引擎質量評價體系中,對搜索引擎的供應商施加較大的影響力,促使其在較短時間內進行產品升級。搜索引擎評價體系可以通過定期對搜索引擎網站進行受歡迎程度、技術、美學或總體評價和排名,以便引導用戶的消費指向,促進搜索引擎的改進。

2對搜索引擎進行總體評價

搜索引擎是一種結合了多種學科的網絡檢索產對不同類型的搜索引擎網站按照相應標準進行評品,設立可操作性的評價體系有相當難度。筆者認價。為可以通過設置總體評價體系和單項評價指標來分別進行定性和定量評價。搜索引擎總體評價主要是針對那些難以從技術角度進行量化的方面,主要可以通過公眾調查和搜索引擎產品之間的功能比較進行相應質量評價。

2.1用戶舒適程度

搜索引擎要爭取更多的客戶,既要將網站外觀做得漂亮,使用戶在訪問搜索引擎的過程中獲得美的享受,又給用戶操作帶來方便。搜索引擎的用戶舒適程度包括以下幾個方面:搜索引擎網站界面的外觀設計是否符合美學原則;用戶操作是否方便,如幫助功能是否完備、是否有相應的功能說明。用戶的舒適程度可以根據受用戶歡迎程度來評估,可以通過統計點擊率、網上投票或設計問卷調查等途徑獲得。由專家對統計結果進行調查分析,將評價結果通過各種媒體反饋給網絡用戶和搜索引擎網站,指導檢索實踐。

2.2專業程度

網絡文件的格式、內容、網絡傳輸協議相當復雜,不同的搜索引擎網站也應進行專業化分工以便提供優質、高效的服務。因此,搜索引擎專業程度是重要的評價方面。搜索引擎質量評價體系可以根據搜索引擎網站的不同定位,針對某一指標對其專業度進行評價。針對搜索對象的不同內容,搜索引擎網站應設立有針對性的數據庫和索引。門戶搜索引擎網站主要針對大眾一般性需求,如新聞、娛樂資料。對檢索內容比較專業的信息則使用專業搜索引擎,如搜索旅游方面內容,中國旅游網搜索引擎是國內比較好的旅游中文專業搜索引擎。搜索引擎評價體系可以針對PDF,WORD,RMVB,AVI等不同格式的文件分別設計搜索引擎檢索功能,可以大大提高檢索效果。如PDF格式被廣泛應用于學術論文的電子化,專門針對此類格式的搜索引擎正在獲得學術界青睞。此外,針對搜索對象的不同傳輸協議的搜索引擎也受到用戶歡迎。如專門檢索ftp文件的天網ftp文件檢索系統擁有一批以學生為主的、忠誠度特別高的用戶群。

2.3智能化程度

搜索引擎評價體系可以促進搜索引擎的智能化進程。搜索引擎結合人工智能技術可以使網絡信息檢索從基于關鍵詞提高到基于知識或概念,通過采用數據挖掘技術、智能技術、基于人工智能的知識發現術,使網絡檢索服務具備智能化、人性化特征。評價搜索引擎的智能化程度,可以設立以下標準:(1)在保證檢索精度的前提下,搜索引擎要對網頁按重要性排序。這是因為用戶往往沒有足夠的時間查閱所有的搜索果,優先顯示重要的檢索結果就十分必要。以Google的排序方式為例,當從網頁B被鏈接到網頁A時,Google就認為“網頁A投了網頁B一票”。網頁的得票數越多,Google就認為其重要性越大。Google還分析為其投票的網頁,不同網頁所投出的票也具有不同的重要性。被“重要”網頁投票的網頁“重要性”會被適當放大;(2)跨語言檢索。互聯網打破了國界,跨語言檢索越來越顯得重要,成為搜索引擎評價體系中不可忽視的一環。

跨語言檢索可以通過在主頁上添加在線翻譯功能,也可以將在線翻譯功能放在后臺運行;(3)網頁快照技術。通過儲存應急網頁,以便用戶在訪問已經過時或不存在的網頁。網頁快照技術是Google最先使用,現在已經成為百度等各大搜索引擎網站所必備的功能。搜索引擎技術處在不斷進步中,對其智能化程度的質量評價應該是一個開放的系統,隨著其功能進步而增加具體評價項目,以某一著名搜索引擎為基準,對其他搜索引擎按相對比例打分。

3搜索引擎可量化的單項評價指標

可量化的指標是質量評價體系科學性的重要體現。因此,搜索引擎評價體系要大量采用可反映搜索引擎檢索質量的量化評價指標,用于指導搜索引擎的建設和用戶的使用。

3.1傳統的搜索引擎質量評價指標

基于紙質文獻的傳統評價指標經過了數十年的發展,已經相當的成熟,其中的主要指標也可以用來評價搜索引擎的檢索質量,但部分指標需要針對網絡檢索的特點作一定程度的修改和完善才能較好的反映網絡環境下信息檢索的特點。

3、1.1搜索引擎查全率搜索引擎查全率是指從

搜索引擎系統檢出的與某檢索課題相關的信息數量與搜索引擎系統中實際與該課題相關的信息總量之比率。但是在網絡環境下,信息處于動態的變化過程中,搜索引擎查全率指標比較難測算。因此,可以通過搜索引擎相對查全率作為搜索引擎查全率的補充。搜索引擎相對查全率可操作性較強,但受人為不確定因素的影響較大。

3.1.2搜索引擎查準率

搜索引擎查準率是又一重要的質量評價指標,是指從搜索引擎檢索系統檢出的有關某課題的信息條數與搜索引擎輸出的信息條數之比率。搜索引擎的查準率和查全率存在不兼容性,要提高搜索引擎查全率往往要放寬信息檢索范圍,而這會造成搜索引擎查準率的下降;同樣,要提高查準率就要縮小搜索范圍,但容易漏掉所需要的信息。由于網絡環境信息極大豐富,用戶在使用搜索引擎進行網絡檢索時,往往更強調查準率的提高。對于搜索引擎檢索來說,真實查準率較難計算,這是由于許多檢索課題的檢索結果數量太大,相關性判斷工作成本巨大,可操作性不強。因此定義一個針對網絡環境下信息檢索的搜索引擎相對查準率就顯得十分必要。

3.1.3搜索引擎漏檢率

搜索引擎檢索漏檢率是指當使用搜索引擎進行檢索時,檢索系統把被檢索信息分成兩部分,一部分是與檢索要求相符合的信息,并被搜索引擎檢索出來,用戶依據自身要求將其分成相關信息和不相關信息;另一部分是未能與檢索要求相符合的信息,根據判斷將其分成相關信息和不相關信息。搜索引擎漏檢率與查全率成反比,在實踐中采用抽樣方法進行統計。

3.1.4搜索引擎誤檢率

搜索引擎誤檢率是指當進行檢索時,搜索引擎把所有信息分為兩部分,一部分是與檢索要求相匹配的信息,并被檢索出來,用戶根據自己的判斷將其分成相關的信息(命中)a和不相關的信息(垃圾)b;另一部分是未能與檢索要求相符合的信息,根據判斷也可將其分為相關信息(遺漏)c和不相關信息(正確的拒絕)d。在搜索引擎檢索實踐中,將降低搜索引擎誤檢率主要是剔除垃圾信息,提高搜索引擎查準率。

3.2基于互聯網的搜索引擎質量評價指標

3.2.1響應時間

搜索引擎響應時間有四個部分組成:用戶發送檢索請求到達搜索引擎服務器的時間;搜索引擎服務器處理用戶請求的時間;網站做出的答復到達用戶的時間;搜索引擎用戶處理檢索結果的時間。其中,用戶發送請求和服務器返回答復的時間取決于網絡傳輸速度,用戶處理檢索的時間取決于用戶計算機的配置,搜索引擎網站服務器處理用戶檢索請求的時間取決于服務器的硬件配置和負載情況、軟件的組成原理、編碼方法。提高網站服務器的整體性能,開發高效率的檢索軟件,使用緩存技術是搜索引擎縮短反應時間的重要方法。由于檢索技術的進步,檢索響應時間已經大大縮短,在這方面提高的空間已經很小。盡管搜索同樣數量的網頁,google比百度快60%一80%,這已很難成為絕大多數用戶做出選擇的理由。

3.2.2數據庫的內容規模

數據庫是搜索引擎工作的基礎,是搜索引擎評價的重要對象,其內容包括數據庫的覆蓋范圍、索引組成和更新周期,數據庫規模、類型、更新頻率、分類體系和信息抓取方式等。英文搜索引擎在規模方面優勢明顯,如google的數據庫規模約是sohu的600倍,但中文搜索引擎在數據庫更新周期,分類方式、檢索語言等方面的差距并不明顯。

主站蜘蛛池模板: 鲁山县| 潮安县| 台中市| 黑河市| 大田县| 平泉县| 同德县| 曲阜市| 黄大仙区| 新和县| 同江市| 保山市| 兰考县| 高尔夫| 寻乌县| 桂东县| 深水埗区| 阿荣旗| 安西县| 台东县| 道真| 济阳县| 保康县| 唐山市| 元朗区| 准格尔旗| 佳木斯市| 信宜市| 河津市| 潮州市| 吴堡县| 莆田市| 阿拉善盟| 昌吉市| 闽侯县| 乌拉特中旗| 夏邑县| 静安区| 遂川县| 伊通| 西青区|