淺析聚類搜索引擎研究進(jìn)展 |
發(fā)布時間: 2012/8/27 9:41:37 |
摘要:聚類搜索是目前互聯(lián)網(wǎng)信息檢索和數(shù)據(jù)挖掘領(lǐng)域的研究熱點。給出了聚類搜索引擎的基本工作過程并據(jù)此概述其國內(nèi)外技術(shù)發(fā)展現(xiàn)狀,從聚類對象、聚類功能、聚類算法三個方面對現(xiàn)有聚類搜索引擎進(jìn)行分析,從工作流程、聚類方法、應(yīng)用現(xiàn)狀等方面對兩個典型聚類搜索系統(tǒng)進(jìn)行了分析和評價,最后給出了聚類搜索引擎的發(fā)展趨勢。
隨著互聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)應(yīng)用系統(tǒng)的快速發(fā)展,各個領(lǐng)域的互聯(lián)網(wǎng)應(yīng)用系統(tǒng)都已經(jīng)積累了海量的Web數(shù)據(jù),包括產(chǎn)品數(shù)據(jù)、用戶數(shù)據(jù)、評價數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、狀態(tài)數(shù)據(jù)等等。這些數(shù)據(jù)不僅內(nèi)容極其豐富,而且很大程度上都開放給互聯(lián)網(wǎng)用戶,可以免費的訪問、下載和處理。這就為進(jìn)一步集成和開發(fā)這些Web數(shù)據(jù)的潛在價值,建立增值應(yīng)用提供了重要基礎(chǔ)。聚類搜索是近年來發(fā)展最為迅速的互聯(lián)網(wǎng)數(shù)據(jù)集成和增值技術(shù)。聚類搜索是在垂直搜索基礎(chǔ)上發(fā)展起來的新型搜索技術(shù)。垂直搜索是主要針對行業(yè)的專業(yè)搜索,側(cè)重于某一行業(yè)領(lǐng)域,其目的是使用戶能夠更加方便地找出所需的專業(yè)信息。而聚類搜索是為了進(jìn)一步提高搜索的精度使其符合用戶的搜索習(xí)慣和興趣,在搜索引擎的搜索結(jié)果中進(jìn)行聚類,把搜索出來的信息進(jìn)行分類處理,將使信息資源更加清晰明了。 目前國內(nèi)對聚類搜索引擎的綜述主要見于文獻(xiàn)[1]和文獻(xiàn)[2],雖然這兩篇文章對聚類搜索引擎進(jìn)行了很好的綜述和分析,對聚類搜索引擎的形成和發(fā)展過程進(jìn)行了說明,并對主流聚類搜索系統(tǒng)進(jìn)行了測評和分析,但是對于聚類系統(tǒng)的功能分析還不夠詳盡,對于聚類搜索引擎未來的發(fā)展沒有給出明確的定位。 本文首先給出了典型聚類搜索引擎系統(tǒng)的基本工作流程,對聚類搜索引擎的發(fā)展歷史和現(xiàn)狀進(jìn)行了概括式綜述,然后從聚類對象、聚類功能和聚類算法三個角度對聚類搜索引擎進(jìn)行研究,并全面分析了若干著名聚類搜索引擎。 本文結(jié)構(gòu):第1節(jié)介紹聚類搜索引擎的發(fā)展現(xiàn)狀;第2節(jié)對聚類搜索引擎的功能進(jìn)行分析;第3節(jié)對典型聚類搜索引擎進(jìn)行綜述;第4節(jié)描述聚類搜索引擎的發(fā)展趨勢;第5節(jié)總結(jié)全文。 1 聚類搜索引擎的研究現(xiàn)狀 1.1 聚類搜索引擎概念和工作過程 所謂聚類搜索引擎,就是運用聚類技術(shù)對搜索結(jié)果進(jìn)行自動聚類分析的搜索工具。其特點是去重性強(qiáng)、分類性強(qiáng)、匯集性強(qiáng),即可以及時去除重復(fù)信息,對搜索的結(jié)果進(jìn)行分門別類,并可以匯集各大知名搜索引擎的信息資源。目前,典型的聚類搜索引擎的基本工作步驟為:①依據(jù)用戶查詢的關(guān)鍵字,從一個或多個搜索引擎獲取搜索結(jié)果;②對搜索結(jié)果進(jìn)行預(yù)處理,過濾掉重復(fù)、無效信息;③將文檔中關(guān)鍵短語作為特征提取出來生成聚類標(biāo)簽;④將文檔分配到生成的聚類標(biāo)簽下;⑤將聚類后的搜索結(jié)果進(jìn)行排序并顯示給用戶。 1.2 國內(nèi)外聚類搜索引擎的發(fā)展現(xiàn)狀 搜索引擎的發(fā)展階段總共經(jīng)歷了三個階段[3],其中第1代搜索引擎主要是基于人工分類的通用搜索;第2代主要依靠機(jī)器進(jìn)行自動爬取和分析,利用鏈接分析技術(shù)實現(xiàn)更為準(zhǔn)確的搜索,如Google、百度等;第3代搜索引擎更加體現(xiàn)了智能化、互動式和人性化。功能包括自動聚類、去重、用戶習(xí)慣記憶等方面,是未來搜索引擎主要的發(fā)展方向。 近幾年,國際上對聚類搜索引擎系統(tǒng)的研究日漸火熱,已經(jīng)出現(xiàn)了一些知名的聚類搜索系統(tǒng)。其中,Scatter/Gather系統(tǒng)[4]是第一個在搜索引擎上使用聚類方法的系統(tǒng);Vivisimo[5]是一種商業(yè)化聚類搜索引擎,符合用戶使用習(xí)慣,搜索效率高;贘ava的開源Carrot2聚類搜索引擎[5]可自動的把搜索結(jié)果歸類到相應(yīng)的語義類別中,它的一個亮點是速度和易用性的提高。中文搜索領(lǐng)域,早期比較有實力的聚類搜索引擎有Bbmao,Bbmao搜索系統(tǒng)推出了去重功能,為網(wǎng)民解決了大量閱讀重復(fù)信息的煩惱。Bbmao的聚類功能,能夠提高查找信息的效率,它還具有云集各大搜索引擎結(jié)果的功能,同時完成海量信息的分門別類。近期出現(xiàn)的baigoogleledu綜合了谷歌、百度兩大搜索引擎。其基本出發(fā)點是兩大搜索引擎的搜索結(jié)果的很大的差異性。這類系統(tǒng)對搜索結(jié)果進(jìn)行聚類分析,在一定程度上緩解了廣告泛濫的局面,使用戶更便捷地找到需要的信息。 有關(guān)國內(nèi)外聚類搜索引擎的相關(guān)技術(shù),主要有聚類分析、聚類算法、中文信息處理等技術(shù)。Anton等人[7]致力于把分類體系引入評估體系來評價聚類效果質(zhì)量的研究。Sudipto Guha等研究人員[8]應(yīng)用概念關(guān)聯(lián)代替?zhèn)鹘y(tǒng)的計算歐式距離,來衡量數(shù)據(jù)之間的相似度,從而確定聚類,達(dá)到了很好的效果。 國內(nèi)一些學(xué)術(shù)組織和團(tuán)體很早就開始對自動文本分類、聚類領(lǐng)域等相關(guān)內(nèi)容進(jìn)行研究,從“天網(wǎng)”和“網(wǎng)絡(luò)指南針”開始北京大學(xué)和清華大學(xué)就開始致力于網(wǎng)頁的聚類技術(shù)研究。此外,北京科技大學(xué)的麻雪云提出了一種基于關(guān)鍵名詞短語聚類的中文搜索結(jié)果聚類方法[9],利用百度、谷歌、雅虎三大搜索引擎來獲取互聯(lián)網(wǎng)信息,對搜索結(jié)果進(jìn)行聚類分析。國防科技大學(xué)的肖坤對STC算法和Lingo算法進(jìn)行了比較,并對STC算法進(jìn)行了改進(jìn),設(shè)計實現(xiàn)了一個面向校園網(wǎng)聚類搜索引擎系統(tǒng)[10]。 2 聚類搜索引擎的功能分析 2.1 聚類對象分析 現(xiàn)有聚類搜索引擎的聚類對象主要包括三類數(shù)據(jù):商業(yè)數(shù)據(jù)、評價數(shù)據(jù)、社交數(shù)據(jù)。 商品數(shù)據(jù)主要包括對服裝、電器、化妝品等數(shù)據(jù)信息進(jìn)行分類整理,例如用戶在淘寶網(wǎng)輸入“牙膏”關(guān)鍵字,在網(wǎng)頁上立馬顯示出“功能”、“品牌”、“產(chǎn)地”等分類信息,并按照銷量、價格、信用進(jìn)行了排序,對商品的聚類分析清晰明確。評價數(shù)據(jù)主要包括論壇對相關(guān)主題的討論信息,博客的交流信息,商業(yè)網(wǎng)站對商品的滿意度評價信息等。大連海事大學(xué)的魯明羽、姚曉娜等人提出一種基于模糊聚類的網(wǎng)絡(luò)論壇熱點話題挖掘算法,通過分析帖子和用戶間的影響力傳遞,來判斷是否為焦點人物和熱門話題[11]。社交數(shù)據(jù)主要包括社交網(wǎng)絡(luò)注冊用戶個人資料信息、用戶關(guān)注度信息、用戶之間交互信息等社交數(shù)據(jù)資源。社交數(shù)據(jù)隱含了大量可以用于聚類的關(guān)聯(lián)信息,對實現(xiàn)智能和個性化聚類搜索具有重要意義。此外,聚類對象按數(shù)據(jù)類型還可以劃分為文本數(shù)據(jù)、多媒體數(shù)據(jù)等。 2.2 聚類功能分析 聚類搜索引擎的聚類功能主要有智能聚類、去重、多媒體、覆蓋性等能力。 智能聚類:聚類搜索引擎大多具有這項功能。目前做得最好的如Vivisimo系統(tǒng),它最大的特色是會對搜索結(jié)果自動分類,采用專門開發(fā)的啟發(fā)式算法來集合或聚類原文文獻(xiàn)。 去重:去重可以取掉大部分的廣告網(wǎng)頁并節(jié)省掉用戶的選擇時間,是十分實用的一項聚類功能。國內(nèi)的比比貓的去重功能非常出色,在用戶獲得多個搜索引擎的搜索結(jié)果后,比比貓可以自動為用戶獲取最有搜索結(jié)果并取掉重復(fù)的信息。 多媒體:除了文本聚類,聚類搜索引擎還關(guān)注視頻、音頻等多媒體信息進(jìn)行聚類的功能,商業(yè)化、集成化、多媒體化的氣息更加濃厚。搜狗音樂推出了新版的聚類頁面,可視化強(qiáng),用戶輸入音樂名稱,將獲得全新的聚類結(jié)果,該結(jié)果首先按照音頻特征聚類,再按照文本信息聚類,保證搜索界面顯示的音樂相關(guān)度最高。 覆蓋性:聚類搜索引擎一般基于一些大型通用搜索引擎的數(shù)據(jù)資源,這樣能夠保證搜索的結(jié)果覆蓋全面,可聚類的對象內(nèi)容豐富。 2.3 聚類算法分析 聚類搜索引擎的聚類算法主要有層次聚類、樹狀聚類、網(wǎng)狀聚類、圓形聚類。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系統(tǒng)使用層次聚類的方法,按照來源及站點進(jìn)行聚類。PinkySeach[12]和Mnemomap(mnemomap.org)系統(tǒng)是使用樹狀結(jié)構(gòu)的聚類算法,將聚類的結(jié)果以列表的形式展示出來。UJIKO系統(tǒng)(ujiko.com)是使用圓形結(jié)構(gòu)的聚類算法,它將搜索結(jié)果聚類后按照主題自動分類成圖形界面顯示出來。Quintura系統(tǒng)(quintura.com)是使用網(wǎng)狀結(jié)構(gòu)的聚類算法,是通過標(biāo)簽云的形式將在語義上相關(guān)的詞聚類,構(gòu)成網(wǎng)狀鏈接。 3 典型聚類搜索引擎 3.1 Vivisimo系統(tǒng) Vivisimo系統(tǒng)[5]的基本步驟包括:首先系統(tǒng)自動地、并行地向多個大型搜索引擎提交查詢請求,然后匯集每個查詢返回的結(jié)果,對查詢的結(jié)果進(jìn)行聚類分析,經(jīng)過去重、合并、分類等步驟后,通過輸出處理顯示給用戶。Vivisimo的聚類對象是從多個搜索引擎返回的搜索結(jié)果,主要是文本信息。Vivisimo的聚類功能主要是文本的聚類,通過對文本內(nèi)容進(jìn)行搜索和歸類分析,vivisimo的軟件可以使用戶從沒有預(yù)先標(biāo)記或分類的資源中整合、分類內(nèi)容。Vivisimo采用啟發(fā)式算法,借鑒了人工智能的理念,對檢索的結(jié)果進(jìn)行聚類,可以把文本信息自動地分成等級排序的類目,它的每一步都是自動化的,不需要人工干預(yù)。 目前Vivisimo的商業(yè)應(yīng)用十分廣泛,它對信息的分類很體貼,具有人性化。其細(xì)致的檢索結(jié)果顯示方式使它成為了業(yè)界的精品,連續(xù)多年成為“最佳元搜索引擎”。但是,Vivisimo于沒有自身的數(shù)據(jù)資源庫,依附于其他大型搜索引擎,獨立性較差,檢索功能有待加強(qiáng)。 3.2 Carrot2系統(tǒng) Carrot2是基于Java開發(fā)的開源聚類搜索系統(tǒng)[6],主要用于對搜索結(jié)果進(jìn)行聚類。與Vivisimo相似,首先也是用戶輸入關(guān)鍵字在Bing、baidu、google等知名搜索引擎進(jìn)行搜索,然后對返回的搜索結(jié)果進(jìn)行聚類,并通過樹形的分類圖進(jìn)行顯示出來。Carrot2的聚類對象主要是各大搜索引擎返回的搜索結(jié)果,其通過文檔聚類平臺workbench,對搜索的數(shù)據(jù)進(jìn)行聚類分析,并通過文檔聚類服務(wù)器DCS,將聚類結(jié)果作為REST服務(wù)呈現(xiàn)。最后,Carrot2以WebApp方式將聚類結(jié)果作為網(wǎng)絡(luò)應(yīng)用呈現(xiàn)給終端用戶。Carrot2采用的聚類算法主要是Lingo(基于奇異值分解的索引結(jié)果聚類)算法和STC(Suffix Tree Clustering)后綴樹聚類算法。 目前Carrot2支持的聚類算法較多,代碼開源可以進(jìn)行版本的更新和改進(jìn)。該系統(tǒng)應(yīng)用廣泛、可移植性較好。但是Carrot2中文分詞效果不好,可視化效果不佳。 4 聚類搜索引擎發(fā)展趨勢 文獻(xiàn)[1]通過對大量搜索引擎的評測,發(fā)現(xiàn)獨立性差、專用算法欠缺、搜索速度慢等一系列問題,但該文主要對搜索結(jié)果的聚類方法進(jìn)行了評測,對聚類搜索引擎的趨勢的分析也主要側(cè)重于聚類方法。本文認(rèn)為聚類搜索引擎未來將向數(shù)據(jù)海量化,鏈接社交化,聚類綜合化三個方向發(fā)展。 4.1 數(shù)據(jù)海量化 現(xiàn)階段的聚類搜索由于數(shù)據(jù)集較為單一,聚類算法過于老舊,造成呈現(xiàn)給用戶的檢索結(jié)果數(shù)量少,內(nèi)容貧乏,這樣必然影響聚類搜索的發(fā)展壯大。所以未來聚類搜索必然要向數(shù)據(jù)海量化發(fā)展。近期,美國互聯(lián)網(wǎng)公司“耶寶”日前推出一種更具人性化的搜索引擎,有別于當(dāng)今主流搜索引擎網(wǎng)站提供的單維搜索,并非一般的羅列搜索結(jié)果,而是通過對搜索的詞條和海量的網(wǎng)頁的內(nèi)容進(jìn)行分析,自動對搜索結(jié)果進(jìn)行聚類和分類,為用戶提供豐富而直觀的結(jié)果。 4.2 鏈接社交化 在搜索引擎中引入社交元素,由于目前Web社交網(wǎng)絡(luò)形成了一個巨大的Deep Web(針對網(wǎng)絡(luò)爬蟲而言),而這個數(shù)據(jù)量對搜索引擎來說是非常大而且有用的,搜索引擎作為用戶獲取信息的主要渠道,勢必需要這些用戶活躍度和新鮮度很高的數(shù)據(jù)資源。由于社交數(shù)據(jù)中蘊含著大量數(shù)據(jù)之間的潛在鏈接,因此基于社交數(shù)據(jù)進(jìn)行聚類搜索可望更好滿足用戶的個性化需求。 4.3 聚類綜合化 聚類的多元化、跨領(lǐng)域、綜合化將是新型聚類搜索的重要特點。局限于單個應(yīng)用領(lǐng)域的聚類搜索已經(jīng)難以適應(yīng)需要,跨領(lǐng)域聚類將是未來聚類搜索面臨的主要挑戰(zhàn)。 5 結(jié)束語 隨著Web2.0的蓬勃發(fā)展,網(wǎng)頁數(shù)量成級數(shù)增長,為了使互聯(lián)網(wǎng)用戶更加方便、快捷的得到需要的信息,聚類搜索代表著一種重要搜索引擎的發(fā)展方向。隨著聚類搜索引擎的算法和數(shù)據(jù)源的逐步完善,聚類搜索引擎技術(shù)將得到迅猛發(fā)展和更為廣泛的應(yīng)用。(來源:電腦知識與技術(shù) 編選:中國SEO) 參考文獻(xiàn): [1]蘇建華,張燦,聚類搜索引擎研究[J].新世紀(jì)圖書館,2009(6):72-75. [2]蒼宏宇,譚宗穎,聚類搜索引擎發(fā)展現(xiàn)狀研究[J],圖書情報工作,2009,53(2):125-127. [3]沈賀丹,潘亞楠,關(guān)于搜索引擎的研究綜述[J].計算機(jī)技術(shù)與發(fā)展,2006.16(4):147-152. [4] Banos R,Gil C,Reca J,et,al.Implementation of scatters search for multi-objective optimization:A comparative study.Computational Optimization and Applications,2009,42(3):421-441. [5] Koshman Sherry,Spink Amanda,Jansen Bernard.Web Seaching on the Vivisimo Search Engine[J].Journal of the American Society for Information Science and Technology,2006,57(14):1875-1887. [6] Carrot2 Framework.Carrot2:Design of a Flexible and Efficient Web Information Retrieval Framework[C].Third International Atlantic Web Intelligence Conference(AWIC2005),Lodz,Poland,2005:439-444. [7] Anton V Leouski,W Bruce Crift.An Evalution of Techniques for Clustering Seach Results[J].Computer Science Depart-ment,1996:1-19. [8] Stdipto Guha,Rajeev Rastogi,Kyuseok Shim.ROCK:A Robust Clustering Algorithm for Categorical Attributes[J/OL].[2008-08-12]. [9]麻雪云,基于聚類的元搜索引擎設(shè)計和實現(xiàn)[D].北京:北京信息科技大學(xué),2008. [10]肖坤,面向用戶興趣的校園網(wǎng)聚類搜索引擎的研究與實現(xiàn)[D].長沙:國防科技大學(xué),2010. [11]魯明羽,姚曉娜,魏善嶺,基于模糊聚類的網(wǎng)絡(luò)論壇熱點話題挖掘[J].大連海事大學(xué)學(xué)報,2008,34(04):52-58. [12]余晉等.PinkySearch:基于聚類的元搜索引擎[C].NDBC 2009. 本文出自:億恩科技【1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |