淺談搜索引擎的體系結(jié)構(gòu) |
發(fā)布時間: 2012/9/17 14:41:19 |
在網(wǎng)站優(yōu)化公司呆了這么久,也總結(jié)了一些知識,和大家分享一下:搜索引擎的結(jié)構(gòu)清晰,分工明確。按照各自的功能劃分,分為以下4大系統(tǒng):
(1)下載系統(tǒng);
(2)分析系統(tǒng);
(3)索引系統(tǒng);
(4)查詢系統(tǒng);
其中下載系統(tǒng)負責從萬維網(wǎng)上下載各種類型的網(wǎng)頁,并且保持對萬維網(wǎng)變化的同步。
分析系統(tǒng)負責抽取下載系統(tǒng)得到的網(wǎng)頁數(shù)據(jù),并進行PageRank和分詞計算。
索引系統(tǒng)負責將分析系統(tǒng)處理后網(wǎng)頁對象索引入庫。
查詢系統(tǒng)負責分析用戶提交的查詢請求,然后從索引庫中檢索出相關(guān)網(wǎng)頁并將網(wǎng)頁排序后,以查詢結(jié)果的形式返回給用戶。
從細節(jié)上看,網(wǎng)頁從開始到最后都是網(wǎng)頁。而在搜索引擎的內(nèi)部會有兩種不同的形式,一種以網(wǎng)頁庫的方式存儲;一種成為網(wǎng)頁對象被存儲在索引庫中。搜索引擎的主要數(shù)據(jù)來自網(wǎng)頁,網(wǎng)頁處理能力是搜索引擎面對的主要挑戰(zhàn),下載系統(tǒng)和索引系統(tǒng)分別會進行一些關(guān)于數(shù)據(jù)存的相關(guān)知識的介紹。 本文出自:億恩科技【1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |