Google基于HillTop算法的更新【相關(guān)性網(wǎng)站判斷】 |
發(fā)布時(shí)間: 2012/9/15 14:45:47 |
HillTop ,是一項(xiàng)搜索引擎結(jié)果排序的專(zhuān)利,是Google的一個(gè)工程師Bharat在2001年獲得的專(zhuān)利。Google的排序規(guī)則經(jīng)常在變化,但變化最大的一次也就是基于HillTop算法進(jìn)行了優(yōu)化。
其實(shí)HillTop算法的指導(dǎo)思想和PageRank的是一致的,都是通過(guò)網(wǎng)頁(yè)被鏈接的數(shù)量和質(zhì)量來(lái)確定搜索結(jié)果的排序權(quán)重。但HillTop認(rèn)為只計(jì)算來(lái)自具有相同主題的相關(guān)文檔鏈接對(duì)于搜索者的價(jià)值會(huì)更大:即主題相關(guān)網(wǎng)頁(yè)之間的鏈接對(duì)于權(quán)重計(jì)算的貢獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高。如果網(wǎng)站是介紹“SEO培訓(xùn)”的,有10個(gè)鏈接都是從“SEO培訓(xùn)”相關(guān)的網(wǎng)站鏈接過(guò)來(lái),那這10個(gè)鏈接比另外10個(gè)從“網(wǎng)站優(yōu)化”相關(guān)網(wǎng)站鏈接過(guò)來(lái)的貢獻(xiàn)要大。Bharat稱(chēng)這種對(duì)主題有影響的文檔為“專(zhuān)家”文檔,從這些專(zhuān)家文檔頁(yè)面到目標(biāo)文檔的鏈接決定了被鏈接網(wǎng)頁(yè)“權(quán)重得分”的主要部分。
Google應(yīng)用新算法背后的原因
==========================
在1998年Google剛剛開(kāi)始的時(shí)候,PR在決定適當(dāng)程度與重要性方面起到了一個(gè)非常完美的作用。盡管如此,PR算法在設(shè)計(jì)上還是存在了一些脆弱性與限制性。Google在很早以前也就知道了。
HillTop算法實(shí)際上是拒絕了部分通過(guò)隨意交換鏈接的方法來(lái)擾亂Google的排名規(guī)則而得到較好排名的做法,而在HillTop的論文中也提到很多關(guān)于識(shí)別“網(wǎng)站鏈接交換聯(lián)盟”的設(shè)計(jì):如根據(jù)IPv4地址的頭3段,根據(jù)域名的別名推測(cè):example.com = example.com.cn;
PR值對(duì)于搜索關(guān)鍵詞的匹配度作用不大:因?yàn)樵诤芏喟鄳?yīng)關(guān)鍵詞的非相關(guān)主題的網(wǎng)站具有很高的PR值。這就是Google在HillTop算法中盡量避免的東西:應(yīng)該盡其所能去列出與搜索關(guān)鍵詞相關(guān)的結(jié)果。
總得看來(lái),從過(guò)去到今天,很多搜索引擎停止了那種只使用一種有價(jià)值的算法去決定排名的做法。如:meta keyword標(biāo)簽等。這只是一個(gè)開(kāi)始,Google在第一步已經(jīng)完全忽略html header中的meta標(biāo)簽了。與不可見(jiàn)的meta標(biāo)簽相比,一個(gè)網(wǎng)站的可視部分使用干擾技術(shù)較在meta使用的要少,因?yàn)榭梢暡糠之吘惯要面對(duì)大部分的實(shí)際的訪問(wèn)者。
專(zhuān)家文檔的動(dòng)態(tài)智能識(shí)別
======================
基于“專(zhuān)家”文檔的HillTop算法最大的難點(diǎn)是第一次“專(zhuān)家文檔”的篩選,從目前的觀察來(lái)看:Google顯然首先給了教育(.edu),政府(.gov)和非盈利組織(.org)站點(diǎn)很高的優(yōu)先級(jí)。在運(yùn)行時(shí):Google會(huì)在龐大的內(nèi)存里儲(chǔ)存搜索頻率比較高的關(guān)鍵詞的索引,以備搜索者在短期內(nèi)繼續(xù)用同樣的關(guān)鍵字短語(yǔ)等進(jìn)行搜索。這些高頻關(guān)鍵詞還有另外一種作用,在“搜索引擎”更新之前很多人已經(jīng)注意到的了:含有那些突增的搜索關(guān)鍵字的網(wǎng)站會(huì)得到較快的更新頻率。如關(guān)于:"SARS",每天的搜索次數(shù)數(shù)以百萬(wàn)計(jì):Google就會(huì)優(yōu)先對(duì)與這個(gè)主題有關(guān)的網(wǎng)站進(jìn)行更新。
回頭看一下以前每個(gè)月的“Google Dance”,也能得出以下的結(jié)論:Google也明顯地為一個(gè)關(guān)鍵詞給予一個(gè)隨機(jī)的“權(quán)重”,動(dòng)態(tài)的根據(jù)關(guān)鍵詞查詢(xún)統(tǒng)計(jì)發(fā)現(xiàn)這些熱門(mén)關(guān)鍵詞,然后基于HillTop算法面向主題地找到這些含有熱門(mén)關(guān)鍵詞的網(wǎng)頁(yè),讓這些網(wǎng)頁(yè)作為相應(yīng)關(guān)鍵詞的“專(zhuān)家”文檔,針對(duì)這些索引入口保持比較高的更新頻率:這點(diǎn)顯然對(duì)于應(yīng)對(duì)突發(fā)事件非常有效。而那些含有查詢(xún)頻率比較低的關(guān)鍵詞所對(duì)應(yīng)的網(wǎng)頁(yè)可能要1月才更新一次。簡(jiǎn)單的說(shuō)就是:Google會(huì)根據(jù)主題的熱門(mén)程度動(dòng)態(tài)調(diào)整相應(yīng)網(wǎng)站的索引的強(qiáng)度。而Google中文用戶(hù)在總體用戶(hù)中的比例與Google索引的中文網(wǎng)頁(yè)在索引的總體網(wǎng)頁(yè)中的比例,從某種程度上說(shuō),也是有一定關(guān)系的。
本文出自:億恩科技【1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |