盡可能的節(jié)省爬蟲的抓取時間 |
發(fā)布時間: 2012/7/29 23:57:12 |
好幾天沒有更新文章了,不知道該寫一些什么了。后知在這段時間里,發(fā)現(xiàn)自己是越來越菜了,好多東西掌握的不夠踏實。后知的這個河北SEO博客,起初就是為了做好排名,之后又覺得沒有什么意義,就直接是和大家分享東西的了。把排名沒有放在心上了,Seo外包反而石家莊SEO、石家莊優(yōu)化這兩個關鍵詞倒是上去了。這一段時間內(nèi),發(fā)現(xiàn)用數(shù)據(jù)分析來做SEO是越來越重要了,同樣也感覺到做SEO要基于了解搜索引擎的基礎上來做,這里后知和大家說下搜索引擎爬蟲抓取的兩種方式,希望哪里不對的地方進行拍磚。 首先,搜索引擎爬蟲在進行抓取的時候,會采取兩種方式來抓。新聞稿發(fā)布深度優(yōu)先和寬度優(yōu)先的方式進行爬取。 第一種,深度優(yōu)先遍歷抓取。深度優(yōu)先抓取就類似后知博客這樣的,關鍵詞排名石家莊SEO首頁>石家莊網(wǎng)站優(yōu)化基礎>下級欄目,首選抓取是以這樣的方式來抓取的,等到抓取完畢這些欄目之后,在進行抓“石家莊網(wǎng)站優(yōu)化基礎”欄目下的文章,這樣就是深度優(yōu)先策略,類似于家庭關系一樣。長子、次子然后是長孫等這樣的關系,后知博客沒有那么深的欄目,所以看不到這樣的效果。 第二種,就是寬度優(yōu)先的遍歷抓取。這種方式的抓取,深度是不斷的在增加的。類似于這樣的“首頁 > SEO技術 > 網(wǎng)站日志如何分析”爬蟲來的你網(wǎng)站,會順著一個欄目一級級向下抓取,等這個“SEO技術”欄目下被抓取完畢后,在進行其子下一個欄目。這樣的寬度抓取是有一定的原因的,基于網(wǎng)站布局的問題,往往是重要的頁面距離種子站點(種子站點是爬蟲開始抓取癿起點)是比較近的,這樣符合習慣。所以,你可以看到一個大型門戶站點,最容易看到的是一些實事新聞,這點是距離種子站點越近可以理解為越重要的頁面;其次,中文萬維網(wǎng)的深度沒有我們想象的那么深,到達一個網(wǎng)頁路徑不僅僅是一個,所以爬蟲總能找到最近的路徑到達當前頁面,據(jù)相關數(shù)據(jù)表明中文萬維網(wǎng)的深度為17;還有一點就是,多爬蟲的合作策略,基于這個規(guī)則大部分的抓取的起始網(wǎng)頁為站內(nèi)的,逐漸的才會轉(zhuǎn)向站外的鏈接,抓取的封閉性是比較強的。 基于上述的兩種抓取方式,我們可以看出,我們盡可能的節(jié)省爬蟲的抓取時間,因為爬蟲到你網(wǎng)站的時間是一定的,縮短其單頁面的抓取時間會提高你網(wǎng)站的抓取量,進而會影響你網(wǎng)站的收錄量,最終能夠影響到你網(wǎng)站的SEO流量。根據(jù)以上兩種方式,來合理布局你網(wǎng)站的內(nèi)容,讓爬蟲能夠很容易的抓取到你想要被抓取的東西,這樣合理的布局好內(nèi)容,讓網(wǎng)站的seo流量有一個突破瓶頸的提升。 本文出自:億恩科技【1tcdy.com】 |