了解百度讓網站快速被收錄 |
發(fā)布時間: 2012/9/3 11:31:41 |
對于一個新站來說,從網站上線和提交到百度后到什么時候收錄,是每個站長日日夜夜關注的問題。特別是新站長,當網站正式提交到百度后,每一天至少兩次查詢百度對自己的新站收錄情況,甚至連做夢都想著百度。但是這樣的期盼往往讓很多新站長失落,因為普遍的所謂真正收錄實在是太漫長了。三天不收錄我可以等到第六天,第六天還不收錄我可以等多一個第六天。然而二六等于十二再加三就是十五,足足的半個月時間還沒收錄!呵呵,這個時候難道你不感到失落嗎? 當你等到第十五天的時候我可以很明確的告訴你,其實你的網站早就被百度收錄了,也許是在你提交的第二天或者第三天就被百度收錄了。呵呵,這話聽起來是不是感覺有點假?別說聽起來有點假,看起來都有點假。既然說早就收錄了,那為什么我在百度搜索里連影子都看不到呢? 這個就是百度的獨特之處,也是百度為什么能在谷歌與雅虎的強烈競爭中穩(wěn)坐老大之席的因素之一。谷歌的收錄原則是來者不拒,只要能找到的,短時間內就能在谷歌的搜索引擎中出現(xiàn)。 而百度則是先大量的對你網站進行索引,這個索引工具俗稱“百度蜘蛛”,在IIS日志中名稱為“BaiduSpider”。當你把網址提交到百度后,“百度蜘蛛”就會在網絡低潮時刻來訪你的站點,大概是一天索引50條信息左右。IIS日志中可以查看到“BaiduSpider”的訪問痕跡,其中主要的有cs-uri-stem(URI資源)、cs(User-Agent)、sc-status(協(xié)議狀態(tài))。cs-uri-stem(URI資源)記錄被訪問的文件名稱及路徑。cs(User-Agent)對應一欄中則可以看到來訪者相關信息,如果是“百度蜘蛛”則顯示有“BaiduSpider”字樣。sc-status(協(xié)議狀態(tài))記錄著的數據主要有三個:200(成功訪問)、304(已索引或未更新)、404(訪問失敗)。當你的網站的某條數據有被“百度蜘蛛”訪問過,并且sc-status(協(xié)議狀態(tài))顯示的數字為200(成功訪問),那么你的這條信息就已經成功的被收錄了。如果sc-status(協(xié)議狀態(tài))顯示的數字為304(已索引或未更新),就表示這條數據已經存在了。如果是404(訪問失敗)就說明蜘蛛無法成功訪問這條信息,這樣你就應該檢查一下路徑了。 好,現(xiàn)在我簡單的給大家說一下百度的收錄程序:蜘蛛來訪索引——蜘蛛攜帶已訪問到的數據返回——百度服務器判斷數據并且返回信息——數據入庫。 當數據成功入庫之后就表明已經成功收錄了,但為什么在百度的搜索引擎里找不到呢?因為百度收錄了你的數據后不會馬上就給你放出來,要經過一系列的審核過程,當審核通過了才能在搜索引擎中出現(xiàn)。 說到這里也許有朋友會問?百度的審核過程也太漫長了吧?我的一個新站近一個月后才出現(xiàn)在百度搜索引擎中,有的甚至要兩個月。據我理解,當你的網站所有數據被百度收錄到有70%左右的時候百度才開始審核你的數據。以一天收50條數據量來計算,1000條數據若要等收錄到700條左右才開始審核,那么也要近半個月的時間。所以這就是為什么有些網站需要一個月,有些網站需要兩個月了。 以前有很多朋友問過我這樣一個問題:比如我是這個月1號提交網址到百度,等到20號的時候百度的搜索引擎中出現(xiàn)了我的網站索引。但是百度快照旁邊顯示的時間是3號的,這是為什么呢? 其實當你了解了百度的收錄過程后就不難理解這個問題了,百度快照旁邊顯示的時間正是這條信息的收錄或者更新時間,剛才已經講過,只要蜘蛛成功訪問到的信息就是已經收錄了。而搜索引擎中顯示的時間就是這條信息從蜘蛛索引到入庫的時間。 本文出自:億恩科技【1tcdy.com】 |