Google搜索質(zhì)量介紹 |
發(fā)布時(shí)間: 2012/9/3 11:30:59 |
搜索質(zhì)量團(tuán)隊(duì)是一支負(fù)責(zé)Google搜索結(jié)果排名的團(tuán)隊(duì)。我們的工作非常明確:每天都有數(shù)以億計(jì)的人們向Google發(fā)出搜索請(qǐng)求 ,Google需要在短短幾分之一秒的時(shí)間內(nèi)從數(shù)十億網(wǎng)頁(yè)中挑選出符合搜索要求的頁(yè)面,并且以恰當(dāng)?shù)呐判蛱峁┙o用戶。雖然近期我們也在做一些其他工 作,但請(qǐng)?jiān)试S我以后再向您詳細(xì)介紹。
雖然很多人都在使用Google的搜索服務(wù),但令人吃驚的是很少有人了解Google的搜索排名。這是我們的過(guò)錯(cuò),但實(shí)際上我們是有意進(jìn)行保密的。坦誠(chéng)布公地說(shuō),很大程度上,我們需要對(duì)我們所從事的工作保密 。這主要有兩個(gè)原因:競(jìng)爭(zhēng)和欺詐濫用行為。競(jìng)爭(zhēng)是很容易理解的。沒(méi)有哪一家公司愿意與對(duì)手分享其核心技術(shù);至于欺詐濫用行為 ,如果我們將排名算法公布于眾,會(huì)使這個(gè)搜索系統(tǒng)容易被人為操縱。通過(guò)保密來(lái)保證安全從來(lái)都不是最好的辦法,所以我們也不完全依賴 它,但保密措施也確實(shí)幫助我們避免了許多被欺詐濫用的可能。
排名算法的細(xì)節(jié)從很多方面來(lái)說(shuō)都堪稱是Google皇冠上的寶石。我們感到非常自豪也特別注意保護(hù)它們。據(jù)估計(jì),已有一千多名程序員(科學(xué)家)將自己多年的研究成果貢獻(xiàn)在它們的 發(fā)展中,因而它們的創(chuàng)新速度從沒(méi)有放緩過(guò)。
但保持完全神秘并不是理想狀態(tài),這篇博客就是我們想要改善此狀況的一種努力。我們會(huì)努力做到定期向大家介紹新產(chǎn)品,講解已有產(chǎn)品 ,提供建議,傳播信息,進(jìn)而增進(jìn)交流。現(xiàn)在就讓我介紹一些關(guān)于我們團(tuán)隊(duì)的信息,以此作為與大家溝通的開(kāi)始。更多的博客也將會(huì)陸續(xù)發(fā)布 。
借此機(jī)會(huì)我想簡(jiǎn)單的介紹一下自己。我的名字是Udi Manber,目前擔(dān)任工程事務(wù)副總裁,負(fù)責(zé)搜索質(zhì)量的相關(guān)工作。我在Google工作已超過(guò)兩年,在搜索技術(shù)方面已經(jīng)有差不多20年的從業(yè)經(jīng)歷。
負(fù)責(zé)精確排名技術(shù)的小組是整個(gè)團(tuán)隊(duì)的核心。對(duì)搜索結(jié)果進(jìn)行排名是很困難的,比一般人想象的要難得多。原因之一是語(yǔ)言本身天然具有模糊 性,而記錄信息的文檔也五花八門,沒(méi)有一定的法則。目前,還沒(méi)有一個(gè)如何傳達(dá)信息的統(tǒng)一標(biāo)準(zhǔn),因此我們需要試圖理解任何人 以任何理由寫出的所有網(wǎng)頁(yè)。而且,這只是問(wèn)題的一部分。我們還需要理解人們提出的、平均少于三個(gè)單詞的搜索提問(wèn),并將它們映射到我們對(duì)所有網(wǎng)絡(luò)文檔的理解中。更不用說(shuō)每個(gè)人都有 不同的需要。我們必須盡最大努力在幾毫秒內(nèi)滿足這些需求。
在我們的排名算法中,最有名的部分是 PageRank ,它是由谷歌的兩位創(chuàng)始人——LarryPage和Sergey Brin 開(kāi)發(fā)出來(lái)的。目前PageRank仍被使用,只是它已成為了一個(gè)更大系統(tǒng)中的一部分。其他部分包括語(yǔ)言模型(處理短語(yǔ)、同義詞、符號(hào) 、拼寫錯(cuò)誤的能力等),查詢模式(我們不僅要考慮語(yǔ)言本身,還要考慮人們?nèi)绾问褂谜Z(yǔ)言),時(shí)間模型(有些問(wèn)題要靠互聯(lián)網(wǎng)上僅 僅產(chǎn)生才三十分鐘的最新網(wǎng)頁(yè)來(lái)解答,而另一些問(wèn)題則需由經(jīng)受了時(shí)間考驗(yàn)的網(wǎng)頁(yè)來(lái)解答),和個(gè)性化模式(并不是所有人都想得到同樣的答 案)。
在我們的團(tuán)隊(duì)中,還有一個(gè)小組負(fù)責(zé)評(píng)估我們的工作。評(píng)估方式有許多種,但目標(biāo)都是一致的:提高用戶體驗(yàn) 。這不是主要目標(biāo),而是唯一目標(biāo)。這里既有每分鐘都在進(jìn)行的自動(dòng)評(píng)估(確保系統(tǒng)運(yùn)行正常),對(duì)總體質(zhì)量的周期性評(píng)估 ,還有更重要的是為具體算法改進(jìn)而開(kāi)展的評(píng)估,這也是最重要的。當(dāng)一名工程師有一個(gè)新想法或開(kāi)發(fā)出一種新算法時(shí),我們都會(huì)對(duì)其想法進(jìn)行全面測(cè)試。我們有一個(gè)統(tǒng)計(jì)小組專門負(fù)責(zé)統(tǒng)計(jì) 數(shù)據(jù),同時(shí)評(píng)估這些新想法的價(jià)值。我們每周都會(huì)(有時(shí)甚至一周兩次)召開(kāi)專門會(huì)議審議這些新想法并且批準(zhǔn)新方案的開(kāi)展。在2007年,我們共推出了450多個(gè)新改進(jìn),平均每周推出9個(gè)。其中的一些改進(jìn)是簡(jiǎn)單而明顯的——舉例來(lái)說(shuō),我們解決了希伯來(lái)語(yǔ)縮寫檢索詞的問(wèn)題(在希伯來(lái)語(yǔ)中,縮寫詞是由最后一個(gè)字符旁的(")來(lái)標(biāo)識(shí)的,因此,IBM的縮寫將是IB"M);當(dāng)然也有一些改進(jìn)是非常復(fù)雜的——舉例來(lái)說(shuō),在一月份我們對(duì)PageRank算法做了顯著改進(jìn)。絕大部分時(shí)間里我們都在尋求改進(jìn)搜索結(jié)果的相關(guān)性,但同時(shí)我們也在開(kāi)展以簡(jiǎn)化算法為目的的項(xiàng)目。畢竟 ,簡(jiǎn)單一些總是好的。
在過(guò)去兩年中,跨國(guó)界搜索一直是我們關(guān)注的重點(diǎn)。這意味著我們要精通所有語(yǔ)言,而不僅僅是那些主要的語(yǔ)種。以去年為例 ,我們?cè)诎⑷萁Z(yǔ)上取得了重大進(jìn)展,而這種語(yǔ)言世界上僅有800萬(wàn)人在使用。在過(guò)去幾個(gè)月,我們進(jìn)行了多種語(yǔ)言的拼寫檢查,包括愛(ài)沙尼亞語(yǔ),加泰羅尼亞語(yǔ),塞爾維亞語(yǔ),塞爾維亞克羅地亞語(yǔ) ,烏克蘭語(yǔ),波斯尼亞語(yǔ),拉脫維亞語(yǔ),菲律賓他加祿語(yǔ),斯洛文尼亞和波斯語(yǔ)。我們建立了一個(gè)遍布全球的網(wǎng)絡(luò)體系來(lái)為我們 提供反饋意見(jiàn),同時(shí)還有來(lái)自Google全球各部分的講不同語(yǔ)言的員工自愿幫助我們改進(jìn)搜索結(jié)果。
還有一個(gè)小組是專門致力于對(duì)搜索特性和用戶界面的改進(jìn)。一個(gè)強(qiáng)大的引擎對(duì)于一輛好汽車是非常必要的,但并不是足夠的 。好車還要舒適和易于駕駛。 Google的搜索用戶界面非常簡(jiǎn)潔,很少有用戶曾經(jīng)瀏覽過(guò)搜索幫助頁(yè)面,因?yàn)椴唤柚脩粢材苁褂玫玫眯膽?yīng)手(但是閱讀這些幫助頁(yè)面總是 有益的,而且我們一直在努力完善它們)。當(dāng)我們添加新特性時(shí),我們會(huì)努力確保它們具有直觀性并且易于每個(gè)人使用。過(guò)去一年中 ,我們做的最明顯的變化是 整合搜索。其他變化還包括谷歌筆記本(Google Notebook),自定義搜索引擎(Custom Search Engine),當(dāng)然還包括在iGoogle上的改進(jìn) 。用戶界面小組由一個(gè)專門負(fù)責(zé)進(jìn)行用戶研究和評(píng)估新特性的專家團(tuán)隊(duì)組成。他們的足跡遍布世界各地,有時(shí)甚至到用戶的家中去了解他們最 自然的使用習(xí)慣。 (不過(guò)不用擔(dān)心,他們是不會(huì)搞突然襲擊或是不請(qǐng)自來(lái)的 。
我們還有一個(gè)小組專門負(fù)責(zé)與 網(wǎng)絡(luò)垃圾和各種類型的欺詐濫用行為作斗爭(zhēng)。他們處理的問(wèn)題非常廣泛:從隱藏文本到充斥大量無(wú)用關(guān)鍵詞而偏離 主題的網(wǎng)頁(yè),以及其他許多旨在提高搜索結(jié)果排名的惡意行為。這個(gè)小組密切跟蹤網(wǎng)絡(luò)垃圾的最新發(fā)展趨勢(shì)并研究出行之有效的對(duì)策 ;與所有其他小組一樣,他們的工作也是國(guó)際性的。反網(wǎng)絡(luò)垃圾小組與Google網(wǎng)站管理員中心小組緊密合作,從而能與大家分享他們的心得 ,并聽(tīng)取網(wǎng)站管理員們的意見(jiàn)。
還有其他一些小組投身于其他的專門項(xiàng)目?傊,我們的組織結(jié)構(gòu)是比較非正式的。人員具有靈活性,新項(xiàng)目隨時(shí)都有可能開(kāi)始。
對(duì)于搜索,其中很關(guān)鍵的一點(diǎn)就是用戶的期望始終在快速增長(zhǎng)。明天的檢索查詢要比今天的更具挑戰(zhàn)性。就像運(yùn)算速度受摩爾定律支 配,每18個(gè)月要成倍增長(zhǎng)一樣,搜索中也有一個(gè)隱形的規(guī)律,那就是最難的那部分搜索查詢其復(fù)雜性在短時(shí)間內(nèi)就會(huì)成倍增加,變得更為復(fù)雜 。這是不可能進(jìn)行精確衡量的,但我們都能親身感受到。我們知道自己不能總停留在現(xiàn)有狀態(tài)上,我們必須努力工作,迎接挑戰(zhàn)。正如我剛才所說(shuō)的,在未來(lái)幾個(gè)月中我們將繼續(xù)為您提供 搜索質(zhì)量改進(jìn)的最新消息,敬請(qǐng)期待。 本文出自:億恩科技【1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |