淺談中文搜索引擎的分詞原理 |
發(fā)布時(shí)間: 2012/9/17 14:51:20 |
了解百度分詞技術(shù),對(duì)于我們標(biāo)題的寫法是很重要的。我們知道,百度中文分詞算法是指搜索引擎為了更好的辨別用戶的需求,并且為了快速提供給用戶需求性信息而使用的算法。要在單位時(shí)間內(nèi)處理千萬(wàn)億級(jí)的頁(yè)面數(shù)據(jù)量,因此搜索引擎擁有一個(gè)中文詞庫(kù)。比如百度現(xiàn)在大約有9萬(wàn)個(gè)中文詞,那么搜索引擎就可以對(duì)千億級(jí)的頁(yè)面進(jìn)行分析,按照中文詞庫(kù)進(jìn)行了分類。中文分詞基于以下三個(gè)原理:
一、 完全匹配。比如搜索“圖書館”。 二、 高度匹配。比如搜索“圖書館標(biāo)準(zhǔn)”。三、 模糊匹配。比如搜索“中國(guó)圖書館標(biāo)準(zhǔn)”。 另外,分詞原理:一些專有詞是不可分割的,比如杰出人物(如:周恩來(lái)),明星(如:劉德華),檢索量大的詞(如:買票難)。 這些只是百度中文分詞原理的一部分。以上只是對(duì)百度分詞技術(shù)看法,百度算法是不可能透露出來(lái),所以以上并不一定是對(duì)的。 本文出自:億恩科技【1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |