亚洲综合社区欧美综合色-欧美逼逼一区二区三区-国产老熟女高潮精品网站-国产日韩最新视频在线看

始創(chuàng)于2000年 股票代碼:831685
咨詢熱線:0371-60135900 注冊有禮 登錄
  • 掛牌上市企業(yè)
  • 60秒人工響應
  • 99.99%連通率
  • 7*24h人工
  • 故障100倍補償
全部產(chǎn)品
您的位置: 網(wǎng)站首頁 > 幫助中心>文章內(nèi)容

淺談百度搜索引擎的中文分詞技術

發(fā)布時間:  2012/9/17 11:47:41
本篇文章淺析一下百度的中文分詞技術,有不足之處還望各位有心人能指出,當然,也希望可以幫助站長們更深層的理解搜索引擎分詞技術,做好自己的網(wǎng)站,獲得更好的排名。
  一、搜索引擎中文分詞技術
  搜索引擎中文分詞技術簡單來說,就是把中文的漢字序列切分成有意義的詞組。
  二、搜索引擎分詞技術簡述
  1.基于字符串匹配的分詞方法
  按照一定的策略將待分析的漢字串與一個極其詞庫中的詞條進行匹配。
  常用分詞的方法:
  正向最大匹配法(由左到右的方向)
  分詞測試例子:我/有意/見/分歧
  反向最大匹配法(由右到左的方向)
  分詞測試例子:我/有/意見/分歧
  據(jù)大量測試數(shù)據(jù)統(tǒng)計結果表明:單純使用正向最大匹配的錯誤率為1/169,單純使用反
  向最大匹配的錯誤率為1/245。逆向匹配的切分精度略高于正向匹配。
  2.基于統(tǒng)計的分詞方法
  相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構成一個詞。用于系統(tǒng)自動識別新詞。
  3.基于理解的分詞方法
  在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧異現(xiàn)象。
  三、百度搜索引擎分詞技術分析
  1.最大分詞詞長
  分詞技術歸納:少于等于3個中文字不切割
  分詞技術歸納:對于大于等于4個漢字的詞將被分詞
  2.分詞匹配算法
  分詞測試查詢:查詢:“工地方向導”
  正向最大匹配:工地/方向/導
  反響最大匹配:工/地方/向導
  百度采用 正向最大匹配算法
  分詞技術歸納:首先用專用詞典采用最大正向匹配分詞,切出部分結果;剩余沒有切分交給普通詞典,同樣采取正向最大匹配分詞。
  關于搜索引擎分詞技術,這次就淺析到這。但是搜索引擎的分詞技術遠遠不止這些,分詞中的一些難題,如歧義識別、新詞識別、拼寫檢查錯誤提示、拼音提示功能、相關搜索提示等深一些請關注我們北京seo的網(wǎng)站,隨時會有新的知識讓大家吸收。
   
本文出自:億恩科技【1tcdy.com】

服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經(jīng)營性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經(jīng)營性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經(jīng)營性ICP/ISP證:贛B2-20080012
  • 服務器/云主機 24小時售后服務電話:0371-60135900
  • 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
  • 專注服務器托管17年
    掃掃關注-微信公眾號
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區(qū)翠竹街1號總部企業(yè)基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網(wǎng)安備41019702002023號
      0
     
     
     
     

    0371-60135900
    7*24小時客服服務熱線