首頁 > SEO優化 > SEO如何學習關鍵詞分詞技術?

SEO如何學習關鍵詞分詞技術?

2019-04-01 SEO推廣 SEO優化 0人評論 39683
 seo如何做好分詞技術?如何分詞能夠滿足搜索引擎?什么是百度分詞?SEO是否有接觸一些分詞組件呢?從百度分詞不難看出,分詞是根據詞義、詞語、詞頻的方式,來決定搜索引擎對詞語的捕捉。分詞技術是搜索引擎對用戶提交的關鍵詞進行處理以后,根據用戶的關鍵詞串進行匹配的一種技術。雖然谷歌是這種技術的創始者,但由于中文比英文復雜得多,所以中文分詞這方面還是百度領先。

中文分詞一般為:字符串匹配、統計分詞、詞義分詞。

 

第一種:字符串匹配分詞

 

  這種分詞技術又稱之為機械分詞方法,直白說就是掃描字符串,查詢頁面中字符串的子串和詞相同,則視為匹配,該類分詞一般會加入啟發式規則,例如:正向/逆向最大化匹配、長詞優化等方法。

 

  優勢:匹配速度快,實現過程簡單

 

  劣勢:難以區分歧義詞,匹配不精準

 

  案例:庖丁解牛分詞器就是基于字符串匹配的分詞

 

  例子:成都網絡推廣公司

 

  成都、成都網、推廣、公司”“成都、推廣網、公司”

 

  正向最大值匹配:把關鍵詞從左到右進行匹配

 

  逆向最大值匹配:把關鍵詞從右到左進行匹配

 

  最短路徑分詞法:搜索引擎提取文中詞數最小值

 

SEO關鍵詞分詞技術

 

第二種:統計分詞

 

  這類分詞基于人工標注的詞性和統計特征,對中文進行建模,即根據觀測到的數據(標注好的語料)對模型參數進行估計,即訓練。 在分詞階段再通過模型計算各種分詞出現的概率,將概率最大的分詞結果作為最終結果。常見的序列標注模型有HMM和CRF。

 

  優點:很好處理歧義和未登錄詞問題,效果比基于字符串匹配效果好

 

  缺點:需要大量的人工標注數據,較慢的分詞速度

 

  相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。

 

  可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字X、Y的相鄰共現概率。互現信息體現了漢字之間結合關系的緊密程度。

 

第三種:詞義分詞

 

  詞義分詞法:通過機器語音判定的分詞方法,主要用以處理歧義現象。


標簽:

發表評論

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

官方微信公眾號
70755559
09:00 - 22:00
QQ客服: 70755559
客服郵箱: 678128@qq.com
2分快3-推荐 1分快3-官网 好运快3-欢迎您 幸运快3-安全购彩 网投app-Welcome 分分快3app-Home 1分快三平台-3分快3 彩票代理-推荐 五福彩票-官网 彩票大赢家-欢迎您