亚洲一区中文字幕无限乱码_av中文字幕潮喷在线观看_97免费视频免费视频_欧美金发美人被黑巨大_国产精品亚洲二区在线看

資訊

精準(zhǔn)傳達(dá) ? 有效溝通

從品牌網(wǎng)站建設(shè)到網(wǎng)絡(luò)營(yíng)銷策劃,從策略到執(zhí)行的一站式服務(wù)

搜索引擎中文分詞的基礎(chǔ)原理

來源:東莞seo優(yōu)化 | 2018-9-13        瀏覽:2213

搜索引擎中文分詞的基礎(chǔ)原理



當(dāng)搜索引擎蜘蛛將網(wǎng)站內(nèi)容索引后就會(huì)通過中文分詞技術(shù)進(jìn)行入庫,這是一個(gè)龐大的工程,百度搜索引擎對(duì)中文分詞技術(shù)掌握非常熟練,這也就是為什么在中文搜索領(lǐng)域百度搜索引擎一直都是獨(dú)大的原因。

1.字符串匹配的分詞方法
首先來看正向最大匹配法,就是把一個(gè)詞從左至右來分詞。舉個(gè)例子:“不知道你在說什么”,這句話采用正向最大匹配法是如何分的呢?“不知道,你,在,說什么”與正向最大匹配法相對(duì)應(yīng)的是反向最大匹配發(fā)。這是第二種分詞方法。
其次是反向最大匹配法,來分上面我舉的例子是如何分的呢 “不知道你在說什么”。反向最大匹配法來分上面這段是如何分的。“不,知道,你在,說,什么”,這個(gè)就分的比較多了,反向最大匹配法就是從右至左。
最后是最短路徑分詞法。這個(gè)什么理解呢 ,就是說我一段話里面要求切出的詞數(shù)是最少的。還是上面哪句話“不知道你在說什么”最短路徑分詞法就是指,我把上面哪句話分成的詞要是最少的。不知道,你在,說什么,這就是最短路徑分詞法,分出來就只有2個(gè)詞了 。好了,當(dāng)然還有上面三種可以相互結(jié)合組成一些分詞方法。比如正向最大匹配法和反向最大匹配法組合起來就可以叫做雙向最大匹配法。
2.詞義分詞法
這種其實(shí)就是一種機(jī)器語音判斷的分詞方法。很簡(jiǎn)單,進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象來分詞,這種分詞方法,現(xiàn)在還不成熟。處在測(cè)試階段。
3.統(tǒng)計(jì)的分詞方法
這個(gè)很簡(jiǎn)單,就是根據(jù)詞組的統(tǒng)計(jì),就會(huì)發(fā)現(xiàn)兩個(gè)相鄰的字出現(xiàn)的頻率最多,那么這個(gè)詞就很重要。就可以作為用戶提供字符串中的分隔符。這樣來分詞。比如,“我的,你的,許多的,這里,這一,那里”。等等,這些詞出現(xiàn)的比較多,就從這些詞里面分開來。



搜索引擎中文分詞的基礎(chǔ)原理

—— 添加千度科技微信號(hào) ——

15年 網(wǎng)絡(luò)推廣經(jīng)驗(yàn)

多一份參考,總有益處

聯(lián)系我們,免費(fèi)獲得專屬《網(wǎng)站策劃方案》及報(bào)價(jià)

咨詢相關(guān)問題或預(yù)約面談,可以通過以下方式與我們聯(lián)系

全國(guó)統(tǒng)一服務(wù)熱線:135-8099-7710 / 24小時(shí)接聽服務(wù)


伽师县| 呼图壁县| 曲水县| 阿拉尔市| 民权县| 美姑县| 焦作市| 涪陵区| 霍城县| 千阳县| 巫溪县| 义乌市| 大厂| 新巴尔虎右旗| 正宁县| 嘉善县| 宁城县| 连州市| 延边| 谢通门县| 邓州市| 抚宁县| 博爱县| 任丘市| 清镇市| 龙南县| 临洮县| 高青县| 浦北县| 涿州市| 重庆市| 常山县| 贵南县| 垣曲县| 濮阳县| 金塔县| 铅山县| 奎屯市| 宝应县| 邳州市| 通榆县|