建网站 找魔快网络!(0)15011022561

DIV+CSS网站制作:表示层与逻辑层分离 ,N导架构设计网站。
网站排名,网站优化,搜索排名
魔快技术=高品质建站!
搜索引擎->百度

百度中文分词算法

特大 | 2009-01-16

先讲讲百度的分词时机或者条件问题,不是所有的字符串百度都会切割的

简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才把这个字符串肢解掉。
 
怎么证明呢?我们向百度提交“百度搜索排名优化”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快。

下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。

对〖百度中文分词算法〗发表评论

关闭窗口   网络  16 

北京做网站,北京建网站,北京网站建设,北京网页制作、设计,北京网页设计,北京企业建网站,北京建网站公司,北京电子商务,北京网上营销,请联系我们。北京魔快网络
©2002-  电话:69440493  476289485 (苏先生)  Email:[email protected]
地址:地址:北京东城区工体北路新中西里17号楼北边平房(保利剧院东100米路北) 做网站找魔快,建站快、优化好!MoKuai.Net