新版分词组件采用了新的分词算法,具备更高的识别率,可以处理更多的特例。在原V1版本上增加如下功能
------------------------------------
1. 调整分词算法,加快了分词速度。
2. 采取多模式算法,可以有效识别中英文混合的数字和日期。
如:
丙辰年六月初三
两千零二年六月
二零零二年
一九九六年二月十日九时十三分五秒
1996年2月10日9时13分5秒
1996年二月份
1996-2-10
9:13:5
13.90%
六千八百九十5万
百分之五十六
六点八三
五元六角七分
伍佰陆拾柒万零捌元玖角
3. 支持英文通配符(搜索引擎中常用)。
如:
Bo?k B*k
4. 网址、电子邮件地址和特殊缩写识别。
如:
http://abc.com/a/upload/a.gif a@abc.com
AT&T
5. 中文人名的识别。(马马虎虎过得去,毕竟雨痕不是学这个的。 )
原文:
内蒙古, 自治区党委书记储波 自治区人大常委会主任储波 自治区主席杨晶 自治区政协 主席王占 ... 宁夏, 自治区党委书记陈建国 自治区人大常委会主任陈建国 自治区主席马启智 自治区政协主席任启兴
分词:
内蒙古/ ,/ / 自治区/ 党委书记/ 储波/ / 自治区/ 人大/ 常委会/ 主任/ 储波/ / 自治区/ 主席/ 杨晶/ / 自治区/ 政协/ / 主席/ 王占/ / ./ ./ ./ / 宁夏/ ,/ / 自治区/ 党委书记/ 陈建国/ / 自治区/ 人大/ 常委会/ 主任/ 陈建国/ / 自治区/ 主席/ 马启智/ / 自治区/ 政协/ 主席/ 任启兴
6. 支持UTF-8文本文件格式的扩展词库(以及忽略词库)。
7. 支持速度优先和精度优先两种分词方式。
8. 18万重新整理的基础词条,增加大量新近出现的热门词语。