Asp.net源码下载 书籍下载 参考手册下载 学习资料下载
当前共有86个源码程序  最新源码  发布源码  当前共有16份.net下载资料  分享资料
全站搜索
源码下载
教程下载
网站项目
会员中心
当前位置:首页-->源码下载-->功能组件-->SharpICTCLAS中文分词系统1.0
SharpICTCLAS中文分词系统1.0
源码分类: 功能组件
开发环境: vs2005+其他
开发语言: c#
.NET版本:                   
适用对象: 研究
开源程度: 大部分开源
源码类型: 免费程序
界面语言: 简体中文
浏览次数: 481
含有源码: cs源代码
实用源码: 是
文件大小: 1.88MB
相关链接:官网 | 演示
源码作者: 吕震宇
发布时间: 2008-4-8 21:52:32
相关标签: 源码   分词   中文分词   排序   XML树   
统计信息: 本源码被浏览 481 次,被下载 135 次,被回复 0 次.
1
好评度
如果觉得此源码好,请点 支持
0
差评度
如果觉得此源码不好,请点 反对
源码介绍
任务中国 taskcn.com

在研究了一段时间中科院计算所张华平、刘群所开发的ICTCLAS分词系统(Free版)代码后,阅读了大量的相关资料,我开始着手将C++的ICTCLAS分词系统移植到.net平台下,并取得了较好的实验结果。这种移植并不容易,在研究了ICTCLAS分词理论的同时还要阅读C++代码实现,其中遇到了很多困惑、迷茫,也不得不重写了一小部分代码,我将在随后的文章中介绍具体实现。

目前经过调整后的SharpICTCLAS运行效果还算不错。在对博客园一万五千篇文章进行分词测试过程中,向词库中添加了一千三百多个词汇然后进行分词,效果还不错, 分词异常一共发生了15次,其中有9处是因为存在大量日文字符,另外6处是一句话中单词过多,超出了软件限制(200词)。分词效率也比较令人满意(尽管总体还是比较慢),15000篇文章总用时2.5小时,但这不只是分词的时间,还包括了繁体转简体、利用正则表达式去掉HTML符号,统计词频(这需要进行重复词的判别,我使用了AVL树 ,共统计得到16万词汇)、将分词结果写入SQL Server 2005数据库。如果不考虑这些因素的话,感觉应当和C++程序效率差不多,当然这是没有经过严格测试的结论。

山东网通HTTP下载 [并发连接数:100  下载速度:512K] (81)
北京网通HTTP下载 [并发连接数:500  下载速度:256K] (54)
官方下载 (官方链接随时可能改变,本站不保证此链接的可用性)
相关搜索
在Google中搜索 SharpICTCLAS中文分词系统1.0 的相关内容
在Google中搜索 源码动力|Www.aspxOn.com 的相关内容
源码讨论
已经有0位程序爱好者参与了对此程序源码的讨论.   查看所有回复
发表回复

提交讨论  清空重写  取消回复
QQ群:  .NET+AJAX+DIV+CSS#1 22768454(暂停)  .NET+AJAX+DIV+CSS#2 29884226()  .NET+AJAX+DIV+CSS#3 29943298(开放)
联系我们  |  源码动力  |  广告投放  |  友情连接  |  帮助(?)  |  源码日志  |  反馈BUG  |  设置首页  |  加入收藏
Some rights reserved by Www.AspxOn.Com Copyright © 2007-2008 WAEMZ