Jcseg中文分词器 v2.6.2


Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr,elasticsearch的分词接口!Jcseg自带了一个jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等!


Jcseg核心功能:
1、中文分词:mmseg算法 + Jcseg 独创的优化算法,七种切分模式。
2、关键字提取:基于textRank算法。
3、关键短语提取:基于textRank算法。
4、关键句子提取:基于textRank算法。
5、文章自动摘要:基于BM25+textRank算法。
6、自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高的应用不建议使用。
7、命名实体标注:基于词库+(统计歧义去除计划),电子邮件,网址,大陆手机号码,地名,人名,货币,datetime时间,长度,面积,距离单位等。
8、Restful api:嵌入jetty提供了一个绝对高性能的server模块,包含全部功能的http接口,标准化json输出格式,方便各种语言客户端直接调用。
下载列表

版权声明:本文来源于互联网,如有侵权,请联系下方邮箱,一个工作日删除!