星星软件园

首页 > 电脑软件 > 应用软件 > java编程 >  Java中文分词器(Jcseg) v2.6.2官方最新版
Java中文分词器(Jcseg) v2.6.2官方最新版

软件大小:4.9 MB

软件语言:简体中文

更新时间:2020-11-14

软件授权:免费版

软件类别: java编程

应用平台:Win7/Win8/Win10

推荐星级:

官方网站: https://www.starxz.com/

  • 软件介绍
  • 相关软件
  • 相关教程
  • 下载地址

Jcseg是一款很实用的java中文分词器软件,该软件提供关键词提取和文章自动摘要等功能,并且拥有一个基于Jetty的web服务器,方便各大语言直接http调用,提供最新版本的lucene,solr和elasticsearch的搜索分词接口。感兴趣的快来本站下载使用吧!

Java中文分词器(Jcseg) v2.6.2官方版

基本介绍

Jcseg是基于mmseg算法的一个轻量级Java中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的搜索分词接口!

软件说明

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr,elasticsearch的分词接口!Jcseg自带了一个jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等!

软件功能

Jcseg核心功能:

中文分词:mmseg算法 + Jcseg 独创的优化算法,七种切分模式。

关键字提取:基于textRank算法。

关键短语提取:基于textRank算法。

关键句子提取:基于textRank算法。

文章自动摘要:基于BM25+textRank算法。

自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高的应用不建议使用。

命名实体标注:基于词库+(统计歧义去除计划),电子邮件,网址,大陆手机号码,地名,人名,货币,datetime时间,长度,面积,距离单位等。

Restful api:嵌入jetty提供了一个绝对高性能的server模块,包含全部功能的http接口,标准化json输出格式,方便各种语言客户端直接调用。

Jcseg中文分词:

七种切分模式:

简易模式:FMM算法,适合速度要求场合。

复杂模式:MMSEG四种过滤算法,具有较高的歧义去除,分词准确率达到了98.41%。

检测模式:只返回词库中已有的词条,很适合某些应用场合。

最多模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合词等)。

分隔符模式:按照给定的字符切分词条,默认是空格,特定场合的应用。

NLP模式:继承自复杂模式,更改了数字,单位等词条的组合方式,增加电子邮件,大陆手机号码,网址,人名,地名,货币等以及无限种自定义实体的识别与返回。

n-gram模式:CJK和拉丁系字符的通用n-gram切分实现。

分词功能特性:

支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。

支持词库多目录加载. 配置lexicon.path中使用';'隔开多个词库目录.

词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索, Jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并。

中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。

中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。

支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如:B超, x射线, 卡拉ok, 奇都KTV, 哆啦a梦。

支持英文的类中文切分,同样使用mmseg算法来消除歧义,例如:“openarkcompiler”会被切分成:“open ark compiler”,该功能也可以被关闭。

更好的拉丁支持,电子邮件,域名,小数,分数,百分数,字母和标点组合词(例如C++, c#)的识别。

自定义切分保留标点. 例如: 保留&, 就可以识别k&r这种复杂词条。

复杂英文切分结果的二次切分: 可以保留原组合,同时可以避免复杂切分带来的检索命中率下降的情况,例如QQ2013会被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com会被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

支持阿拉伯数字/小数/中文数字基本单字单位的识别,例如2012年,1.75米,38.6℃,五折,并且 Jcseg会将其转换为“5折”加入分词结果中。

智能圆角半角, 英文大小写转换。

特殊字母识别:例如:Ⅰ,Ⅱ;特殊数字识别:例如:①,⑩。

配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。

智能中文人名/外文翻译人名识别。中文人名识别正确率达94%以上。(中文人名可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率),(引入规则和词性后会达到98%以上的识别正确率)。

自动中英文停止词过滤功能(需要在jcseg.properties中开启该选项,lex-stopwords.lex为停止词词库)。

词库更新自动加载功能, 开启一个守护线程定时的检测词库的更新并且加载(注意需要有对应词库目录下的的lex-autoload.todo文件的写入权限)。

自动词性标注(目前基于词库)。

自动实体的识别,默认支持:电子邮件,网址,大陆手机号码,地名,人名,货币等;词库中可以自定义各种实体并且再切分中返回。

其他说明

Jcseg 中文分词:

四种切分模式:

简易模式:FMM 算法,适合速度要求场合

复杂模式:MMSEG 四种过滤算法,具有较高的歧义去除,分词准确率达到了98.41%

检测模式:只返回词库中已有的词条,很适合某些应用场合

检索模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合词等)

分隔符模式:按照给定的字符切分词条,默认是空格,特定场合的应用

NLP 模式:继承自复杂模式,更改了数字,单位等词条的组合方式,增加电子邮件,大陆手机号码,网址,人名,地名,货币等以及无限种自定义实体的识别与返回

支持自定义词库。在 lexicon 文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。

支持词库多目录加载,配置 lexicon.path 中使用';'隔开多个词库目录。

词库分为简体/繁体/简繁体混合词库:可以专门适用于简体切分、繁体切分、简繁体混合切分,并且可以利用下面提到的同义词实现,简繁体的相互检索,Jcseg 同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并。

中英文同义词追加/同义词匹配 + 中文词条拼音追加。词库整合了《现代汉语词典》和 cc-cedict 辞典中的词条,并且依据 cc-cedict 词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改 jcseg.properties 配置文档可以在分词的时候加入拼音和同义词到分词结果中。

中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg 会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。

支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如:B超, x射线, 卡拉ok, 奇都ktv, 哆啦a梦。

更好的英文支持,电子邮件,域名,小数,分数,百分数,字母和标点组合词(例如C++, c#)的识别。

自定义切分保留标点。例如: 保留 &,就可以识别 k&r 这种复杂词条。

复杂英文切分结果的二次切分:可以保留原组合,同时可以避免复杂切分带来的检索命中率下降的情况,例如QQ2013会被切分成: qq2013/ qq/ 2013,chenxin619315@gmail.com会被切分成:chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

支持阿拉伯数字/小数/中文数字基本单字单位的识别,例如2012年,1.75米,38.6℃,五折,并且 Jcseg 会将其转换为“5折”加入分词结果中。

智能圆角半角, 英文大小写转换。

特殊字母识别:例如:Ⅰ,Ⅱ;特殊数字识别:例如:①,⑩。

配对标点内容提取:例如:最好的 Java 书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。

智能中文人名/外文翻译人名识别。中文人名识别正确率达 94% 以上。(中文人名可以维护 lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex 来提高准确率),(引入规则和词性后会达到 98% 以上的识别正确率)。

自动中英文停止词过滤功能(需要在 jcseg.properties 中开启该选项,lex-stopwords.lex 为停止词词库)。

词库更新自动加载功能, 开启一个守护线程定时的检测词库的更新并且加载。

自动词性标注(目前基于词库)。

自动实体的识别,默认支持:电子邮件,网址,大陆手机号码,地名,人名,货币等;词库中可以自定义各种实体并且再切分中返回。

Jcseg 快速体验:

终端测试:

cd 到 Jcseg 根目录。

ant all(或者使用 maven 编译)

运行:java -jar jcseg-core-{version}.jar

你将看到如下的终端界面

在光标处输入文本开始测试

+--------Jcseg chinese word tokenizer demo---------------+

|- @Author chenxin |

|- :seg_mode : switch to specified tokenizer mode. |

|- (:complex,:simple,:search,:detect,:delimiter,:NLP) |

|- :keywords : switch to keywords extract mode. |

|- :keyphrase : switch to keyphrase extract mode. |

|- :sentence : switch to sentence extract mode. |

|- :summary : switch to summary extract mode. |

|- :help : print this help menu. |

|- :quit : to exit the program. |

+--------------------------------------------------------+

jcseg~tokenizer:complex>>

相关专题
  • 下载地址
Java中文分词器(Jcseg) v2.6.2官方最新版