介绍
"结巴"中文分词的R语言版本,支持四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。
特性
- 支持 Windows,Linux,Mac 操作系统。
- 通过 Rcpp 实现同时加载多个分词系统,可以分别使用不同的分词模式和词库。
- 支持多种分词模式、中文姓名识别、关键词提取、词性标注以及文本Simhash相似度比较等功能。
- 支持加载自定义用户词库,设置词频、词性。
- 同时支持简体中文、繁体中文分词。
- 支持自动判断编码模式。
- 较原"结巴"中文分词和其他 R 分词包速度快。
- 安装简单,无需复杂设置。
- 可以通过Rpy2,jvmr等被其他语言调用。
- 基于MIT协议。