jiebaR 中文分词

自定义词典

可以自定义用户词库,推荐使用 深蓝词库转换 或者 分词词典工具 cidian 包 构建分词词库。它们可以快速地将搜狗细胞词库等输入法词库转换为jiebaR的词库格式。

show_dictpath()     ### 显示词典路径
edit_dict("user")   ### 编辑用户词典
?edit_dict()        ### 打开帮助系统

系统词典共有三列,第一列为词项,第二列为词频,第三列为词性标记。

用户词典有两列,第一列为词项,第二列为词性标记。用户词库默认词频为系统词库中的最大词频,如需自定义词频率,可将新词添加入系统词库中。

词典中的词性标记采用ictclas的标记方法。