jiebaR 中文分词

系统词典与用户词典

可以动态地建立分词器:

worker( dict="系统词典,先加载,可以设置词频", 
        user="用户词典,系统词典加载后加载,所有词的词频为系统词典的最大词频")

如果需要添加词,直接打开记事本,然后一行输入一个词,就可以了。输入完以后,需要重新加载worker,设置 user=”刚才设置的文本文件的路径”。

TIPS:v0.8 版本将增加多用户词库功能,以及在原有 worker 上动态增加新词,而不需要加载的功能。v0.8 版本暂未发布。

用户词典不需要设置词频,是因为很有可能,用户也不太清楚一个词的词频是什么,但是加入用户词典的词,很有可能是要切分出来的,所以默认设置最大词频,保证这个词能够最大程度地被切出来,如果需要设置词频,可以把词加入到系统词典里。

TIPS:在 v0.8 版本,用户词典将可以设置词频。

比如user词库,在 C:/user.txt

北京大学
清华大学

新建分词器 cutter1 = worker(user = “C:/user.txt”)

如果需要再加入几个大学,打开这个文件:

北京大学
清华大学
浙江大学

新建分词器 cutter2 = worker(user = “C:/user.txt”)

这样,R 运行时里就有两个分词器,可以动态地调用你想用的,对比不同分词器的结果。