jiebaR 中文分词
1
简介
1.1
遇到了问题?
1.2
旧版文档
2
安装
2.1
CRAN 版
2.2
最新版
3
分词
3.0.1
对文本分词
3.0.2
分行输出 $bylines
3.0.3
保留符号 $symbol
3.0.4
添加新词到已经新建的分词器中 new_user_word()
3.0.5
添加停止词 worker(stop_word = “…”)
3.0.6
对文件进行分词 - 使用 readLines 和 writeLines
3.0.7
对文件进行分词 - 自动检测路径
3.0.8
关闭自动检测路径 $write = “NOFILE”
4
worker() 初始化参数
4.0.1
type
4.0.2
dict 系统词典
4.0.3
user 用户词典
4.0.4
user_weight
4.0.5
idf IDF词典
4.0.6
stop_word 关键词用停止词库
4.0.7
write 写入文件
4.0.8
qmax 最大索引长度
4.0.9
topn 关键词数
4.0.10
encoding 输入文件编码
4.0.11
detect 检测编码
4.0.12
symbol 保留符号
4.0.13
lines 读取行数
4.0.14
output 输出路径
4.0.15
bylines 按行输出
5
标记和关键词
5.0.1
标记
5.0.2
关键词
5.0.3
Simhash 与海明距离
5.0.4
tobin 进行 Simhash 数值的二进制转换。
5.0.5
词频统计 freq()
5.0.6
生成 IDF 文件 get_idf()
6
其他常用包
6.0.1
cidian
6.0.2
text2vec
6.0.3
ropencc
6.0.4
wordcloud2
7
常见问题
7.0.1
为什么 tm 包里词都连起来了?
7.0.2
空行警告
Build with R bookdown
jiebaR 中文分词文档
2
安装