为什么 tm 包里词都连起来了?

解决方案

不建议使用 tm 包。

建议使用 text2vec 包,版本大于 v0.4 对于中文有很好的支持。对于输入的文本,建议均使用 enc2utf8 保证输入的中文文本是 UTF-8 编码。

问题描述

不是分词包的问题,tm包可能对中文支持不太好,直接输入中文就会有这样子的情况,应该只在 Windows (各种编码问题….)上会有,Linux下没有这个问题。

library(tm)

xx<-c(
"进入", "一个", "平衡", "时代", "现在", "是", "住宅", "价格上涨",
"太快", "政府", "采用", "政策", "方式", "调控", "这些", "资金",
"就", "有", "往", "商业地产", "走", "的", "趋势", "因为", "商业地产",
"把", "自己", "划分", "到", "这", "一类", "去", "从", "职业",
"来说", "我", "可能", "是", "设计师", "医生", "老师", "记者",
"那", "我", "就", "做", "一个", "好", "的", "记者", "好", "的",
"医生", "这是", "社会", "上", "需要", "的", "现在", "这个", "时代",
"确实", "是", "一个", "特别", "好", "的", "时代", "也", "是")

corpus = Corpus(VectorSource(xx))
dtm_psy = TermDocumentMatrix(corpus)
tdm = DocumentTermMatrix(corpus,control = list(wordLengths = c(1, Inf)))
inspect(tdm)
Terms
Docs 20 30 
  奥运会\n 把\n 白领 北京市\n 背道而驰 本来 不\n 不大 不好 财经 采用
   1 0 0 0 0 0 0 0 0 0 0 0 0 0 0