R语言做文本挖掘Part4文本分类

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› R语言›R语言教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

Part4文本分类

Part3文本聚类提到过。与聚类分类的简单差异。

那么，我们需要理清训练集的分类，有明白分类的文本；測试集，能够就用训练集来替代。预測集，就是未分类的文本。是分类方法最后的应用实现。

1. 数据准备

训练集准备是一个非常繁琐的功能，临时没发现什么省力的办法，依据文本内容去手动整理。这里还是使用的某品牌的官微数据，依据微博内容。我将它微博的主要内容分为了：促销资讯（promotion）、产品推介（product）、公益信息（publicWelfare）、生活鸡汤（life）、时尚资讯（fashionNews）、影视娱乐（showbiz）。每一个分类有20-50条数据。例如以下可看到训练集下每一个分类的文本数目，训练集分类名为中文也没问题。

训练集为hlzj.train，后面也会被用作測试集。

预測集就是Part2里面的hlzj。

> hlzj.train <-read.csv("hlzj_train.csv",header=T,stringsAsFactors=F)

> length(hlzj.train)

[1] 2

> table(hlzj.train$type)

fashionNews life product

27 34 38

promotion publicWelfare showbiz

45 22 36

> length(hlzj)

[1] 1639

2. 分词处理

训练集、測试集、预測集都须要做分词处理后才干进行兴许的分类过程。

这里不再具体说明，过程类似于Part2中讲到的。

训练集做完分词后hlzjTrainTemp。之前对hlzj文件做过分词处理后是hlzjTemp。

然后分别将hlzjTrainTemp和hlzjTemp去除停词。

> library(Rwordseg)

加载须要的程辑包：rJava

# Version: 0.2-1

> hlzjTrainTemp <- gsub("[0-9０１２３４５６７８９ < > ~]","",hlzj.train$text)

> hlzjTrainTemp <-segmentCN(hlzjTrainTemp)

> hlzjTrainTemp2 <-lapply(hlzjTrainTemp,removeStopWords,stopwords)

>hlzjTemp2 <-lapply(hlzjTemp,removeStopWords,stopwords)

3. 得到矩阵

在Part3中讲到了。做聚类时要先将文本转换为矩阵，做分类相同须要这个过程。用到tm软件包。先将训练集和预測集去除停词后的结果合并为hlzjAll，记住前202（1:202）条数据是训练集，后1639（203:1841）条是预測集。获取hlzjAll的语料库，而且得到文档-词条矩阵。将其转换为普通矩阵。

> hlzjAll <- character(0)

> hlzjAll[1:202] <- hlzjTrainTemp2

> hlzjAll[203:1841] <- hlzjTemp2

> length(hlzjAll)

[1] 1841

> corpusAll <-Corpus(VectorSource(hlzjAll))

> (hlzjAll.dtm <-DocumentTermMatrix(corpusAll,control=list(wordLengths = c(2,Inf))))

<<DocumentTermMatrix(documents: 1841, terms: 10973)>>

Non-/sparse entries: 33663/20167630

Sparsity : 100%

Maximal term length: 47

Weighting : term frequency (tf)