이전에 어떤 질문도 찾을 수 없으므로 도움을 받으실 수 있습니다.R : tm package, aggregate/join docs
메타 데이터 (예 : 다른 작성자의 집합 텍스트)를 기반으로 tm 코퍼스의 데이터를 집계하는 좋은 방법은 무엇입니까? TM에서
- 내장 된 기능, DocumentTermMatrix는 메타 데이터 기능을 구축 할 수 있도록합니다 :
는 그것을 할 수있는 두 개 이상의 확실한 방법이 있습니다. 불행히도 나는 이것을 밝힐 수 없었다.
- 테이블의 일부 외부 메타 데이터를 기반으로 코퍼스 내 문서를 조인하는 방법입니다. 그것은 단지 문서 ID를 대체하기 위해 메타 데이터를 사용합니다. DocumentId,
AUTHORNAME
그리고 문서의 양을 포함하는 TM 구축 된 코퍼스 :
그래서 당신은 포함하는 테이블을 가질 것이다. 코퍼스 객체의 메타 데이터로 테이블을 도입하는 것이 어렵지 않다는 것을 알고 있습니다.
매트릭스는 다음 기능을 사용하여 만들 수 있습니다.
library(tm) # version 0.6, you seem to be using an older version
corpus <-Corpus(DirSource("/directory-with-texts"),
readerControl = list(language="lat"))
metadata <- data.frame(DocID, Author)
#A very crude way to enter metadata into the corpus (assumes the same sequence):
for (i in 1:length(corpus)) {
attr(corpus[[i]], "Author") <- metadata$Author[i]
}
a_documenttermmatrix_by_DocId <-DocumentTermMatrix(corpus)
각 작성자가 문서 대신 여러 문서를 집계 할 수있는 빈도를 보여주는 매트릭스를 어떻게 작성 하시겠습니까? 이 단계에서이 작업을 수행하는 것이 좋을 것입니다. 몇 가지 조건만으로 후 처리 작업을 수행하는 것이 아닙니다.
a_documenttermmatrix_by_Author <- ?
감사합니다.