2014-06-24 4 views
1

저는 DocumentTermMatrix (DTM으로 약칭)에 코퍼스를 공급하여 용어 빈도를 얻으려고합니다. 그러나 DTM이 모든 용어를 유지하지 못하는 이유를 알 수 없습니다! 확인해보십시오.R DocumentTermMatrix가 100 미만의 결과를 잃었습니다.

A<-c(" 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107") 
B<-c(" 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107") 
C<-Corpus(VectorSource(c(A,B))) 
inspect(C) 

>A corpus with 2 text documents 
> 
>The metadata consists of 2 tag-value pairs and a data frame 
>Available tags are: 
> create_date creator 
>Available variables in the data frame are: 
> MetaID 
> 
>[[1]] 
> 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107 
> 
>[[2]] 
> 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107 

지금까지는 그렇게 좋았습니다.

하지만 지금은 DTM에 C를 공급하려고 시도하지만 반대쪽에는 나오지 않습니다! 참조 :

> dtm<-DocumentTermMatrix(C) 
> colnames(dtm) 
>[1] "100" "101" "102" "103" "106" "107" "108" "109" "110" 

여기서 모든 결과는 100보다 작습니까? 아니면 어떻게 든 2 문자일까요? 나는 또한 시도 :

dtm<-DocumentTermMatrix(C,control=list(c(1,Inf))) 

dtm<-TermDocumentMatrix(C,control=list(c(1,Inf))) 

를 아무 소용. 뭐라 구요?

답변

3

?TermDocumentMatrix 도움말 페이지를 읽으면 control= 옵션이 ?termFreq 도움말 페이지에 나열된 것을 볼 수 있습니다.

행렬에 사용 된 단어의 길이를 필터링하는 wordLengths 매개 변수가 있습니다. 기본값은 c(3,Inf)이므로 2 문자 단어는 제외됩니다. 짧은 단어를 포함 시키려면 값을 control=list(wordLengths=c(2,Inf)으로 설정하십시오. (제어 매개 변수를 전달할 때 목록의 매개 변수 이름을 지정해야합니다.)

+0

넵 ... 그게 해결되었습니다. 나는 체크 했나? DocumentTermMatrix,하지만 RStudio에서는 wordlengths에 대해 전혀 말하지 않는다! 명령에 대한 완전한 정보를 얻을 수있는 방법이 있습니까? –

+0

@AmitKohli 내가 말했듯이,? DocumentTermMatrix에는? termFreq 페이지를 가리키는 설명이 있습니다. 최상위 레벨 함수 중 하나가 저수준 함수를 호출하여 도움말 페이지에서 해당 함수의 모든 매개 변수를 반복하지 않고 해당 페이지를 가리킬 때 R에서 일반적입니다. 모든 섹션을 읽고 링크를 따라 가면됩니다. 당신이 컨트롤 = 값을 설정한다는 사실은 당신이 적어도 가까웠다 고 말해줍니다. – MrFlick

+0

나는 그것을 지금 본다. 정말로, 고마워요 ... 여분의 정보가 여분의 링크에 숨어 있다는 것을 몰랐습니다! –

관련 문제