저는 DocumentTermMatrix (DTM으로 약칭)에 코퍼스를 공급하여 용어 빈도를 얻으려고합니다. 그러나 DTM이 모든 용어를 유지하지 못하는 이유를 알 수 없습니다! 확인해보십시오.R DocumentTermMatrix가 100 미만의 결과를 잃었습니다.
A<-c(" 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107")
B<-c(" 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107")
C<-Corpus(VectorSource(c(A,B)))
inspect(C)
>A corpus with 2 text documents
>
>The metadata consists of 2 tag-value pairs and a data frame
>Available tags are:
> create_date creator
>Available variables in the data frame are:
> MetaID
>
>[[1]]
> 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107
>
>[[2]]
> 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107
지금까지는 그렇게 좋았습니다.
하지만 지금은 DTM에 C를 공급하려고 시도하지만 반대쪽에는 나오지 않습니다! 참조 :
> dtm<-DocumentTermMatrix(C)
> colnames(dtm)
>[1] "100" "101" "102" "103" "106" "107" "108" "109" "110"
여기서 모든 결과는 100보다 작습니까? 아니면 어떻게 든 2 문자일까요? 나는 또한 시도 :
dtm<-DocumentTermMatrix(C,control=list(c(1,Inf)))
및
dtm<-TermDocumentMatrix(C,control=list(c(1,Inf)))
를 아무 소용. 뭐라 구요?
넵 ... 그게 해결되었습니다. 나는 체크 했나? DocumentTermMatrix,하지만 RStudio에서는 wordlengths에 대해 전혀 말하지 않는다! 명령에 대한 완전한 정보를 얻을 수있는 방법이 있습니까? –
@AmitKohli 내가 말했듯이,? DocumentTermMatrix에는? termFreq 페이지를 가리키는 설명이 있습니다. 최상위 레벨 함수 중 하나가 저수준 함수를 호출하여 도움말 페이지에서 해당 함수의 모든 매개 변수를 반복하지 않고 해당 페이지를 가리킬 때 R에서 일반적입니다. 모든 섹션을 읽고 링크를 따라 가면됩니다. 당신이 컨트롤 = 값을 설정한다는 사실은 당신이 적어도 가까웠다 고 말해줍니다. – MrFlick
나는 그것을 지금 본다. 정말로, 고마워요 ... 여분의 정보가 여분의 링크에 숨어 있다는 것을 몰랐습니다! –