나는 텍스트 마이닝 (tm
패키지)과 함께 findAssoc()
을 사용했지만 내 데이터 세트에서 뭔가 이상하게 보일 수 없음을 깨달았습니다.tm :: findAssocs의 수학 함수는 어떻게 작동합니까?
내 데이터 세트는 1500 개의 열린 응답으로 csv 파일의 한 열에 저장됩니다. 그래서이 데이터 집합을 호출하여 tm_map
을 사용하여 코퍼스로 만들었습니다.
library(tm)
Q29 <- read.csv("favoritegame2.csv")
corpus <- Corpus(VectorSource(Q29$Q29))
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus<- tm_map(corpus, removeWords, stopwords("english"))
dtm<- DocumentTermMatrix(corpus)
findAssocs(dtm, "like", .2)
> cousin fill ....
0.28 0.20
Q1. like
과 관련된 약관을 발견하면 출력물의 일부로 출력 like = 1
이 표시되지 않습니다. 그러나
dtm.df <-as.data.frame(inspect(dtm))
이 데이터 프레임은 1500 obs로 구성됩니다. (데이터가 CSV 파일의 행에 저장 되었기 때문에?)
Q2. 대상 용어 like
이 한 번 나타나면 cousin
과 fill
이 한 번 나타나지만 점수는 이와 같이 다릅니다. 그들은 같지 않아야합니까?
나는 findAssoc()
의 수학을 찾고 있지만 아직 성공하지는 못했습니다. 어떤 조언을 매우 높이 평가됩니다!
에는 "textmining"패키지 크랑에 없다 5.
참조하십시오
. 사용한 library() 또는 require() 호출을 포함하십시오. –@Dwin - 패키지 'tm'에있는 것 같습니다 - http://www.inside-r.org/packages/cran/tm/docs/findAssocs – thelatemail
@thelatemail - 편집 해 주셔서 감사합니다! – user1486507