2014-02-26 4 views
1

Yelp Academic Dataset의 단어 목록이 있습니다. 모델의 피쳐 목록을 만들려고합니다. 이 목록에있는 각 단어의 유무를 나타내는 더미 변수를 갖고 싶습니다.변수 목록에서 피쳐 생성하기 R

예 :

상점을 소유 먹은 사람이 될 수있는만큼 달콤한 검토 . 쿠키 또는 아이스크림보다 예를 들어의 쿠키를 사용하면 자주 단어가 걸러지고 줄기를 갖게됩니다. 예를 들어, , 달콤한, 및 크림이 남았습니다. R이 hasOldish, hasSweet, hasIcehasCream에 대한 새 더미 변수를 자동으로 생성하기를 바랍니다.

이 방법이 있습니까?

+0

정규 표현식 ('? regex')을 살펴보십시오. 그 외에도, 지금까지 생각해 보았던 몇 가지 예제 데이터와 코드가 없어도 도움을주는 것이 어렵습니다. – Thomas

답변

1

@ 토마스에 의해 댓글을 달았습니다. 무언가를 시도하거나 적어도 시도한 것을 보여줘야합니다. 여기서는 tm 패키지를 사용하고 있습니다.

txt <- "The oldish man who owns the store is as sweet as can be. Perhaps sweeter than the cookies or ice cream " 

library(tm) 
## create a corpus 
dd = Corpus(VectorSource(txt)) 
scanner <- function(x) unlist(strsplit(x," ")) 
## define controls 
## scanner to split words 
## and dictionary since you ar looking only for special words 
ctrl <- list(tokenize = scanner, 
      stemming = TRUE, 
      dictionary=c('oldish','sweet','ice','cream')) 
termFreq(dd[[1]], control = ctrl) 

oldish sweet ice cream 
    1  1  1  1 
attr(,"class") 
[1] "term_frequency" "integer" 
+0

내 문제를 올바르게 해석했습니다. 이것은 제가 언급하고있는 상황입니다. – duber