Yelp Academic Dataset의 단어 목록이 있습니다. 모델의 피쳐 목록을 만들려고합니다. 이 목록에있는 각 단어의 유무를 나타내는 더미 변수를 갖고 싶습니다.변수 목록에서 피쳐 생성하기 R
예 :
상점을 소유 먹은 사람이 될 수있는만큼 달콤한 검토 . 쿠키 또는 아이스크림보다 예를 들어의 쿠키를 사용하면 자주 단어가 걸러지고 줄기를 갖게됩니다. 예를 들어, , 달콤한, 및 크림이 남았습니다. R이 hasOldish
, hasSweet
, hasIce
및 hasCream
에 대한 새 더미 변수를 자동으로 생성하기를 바랍니다.
이 방법이 있습니까?
정규 표현식 ('? regex')을 살펴보십시오. 그 외에도, 지금까지 생각해 보았던 몇 가지 예제 데이터와 코드가 없어도 도움을주는 것이 어렵습니다. – Thomas