일부 텍스트 마이닝을 수행하기 위해 R-tm-Rweka 패키지를 사용하고 있습니다. 한 번에 tf-tdm을 작성하는 대신 내 목적에 충분하지 않아서 ngram을 추출해야합니다. 나는 @Ben 함수 TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 3)) tdm <- TermDocumentMatrix(a, control = list(tokenize = TrigramTokenizer))
을 사용하여 트라이 그램을 추출했습니다. 출력에 명백한 오류가 있습니다 (아래 참조). 4, 3 및 2 단어 구문을 선택합니다. 이상적으로, 그것은 단지 4 단어 명사구를 집어 들고 (3 단어 및 2 단어) 나머지를 버려야합니다. 파이썬 NLTK에 백업 토큰 화인 옵션이있는 것처럼이 솔루션을 강제로 수행하는 방법은 무엇입니까?RWeka에서 백업 토크 나이저 스위치를 구현하는 방법은 무엇입니까?
추상적 인 전략 ->this is incorrect
>
추상 전략 보드 ->incorrect
추상 전략 보드 게임 -> this should be the correct output
액센추어 임원
액센추어 임원 간단한
액센추어 임원 간단한 코멘트
많은 감사합니다.
요약하면, 2 그램과 3 그램을하고 싶지 않습니까? –
말하기 : 먼저 4-gram을 시도한 다음 3 단어 창을 시도한 다음 2 단어 창을 시도하여 하나의 단어가 실패합니다. 그러나 가장 큰 관련 항목 만보고하십시오 (4-, 3-, 2 단어 구문을 반복하지 마십시오) – Pradeep