텍스트 분석을 사용하고 있습니다. 나는 문장을 세어야했다. 내 코드 :R - 데이터 프레임에서 단어를 삭제하면 삭제됩니다.
library(dplyr)
library(tidytext)
txt <- readLines("consolidado.txt",encoding="UTF-8")
txt = iconv(txt, to="ASCII//TRANSLIT")
text_df <- data_frame(line = 1:392, text = txt)
palabras1 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 1)
palabras2 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 2)
palabras3 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 3)
palabras4 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 4)
palabras5 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 5)
palabras6 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 6)
palabras7 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 7)
먼저 데이터 프레임에서 txt를 변환하고 나중에 tidytext로 작업합니다. 이 작업은 좋지만 문제는 중지 단어입니다. 나는 데이터 프레임에서 멈춤 단어를 삭제하고 싶지만 방법은 모른다. 나는 그것을 코퍼스에서 변환하려고 시도했으나 나중에는 단어를 멈추지는 않지만 문장을 세지 못하기 때문에이 방법으로는 작동하지 않습니다.
데이터 프레임에서 정지 단어를 삭제할 수있는 방법이 있습니까 ???
일반적인 중지 단어를 제거하기위한 표준화 된 기능을 포함R
당신에게
''stop_words '로'anti_join'을하십시오 – akrun