2013-03-20 2 views
-1

한 단락의 입력 파일이 하나 있습니다. 그 단락에서 특정 단어의 빈도를 찾아야합니다.R에서 문장의 단어 빈도를 구하는 방법은 무엇입니까?

고양이 파일 :

Text Index 
train is good 1 
let the train come  5 
train is best 3 
i m great  3 
what is best 2 

코드 :

input<-read.table("file",sep="\t",header=TRUE) 
paragraph1<-input[1][1] 
word<-"train" 

나는 PARAGRAPH1 단어 "기차"의 주파수를 찾을 필요가있다. R을 사용하여 어떻게 얻을 수 있습니까?

+0

재현 예는 다음과 같습니다이의

를 많이는

이 포스터는 다음과 같은 유용한 발견 단락을 분리, 당신이 그것을에 읽는 방법, 가지 등을 들여 어떻게에 따라 달라집니다 잘 했어. 당신을 대신하여 약간의 노력도 좋습니다. – mnel

+0

여기서'readLines'가 더 유용 할 것입니다. – mnel

+0

위 예제는 더미 예제입니다. 나는 주파수를 찾을 필요가있는 하나의 변수 paragraph1을 가지고있다. 그래서 나는 파일을 읽는 동안 readlines을 사용할 수 없다. – Manish

답변

3

좀 더 자세한 정보를 주시면 아마도 더 많은 정보를 제공해 드릴 수 있습니다. 당신은 qdap을 할 수 사용 :

library(qdap) 

dat <- readLines(n=5) 
train is good 1 
let the train come  5 
train is best 3 
i m great  3 
what is best 2 

dat <- do.call(rbind.data.frame, strsplit(dat, " +")) 

colnames(dat) <- c("Text", "Index") 

termco(dat$Text, , " train ") 

## > termco(dat$Text, , " train ") 
## all word.count  train 
## 1 all   16 3(18.75%) 

당신은 아마 termco로 한 번에 모든 단락을 할 수 있습니다. termco에 대한 자세한 내용은 this link을 참조하십시오.

length(gregexpr("the", "the dog ate the word the", fixed = TRUE)[[1]])

+0

이유는 무엇일까요? 두 번째로 당신은 정말로 당신이 가지고있는 것, 당신이 원하는 것에 당신의 포스트에서 훨씬 더 명확해야합니다. 내 답변의 마지막 줄을 메모 해 주시고, 다음에 의견을 보내주십시오. –

+0

이유가 서버에 있습니다. R에 외부 패키지를 설치할 수있는 권한이 없습니다. – Manish

+0

도구'grepl'과'readLines'가 도움이 될 것입니다. –

관련 문제