2014-12-17 3 views
0

텍스트 파일을 사전 처리 한 다음 새 텍스트 파일로 다시 내보내려고합니다. 대부분의 경우, 꽤 정리되었지만 데이터 프레임에 숫자가 추가되는 것으로 나타났습니다. 원래 파일을 확인했는데 거기에 없으며 같은 번호 패턴 인 것 같습니다.데이터에 데이터를 추가하는 코퍼스

library(tm) 
aFile = readLines("C:/myfile.txt") 
aFile = gsub('[[:digit:]]+', '', aFile) 
aFile = gsub('[[:punct:]]+', '', aFile) 
myCorpus <- Corpus(VectorSource(aFile)) 
myCorpus <- tm_map(myCorpus, tolower) 
myCorpus <- tm_map(myCorpus, removePunctuation) 
myCorpus <- tm_map(myCorpus, removeNumbers) 
myCorpus <- tm_map(myCorpus, removeWords, stopwords("english")) 
myCorpus = Corpus(VectorSource(myCorpus)) 
dataframe <- data.frame(text=unlist(sapply(myCorpus, `[`)), stringsAsFactors=F) 
view(dataframe) 

나는 다른 도구를 사용하여 그 숫자를 출력에서 ​​제외했지만 처음에는 왜 포함되었는지에 관심이있었습니다. 원본 파일은 중요한 경우 ANSI로 인코딩되었습니다.

답변

1

이는 행 이름입니다. 당신은 당신이 사용 그렇게 할 수있는 파일을 쓸 때 당신이 그들을 제거하려면 :

write.table(dataFrame, "fileName.tbl", row.names = FALSE) 

또는 write.csv에서 같은 인수

. rownames (dataFrame) = NULL을 설정하면 data.frame을 인쇄 할 때 숫자 만 인쇄됩니다.

+0

나는 row.names = False를 시도했지만 여전히 거기에 넣었습니다. 이상한 점은 기본적으로 첫 번째 줄 (내가 원하는 것)을 나열한다는 것입니다. 다음 10 줄은 숫자 뒤에 "en"줄이옵니다. 두 번째 행은 다음과 같습니다. 이상한 점은이 숫자 그룹과 'en'은 같은 숫자이며 항상 게시하려는 각 행 사이에 속합니다. – user3890455

관련 문제