0
텍스트 파일을 사전 처리 한 다음 새 텍스트 파일로 다시 내보내려고합니다. 대부분의 경우, 꽤 정리되었지만 데이터 프레임에 숫자가 추가되는 것으로 나타났습니다. 원래 파일을 확인했는데 거기에 없으며 같은 번호 패턴 인 것 같습니다.데이터에 데이터를 추가하는 코퍼스
library(tm)
aFile = readLines("C:/myfile.txt")
aFile = gsub('[[:digit:]]+', '', aFile)
aFile = gsub('[[:punct:]]+', '', aFile)
myCorpus <- Corpus(VectorSource(aFile))
myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus, removeWords, stopwords("english"))
myCorpus = Corpus(VectorSource(myCorpus))
dataframe <- data.frame(text=unlist(sapply(myCorpus, `[`)), stringsAsFactors=F)
view(dataframe)
나는 다른 도구를 사용하여 그 숫자를 출력에서 제외했지만 처음에는 왜 포함되었는지에 관심이있었습니다. 원본 파일은 중요한 경우 ANSI로 인코딩되었습니다.
나는 row.names = False를 시도했지만 여전히 거기에 넣었습니다. 이상한 점은 기본적으로 첫 번째 줄 (내가 원하는 것)을 나열한다는 것입니다. 다음 10 줄은 숫자 뒤에 "en"줄이옵니다. 두 번째 행은 다음과 같습니다. 이상한 점은이 숫자 그룹과 'en'은 같은 숫자이며 항상 게시하려는 각 행 사이에 속합니다. – user3890455