저는 해리포터 7 권을 사용하여 텍스트 마이닝 프로젝트를 진행하고 있습니다. 책의 텍스트가 들어있는 R 패키지가 있습니다. 이 패키지에서 각 책은 벡터이고 각 장은 벡터에 포함 된 문자열입니다.미확인 공백
필자의 분석을 위해 문자열을 준비하는 동안 필자는 식별 할 수없는 공백 문자를 계속 실행하고 제거 방법을 알아낼 수 없습니다. 이는 다음 코드에 의해 설명된다 :
는require(devtools)
devtools::install_github("bradleyboehmke/harrypotter")
require(harrypotter)
temp <- substr(philosophers_stone[1], 0, 31)
temp
temp <- gsub(" ", "", temp)
temp
temp <- gsub("[\t\n\r\v\f]", "", temp)
temp
다음 코드의 출력은 같이
이temp <- substr(philosophers_stone[1], 0, 31)
temp
# [1] "THE BOY WHO LIVED Mr. and Mrs."
temp <- gsub(" ", "", temp)
temp
# [1] "THEBOYWHOLIVED Mr.andMrs."
temp <- gsub("[\t\n\r\v\f]", "", temp)
temp
# [1] "THEBOYWHOLIVED Mr.andMrs."
temp <- gsub(" ", "", temp)
temp
# [1] "THEBOYWHOLIVED Mr.andMrs."
이 사람이 나에게이 일이 무엇인지 알아낼 수 있습니다, 어떻게 내가 그것을 제거 할 수 있습니다 ?
'sessionInfo()'를 추가 할 수 있습니까? 버그에 플랫폼 종속성 문제가있는 것으로 보입니다. – MichaelChirico