2017-11-28 1 views
1

안녕하세요. 텍스트 마이닝을 시도하고 있습니다. R 버전 3.4.2 가져 오려고합니다. txt 파일을 VCorpus 명령을 사용하여 로컬 드라이브에서 가져옵니다. 실행 후 다음 코드를 그러나이R에서 인코딩을 수행하는 방법 및 아포스트로피 (') 대신에 왜 옴 (?)을 사용하고 해결하는 방법

cname <- file.path("C:", "texts") 
cname 
dir(cname) 
library(readr) 
library(tm) 
docs <- VCorpus(DirSource(cname)) 
summary(docs) 
inspect(docs[1]) 
writeLines(as.character(docs[1])) 

출력 : 음, 선거, 그것은 정말 잘 나왔다. 다음 번에 우리는 숫자를 세배로 늘릴 것입니다.

€ 원래 원래 상태로 변환 하시겠습니까? Rstudio 어떻게 원본을 변환 할 수 있습니까? 누군가가 나에게 사전에 덕분에 그들은 다양한 요인에 의존하기 때문에

답변

0

인코딩 문제 (로드하는 동안 파일 ecnoding, 인코딩 설정 등), 해결하기 쉽지 않은 도움이 경우

그것은 감사하겠습니다. 첫 번째 단계로 다음 행을 시도해 볼 수 있습니다. 운이 좋으면 문제를 해결할 수 있습니다.

Encoding(your_text) <- "UTF-8" 

그렇지 않으면, 다른 솔루션 (i18nqa.com에, 예를 들면,이 테이블 디버깅) stringistri_trans 패키지를 사용하거나 gsub(falsecharacter, desiredcharacter, fixed = TRUE) 통해 무력 잘못된 심볼을 대체 예 chekced되어야한다.

+0

고맙습니다. 저는 VCropus에서 지정 했으므로 인코딩 문제가 많았습니다. 하지만 이제는 또 다른 문제는 두 줄 따옴표를 가져 오는 동안 각 줄의 시작과 끝이 나오면 제거하는 방법을 알려주시겠습니까? – Premal

+0

새 질문으로 질문을 업데이트하십시오. 그냥 질문을 그대로두고 적용한 추가 작업 후에 얻는 것을 추가하십시오. –

+0

[새 질문] (https://stackoverflow.com/questions/47568667/why-getting-instead-of-space-in-r-while-import-text)을 보았습니다. 따라서 내 힌트는 인코딩은 "â €"에 관한 귀하의 문제를 해결했습니다. 따라서 제 대답을 수락하는 것을 고려하십시오. –

관련 문제