2013-03-20 1 views
11

이전 독점 데이터베이스에서 데이터를 읽습니다. 불행히도 Encoding(mychar_vector)"unknown"을 반환하는 것으로 끝납니다 (일부 문자열에만 해당). 불행히도 닫힌 소스 c hli (호스트 언어 인터페이스)에 래퍼를 사용하고 있으므로 여기에 대해 할 수있는 일이 많지 않습니다. 그렇다면 여기서 잘못된 것으로 입증되기 때문에 기꺼이 ...인코딩을 알 수 없음에서 UTF-8 또는 R의 모든 인코딩으로 강제 설정 하시겠습니까?

문자열 벡터 확인해야 할 몇 가지 교체 (내 related question) 참조 문자열을 사용하여 gsub 확인하십시오. 내가 인코딩 re-gain 컨트롤 싶어요. 강제로 UTF-8 인코딩을 설정하는 방법이 있나요? 이 중 어느 것도 밖으로 일하지

Encoding(mychar_vector) <- "UTF-8" 
# or 
mychar_vector <- enc2utf8(mychar_vector) 

에하지만. 그냥 또한 iconv으로 보았다. 즉시 확인 후 답례로 "unknown"있어 매핑이 없으므로 "알 수 없음"에서 UTF-8로 변환하는 방법은 분명 없습니다.

R에게 UTF-8 문자 만 관련되어 있으므로 인코딩을 UTF-8로 설정할 수있는 방법이 있습니까? 벡터의 일부 요소는 이미 UTF-8입니다.

+0

어떤 OS를 사용하고 있습니까? (FWIW, 저는 Windows를 사용하고 있으며,이 또한 매우 실망 스럽습니다). –

+0

RHEL 6.3의 OS X (10.7.5) 및 rstudio 서버 –

+0

정확하게 동일한 문제가 있습니다. UTF-8로 변환 할 때 "알 수 없음"및 "UTF-8"목록을 얻습니다. 한자가 들어 있지 않은 문자열을 무시하는 것 같습니다. UTF-8로 인코딩되는 것은 한자가 들어있는 문자열입니다. – Sorlac837

답변

0

I는 UTF-8 제대로, 내가 강제로 간단하게 내 rmarkdown 노트북에 bash는 스크립트를 실행하여 파일을 변환하는 데 큰 성공의 iconv 사용한 인코딩하지 않은 파일을 처리 한 경우 :

iconv -c -t UTF-8 myfile.txt > Ratebeer-myfile.txt 

당신에게

file -I file-iconv.txt 
:

#iconv −f iso−8859−1 −t UTF−8 file.txt > file-iconv.txt 

과 함께 인코딩을 확인합니다 파일이 원본 파일이며, 파일의 iconv가 수정 된 파일입니다이 시도해 볼 수도 있습니다

도움이되는지 알려주세요.

관련 문제