이전 독점 데이터베이스에서 데이터를 읽습니다. 불행히도 Encoding(mychar_vector)
이 "unknown"
을 반환하는 것으로 끝납니다 (일부 문자열에만 해당). 불행히도 닫힌 소스 c hli
(호스트 언어 인터페이스)에 래퍼를 사용하고 있으므로 여기에 대해 할 수있는 일이 많지 않습니다. 그렇다면 여기서 잘못된 것으로 입증되기 때문에 기꺼이 ...인코딩을 알 수 없음에서 UTF-8 또는 R의 모든 인코딩으로 강제 설정 하시겠습니까?
문자열 벡터 확인해야 할 몇 가지 교체 (내 related question) 참조 문자열을 사용하여 gsub
확인하십시오. 내가 인코딩 re-gain 컨트롤 싶어요. 강제로 UTF-8 인코딩을 설정하는 방법이 있나요? 이 중 어느 것도 밖으로 일하지
Encoding(mychar_vector) <- "UTF-8"
# or
mychar_vector <- enc2utf8(mychar_vector)
에하지만. 그냥 또한 iconv
으로 보았다. 즉시 확인 후 답례로 "unknown"
있어 매핑이 없으므로 "알 수 없음"에서 UTF-8로 변환하는 방법은 분명 없습니다.
R에게 UTF-8 문자 만 관련되어 있으므로 인코딩을 UTF-8로 설정할 수있는 방법이 있습니까? 벡터의 일부 요소는 이미 UTF-8입니다.
어떤 OS를 사용하고 있습니까? (FWIW, 저는 Windows를 사용하고 있으며,이 또한 매우 실망 스럽습니다). –
RHEL 6.3의 OS X (10.7.5) 및 rstudio 서버 –
정확하게 동일한 문제가 있습니다. UTF-8로 변환 할 때 "알 수 없음"및 "UTF-8"목록을 얻습니다. 한자가 들어 있지 않은 문자열을 무시하는 것 같습니다. UTF-8로 인코딩되는 것은 한자가 들어있는 문자열입니다. – Sorlac837