문자열에서 모든 중국어 문자를 제거하려면 어떻게합니까?

나는 다음과 같은 문자열에서 모든 한자를 제거하는 것을 시도하고있다 :문자열에서 모든 중국어 문자를 제거하려면 어떻게합니까?

x <- "2.87Y 1282501 12电网MTN4 AAA 4.40 /4.30* 2000、"

내가 어떻게 할 수 있습니까?

출처

2017-11-02 Huimin Peng

인터넷 검색을 시도한 결과 a page about Unicode character ranges이 발견되었습니다. CJK (중국어, 일본어, 한국어) 유니 코드 범위 중 일부를 살펴본 후에 모든 문자열이이 특정 문자열과 유사한 경우 다음 유니 코드 범위를 제거해야한다는 결론에 도달했습니다. gsub()을 사용하여 한중일 통합 한자 CJK 기호에 대한

3000-303F 및 문장 부호

에 대한

4E00-9FFF, 우리가 할 수있는

gsub("[\U4E00-\U9FFF\U3000-\U303F]", "", x) 
# [1] "2.87Y 1282501 12MTN4 AAA 4.40 /4.30* 2000"

데이터 :

x <- "2.87Y 1282501 12电网MTN4 AAA 4.40 /4.30* 2000、"

출처

2017-11-02 06:37:39

iconv을 사용하여이 작업을 수행 할 수도 있습니다. 그러면 중국어, 일본어, 한국어 등 모든 비 ASCII 문자가 제거됩니다.

iconv(x, "latin1", "ASCII", sub="") 
#[1] "2.87Y 1282501 12MTN4 AAA 4.40 /4.30* 2000"

출처

2017-11-02 10:29:44 Santosh

문자열에서 모든 중국어 문자를 제거하려면 어떻게합니까?

답변

관련 문제