나는 다음과 같은 문자열에서 모든 한자를 제거하는 것을 시도하고있다 :문자열에서 모든 중국어 문자를 제거하려면 어떻게합니까?
x <- "2.87Y 1282501 12电网MTN4 AAA 4.40 /4.30* 2000、"
내가 어떻게 할 수 있습니까?
나는 다음과 같은 문자열에서 모든 한자를 제거하는 것을 시도하고있다 :문자열에서 모든 중국어 문자를 제거하려면 어떻게합니까?
x <- "2.87Y 1282501 12电网MTN4 AAA 4.40 /4.30* 2000、"
내가 어떻게 할 수 있습니까?
인터넷 검색을 시도한 결과 a page about Unicode character ranges이 발견되었습니다. CJK (중국어, 일본어, 한국어) 유니 코드 범위 중 일부를 살펴본 후에 모든 문자열이이 특정 문자열과 유사한 경우 다음 유니 코드 범위를 제거해야한다는 결론에 도달했습니다. gsub()
을 사용하여 한중일 통합 한자 CJK 기호에 대한
3000-303F
및 문장 부호에 대한
4E00-9FFF
, 우리가 할 수있는 gsub("[\U4E00-\U9FFF\U3000-\U303F]", "", x)
# [1] "2.87Y 1282501 12MTN4 AAA 4.40 /4.30* 2000"
데이터 :
x <- "2.87Y 1282501 12电网MTN4 AAA 4.40 /4.30* 2000、"
iconv
을 사용하여이 작업을 수행 할 수도 있습니다. 그러면 중국어, 일본어, 한국어 등 모든 비 ASCII 문자가 제거됩니다.
iconv(x, "latin1", "ASCII", sub="")
#[1] "2.87Y 1282501 12MTN4 AAA 4.40 /4.30* 2000"