2017-11-02 2 views

답변

3

인터넷 검색을 시도한 결과 a page about Unicode character ranges이 발견되었습니다. CJK (중국어, 일본어, 한국어) 유니 코드 범위 중 일부를 살펴본 후에 모든 문자열이이 특정 문자열과 유사한 경우 다음 유니 코드 범위를 제거해야한다는 결론에 도달했습니다. gsub()을 사용하여 한중일 통합 한자 CJK 기호에 대한

  • 3000-303F 및 문장 부호
  • 에 대한

    • 4E00-9FFF, 우리가 할 수있는

      gsub("[\U4E00-\U9FFF\U3000-\U303F]", "", x) 
      # [1] "2.87Y 1282501 12MTN4 AAA 4.40 /4.30* 2000" 
      

      데이터 :

      x <- "2.87Y 1282501 12电网MTN4 AAA 4.40 /4.30* 2000、" 
      
    3

    iconv을 사용하여이 작업을 수행 할 수도 있습니다. 그러면 중국어, 일본어, 한국어 등 모든 비 ASCII 문자가 제거됩니다.

    iconv(x, "latin1", "ASCII", sub="") 
    #[1] "2.87Y 1282501 12MTN4 AAA 4.40 /4.30* 2000" 
    
    관련 문제