2012-08-16 4 views
3

몇 단어가 포함 된 문자열이 있습니다. 타밀어 유니 코드의 문자 만 포함 된 모든 단어를 찾고 싶습니다. 나는 자바 스크립트가 처음이다. 이동을 사용자바 스크립트에서 문자열의 유니 코드 언어를 감지합니다.

, 나는 같은과 같은 작업을 수행합니다

  tokens := strings.Fields(stringContent, delim) // split based on delim, say space 

      for _, token := range tokens { //like foreach 
       r, l := utf8.DecodeRuneInString(token) 
       if l != 1 { 
        if unicode.Is(unicode.Tamil, r) { 
         // Tamil word 
        } 
       } 
      } 

내가 자바 스크립트, 나에게 구분에 따라 각각의 단어를 줄 것이다 사항 String.split()를 발견했다. 그러나 단어가 UTF-8 타미어 단어인지 알아낼 방법이 없습니다. 누군가 나를 자바 스크립트에서 이룰 수 있습니까?

답변

9

쉬운 방법은 유니 코드 범위에서

희망 문자를 가진 단어를 정규 표현식 일치하는 것입니다이 도움이 : http://kourge.net/projects/regexp-unicode-block

당신이

"இந்தியா ASASAS எறத்தாழ ASSASAS குடியரசு ASWED SAASAS".match(/[\u0B80-\u0BFF]+/g); 
+0

을 시작할 수있는 샘플 내가 시도 :

+0

브래킷 하나를 놓치 셨습니다. 고정 코드를보십시오 : http://jsbin.com/oteyon/1/edit – Diode

+0

btw 내가 보여준 코드는 오직 전체 단어와 일치합니다. 타밀어 문자와 영어 문자가 섞인 단어를 찾으려면 reg exp를 수정해야합니다. – Diode

관련 문제