2012-01-24 2 views
5

나는 다음과 같은 정규식을 사용하여 히브리어 텍스트의 한 부분을 (원점 뉴스 사이트에 대한 의견입니다) 잡으려고 노력하고있어이 :Java에서 정규 표현식으로 히브리어를 캡처하는 방법은 무엇입니까?

[\u0590-\u05FF \\p{Graph} \\s]+ 

그것은 대부분의 의견을 작동하지만 몇 가지 코멘트를 놓칠 수 있습니다.

이 디버깅을 시도했는데 패턴과 일치하지 않는 히브리어가있는 것 같습니다.

나는

아이디어 ...이 편지를 추출하여 인쇄가 정수 값이 올바른 것 같다있어 여전히 정규식은 그것을 잡을하지 않는 경우?

+0

'Pattern.compile' 메소드에서'Pattern.UNICODE_CASE'를 사용합니까? –

+0

아니, 그럴까? – lribinik

+0

시도해 보라 :'Pattern p = Pattern.compile ("YOUR_REGEX", Pattern.UNICODE_CASE); ' –

답변

0

그것은 더 sematically 정확한 또한 구두점, 숫자 일치 (적어도, 세계 공통의 것) 및 공간의 다른 종류의 필요가 대신 \u0590-\u05FF

\p{InHebrew}를 사용하는 것입니다. 무엇이 \p{Graph}인지 알지 못하며 히브리어에 구두점이있는 기호가 있습니다.하지만 일부 부분을 놓친 것으로 보입니다.

관련 문제