2011-05-07 3 views
1

나는 그리스어와 영어 (라틴어) 텍스트를 포함하는 문자열을 처리합니다. 정규식을 사용하여 4 개 이상의 문자가 포함 된 그리스어 단어를 모두 찾으려고합니다.숫자로 그리스 문자 Regexp

regexp 매뉴얼을 사용하여 4+ 문자 단어를 얻기 위해 \ p {Greek}를 사용하여 모든 그리스어 단어와 \ w {4,}를 사용할 수 있다고 생각합니다. 그러나,이 두 가지는 내가 만든 다양한 테스트에서 함께 작동하지 않습니다.

1 regexp 표현식을 사용하여 원하는 것을 수행 할 수있는 방법이 있습니까? 문자열은 UTF-8이며 트윗에서 나옵니다.

감사합니다.

+0

무엇이 실패했는지 보여주십시오. 나는이 표현 (afaict'\ w {4,}는'\ p {Greek}'을 전문적으로 다루기 때문에 왜 둘을 필요로 하는가?)을 조합 할 필요가 있다는 생각에 빠져있다. – sehe

답변

3

UTF-8 패턴 한정자를 사용하고 있습니까?

/\p{Greek}{4,}/u 
+0

고마워, 잘 작동한다. –