Java에서 유니 코드 텍스트에 대한 정규식을 작성하고 있습니다. 그러나 내가 사용하고있는 특정 스크립트 (Deanagari (0900 - 097F))에는 단어 경계에 문제가 있습니다. \ b는 공백 문자처럼 취급되는 종속 모음 인 (093E-094C와 같은) 문자와 일치합니다. b에 대한 정규 표현식
예 : 가정하자 내가 문자열을 가지고 : "कमल कमाल कम्हल कम्हाल"2 단어 'मा'가 결합 म 및 ा (공백 문자로 인식)에 의해 형성되는 것이 참고. 마찬가지로 마지막 단어. 이것은 \ b가 'कमाल'의 'ल'를 정규 표현식 \ b \ w \ b와 일치하도록합니다.이 정규식은 언어에 따라 올바르지 않습니다.
예제가 도움이되기를 바랍니다.
특정 문자와 일치하지 않는다는 점을 제외하면 \ b와 (와) 같이 동작하는 일반 표현식을 작성할 수 있습니까? 모든 의견은 감사 할 것입니다.
예제를 제공 할 수 있습니까? – Gumbo
예를 추가했습니다. 나는 그것이 의미가 있기를 바랍니다. –
[^] (범위 내에 있지 않음) 표현식을 사용하여 수행 할 수 있습니까? –