PDF에서 OCR로 HTML로 변환 된 일부 문서가 있습니다. 이 때문에 컨버터가 엉망인 곳에서 무작위로 많은 유니 코드 구두점을 사용합니다 (예 : 도랑 등). 그들은 또한 정확하게 비영어권을 가지고 있지만 é와 러시아어 등의 알파벳 문자는 여전히 있습니다 ...유니 코드 비 알파벳 문자와 일치시키는 방법이 있습니까?
유니 코드 알파벳 문자와 일치하는 정규 표현식을 만드는 방법은 무엇입니까? 모든 언어)? 또는 영문자가 아닌 문자와 일치하는 문자입니까? 어느 쪽이든 정말 도움이 될 것입니다. 그게 바뀌면 Perl을 사용하고 있습니다. 감사!
마찬가지로 '\ P'를 사용하여 특정 속성이없는 * 문자 *와 일치시킬 수 있습니다 ('\ P {L} '은 문자가 아닌 문자와 일치합니다). –
일부 코드 포인트를 생략 한 문자 코드를 사용할 수 있습니까? \ p {P}와 마침표와 쉼표를 생략 하시겠습니까? 그 부정은 나를 위해 완벽 할 것입니다. – Eli