대용량의 텍스트 (단일 문자열)에서 사용한 정규식 패턴이 있습니다. 원래 텍스트의 여러 연속되지 않은 영역은 정규 표현식과 일치합니다. 이제는 상태 머신을 작성하고, 텍스트를 반복하고, 위치에서 char을 기반으로 다른 작업을 수행하고,이 위치가 정규식 일치 범위 내에 있는지 확인하려고합니다.Python 정규식 : 문자열의 문자가 정규식 일치 하위 문자열의 범위 내에 있는지 확인하는 방법은 무엇입니까?
RE.finditer (text)를 사용하면 모든 부분 문자열을 찾아 범위를 추출 할 수 있으므로 예를 들어 작업 할 튜플 목록이 있습니다.
(1, 5) (10, 15) (20, 55), 등
내 문자열의 문자의 인덱스에 대해,이 정보로, I보고하는 알고리즘을 작성할 수있다 그 문자가 정규식 문자열의 일부인 경우. 예를 들어, 주어진 문자 6, 나는 스팬 목록을 검토하여 일치하는 하위 문자열의 일부가 아닌지 결정할 수 있습니다.
더 좋은 방법이 있나요? 사전에
감사합니다,
JW
구문 분석기 FSM을 쓰고 싶습니다. (otehr 것 중에서) 토큰 화합니다. com ma 문자를 사용할 수 있습니다. 문법뿐만 아니라 * antlr/lex *가 FSM을 만들도록 자신의 상태 기계를 쓰고 싶습니까? – smci
예, 내 lex/yacc가 약간 퍼지다. :). – wk1989
필요한 모든 것이 식별자 안에 쉼표로 이스케이프 된 것과 일치하는 정규식 인 경우 파서 FSM을 작성할 필요가 없습니다. 이제는 모든''bbbb /, ccccc' *를 하나의 토큰 또는 3 개로 캡처하고 싶습니까? – smci