2011-10-10 3 views
3

나는 perl로 구문 분석하고자하는 커다란 평범한 텍스트 문서를 가지고있다. 각 문서는 대부분 영어 문단을 포함하고 있으며, 각 문서에 표를 한 장씩 일반 텍스트로 표시합니다.문서에서 표를 추출하려면 Parse :: RecDescent 또는 Regexp :: Grammars를 사용해야합니까?

테이블 구조를 설명하는 문법을 만들었지 만 Parse :: RecDescent 또는 Regexp :: Grammars를 사용하여 테이블을 추출하는 것이 가장 적합한 지 확신 할 수 없습니다.

처음에는 Parse :: RecDescent쪽으로 기울어졌지만 무시하고 싶은 문서 텍스트의 90 %를 어떻게 처리 할 것인지 문법에서 확신하지 못합니다. 원하는 두 개의 테이블을 찾으려면 추출물은 각 문서 안에 묻혀 있습니다.

어쩌면 Regexp :: Grammars가 필요하므로 일치를 찾을 때까지 문서를 통해 내 표현을 "끌어 올"수 있습니까?

감사

답변

1

정규 표현식 : 문법은이 문서를 통해 문법을 끌어와 정규 표현식처럼 일치를 찾을 수 있습니다으로 내가 원했던 것입니다. Parse :: RecDescent는 문서를 스캔하여 문법과 일치하는 텍스트 만 찾는 데는 적합하지 않습니다.

관련 문제