2009-04-28 3 views
0

정규식을 사용하여 다음과 같이 서식이 지정되는 html 그룹을 추출하는 방법은 무엇입니까?regex를 사용하여 html 파일에서 질문 - 답변 데이터 그룹을 추출하는 방법은 무엇입니까?

.

. 
    .irrelevant html... 
    <b>Question 6</b><br> 

lots of text 
<p> 

lots of text 
<p> 
<br> 

<b>Answer 6</b><br> 
lots of text 
<p> 

lots of text 
<p> 

lots of text 
<p> 

more text 
<p> 
<HR> 

<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2> 
<p> 

<i>caption text</i> 

가변적 인 질문 - 답변 쌍이있을 수 있습니다. 그리고 이미지 코드는 어디에서나 (질문과 답변 사이 또는 대답 뒤에)있을 수 있습니다 ...

추출 할 정보는 질문 #, 텍스트 sans 단락 html 코드, Img src 및 alt 및 캡션.

+0

이 작업을 수행하는 특정 언어/환경이 있습니까? 또한 특정 파일에 대한 일회성 작업인지, 정기적으로 수행 할 작업인지, 입력의 일관성 여부는 무엇입니까? –

+0

안녕하세요 피터, 이것은 하나의 작업이며 완료됩니다 :) 350-400 페이지가 모두 매우 유사한 형식이고 내 파서는 95 %에서 작동합니다. 그리고 비슷한 페이지 수백 개가있는 다른 그룹을 위해 별도의 비슷한 파서도 개발했습니다. 임무 완수. –

+0

안녕하세요, 고든,이 질문에 대한 향후 독자의 이익을 위해 대답으로 사용한 파서를 게시 할 수 있습니까? –

답변

1

Watir과 같은 것을 사용해 볼 수도 있습니다. 그러면 프로그래밍 방식으로 dom을 검색하고 필요한 것을 찾을 수 있습니다.

관련 문제