정규식을 사용하여 다음과 같이 서식이 지정되는 html 그룹을 추출하는 방법은 무엇입니까?regex를 사용하여 html 파일에서 질문 - 답변 데이터 그룹을 추출하는 방법은 무엇입니까?
.
.
.irrelevant html...
<b>Question 6</b><br>
lots of text
<p>
lots of text
<p>
<br>
<b>Answer 6</b><br>
lots of text
<p>
lots of text
<p>
lots of text
<p>
more text
<p>
<HR>
<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2>
<p>
<i>caption text</i>
가변적 인 질문 - 답변 쌍이있을 수 있습니다. 그리고 이미지 코드는 어디에서나 (질문과 답변 사이 또는 대답 뒤에)있을 수 있습니다 ...
추출 할 정보는 질문 #, 텍스트 sans 단락 html 코드, Img src 및 alt 및 캡션.
이 작업을 수행하는 특정 언어/환경이 있습니까? 또한 특정 파일에 대한 일회성 작업인지, 정기적으로 수행 할 작업인지, 입력의 일관성 여부는 무엇입니까? –
안녕하세요 피터, 이것은 하나의 작업이며 완료됩니다 :) 350-400 페이지가 모두 매우 유사한 형식이고 내 파서는 95 %에서 작동합니다. 그리고 비슷한 페이지 수백 개가있는 다른 그룹을 위해 별도의 비슷한 파서도 개발했습니다. 임무 완수. –
안녕하세요, 고든,이 질문에 대한 향후 독자의 이익을 위해 대답으로 사용한 파서를 게시 할 수 있습니까? –