사이트를 구문 분석하려고하지만 HTML은 엉망입니다. 구문 분석 사이트에서 더 많은 경험을 가진 사람이 나를 도울 수 있습니까?node.js로 이상한 html 구문 분석
<tr>
<td><font FACE=Tahoma color='#CC0000' size=2><b>Date</b></font></td>
<td><font FACE=Tahoma color='#CC0000' size=2><b>Place</b></font></td>
<td><font FACE=Tahoma color='#CC0000' size=2><b>Situation</b></font></td>
</tr>
<tr><td rowspan=2>16/09/2011 10:11</td><td>New York</td><td><FONT COLOR="000000">Situation Red</font></td></tr>
<tr><td colspan=2>Optional comment hello new york</td></tr>
<tr><td rowspan=2>16/09/2011 10:08</td><td>Texas</td><td><FONT COLOR="000000">Situation Green</font></td></tr>
<tr><td colspan=2>Optional comment hello texas </td></tr>
<tr><td rowspan=1>06/09/2011 13:14</td><td>California</td><td><FONT COLOR="000000">Yellow Situation</font></td></tr>
</TABLE>
이상한 미친 것은 또한 시작점 (캘리포니아) 코멘트를 해달라고하지 테이블의 머리에있는 주석입니다. 그래서, 이렇게 될 것입니다 항상 시작점 :
날짜 : 2011년 6월 9일 13시 14분
장소 : 캘리포니아
상황 : 노란색 상황
댓글 : null
개다른 모든 장소는 의견을 가지고 다음과 같이 될 것입니다 :
날짜 : 16/09/2011 10시 11분
장소 : 뉴욕
상황 : 상황 레드
댓글 : 선택적 hello new york.
몇 가지 접근법을 시도했지만, node.js에 대한 경험이 많지 않고 HTML 구문 분석에 대한 경험이 적습니다. 나는 미친 것들을 파싱하기 시작해야한다.
시도 : HTTPS : (tidy.js로 저장하는 경우)
예 : 여기
은 깔끔한 통해 HTML을 실행하는 모듈이다 //github.com/tautologistics/node-htmlparser – mikeycgto