2012-06-27 5 views
0

HTML 민첩성 팩을 사용하여 HTML 페이지를 구문 분석하려고합니다. 내 문제는 HAP을 사용하여 각 페이지에서 페이지 뷰 수를 구문 분석하고 표시해야한다는 것입니다. 내가 3 페이지를 가지고 있다고 가정 해보자. 각 페이지에는 div 또는 span 또는 임의의 위치에있는 테이블의 페이지 뷰 수가 포함됩니다. 솔직히 말해서 고정 된 위치가 없으며 페이지 뷰가 포함 된 태그가있는 위치를 찾기가 어렵습니다. 예를 들어 HTML 태그를 구문 분석하는 방법은 무엇입니까?

,

In Page 1 
<!--Some content--> 
<div>12 Page views</div> 
<!--Some content--> 

In Page 2 
<!--Some content--> 
<span>11 Page views</span> 
<!--Some content--> 

In Page 3 
<!--Some content--> 
<table><tr><td><!--Some content--></td></tr> 
<tr><td>3 Page views only</td></tr></table> 
<!--Some content--> 

나는 위의 태그의 수를 찾아야합니다. 형식은 다음과 같을 수 있습니다.

<no> Page views 
<no> Page views Only 
<no> Page view till now 
etc... 

아무도 콘텐츠를 구문 분석 할 수있는 방법을 제안 할 수 있습니까?

+1

"[0-9] + Page view [s]? (지금까지만) {0,1}"또는 이와 비슷한 형식일까요? 그리고 귀하의 콘텐츠의 일부가 아닌 verfify ... – astreal

+0

태그의 텍스트는 표준입니까? "페이지 뷰", "페이지 뷰 전용"등과 같이 유지됩니다. –

+0

WPF 태그가이 질문에 추가 된 이유는 무엇입니까? – akjoshi

답변

0

문제점에 대한 해결책이 있습니다. 글로벌 솔루션이 아니라 지금 나를 위해 일하고 있습니다. 희망은 다른 사람들을 도울지도 모른다.

+0

"페이지 뷰"를 저장하고있는 특정 ID 또는 클래스를 태그에 할당하려고 시도한 다음 해당 ID/클래스를 가져 와서 텍스트를 검색 할 수 있습니다. –

+0

@ ebad86 코멘트 주셔서 감사합니다. 외부 사이트에서 콘텐츠를 가져오고 있으며 액세스 권한이 없습니다. 해당 사이트에서 제공하는 콘텐츠를 읽으려고합니다. – Matt

관련 문제