2009-09-26 5 views
1

나는 추출 할 "날짜 : 2009-09-25, 동부 서머 타임 오후 1시 54분"이 웹 페이지XPath 표현식?

http://auburn.craigslist.org/sha/1392067187.html 

하지만 그것에 대해 XPath 식을 작성하는 방법을 이해하지 않습니다에서.

누구든지 저를 도울 수 있습니까?

이 페이지에서도 다른 필드를 사용 중입니다.

+2

해당 페이지가 XML과 호환되지 않는 것 같습니다. 따라서 XPath는 큰 도움이되지 않을 것입니다. –

답변

1

TIDY 또는 다른 프로세스를 통해 HTML을 실행하여 XHTML로 변환하고 있습니까? 또는 어떻게 그 HTML에 대해 XPATH를 실행할 수 있습니까?

그것은 문서의 첫 번째 HR 요소를 발견
/html/body/hr[1]/following-sibling::text()[1] 

는, 다음 다음 첫 번째 텍스트() 노드를 선택 : 문서가을 잘 형성하는 경우

는, 그때는 아마 다음 XPATH를 사용할 수 있습니다 ("Date : 2009-09-25, 1:54 PM EDT"

+0

감사합니다. 내 문제. –

2

왜 아래와 같은 정규식을 실행하지 않으시겠습니까?

'날짜 : \는 + ([0-9] {4} - [0-9] {2} - [0-9] {2} +는 \ <.?)이야'

그것은에 솔기 가장 쉬운 방법입니다. 순수 텍스트를 사용하고 싶지 않다면 regexps (fn : matches)를 지원하는 XPath 2.0을 사용할 수 있습니다.