2013-01-10 4 views
1

이 다음과 같이 저자는 페이지의 모든 이미지의 컬렉션을 가져옵니다 page scraping tutorial 다음은XmlArrow를 사용하여 페이지에서 n 번째 요소 가져 오기?

css :: ArrowXml a => String -> a XmlTree XmlTree 
css tag = multi (hasName tag) 

images tree = tree >>> css "img" >>> getAttrValue "src" 

어떻게 만 얻을 수있는 말, 페이지의 두번째 이미지를? XmlArrow docsgetElementAt :: Int -> blah과 같은 기능을 찾을 수 없습니다.

감사합니다.

+0

멋진 기사! 어떻게 HXT가 조작 된 html을 처리하는지 궁금합니다. –

+1

'withParseHTML' 옵션과 함께 제공되면 잘 처리되는 것처럼 보입니다 ... http://hackage.haskell.org/packages/archive/hxt/latest/doc/html/Text-XML-HXT-Arrow-XmlState. html # v : withParseHTML – drozzy

답변

2

요소 목록을 조작하는 함수는 ArrowList 유형 클래스에서 찾을 수 있습니다.

이 경우에는 >>. 연산자를 사용하여 일반 목록 함수를 사용하여 결과 목록을 변환 할 수 있습니다.

nthImage n tree = images tree >>. (take 1 . drop n) 
관련 문제