2012-06-18 4 views
2

정보를 추출합니다. C (Plain C, C#, C++가 아닙니다.) 이유를 알고 싶습니다. HTML 문서에서 일부 정보를 추출해야하는 필요성이 있습니다. URL. 즉, 페이지의 특정 정렬되지 않은 목록에있는 링크의 모든 href 속성을 문자열 배열로 원합니다. 이러한 URL은 다운로드하여 zip 파일에 저장하려는 이미지를 가리 킵니다.HTML 문서에서 C

이제 C에서 잘하는 사람이 있는지 물어 봤고 "C가 잘못된 도구"라고 나에게 말했거나 libXML을 지적했습니다.이 설명서는 드문 문서로 유명합니다. . libsoup와 libtidy도 보았습니다. 그러나 조각들을 함께 꿰매는 것처럼 보이지 않습니다.

내가 선택한 접근법/라이브러리는 무엇입니까? 누구든지 내가 볼 수있는 몇 가지 예제 코드를 알고 있습니까?

편집 : C가 아닌 다른 것을 사용하라는 의견이 절반을 차지하고 있음을 확인하면서, 나는 "직업에 적합한 도구"를 찾지 않는다고 덧붙일 것입니다. Ruby를 사용하기 위해 Ruby를 사용하고 싶다면 Ruby를 사용하십시오. 그것은 C를 배우는 제 모험의 일부이며, 저는 순수한 C 해결책을 찾고 있습니다.

+0

나는 C가 적절한 도구라고 말하지 않을 것이다. 컴퓨터가 그것을 할 수 있다면, 당신은 C로 그것을 쓸 수 있습니다. 그러나, 당신은 훨씬 더 적절한 언어로 작업을 빨리 끝낼 것입니다. 나는 펄에게 투표한다. – sidyll

+0

글쎄, 구문 분석을 위해 필자는 고전적인 lex/yacc (또는 flex/bison) 콤보를 추천합니다. 어딘가 떠있는 HTML 문법이 있습니다, 구글은 좀 찾아야합니다. – Vlad

+0

당신이 요구하거나 원하는 것은 '크롤러'로 알려져 있습니다. 이를 달성하기위한 최고의 프로그래밍 언어는'Perl'이다. – Rahul

답변

0

C를 배우려는 퀘스트를 수행 중이므로 표준 라이브러리와를 사용합니다.

http://www.cplusplus.com/reference/clibrary/cstdio/ http://www.cplusplus.com/reference/clibrary/cstring/

가장 쉬운 페이지를 얻기 위해 다른 것을 사용하는 로컬 파일에 기록하는 것입니다, 다음 파일 이름을 전달 귀하의 프로그램에. 출력을 STDOUT으로 인쇄하십시오.

관련 문제