2012-03-21 3 views
-2

내가 긁고 싶은 페이지가 있습니다. URL에 변수를 전달하면 특정 콘텐츠가 생성됩니다. 모든 콘텐츠는 거대한 HTML 테이블에 있습니다.웹 페이지를 스크랩하여 .csv로 저장하는 가장 쉬운 방법

나는이 서로 다른 페이지 중 180 개를 통과하고 테이블의 특정 열에서 특정 정보를 추출하고 수학을 수행하고 .csv 파일에 쓸 수있는 스크립트를 작성하는 방법을 찾고 있습니다. 그렇게하면 데이터에 대한 추가 분석을 수행 할 수 있습니다.

웹 페이지를 긁어 내고 HTML을 구문 분석 한 다음 데이터를 .csv 파일에 저장하는 가장 쉬운 방법은 무엇입니까?

저는 파이썬과 PHP에서 비슷한 작업을 수행했습니다. HTML 구문 분석이 가장 쉽거나 깨끗한 방법은 아닙니다. 더 쉬운 다른 루트가 있습니까?

+0

웹 스크래핑은 ** 데이터 마이닝 **이 아닙니다. 그것은 대부분 "정보 추출"입니다. 또는, 글쎄, 웹 긁기. 데이터베이스 및 분석을 포함하지 않는 "데이터 마이닝"으로 모든 것을 뒤엎지 마십시오. –

+0

다른 언어로 된 개인 기술이 큰 차이를 만들어 낼 수 있기 때문에 이것은 매우 특이한 질문입니다. 파이썬 기반 도구보다 파이썬 전문가가 더 쉽게 될 것입니다. 당신은 당신이 사용하고자하는 언어를 지정함으로써 자신과 다른 사람들에게 더 유용한 질문을 할 수 있습니다. – nrabinowitz

답변

1

파이썬에 대한 경험이 있다면 BeautifulSoup과 같이 추천하거나 PHP에서 PhPQuery을 사용할 수 있습니다.

HTML 파서를 사용하는 방법을 알았 으면 "파이프 앤 필터"프로그램을 만들어 수학을 수행하고 CSV 파일로 덤프 할 수 있습니다.

파이썬 솔루션에 대한 자세한 내용은 this question을 참조하십시오.

관련 문제