2010-04-06 9 views
1

사용자가 웹 사이트 주소를 입력하는 프로그램을 만들고 싶습니다. 그런 다음 프로그램은 해당 웹 사이트로 이동하여 다운로드 한 다음 내부의 정보를 구문 분석합니다. 웹 사이트의 정보를 사용하여 새 html 파일을 출력합니다.웹 사이트 구문 분석

특히이 프로그램이하는 일은 웹 사이트의 특정 링크를 가져 와서 출력 HTML 파일에 링크를 넣는 것입니다.

지금 당장은 로그인이 필요없는 웹 사이트를 만들고 싶지만 나중에 로그인해야하는 사이트에서 작동하도록 만들고 싶으므로 쿠키를 처리 할 수 ​​있어야합니다. .

나중에 프로그램에서 특정 링크를 탐색하고 다른 사이트에서 정보를 다운로드 할 수있게하려고합니다.

이 작업을 수행하는 데 가장 적합한 프로그래밍 언어 또는 도구는 무엇입니까?

+2

작업을 수행하는 가장 쉬운 언어는 종종 가장 잘 아는 언어입니다! 이미 알고있는 언어/도구는 무엇입니까? –

+0

부수적으로 HTML 소스의 직접 입력을 허용하는 것이 좋습니다. 이렇게하면 사용자가 자격 증명이 필요한 웹 사이트를 쉽게 입력 할 수 있습니다. 또한 사용자가 귀하에게 자격 증명을 제공하지 않는 한 귀하를 대신하여 로그인 할 수 없습니다. – Cameron

+0

현재 C++을 사용하고 있지만 Python, Perl 및 기타 자료에 대한 경험이 있습니다. 나는 내 자신의 사용자 이름과 암호로 로그인 할 것입니다. – neuromancer

답변

3

Beautiful Soup (Python)은 내가 개인적으로 경험이 없지만 적극 추천합니다.

1

파이썬.

파이썬의 표준 라이브러리를 사용하여 간단한 크롤러를 작성하는 것은 매우 쉽지만 웹에서 사용할 수있는 기존의 파이썬 크롤러 라이브러리도 찾을 수 있습니다.