2013-06-02 2 views
0

프로젝트를 시작하고 질문 할 질문이 없기 때문에 제가 여기 와서 도움을 청했습니다.html 파싱 프로젝트를지면에서 얻는 데 도움이 필요합니다.

내가 궁금해하는 점은 다양한 정보를 파싱해야하는 html 파일이 있다는 것입니다. 파일은 온라인 포럼에서 보관됩니다. 기본적으로 html 파일에 피드를 제공하고 데이터베이스에 다음 정보를 기록 할 수 있습니다.

- 각 사용자가 만든 게시물 수, 각 게시물의 타임 스탬프, 특정 문자열은 메시지 본문에 표시됩니다.

기타 유사한 정보 비트.

HTML 구문 분석기를 사용할 수 있습니까? 나는 그것을 보았다. 그러나 솔직히 그것을 구현하는 방법에 대해 많은 것을 이해하지 못한다. 나는 컴퓨터 과학 학사 학위를 가지고 있지만 프로그래밍 부분은 주로 알고리즘에만 집중하고 기본적인 논리 문제를 해결하는 데 집중했습니다. 우리는 여러 파일을 포함하는 큰 프로젝트를 만드는 것에 대해 전혀 배울 수 없었기 때문에 .jar 파일과 다른 라이브러리가 구현되는 방법에 대한 지식은 기본적으로 존재하지 않습니다.

올바른 방향으로 나를 가리켜 줄만한 것은 매우 감사하겠습니다.

+0

선호하는 언어는 언급하지 않았지만 jar 파일에 대해 이야기하고 있으므로 자바라고 가정합니다. Java 프로젝트 용 eclipse를 사용하는 것이 좋습니다. 이클립스를 시작하고 라이브러리로 작업하는 방법에 관한 좋은 자습서 (Google!)가 수없이 많습니다. 실용적인 프로그래밍에 대해 많이 알지 못하는 분이라면 처음부터 다시 시작해야합니다 : 프로 그램하는 법을 배우십시오! 프로그래밍 언어의 기본 개념을 이해하기 전에 그러한 프로젝트를 해결할 수 있습니다. – MCL

답변

0

HTML 구문 분석은 여러 언어로 수행 할 수 있습니다.

프로그래밍 경험이 거의 없거나 전혀 없으면 Python으로 시작하는 것이 좋습니다. Java에 비해 상당히 빨리 얻을 수 있습니다. Codecademy의 Python 트랙 살펴보기 - http://www.codecademy.com/tracks/python

lxml, beautifulsoup 및 Scrapy와 같이 Python에서 html을 다듬는 데 사용할 수있는 많은 프레임 워크가 있습니다. 그들 사이의 선택은 문제의 범위에 달려 있습니다. 예를 들어 프로그램 실행 속도는 얼마나 빠릅니까? 간단한 xpath 표현식으로 html 파일을 긁을 수 있습니까? 아니면 스크래핑을위한 함수를 직접 구현해야합니까?

빠르고 더러운 해결책으로 나는 BeautifulSoup을 추천합니다. 볼을 굴리기 위해 xpath를 배울 필요조차 없습니다. 그러나이 프레임 워크는 경험상 상당히 느려서 장기적인 솔루션으로는 적합하지 않을 수 있습니다.

행운을 빈다.

관련 문제