2009-07-06 6 views
0

html 문서 구조를 처리하는 데 필요한 자원이 있는지 궁금합니다. 예를 들어, New York Times의 페이지가 있고 어떤 페이지에서라도 주요 기사가 어디에 있는지 알고 싶습니다. 페이지의 중요한 요소는 어디에 있습니까? 일부 웹 사이트의 경우 원시 html 문서는 이러한 유형의 처리에 대한 표시를 제공합니다. 다른 사이트의 경우 일반적으로 서식 지정 태그 (글꼴 등) 만 있으면됩니다. OCR 기술을 살펴 보았지만 대부분은 개별 요소를 인식하는 데 사용되며 이는 OCR과는 약간 다른 문제입니다.처리 html 문서 구조

누구든지이 주제와 관련하여 통찰력이 있다면 크게 감사하겠습니다!

+0

같은 HTML 파서의 상단에 뭔가를 만들 수 있습니다. 그들이 당신이 소비 할 수있는이 정보를 출판하지 않는 한, 나는이 정보를 당신의 사업으로 여기지 않을 것이라고 생각합니다. –

+0

음, 메타 데이터가 완전하지 않거나 사용할 수 없을 때 유용한 콘텐츠를 캡처하는 문제에 대한 일반적인 접근 방식을 원합니다. – FurtiveFelon

답변

1

당신이 찾고있는 것을 '화면 긁기'또는 '데이터 긁기'라고합니다. Google 검색을 사용하면 많은 결과를 얻을 수 있습니다. 다음은 위키 피 디아에서 링크는 다음과 같습니다 Web Scraping

당신은이 사이트의 소수 이상 기록 된 경우 내가 놀랄 것 hpricot