2013-05-18 2 views
0

관련없는 웹 사이트의 여러 HTML 페이지가 있지만 전체적인 정보가 동일한 경우를 가정 해 보겠습니다. 정보를 유연하게 추출하고 싶습니다. 즉 모든 페이지 (이상적으로 하나)에 대해 소수의 데이터 추출기 만 작성하면됩니다. 필드가 있다고 가정하면 (예를 들어 블로그 사용) author, date, title, text. 이들을 나타내는 HTML 태그의 클래스는 각 페이지마다 완전히 다를 수 있지만 대략 동일한 방식으로 페이지에 계속 표시됩니다. 예를 들어 CNN에서 this post, Gawker에서 this post을 가져옵니다. 두 정보 모두 실제로 표시 될 때 페이지의 어딘가에 동일한 정보 (원하는 정보)를 포함합니다. 그 데이터를 추출하는 좋은 방법이 있습니까? 개별 추출기를 작성하는 것은 옵션이지만 좋은 방법은 아닙니다. 사용할 데이터 세트에는 약 1,000 가지 스타일의 문서가 있습니다.다양한 HTML 문서에서 동일한 데이터 추출

답변

0

당신이 할 수있는 유일한 방법은 모든 웹 사이트에서 공통 요소를 찾는 것입니다 (예 : 동일한 DOM 구조를 공유하거나 동일한 ID를 갖거나 이전 태그에서 동일한 내용이 앞에 <h1>).

그렇지 않으면 각 사례마다 다른 규칙이나 정규식을 작성해야합니다.

물론 HTML을 사용하더라도 콘텐츠 의도/의미를 인식 할 수있는 지능형 알고리즘을 작성하지 않는 한 - 어떤 방식 으로든 간단하고 신속하게 작성하지는 못합니다.

+0

세 번째 옵션은 제가 수행하려고했던 것입니다. 나는 누군가가 전에이 문제에 대해 생각해 왔고 그것을 해결했을지도 모른다라고 생각했다. 이상적으로 그들은 소스를 온라인에 올리거나 그들이 사용하는 기술을 기술했을 것입니다. – jclancy

+0

나는 알고있다. 그러나 구글은 예를 들어, 많은 것들과 관련성을 탐지하기 위해 그렇게한다. 오픈 소스 관련 프로젝트가 있는지 모르겠지만 의심 스럽다. 희망을 갖고 여기있는 누군가는 그와 같은 것을 알고 있기를 바랍니다. –

관련 문제