다양한 HTML 문서에서 동일한 데이터 추출

관련없는 웹 사이트의 여러 HTML 페이지가 있지만 전체적인 정보가 동일한 경우를 가정 해 보겠습니다. 정보를 유연하게 추출하고 싶습니다. 즉 모든 페이지 (이상적으로 하나)에 대해 소수의 데이터 추출기 만 작성하면됩니다. 필드가 있다고 가정하면 (예를 들어 블로그 사용) author, date, title, text. 이들을 나타내는 HTML 태그의 클래스는 각 페이지마다 완전히 다를 수 있지만 대략 동일한 방식으로 페이지에 계속 표시됩니다. 예를 들어 CNN에서 this post, Gawker에서 this post을 가져옵니다. 두 정보 모두 실제로 표시 될 때 페이지의 어딘가에 동일한 정보 (원하는 정보)를 포함합니다. 그 데이터를 추출하는 좋은 방법이 있습니까? 개별 추출기를 작성하는 것은 옵션이지만 좋은 방법은 아닙니다. 사용할 데이터 세트에는 약 1,000 가지 스타일의 문서가 있습니다.다양한 HTML 문서에서 동일한 데이터 추출

출처

2013-05-18 jclancy

당신이 할 수있는 유일한 방법은 모든 웹 사이트에서 공통 요소를 찾는 것입니다 (예 : 동일한 DOM 구조를 공유하거나 동일한 ID를 갖거나 이전 태그에서 동일한 내용이 앞에 <h1>).

그렇지 않으면 각 사례마다 다른 규칙이나 정규식을 작성해야합니다.

물론 HTML을 사용하더라도 콘텐츠 의도/의미를 인식 할 수있는 지능형 알고리즘을 작성하지 않는 한 - 어떤 방식 으로든 간단하고 신속하게 작성하지는 못합니다.

출처

2013-05-18 20:11:12

세 번째 옵션은 제가 수행하려고했던 것입니다. 나는 누군가가 전에이 문제에 대해 생각해 왔고 그것을 해결했을지도 모른다라고 생각했다. 이상적으로 그들은 소스를 온라인에 올리거나 그들이 사용하는 기술을 기술했을 것입니다. – jclancy

나는 알고있다. 그러나 구글은 예를 들어, 많은 것들과 관련성을 탐지하기 위해 그렇게한다. 오픈 소스 관련 프로젝트가 있는지 모르겠지만 의심 스럽다. 희망을 갖고 여기있는 누군가는 그와 같은 것을 알고 있기를 바랍니다. –

다양한 HTML 문서에서 동일한 데이터 추출

답변

관련 문제