관련없는 웹 사이트의 여러 HTML 페이지가 있지만 전체적인 정보가 동일한 경우를 가정 해 보겠습니다. 정보를 유연하게 추출하고 싶습니다. 즉 모든 페이지 (이상적으로 하나)에 대해 소수의 데이터 추출기 만 작성하면됩니다. 필드가 있다고 가정하면 (예를 들어 블로그 사용) author, date, title, text
. 이들을 나타내는 HTML 태그의 클래스는 각 페이지마다 완전히 다를 수 있지만 대략 동일한 방식으로 페이지에 계속 표시됩니다. 예를 들어 CNN에서 this post, Gawker에서 this post을 가져옵니다. 두 정보 모두 실제로 표시 될 때 페이지의 어딘가에 동일한 정보 (원하는 정보)를 포함합니다. 그 데이터를 추출하는 좋은 방법이 있습니까? 개별 추출기를 작성하는 것은 옵션이지만 좋은 방법은 아닙니다. 사용할 데이터 세트에는 약 1,000 가지 스타일의 문서가 있습니다.다양한 HTML 문서에서 동일한 데이터 추출
0
A
답변
0
당신이 할 수있는 유일한 방법은 모든 웹 사이트에서 공통 요소를 찾는 것입니다 (예 : 동일한 DOM 구조를 공유하거나 동일한 ID를 갖거나 이전 태그에서 동일한 내용이 앞에 <h1>
).
그렇지 않으면 각 사례마다 다른 규칙이나 정규식을 작성해야합니다.
물론 HTML을 사용하더라도 콘텐츠 의도/의미를 인식 할 수있는 지능형 알고리즘을 작성하지 않는 한 - 어떤 방식 으로든 간단하고 신속하게 작성하지는 못합니다.
관련 문제
- 1. Mongo 문서에서 데이터 목록 추출
- 2. DOMDocument를 사용하여 클래스별로 HTML 문서에서 추출
- 3. Marklogic REST API - 문서에서 데이터 추출
- 4. 스캔 한 문서에서 데이터 추출 C#
- 5. 추출 다양한 정보
- 6. 문서에서 단일 KeyWord 추출
- 7. xml 문서에서 jQuery 추출 속성
- 8. 문서에서 데이터 가져 오기
- 9. 다양한 조건에서 문자열 추출
- 10. 다양한 XML 문서에서 DTD가 모두 동일한 지 확인하십시오.
- 11. 구문 분석 html 데이터 추출
- 12. android의 HTML 문자열에서 데이터 추출
- 13. Jsoup를 사용한 HTML 데이터 추출
- 14. 데이터 추출?
- 15. HTML 문서에서 XML 파일의 데이터 사용
- 16. 순수 자바를 사용하여 HTML 문서에서 xpath를 사용하여 콘텐츠 추출
- 17. jquery.get 원시 HTML 응답에서 데이터 추출
- 18. 다양한 해상도의 PDFPage에서 NSImage 추출
- 19. Python을 사용하여 HTML 테이블에서 데이터 추출
- 20. 동일한 테이블, 다양한 크기?
- 21. 대상 통합 문서 업데이트 - 원본 통합 문서에서 데이터 추출
- 22. 복수의 동일한 태그 사이에서 여러 데이터 추출
- 23. html 문서에서 html 조각 추출하기
- 24. BeautifulSoup CSS 데이터 추출
- 25. 데이터 추출
- 26. 다양한 길이와 다양한 열의 파일에서 데이터 읽기
- 27. [Ruby] : 텍스트 문서에서 다양한 작업 수행
- 28. XML에서 데이터 추출 및 HTML 테이블에 배치
- 29. html 소스 코드에서 텍스트/데이터 추출
- 30. DOM을 사용하여 동적 HTML 테이블에서 데이터 추출
세 번째 옵션은 제가 수행하려고했던 것입니다. 나는 누군가가 전에이 문제에 대해 생각해 왔고 그것을 해결했을지도 모른다라고 생각했다. 이상적으로 그들은 소스를 온라인에 올리거나 그들이 사용하는 기술을 기술했을 것입니다. – jclancy
나는 알고있다. 그러나 구글은 예를 들어, 많은 것들과 관련성을 탐지하기 위해 그렇게한다. 오픈 소스 관련 프로젝트가 있는지 모르겠지만 의심 스럽다. 희망을 갖고 여기있는 누군가는 그와 같은 것을 알고 있기를 바랍니다. –