2014-01-10 2 views
0

매일 새로운 뉴스 포털에서 웹 페이지를 처리해야하는 뉴스 집계 시스템을 구축하려고합니다. 각 포털에 HTML 추출 처리기를 쓰지 않고 웹 페이지에서 뉴스 기사의 기본 이미지를 추출하려면 어떻게합니까? 대부분의 페이지에 10-15 개의 임의 광고와 측면 이미지가있을 때 기사의 주 이미지는 어떻게 추측 할 수 있습니까? 각 페이지에서 가장 큰 이미지를 선택하려고 시도했지만 제대로 작동하지 않아 많은 위양성을 보였습니다임의의 기사에서 기본 이미지를 추출하려면 어떻게합니까?

답변

0

"메인"이미지는 사이트에 없습니다. 이 개념은 완전히 문맥 의존적인데, 뉴스 측면에서 "텍스트와 관련된 이미지"일 수 있습니다. 그러나 이것은 아주 특정한 상황입니다 - 어떤 상황을 보여주는 뉴스 안에 많은 이미지가 있다면 어떨까요?

실제 의미를 정의하는 것이 매우 어렵 기 때문에 "예제로 배우기"가 더 쉬워 져야하므로 기계 학습 기반 접근법은 합리적인 것처럼 보입니다.

나는 각 이미지의 가장 유망한 특징을 추출합니다 :

  • 다른 사람에게 그것의 상대적인 크기
  • 이름이 같은 키워드는 containes 여부 웹 페이지
  • 의 DOM의 뉴스 용기의 거리 "뉴스"; "주"
  • 는 포함되어 있지 않습니다 여부 일부의 "광고", "로고", "메뉴"

그리고 다음에 가장 간단한 분류 (베이 즈 또는 로지스틱 회귀를) 훈련 같은 "나쁜"키워드 수집 된 샘플 세트.

+0

뉴스 컨테이너는 어떻게 식별합니까? 같은 방법? 텍스트 내용이 가장 많은 요소? –

+0

아마도 텍스트를 가장 많이 사용하는 div가 (포함의 의미로) 가장 작을 것입니다. – lejlot

관련 문제