매일 새로운 뉴스 포털에서 웹 페이지를 처리해야하는 뉴스 집계 시스템을 구축하려고합니다. 각 포털에 HTML 추출 처리기를 쓰지 않고 웹 페이지에서 뉴스 기사의 기본 이미지를 추출하려면 어떻게합니까? 대부분의 페이지에 10-15 개의 임의 광고와 측면 이미지가있을 때 기사의 주 이미지는 어떻게 추측 할 수 있습니까? 각 페이지에서 가장 큰 이미지를 선택하려고 시도했지만 제대로 작동하지 않아 많은 위양성을 보였습니다임의의 기사에서 기본 이미지를 추출하려면 어떻게합니까?
0
A
답변
0
"메인"이미지는 사이트에 없습니다. 이 개념은 완전히 문맥 의존적인데, 뉴스 측면에서 "텍스트와 관련된 이미지"일 수 있습니다. 그러나 이것은 아주 특정한 상황입니다 - 어떤 상황을 보여주는 뉴스 안에 많은 이미지가 있다면 어떨까요?
실제 의미를 정의하는 것이 매우 어렵 기 때문에 "예제로 배우기"가 더 쉬워 져야하므로 기계 학습 기반 접근법은 합리적인 것처럼 보입니다.
는나는 각 이미지의 가장 유망한 특징을 추출합니다 :
- 다른 사람에게 그것의 상대적인 크기
- 이름이 같은 키워드는 containes 여부 웹 페이지
- 의 DOM의 뉴스 용기의 거리 "뉴스"; "주"
- 는 포함되어 있지 않습니다 여부 일부의 "광고", "로고", "메뉴"
그리고 다음에 가장 간단한 분류 (베이 즈 또는 로지스틱 회귀를) 훈련 같은 "나쁜"키워드 수집 된 샘플 세트.
관련 문제
- 1. 디렉토리의 html 파일에서 이미지를 추출하려면 어떻게합니까?
- 2. 기존 Java 프로젝트에서 기본 클래스를 추출하려면 어떻게합니까?
- 3. 이미지를 임의의 위치에 표시하려면 어떻게합니까?
- 4. 스크립트에서 데이터를 추출하려면 어떻게합니까?
- 5. 이 지침에서 알고리즘을 추출하려면 어떻게합니까?
- 6. 웹 사이트에서 이미지를 추출하려면
- 7. 숙련 된 GloVe/word2vec 모델을 사용하여 기사에서 키워드를 추출하려면 어떻게해야합니까?
- 8. preg_match로 특정 데이터를 추출하려면 어떻게합니까?
- 9. httpheader에서 클라이언트 데이터를 추출하려면 어떻게합니까?
- 10. 파일에서 특정 데이터를 추출하려면 어떻게합니까?
- 11. 4D 데이터베이스에서 데이터를 추출하려면 어떻게합니까?
- 12. 배열에서 특정 요소를 추출하려면 어떻게합니까?
- 13. 텍스트에서 모든 날짜를 추출하려면 어떻게합니까?
- 14. QuaZip을 사용하여 여러 파일을 추출하려면 어떻게합니까?
- 15. 기본 이미지를 같은 폴더에있는 임의의 이미지로 바꿉니다.
- 16. PHP로 기사에서 사용하지 않는 이미지를 검색하고 삭제합니다
- 17. DotNetZip을 사용하여 즉시 ZIP 파일을 추출하려면 어떻게합니까?
- 18. 스킴에서 기호의 첫 번째 문자를 추출하려면 어떻게합니까?
- 19. WinDbg 확장 프로그램에서 사용자 스트림을 추출하려면 어떻게합니까?
- 20. 디렉토리 이름에서 상위 디렉토리의 이름을 추출하려면 어떻게합니까?
- 21. 숫자 문자열에서 한자리 숫자를 추출하려면 어떻게합니까?
- 22. 혼합 된 문자열에서 숫자를 추출하려면 어떻게합니까?
- 23. Oracle 데이터베이스에서 패키지 소스를 추출하려면 어떻게합니까?
- 24. iPhone에서 문자열 내에서 단일 바이트를 추출하려면 어떻게합니까?
- 25. Windows에서 순수 PHP로 .tar 파일을 추출하려면 어떻게합니까?
- 26. Python의 함수 내에서 함수의 이름을 추출하려면 어떻게합니까?
- 27. pdf 문서에서 벡터 그래픽을 추출하려면 어떻게합니까?
- 28. 패킷 헥사 덤프에서 일반 텍스트를 추출하려면 어떻게합니까?
- 29. 이름이없는 번호에서 번호 만 추출하려면 어떻게합니까?
- 30. XSLT 1.0을 사용하여이 XML에서 필드를 추출하려면 어떻게합니까?
뉴스 컨테이너는 어떻게 식별합니까? 같은 방법? 텍스트 내용이 가장 많은 요소? –
아마도 텍스트를 가장 많이 사용하는 div가 (포함의 의미로) 가장 작을 것입니다. – lejlot