누군가가 특정 웹 페이지의 실제 육류 내용을 찾는 휴리스틱 접근법의 학술 논문 또는 관련 구현의 방향으로 나를 지적 할 수 있는지 궁금합니다.주요 내용을 찾는 경험적 접근법
분명히 문제의 설명이 너무 모호하기 때문에 이것은 쉬운 일이 아니지만 우리는 모두 페이지의 기본 콘텐츠가 의미하는 바에 대해 일반적으로 이해하고 있다고 생각합니다.
예를 들어 뉴스 기사의 기사 텍스트가 포함될 수 있지만 탐색 요소, 법적 고지 사항, 관련 기사 티저, 설명 등은 포함되지 않을 수 있습니다. 기사 제목, 날짜, 작성자 이름 및 기타 메타 데이터는 회색 카테고리.
그런 접근 방식의 응용 가치가 크고 Google이 검색 알고리즘에서 어떤 방식 으로든 그것을 사용하게 될 것이라고 생각합니다. 그래서이 주제가 과거의 학자들에 의해 다루어 졌음을 알게 될 것입니다 .
모든 참조는 무엇입니까?