2011-02-17 4 views
4

누군가가 특정 웹 페이지의 실제 육류 내용을 찾는 휴리스틱 접근법의 학술 논문 또는 관련 구현의 방향으로 나를 지적 할 수 있는지 궁금합니다.주요 내용을 찾는 경험적 접근법

분명히 문제의 설명이 너무 모호하기 때문에 이것은 쉬운 일이 아니지만 우리는 모두 페이지의 기본 콘텐츠가 의미하는 바에 대해 일반적으로 이해하고 있다고 생각합니다.

예를 들어 뉴스 기사의 기사 텍스트가 포함될 수 있지만 탐색 요소, 법적 고지 사항, 관련 기사 티저, 설명 등은 포함되지 않을 수 있습니다. 기사 제목, 날짜, 작성자 이름 및 기타 메타 데이터는 회색 카테고리.

그런 접근 방식의 응용 가치가 크고 Google이 검색 알고리즘에서 어떤 방식 으로든 그것을 사용하게 될 것이라고 생각합니다. 그래서이 주제가 과거의 학자들에 의해 다루어 졌음을 알게 될 것입니다 .

모든 참조는 무엇입니까?

답변

2

이 방법을 살펴 보는 한 가지 방법은 정보 추출 문제 일 수 있습니다.

이와 같이 높은 수준의 알고리즘은 동일한 페이지 유형의 여러 예제를 수집하고 페이지의 다른 부분에 대한 구문 분석 (또는 추출) 규칙을 추론하는 것입니다 (이것이 주요 주제가 될 수 있습니다) . 직관은 공통적 인 상용구 (머리말, 꼬리말 등)와 광고가 웹 페이지의 여러 사례에 표시된다는 것입니다. 따라서이 중 일부에 대한 교육을 통해이 상용구/추가 코드를 신속하게 식별하고 무시할 수 있습니다 그것. 그것은 고장이 아니지만,이로드 러너처럼, 또한 상업 및 학술 두 기술을 긁어 웹의 기초 :

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.8672&rep=rep1&type=pdf

인용문은 다음과 같습니다

발터 Crescenzi, Giansalvatore 메카, 파올로 Merialdo : RoadRunner : 대형 데이터에서 자동 데이터 추출 웹 사이트. VLDB 2001

알베르토 HF Laender, Berthier에 A를 리베 - 네토, Altigran S. 다 실바, 줄리아나 S : 추출 기술을 잘 인용 조사도 있습니다 109-118

IMPL하십시오. 테셰이라, 웹 데이터 추출 도구에 대한 간단한 설문 조사, ACM SIGMOD 기록, 31 절에 N.2 2002 년 6 월 [도이> 10.1145/565117.565137]

관련 문제