2012-10-27 5 views
0

사이트의 기본 콘텐츠 DIV를 감지하기위한 전략을 고안하려고합니다. 주요 콘텐츠 div는 다음을 의미합니다. div : 사이트의 머리글, 본문 및 바닥 글을 포함합니다.페이지의 기본 DIV를 알아야합니다.

감지하기가 매우 어렵고 느립니다.

예를 들어 http://www.goo.ne.jp/에이 div에 사이트의 주요 콘텐츠가 포함되어 있기 때문에 id = "bodyWrapper"또는 "minWidthInbox"가 검색됩니다.

나는 또한 이렇게 많은 알고리즘을 시도했다. 그러나 이상한 사이트 구조와 불일치 때문에 모든 사이트가 단일 알고리즘으로 실행될 수는 없습니다.

테이블 레이아웃은 특히 감지하기 어렵습니다.

나는이 문제에 접근하는 방법을

:-(?

당신은 가독성 http://www.readability.com/ 살펴해야
+1

질문이 –

+0

인 코드로 게시 하시겠습니까? 그렇다면 div의 웹 사이트 콘텐츠를 원하십니까? 당신은 실제로 무엇을 성취하려고합니까? –

+0

감지 속도가 느립니다. 당신이하려는 것을 이해할 수 없습니다. – charlietfl

답변

3

는. 그들은 웹 페이지의 내용을 추출하고 머리글, 바닥 글처럼, 다른 모든 요소를 ​​제거하는 알고리즘을 개발 . 광고

은 불행하게도 자신의 알고리즘은 더 이상 공개하지 않습니다 그들은 여기 API가 있습니다.. http://www.readability.com/developers/api

가 원래의 알고리즘의 몇 가지 구현 거기 또한 내가 파이썬 라이브러리를 사용하고 NodeJS 하나. (https://github.com/arrix/node-readabili ty) 그들은 꽤 잘 작동합니다.

주요 div에 대한 질문과 관련하여 특정 웹 사이트를 폐기하지 않는 한 해당 특정 코드를 검색하지 않는 것이 좋습니다. 나는 당신이 그 내용을 따르고 있고, 물론 웹 사이트의 HTML 코드가 꽤 많은 것을 포함 할 수 있다고 생각합니다. 단지 주요 div가 아닙니다.

+0

Cool thanx man.vote up .. 당신은 다른 사람들과 달리 투표를하지 않았다. 나는이 그룹에서 큰 희망을 가지고 있었지만 지금은 그렇지 않다. 사람들은 "나는 우리가 회 돌이의 카운터로 사용하는 이유"를 묻는 질문에 대해 상향 투표를하지만 유효한 질문은 낙담한다. .. – Johnny

+0

alex, 나는 2 기둥 같은 비슷한 pattered 사이트에 대한 알 고를 생성합니다.그래서 나는 atleast 50 % 사이트를 정확하게 파싱 할 수있다. – Johnny

+0

안녕하세요 Johnny, Stack Overflow에 오신 것을 환영합니다! 나는이 질문에 대해 투표를하는 동안 다른 사람들이 당신의 게시물을 업보 드하도록 부탁하지 마십시오. 대신 시간을 갖고 최대한 명확하게 작성하십시오. * 게시물을 편집하고 문법을 정리 한 후 upvotes가 귀하의 질문 *에 어떻게 들어 왔는지 확인하십시오. 참으로 재미있는 질문입니다. 혼란 스러울 정도로 이해하기 힘들 정도로 숨겨졌습니다. ;) 행운을 빕니다! – jmort253

관련 문제