사이트의 기본 콘텐츠 DIV를 감지하기위한 전략을 고안하려고합니다. 주요 콘텐츠 div는 다음을 의미합니다. div : 사이트의 머리글, 본문 및 바닥 글을 포함합니다.페이지의 기본 DIV를 알아야합니다.
감지하기가 매우 어렵고 느립니다.
예를 들어 http://www.goo.ne.jp/에이 div에 사이트의 주요 콘텐츠가 포함되어 있기 때문에 id = "bodyWrapper"또는 "minWidthInbox"가 검색됩니다.
나는 또한 이렇게 많은 알고리즘을 시도했다. 그러나 이상한 사이트 구조와 불일치 때문에 모든 사이트가 단일 알고리즘으로 실행될 수는 없습니다.
테이블 레이아웃은 특히 감지하기 어렵습니다.
나는이 문제에 접근하는 방법을:-(?
당신은 가독성 http://www.readability.com/ 살펴해야
질문이 –
인 코드로 게시 하시겠습니까? 그렇다면 div의 웹 사이트 콘텐츠를 원하십니까? 당신은 실제로 무엇을 성취하려고합니까? –
감지 속도가 느립니다. 당신이하려는 것을 이해할 수 없습니다. – charlietfl