웹 사이트의 관련 부분 만 가져 오기

Evernote's Web Clipper plugin 또는 Announcify plugin은 페이지의 관련성있는 게시물/게시물/콘텐츠 부분 만 가져올 수 있습니까? 다음은 에버 노트 플러그인에서 스크린 샷은 다음과 같습니다웹 사이트의 관련 부분 만 가져 오기

enter image description here

상관없이,이 항상 페이지의 당신 기사/후/컨텐츠 부분을 얻을 수있는 다른 레이아웃 wises 완전히 다른 어떤 웹 사이트 방문.

각 웹 사이트는 일부가 아닌 다른 태그, 주/기사/콘텐츠의 경우, HTML5 다른 사람의 일부를 사용 <article> 또는 <section>이 <h1> > <p> 사용합니까, 일부는 사이드 바 있고, 다른 레이아웃을 가지고, 일부 사용 <h2> > <p> 등은 사용하지 마십시오 조금도. 그래서 태그의 다른 조합과 웹 사이트의 레이아웃이 있습니다.

누구든지 해결책을 제안 할 수 있습니까 article/post/content는 Javascript 또는 PHP를 통해 제공하나요?

출처

2012-02-09 Dev555

영리한 ... – Jivings

아마도 페이지에서 가장 큰 'div'또는 다른 요소를 찾습니다. – Jivings

@Jivings : 가장 큰 div는 전체 사이트를 포함하므로 주/기사 부분이 포함 된 요소를 찾을 수 있기를 원합니다. – Dev555

당신은 간단한 DOM 구문 분석을하고 더 많은 텍스트가 포함 된 <div>들과 <p>의를 검색 할 수 있습니다 (텍스트!하지 HTML 코드를!). 그러나 지능적인 방법에 상관없이 콘텐츠의 위치를 결정할 때 DOM 파싱부터 시작해야하므로 DOM 라이브러리 PHP 구문 분석을 살펴 보겠습니다.

어쨌든, 당신이에서 시작할 수 있습니다

http://w-shadow.com/blog/2008/01/25/extracting-the-main-content-from-a-webpage/

이 꽤 좋은 같은데, 당신은 당신의 자신의 무언가를 작성하려는 경우 기술적 인 설명을 제공

출처

2012-02-09 09:09:42

이것은 끔찍한 해결책입니다. 그러나 아마 최고. – Jivings

@ Jivings 왜 끔찍한가요? –

DOM 파싱으로 인해 떨리는 경우가 있습니다. 그러나 귀하의 링크가 흥미로운 것 같습니다. – Jivings

대부분의 블로그 엔진은 해당 div에 '콘텐츠'ID를 제공합니다.

자바 스크립트에서 당신은 당신이있는 DOMDocument ::에서 getElementById ('콘텐츠')를 할 것 PHP에서
('# 내용을') $를 다만 것이다.

출처

2012-02-10 00:24:39 pguardiario

웹 사이트의 관련 부분 만 가져 오기

답변

관련 문제