2010-12-28 6 views
0

현재 Instapaper 복제본을 작성 중이며 알고리즘 설계에 도움이 필요합니다.Instapaper 복제본 작성

그것은 두 개의 구성 요소가 저장 문서는 1 개 이상의 페이지가있는 경우 모든 페이지

에서 당신을 텍스트를 할 수 추출

  • HTML 문서에서

    1. 추출 주요 텍스트 블록을 친구들이 나를 올바른 방향으로 가리키고 있니? 이 프로젝트에는 .NET 4 C#이 사용됩니다.

  • +1

    "컴파일러를 작성하고 싶습니다. 두 개의 컴포넌트가 있습니다. 코드를 읽는 것이고 코드 생성기가 있습니다. 올바른 방향으로 나를 가리킬 수 있습니까?" – Foredecker

    +0

    나를 위해 그것을 요구하지 않습니다. 그냥 몇 가지 권장 사항을 원한다. – Jason

    +0

    # 2 번 질문은 무엇을 의미합니까? 일반적으로 html에는 인쇄되지 않거나 개발자가 전체 문서의 청크를 제공하는 방법으로 빌드되지 않은 경우 여러 페이지의 개념이 없습니다. –

    답변

    1
    1. Html Agility Pack을 사용하면 HTML 문서에서 필요한 항목을 추출 할 수 있습니다.
    2. # 1과 동일합니다.

    많은 방향을 제공하지는 않지만 많은 방향으로 나를 제공하지 않았다고 가정합니다.

    +0

    기사가 여러 페이지에 있는지 어떻게 알 수 있습니까? – Jason

    +0

    @ Jason : 나는 그 질문을 이해하지 못한다. 기사에 여러 페이지가있는 경우 어떻게 감지 할 수 있습니까 (예 : [.net]의 숨겨진 기능 (http://stackoverflow.com/questions/9033/hidden-features-of-c)에는 11 페이지의 답변이 있음)? 가장 쉬운 방법은 숫자 나 "next"와 같은 이름이나 대체 텍스트가있는 URL을 검색하고'a' 태그에서'rel = "next"를 검색하는 것입니다. 일부 URL은 100 개 페이지 (예 : 블로그 또는 웹 코믹)로 구성 될 수 있으므로주의해야합니다. – Brian