2010-11-08 4 views
7

나는 거의 모든 HTML 웹 페이지에서 주요 기사 내용을 얻기 위해 응용 프로그램을 작성하는 최선의 방법을 알아 내기 위해 많은 연구를 해왔습니다. libxml2를 사용하여 XML을 파싱하는 C 프로그램이 있지만 Alchemy API를 통해 내가 원하는 것을 수행하는 것으로 나타났습니다.HTML 기사 내용 추출 - 연금술 API 대안

그러나 온라인 API 만 있기 때문에 외부 호출에 의존하지 않고 응용 프로그램을 사내에 보관하고 싶습니다.

아무도 도움말이 없습니까? 나는 Alchemy API가 할 수있는 것 (유료/무보수)을 수행하는 오프라인 대안을 원했다.

내 대안은 HTML을 구문 분석하고 NLP (자연 언어 처리) 기술 및 기타 방법을 사용하여 주요 기사 콘텐츠를 가져 오는 것일 수 있습니다. 사용되는 웹 사이트 유형에는 뉴스 섹션이나 블로그가있는 웹 사이트가 포함됩니다.

+1

이 질문에 잘못 태그를 추가했다고 생각됩니다. "Alchemy"태그는 Adobe Alchemy를 나타냅니다. 나는 당신이 http://www.alchemyapi.com에 대해 이야기하고 있다고 생각하고있다. – Gunslinger47

답변

4

비슷한 기사 추출 작업을 수행 할 수있는 몇 가지 오픈 소스 도구가 있습니다. https://github.com/jiminoc/goose Gravity.com의 오픈 소스입니다.

위키의 정보와 볼 수있는 정보가 있습니다. 다양한 기사에서 추출한 텍스트를 보여주는 수십 개의 단위 테스트가 있습니다.

+0

거위하지만 PHP와 비슷한 다른 대안을 안다? –

0

AlchemyAPI는 온라인에 액세스 할 필요가 없도록 온 - 프레미스 솔루션도 제공합니다. 일반적으로 사내 솔루션을 사용하는 고객은 특별한 보안 또는 지연 요구 사항이있는 경우이를 사용합니다. 온 프레미스 솔루션에 대한 자세한 내용은 여기를 참조하십시오. http://www.alchemyapi.com/products/on-premise/

+0

링크가 잘못되었습니다. 온 - 프레미스 솔루션이 중단되었습니다. – Naffi