나는 거의 모든 HTML 웹 페이지에서 주요 기사 내용을 얻기 위해 응용 프로그램을 작성하는 최선의 방법을 알아 내기 위해 많은 연구를 해왔습니다. libxml2를 사용하여 XML을 파싱하는 C 프로그램이 있지만 Alchemy API를 통해 내가 원하는 것을 수행하는 것으로 나타났습니다.HTML 기사 내용 추출 - 연금술 API 대안
그러나 온라인 API 만 있기 때문에 외부 호출에 의존하지 않고 응용 프로그램을 사내에 보관하고 싶습니다.
아무도 도움말이 없습니까? 나는 Alchemy API가 할 수있는 것 (유료/무보수)을 수행하는 오프라인 대안을 원했다.
내 대안은 HTML을 구문 분석하고 NLP (자연 언어 처리) 기술 및 기타 방법을 사용하여 주요 기사 콘텐츠를 가져 오는 것일 수 있습니다. 사용되는 웹 사이트 유형에는 뉴스 섹션이나 블로그가있는 웹 사이트가 포함됩니다.
이 질문에 잘못 태그를 추가했다고 생각됩니다. "Alchemy"태그는 Adobe Alchemy를 나타냅니다. 나는 당신이 http://www.alchemyapi.com에 대해 이야기하고 있다고 생각하고있다. – Gunslinger47