2011-01-17 10 views
4

저는 파이썬에서 학습 연습으로 RSS 리더를 작성하고 있습니다. 검색을 위해 개별 항목에 키워드를 태그 할 수 있어야합니다. 불행히도 대부분의 실제 피드에는 키워드 메타 데이터가 포함되어 있지 않습니다. 현재 약 600 개의 피드에서 테스트 데이터베이스에 약 60,000 개의 항목이 있으므로 수동 태깅은 효과적이지 않습니다. 지금까지이 두 솔루션을 찾을 수 있었다 :URL 데이터베이스에 대해 관련 태그를 프로그래밍 방식으로 생성하려면 어떻게해야합니까?

1 : Natural Language Toolkit 추출하는 키워드 :

  • 장점 : 유연한; 외부 서비스에 대한 의존성 없음;
  • 단점 : 기사 요약이 아닌 기사 요약 만 색인 할 수 있습니다. 중요하지 않은 키워드 : 고품질 키워드 추출 도구를 작성하는 것은 그 자체로 프로젝트입니다.

2 : 문서 URL에서 키워드 제안을 가져 오기 위해 Google Adwords API를 사용

  • 장점 : 슈퍼 높은 품질의 키워드; 전체 기사 텍스트를 기반으로; 사용하기 쉬운;
  • 단점 : 무료 (?); 알 수없는 쿼리 속도 제한 내 계정이 금지되고 내 상용 사이트에 대해 애드워즈 캠페인을 실행할 수 없다는 것을 두려워합니다.

누구든지 제안 할 수 있습니까? 내 애드워즈 계정의 근거가없는 것에 대한 두려움이 있습니까?

+1

후속 조치 : 파이썬 칼레 (python-calais)를 사용하여 끝내 었습니다. 파이썬 칼레는 조금 오래되었습니다 (2009 년에 마지막으로 업데이트 됨). 그러나 지금까지 완벽하게 작동했습니다. 그것은 url을 인수로 취하고 python dict로 파싱 된 calais 응답을 반환하는 편리한 함수를 가지고 있습니다. 필자는 제공되는 메타 데이터의 정확성과 관련성, 특히 비용 (무료)을 고려하여 매우 감명 받았습니다. –

답변

2

에 따라 당신이 고려해 볼 수 있습니다 무료 및 상용 텍스트 주석 도구/서비스의 번호가있다 당신의 아래에 열거 된 구체적인 요구 사항은

Is there a better tool than OpenCalais?입니다.

이들 숫자는 엔티티를 제공하고 일부는 키워드 관련성을 제공하고 다른 일부는 주제 태그를 제공합니다.

관련 문제