2011-11-17 9 views
2

저의 논문에 대한 제 연구에 대한 조언을 부탁드립니다.단어 수를 효율적으로 구현하십시오.

나는 200-300 단어의 기사 1000 개가 있고 단어 목록 30,000 개, 즉 30,000 개의 단어가있는 응용 프로그램을 만들었습니다. 각 단어는 영어로 된 자료의 사용법에 따라 평가되었습니다. "-"20168 번 ","- "6464684 번,"aquaintance "- 15 번 등등 ....

이제 단어 목록으로 데이터베이스를 쿼리하려고합니다. 이 말의 대부분, 대부분의 시간.

E.g.: my list: different, contemporary, persistency. 
Article 1 contains contemporary 1x 
article 2 contains contemporary 3x 
So the returned article would be no 2. 

질문

  1. 나는 데이터베이스에있는 단어와 기사 사이에 어떤 관계를 만들어야합니다. 나는 엄청난 목록 일 것 인 각각 300 단어 (물론 독특한 것은 아님)의 천개의 기사를 의미한다. 아니면 색인으로 충분합니까?

  2. MySQL과 Oracle? MySQL을 사용하면 SOLR을 사용하여 색인을 생성 할 수 있습니다. 오라클에는 색인 생성 도구가 있지만 그 이상은 아닙니다.

  3. 이러한 기능을 갖춘 oracle은 무료로 제공됩니까? 또한 다루지도 않아서 다루기 쉽습니다. 설치가 쉽다면, 나는 그것을 갈 것입니다.

대단히 감사합니다.

+1

당신이 말하는 크기는 무료 Oracle XE 데이터베이스 나 mysql 데이터베이스에서 실행되어서는 안됩니다. 이미 정격 단어 목록을 가지고 있습니까? 기사에 등급 목록에없는 단어가 있으면 어떻게됩니까? –

+0

@MatthewWatson 예, 목록이 있습니다. 단어가 없으면 아무것도 반환하지 않아야합니다. 오라클은 이러한 목적을 위해 색인을 생성합니까? – myro

답변

3

Hadoop을 사용하여 WordCount 작업을 수행하는 것이 좋습니다. 이것은 나중에 확장 가능합니다 (당신은 연구원입니다!) 그리고 효율적입니다. 또한 단어와 문서의 관계를 데이터베이스에 작성하는 것은 깔끔한 해결책이 아닙니다.

하둡을 선택하면 MapReduce의 기능을 제공합니다. 그것은 다음과 같이 작동

  • 여러 물리적 시스템
  • 각 기계는
  • 결과는 모든 시스템에서 수집 된 단어 수 알고리즘을 수행 한 후 최종 출력을 제공하는 결합 사이에 모든 입력 텍스트 파일을 나눕니다.

이러한 기능의 구현에 대해 걱정할 필요가 없습니다. 여기에 tutorial입니다.

WordCount 작업은 한 컴퓨터에서 로컬로 실행할 수도 있습니다.

+0

좋아 보이지만 색인이 있습니까? 결과는 어디에 저장됩니까? 합리적인 시간에 결과가 필요하기 때문에 (예 : 몇 초) – myro

+0

결과는 플랫 파일에 저장됩니다. – ajmartin

관련 문제