2013-03-13 3 views
2

텍스트 세트 (책, 기사, 문서 등)가 주어질 때 각 텍스트에 대한 관련 키워드를 어떻게 찾을 수 있습니까? 상식에 제안 :텍스트의 키워드를 찾는 알고리즘

  • 분할 단어
  • 카운트 단어
  • 이 줄 어떤 주파수 ("A는, 는,,에 대한 방법"과 같은라고도 스톱 단어) 일반적인 단어 제외 문서 및 다른 문서의 각 단어의 빈도, 문서의 단어 수 및 모든 문서의 총 단어 수를 고려한 수식으로 각 단어의 점수를 계산합니다.

질문은 : 그것은 좋은 수식입니까?

답변

5

하나를 개발했습니다.

(frequency of word in this text) * (total number of words in all texts) 
----------------------------------------------------------------------- 
    (number of words in this text) * (frequency of word in all texts) 

키워드 비가 최고 20 %이다 (이 doucument 위해) 그 단어 각 단어

는이 비율을 계산한다.

Ankerl

는 자신의 공식 제안 :

tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200) 

을 여기서

  • curVal : 총 : 점수 단어가 될 사람-분석 텍스트
  • curWords에 존재 얼마나 자주 분석 할 단어의 단어 수
  • allVal : 색인 된 데이터 집합에 단어 점수가 표시되는 빈도
  • allWords : 색인 생성 된 데이터 집합의 총 단어 수

두 알고리즘 모두 잘 작동하며 결과는 종종 일치합니다. 더 나은 방법을 알고 있습니까?

+0

레이아웃 정보 (제목, 나누기, 글꼴 크기 및 스타일 ...)에 액세스 했습니까? –

관련 문제