2012-01-27 5 views
2

주어진 텍스트 (제목)를 사용하여 중요한 단어 모음을 가져 오는 자바 라이브러리가 있습니까?
EDITED : 중요한 의미는 문장의 주요 아이디어를 정의한 단어입니다. 감사합니다.제목에 중요 단어 가져 오기 java library

+6

"중요"를 정의하십시오. – millimoose

+0

중요한 의미는 문장의 주요 아이디어를 정의하는 것입니다. –

답변

3

Apache Mahout을 살펴볼 수 있습니다.

tf-idf model에 대한 자세한 내용은 설명하는 것과 유사한 경우에 자주 사용됩니다.

는 편집 : TF-IDF 모델은 기본적으로 2 가지라고

: TF - IDF 모델에 대한 추가 정보를 원하시면

  1. 용어는 데이터에 여러 번 나타나는 경우, 그것은 아마도 중요하다 . [tf]
  2. 세계에서 용어가 여러 번 등장하는 경우 데이터에 그 용어가 등장 할 가능성이 있지만 드물지만 데이터에 표시되는 경우 이는 매우 중요한 의미입니다 [ idf]

tf-idf 모델은이 가정을 활용하고 tf, idf 값에 따라 각 용어에 대해 등급을 부여합니다.
idf 값을 찾으려면 컬렉션 색인을 생성하거나 검색 엔진 API를 사용하고 결과의 수에 따라 각 용어의 공통점을 추정하십시오. 엔진에서 반환 한 숫자는 정확하지 않지만 대략적인 추정으로 사용하십시오]

2

Topic models 문서 (또는 문서 모음)를 사용해보십시오. 나는 당신이 개별 문장으로 많은 것을 할 수 있는지 의심 스럽다.

시맨틱 파서 (예 : RelEx)를 사용하여 주요 주제/객체/기타를 가져올 수는 있지만 여전히 간단하지는 않습니다.

당신이하려는 일의 몇 가지 예가 도움이 될 것입니다. "기본 아이디어 정의"는 여전히 매우 모호합니다. 어떤 유형의 문장을 다루고 있습니까?

+0

나는 RSS 과학 뉴스 타이틀을 얻고 제목을 식별하는 단어가 무엇인지 식별하고자합니다. –

2

당신이 제목 독점적으로 작업을 고려, 나는 거의 하지stop word가 중요하다 어떤 단어를 상상할 것이다.

아마 당신은 완전한 폭파 텍스트 분석 알고리즘이 아닌 기본적인 정지 단어 제거 알고리즘을 찾고 있습니까?

얼마나 복잡하거나 "똑똑한"이 일이 필요한지에 따라 다릅니다.