2011-05-07 4 views
5

String을 취할 수 있고 키워드/keyphrases 인 Strings 세트를 리턴 할 수있는 사용하기 쉬운 Java 라이브러리가 있습니까?java 키워드 추출

특별히 똑똑 할 필요는 없으며, 키워드를 일치시키기 위해 스톱 단어와 형태소 분석을 사용하십시오.

나는 KEA 패키지 http://code.google.com/p/kea-algorithm/을보고 있지만 코드를 사용하는 방법을 알 수는 없습니다.

간단한 예제 문서가있는 간단한 것이 이상적 일 것입니다. 그 동안 나는이 글을 쓰는 것에 대해 이야기 할 것이다!

편집 : 코드를 사용하는 방법을 파악하는 방법을 알 수 없다고 할 때, 나는 간단한 방법을 볼 수 없다는 것을 의미합니다. 개개의 수업은 그 자체로 많은 일을 할 수있는 유용한 방법을 가지고 있습니다.

+1

당신은 키워드/핵심 문구를 무엇을 의미합니까? 문자열이나 뭔가 안에 정규식처럼? –

+0

no .... 검색 엔진이 인식 할 수있는 키워드로, 뉴스 기사에서 키워드를 추출하고 다른 뉴스 사이트에서 유사한 기사 목록을 얻고 싶습니다. (기존 서비스가 많이 있다는 것을 알고 있습니다. 약간의 재미와 나를 위해 배우는). – Ankur

+0

좋은 생각이 듭니다. 단어/문구 빈도를 계산하는 알고리즘을 찾고 작성해야합니다. –

답변

1

포터 스테 밍 알고리즘을 사용해보십시오. 자바 버전은 http://tartarus.org/~martin/PorterStemmer/java.txt이고 기본 페이지는 http://tartarus.org/~martin/PorterStemmer/입니다. 그 옛날,하지만 나쁜 일을하지 않습니다.

+0

감사하지만, 어떤 이유로 오히려 열악한 결과를줍니다. KEA 라이브러리에는 구현이 포함되어 있습니다. 나는 사실 당분간 형태소 분석을 무시하기로 결정했다. – Ankur

+0

모두 좋다 : 기꺼이 도와주세요. 네가 그걸로 돌아 오면 나 한테 알려줘. 네가 결국 어떻게 사용하는지 궁금해. – Femi

2

이것은 상당히 오래된 질문이며, 아마도 OP가 이미 그의 문제를 해결했지만, KEA를 사용하는 방법을 찾는 질문에 비틀 거리는 다른 사람들을 위해 여기에 넣었을 것입니다.

KEA의 경우 교육 세트가 필요합니다. 일부 문서에는 키워드가 이미 설정되어 있어야합니다. 교육 자료는 문서 디렉토리 (.txt 파일)와 해당 키워드 파일 (.key 파일)로 구성되며 한 줄에 하나의 키워드가 있습니다. KEA를이 세트로 교육 한 다음이 모델을 사용하여 다른 .txt 파일의 디렉토리에있는 나머지 문서에서 키워드를 추출합니다. KEA는이 디렉토리에 해당 .key 파일을 작성합니다.

1) KEA 소스 분포가 작은 테스트 코퍼스에서 키워드를 추출하는 방법을 보여줍니다 TestKEA.java 클래스가 :

자세한 내용은 다음 중 하나 이상에서 살펴. README에는 필요한 디렉토리 형식에 대한 세부 사항이 있습니다.

2)이 블로그 게시물에는 KEA를 사용하는 방법에 대한 (다소 간결한 IMO) 지침이 있습니다.

http://kea-pranay.blogspot.com/2010/02/kea-key-extraction-algorithm.html

3)) 이미 수동으로 키워드로 주석하고 내가 가진 코퍼스 (에서 키워드를 생성하는 방법을 배울하는 동안 내가 지난 주말에 쓴 내 블로그 게시물. KEA가 기대하는 방식으로 데이터를 사전 처리하는 Python 코드, 추출기를 교육하고 실행하는 Scala (Java API를 제공하는 KEA) 코드 및 생성 된 키워드를 분석하고 시각화하는 Python 코드가 있습니다.

http://sujitpal.blogspot.com/2014/08/keyword-extraction-with-kea.html

관련 문제