2010-05-27 7 views
1

일부 텍스트 파일에서 데이터 세트를 작성하여 피쳐 벡터로 작성해야합니다. 이 같은데이터 세트 만들기 : 텍스트 문서 (TF-IDF)에서 피쳐 추출

뭔가 : 벡터의

doc1: 1,0.45 6,0.001 94,0.1 ... 

doc2: 3,0.5 98,0.2 ... 

... 

각각의 위치는 단어를 나타내며, 점수는 TF-IDF과 같이 주어진다.

일부 라이브러리/도구/다른 용도를 알고 있습니까? (자바가 좋다)

답변

0

mallet. TF-IDF, POS, 분류를 포함하여.

0

은 물론 많은 예를 들어

http://en.wikipedia.org/wiki/Lucene있다 그러나

난 당신이 처음부터 기본 IR 시스템을 작성하는 것이 좋습니다. 후드 아래에서 보는 것은 항상 훌륭한 학습 경험입니다.

+0

가 내가 아는,하지만 내 시간은 유한하고 TFIDF 난 그냥 TFIDF 알고리즘을 의미하지 않았다 – BigG

+0

을 구현하기 위해 아주 쉽게 보이는, 내가 검색에 파일을 구문 분석, 색인에서, 엔드 투 엔드 (end to end) 의미/순위 등 – Darknight