ELKI DBSCAN을 사용하여 단어 벡터를 클러스터하려고합니다. 300 차원의 단어 벡터를 클러스터하기 위해 코사인 거리를 사용하고 싶습니다. 데이터 세트의 크기는 19,000 단어 (19000 * 300 크기 매트릭스)입니다. gensim word2vec하고 목록 출력을 이용하여 계산 이들은 wordvectors이 다음은 CSVELKI DBSCAN 엡실론 값 문제
로 저장 제가
-dbc.in 인터페이스KDDCLIApplication 전달 된 커맨드 "는 D : \ w2v \ vectors.csv"-parser .colsep ' ","'- 알고리즘 클러스터링 .DBSCAN -algorithm.distancefunction CosineDistanceFunction -dbscan.epsilon 1.02 -dbscan.minpts 5 -vis.window.single
나는 엡실론 값으로 놀았고 그렇게하면서 시도했다. 3 값은 0.8, 0.9, 1.0이다. 0.8 & 0.9 - "이웃이 거의 없습니다. 엡실론은 너무 작을 수 있습니다." 1.0 동안 - "매우 많은 이웃들이 있습니다 .Epsilon이 너무 클 수 있습니다."
여기서 내가 뭘 잘못하고 있니? 나는 ELKI에 대해 매우 익숙해 져서 어떤 도움도 받으실 수 있습니다.
광학을 위해 ELKI에는 최신 버전의 여러 기능이 있습니다. 단어 벡터에 어떤 방법을 제안합니까? – Enthusiast
기본 OPTICSHeap이 좋을 것입니다.확률적인 근사치 인 FastOPTICS를 사용해 볼 수도 있지만 매개 변수를 조정해야합니다. Xi 추출을 사용하십시오. –
도와 줘서 고맙습니다 !! – Enthusiast