그래서 저는 자료를 멋진 word2vec 행렬로 변환했습니다. 이 행렬은 음수가 &이고 양수인 부동 소수점 행렬입니다.DPGMM 모든 값을 단일 클러스터로 클러스터링합니다.
나는 응집력있는 대답을주기 위해 무한한 dirichlet 프로세스를 얻을 수없는 것처럼 보입니다. 마찬가지로
예시 출력 [2 개 공정] 같습니다
original word2vec matrix:
[[-0.09597077 -0.1617426 -0.01935256 ..., 0.03843787 -0.11019679
0.02837373]
[-0.20119116 0.09759717 0.1382935 ..., -0.08172804 -0.14392921
-0.08032629]
[-0.04258473 0.03070175 0.11503845 ..., -0.10350088 -0.18130976
-0.02993774]
...,
[-0.08478324 -0.01961064 0.02305113 ..., -0.-0.10988192
0.00473828]
[ 0.13998444 0.05631495 0.00559074 ..., 0.05252389 -0.14202785
-0.03951728]
[-0.02888418 -0.0327519 -0.09636743 ..., 0.10880557 -0.08889513
-0.08584201]]
Running DGPMM for 20 clusters of shape (4480, 100)
Bound after updating z: -1935576384.727921
Bound after updating gamma: -1935354454.981427
Bound after updating mu: -1935354033.389434
Bound after updating a and b: -inf
Cluster proportions: [ 4.48098985e+03 1.00053406e+00 1.00053406e+00 1.00053406e+00
1.00053406e+00 1.00053406e+00 1.00053406e+00 1.00053406e+00
1.00053406e+00 1.00053406e+00 1.00053406e+00 1.00053406e+00
1.00053406e+00 1.00053406e+00 1.00053406e+00 1.00053406e+00
1.00053406e+00 1.00053406e+00 1.00053406e+00 1.00053406e+00]
covariance_type: full
Bound after updating z: -inf
Bound after updating gamma: -inf
Bound after updating mu: -inf
Bound after updating a and b: -inf
Cluster proportions: [ 4.48098985e+03 1.00053406e+00 1.00053406e+00 1.00053406e+00
1.00053406e+00 1.00053406e+00 1.00053406e+00 1.00053406e+00
1.00053406e+00 1.00053406e+00 1.00053406e+00 1.00053406e+00
1.00053406e+00 1.00053406e+00 1.00053406e+00 1.00053406e+00
1.00053406e+00 1.00053406e+00 1.00053406e+00 1.00053406e+00]
같이 관찰 그것이 Z 모양, γ- & MU 모든 폭발 결국 시스템이 실제로 정확하지 단지 1 클러스터에 수렴한다. 나는 DPGMM을 위해 알파를 노려 보았지만 실제로는별로 변하지 않았다.
자발적인 클러스터링 시스템을 사용하여 의미에 더 가까운 단어를 자동으로 클러스터링합니다. K-Means는 내가 제공하고 싶지 않은 'K'가 필요합니다.
이 질문은 아직보고있는 사람들을위한 것입니다. 'covariance_type = "diag"를 사용해보십시오. 파이썬이 어떻게 Wishart 분포와 로그 확률을 계산했는지에 문제가 있다고 생각합니다. –