희소 한 용어 - 문서 행렬 (희박한 행렬을 저장하기 위해 scipy.sparse.csr.csr_matrix
을 사용 중입니다)로 변환 한 데이터의 큰 코퍼스 (텍스트)가 있습니다. 모든 문서에 대해 가장 가까운 n 개의 가장 가까운 이웃을 찾습니다. 나는 Python scikit-learn
라이브러리 (sklearn.neighbors.NearestNeighbor
정확한) 내 문제를 해결할 것이라고 NearestNeighbor
루틴을 기대했지만, KD trees
또는 Ball trees
같은 공간 분할 데이터 구조를 사용하는 효율적인 알고리즘은 희소 행렬과 함께 작동하지 않습니다. brute-force 알고리즘 만이 희소 행렬로 작동합니다 (이것은 큰 코퍼스를 다루는 경우에는 불가능합니다).희소 행렬에 대한 효율적인 최근 근접 검색
(파이썬 또는 다른 언어로) 스파 스 매트릭스에 대한 가장 가까운 이웃 검색을 효율적으로 구현합니까?
감사합니다.
볼 트리는 SVD 출력에서 제대로 작동합니까? 일반적으로 텍스트 데이터의 경우 SVD가 100-200 차원을 유지하기를 원합니다 ... –