2017-03-02 1 views
0

나는 추천 엔진에 대해 연구하고 있는데, 지금 직면하고있는 한 가지 문제점은 아이템의 유사성 매트릭스가 너무 크다는 것이다.항목 - 품목 협업 필터링, 유사성 매트릭스를 관리하는 방법?

20,000 개 항목의 유사성 매트릭스를 계산하여 거의 1GB로 튜닝 된 이진 파일을 저장했습니다. 나는 그것이 너무 크다라고 생각한다.

많은 항목이 있다면 유사 행렬을 처리하는 가장 좋은 방법은 무엇입니까?

조언이 있으십니까?

+0

좀 더 자세한 정보를 제공 할 수 있습니까? 파일의 내용은 무엇입니까? 매트릭스는 어떻게 생겼습니까? –

답변

1

사실상 유사 매트릭스는 다른 오브젝트와 비슷한 오브젝트입니다. 각 행은 객체의 이웃으로 구성되지만 (행 ID) 모든 이웃을 저장하지 않아도됩니다. 예를 들어 이웃을 20 개만 저장할 수 있습니다. lil_matrix 사용 : from scipy.sparse import lil_matrix

+0

나는 후에 유사성 매트릭스를 전혀 저장할 필요가 없다는 것을 알았고, 추천 할 때 계산 만했다. 계산은 전체 행렬의 아주 작은 부분을 실제로 계산해야하기 때문에 생각만큼 느리지는 않습니다. – arslan

관련 문제