2011-04-21 4 views
8

저는 파이썬에서 크고 희소 한 행렬 (텍스트로 생성 된 문서 - 특징 행렬)을 다루고 있습니다. 이것들을 씹기 위해서는 꽤 많은 처리 시간과 메모리가 필요합니다. 그리고 희소한 매트릭스가 약간의 개선점을 제공 할 수 있다고 생각합니다. 하지만 스파 스 매트릭스 라이브러리를 사용하면 다른 파이썬 (및 R, rpy2를 통해) 모듈에 연결하는 것이 더 어려워 질 것이라고 걱정됩니다.장단점을 파이썬/R에서 사용하는 것에 대한 장단점?

이 다리를 건너는 사람들은 이미 조언을 제공 할 수 있습니까? 성능, 확장 성 및 호환성 측면에서 Python/R에서 스파 스 매트릭스를 사용하는 장단점은 무엇입니까?

답변

1

파이썬에서 스파 스 매트릭스를 사용하는 것은 그 자체로 좋은 생각이 아닐 수도 있습니다. sparse matrices in numpy/scipy을 확인하셨습니까?

Numpy는 주로 C 코드를 사용하여 Python에서 성능을 향상시키는 엄청난 이점을 제공합니다. R에서 텍스트 처리를하는 내 제한된 경험에서

는 성능은 탐색 데이터 분석을 넘어 아무것도는 거의 사용할 수 없게됩니다.

상관없이, 희소 매트릭스에 대해 바닐라 목록을 사용하지 않아야합니다. (이해할 만하게는) 시간이 오래 걸릴 것입니다.

+0

이 설명서를 보았지만 그 의미를 읽는 데 어려움이 있습니다. 다른 라이브러리가 스파 스 매트릭스 클래스와 호환됩니까? 어떤 유형의 속도/메모리 이득을 기대할 수 있습니까? – Abe

1

는 희소 행렬 표현하기 위해 여러 가지 방법으로합니다 (R SparseM 패키지 문서를 스파 스 매트릭스 데이터를 저장하는 20 개 가지 방법을보고), 모든 솔루션과 너무 완벽한 호환성 아마 밖으로 질문이 있습니다. 숫자 옵션은 또한 모든 상황에서 최고의 솔루션이 없음을 제시합니다.

numpy 스파 스 행렬 또는 R의 SparseM (rpy2 통해) 중 해당 행렬에 무거운 번호 처리 루틴이있는 위치 (numpy 또는 R)에 따라 선택하십시오.

관련 문제