우선 나는 어제 파이썬으로 시작했습니다. 나는 SciKit과 큰 데이터 세트 (250.000 개의 짹짹)로 텍스트 분류를하려고합니다. 알고리즘의 경우 모든 트윗은 4000 x 1 벡터로 표시되므로 입력이 250.000 개의 행과 4000 개의 열로 구성됩니다. 파이썬으로 이것을 만들려고 할 때 8500 개의 짹짹 (목록으로 작업하고 추가 할 때)이 부족하여 메모리를 미리 할당하면 오류가 발생합니다 : MemoryError
(np.zeros (4000,2500000)) . SciKit은 이러한 대규모 데이터 세트로 작업 할 수 없습니까? 뭔가 잘못된 일을하고 있습니까 (파이썬으로 2 일째되는 날)? 기능을 표현하여 내 기억에 맞출 수있는 또 다른 방법이 있습니까?SciKit-learn 및 대용량 데이터 세트로 텍스트 분류
편집 : 나는이 베르누이 NB
EDIT2하려는 : 어쩌면 온라인 학습으로 가능하다? 트윗을 읽고, 모델이 트윗을 사용하고, 메모리에서 제거하고, 다른 것을 읽게하고, 모델을 배우게하십시오 ...하지만 Bernoulli NB가 온라인 학습을 허락한다고 생각하지 않습니다.
사실, scikits.sparse 패키지는이 문제에 무관하고, scikit 배우기 ESP, 사용자로부터 scipy.sparse의 복잡성을 숨기는 꽤 기능이 포함되어 있습니다. 문서 분류의 경우 OP 롤을 제안하는 경우 -1 –