나는 500 클래스와 1000 특징의 출력 크기를 다룰 수있는 최대 엔트로피 분류 구현을 찾고 있었다. 저의 훈련 데이터는 약 3,000,000 라인입니다. 저는 에딘버러 대학교 (University of Edinburgh)의 최대 도구 인 MegaM (64 비트 R maxent 패키지)을 사용해 보았습니다.하지만 예상대로, 어느 누구도 데이터 크기를 처리 할 수 없습니다. 그러나 데이터 집합의 크기는이 특성의 nlp 작업에 대해 전 세계에서 벗어난 것으로 보이지 않습니다. 내가 사용해야하는 기술이 있습니까? 또는 내가 사용할 수있는 툴킷에 대한 제안 사항이 있습니까? 필요한 경우 Cygwin을 사용하여 8GB RAM이 장착 된 64 비트 Windows 컴퓨터에서이 작업을 실행하려고합니다.큰 데이터 세트를위한 최대 엔트로피 분류 자
3
A
답변
10
Vowpal Wabbit은 현재 가장 빠른 대규모 학습자로 간주됩니다. LibLinear이 대안이지만 3e10 요소의 행렬을 처리 할 수 있는지 확실하지 않습니다.
"MaxEnt"라는 용어는 NLP 사람들이 거의 독점적으로 사용합니다. 기계 학습 사람들은 그것을 회귀 회귀 또는 로짓이라고 부릅니다. 그래서 당신이 그것을 검색한다면 MaxEnt를 검색 할 때보 다 많은 도구를 찾을 수 있습니다.
관련 문제
- 1. 큰 세트를위한 Bayes Net 분류기
- 2. 대용량 데이터 세트를위한 SQLite?
- 3. 증분 최대 엔트로피 분류기
- 4. 자연어 처리를위한 최대 엔트로피
- 5. Weka + NaiveBayes 분류 분류 자 + 텍스트 분류
- 6. haar 분류 자 교환
- 7. 신경망 분류 자
- 8. 베이지안 분류 자
- 9. 트로피 분류 자 정의
- 10. 차이보고 분류 자
- 11. PHP 베이지안 분류 자
- 12. 베이지안 분류 자 자습서
- 13. Maven의 여러 분류 자
- 14. Python NLTK 최대 엔트로피 분류기 오류
- 15. Bayes 분류 자 구현 (PHP)
- 16. 더 큰 데이터 세트를위한 경량 베이 스 필터
- 17. 매우 큰 데이터 세트를위한 RDBMS - 사람들은 무엇을 사용하고 있습니까?
- 18. Naive Bayes의 RMSE 분류 자
- 19. NLTK 최대 엔트로피 분류기 원시 점수
- 20. MATLAB의 텍스트 분류 데이터
- 21. 숫자 분류 자 (?) Weka/R
- 22. 분류 자 기능 선택 NLTK
- 23. 다차원 데이터 세트를위한 커널 함수
- 24. 대규모 데이터 세트를위한 커널 방법
- 25. 베이지안 분류 자 점수는 무엇을 나타 냅니까?
- 26. 래퍼 메서드가있는 앙상블 분류 자
- 27. Maven 배포 + 소스 분류 자
- 28. WEKA LibSVM 텍스트 분류 자
- 29. Ruby에서 베이지안 분류 자 구현?
- 30. Apache Mahout의 가중 Naive Bayes 분류 자
+1 MaxEnt가 단지 로지스틱 회귀임을 지적합니다. – carlosdc
Vowpal Wabbit은 멀티 클래스 분류를 처리 할 수 있습니까? 이 페이지에서 볼 수있는 모든 예제는 바이너리 분류를 다루고있다. – atlantis
@atlantis : [이 답변] (http://stats.stackexchange.com/a/26211/8517)에 따르면 가능하지만 기능이 잘 문서화되어 있지 않습니다. 그러나 [wiki] (https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format)는 물류 손실에 대해 라벨이 1 또는 -1이어야한다고 말하며, 모든 훈련. –