2012-06-07 5 views
3

나는 500 클래스와 1000 특징의 출력 크기를 다룰 수있는 최대 엔트로피 분류 구현을 찾고 있었다. 저의 훈련 데이터는 약 3,000,000 라인입니다. 저는 에딘버러 대학교 (University of Edinburgh)의 최대 도구 인 MegaM (64 비트 R maxent 패키지)을 사용해 보았습니다.하지만 예상대로, 어느 누구도 데이터 크기를 처리 할 수 ​​없습니다. 그러나 데이터 집합의 크기는이 특성의 nlp 작업에 대해 전 세계에서 벗어난 것으로 보이지 않습니다. 내가 사용해야하는 기술이 있습니까? 또는 내가 사용할 수있는 툴킷에 대한 제안 사항이 있습니까? 필요한 경우 Cygwin을 사용하여 8GB RAM이 장착 된 64 비트 Windows 컴퓨터에서이 작업을 실행하려고합니다.큰 데이터 세트를위한 최대 엔트로피 분류 자 ​​

답변

10

Vowpal Wabbit은 현재 가장 빠른 대규모 학습자로 간주됩니다. LibLinear이 대안이지만 3e10 요소의 행렬을 처리 할 수 ​​있는지 확실하지 않습니다.

"MaxEnt"라는 용어는 NLP 사람들이 거의 독점적으로 사용합니다. 기계 학습 사람들은 그것을 회귀 회귀 또는 로짓이라고 부릅니다. 그래서 당신이 그것을 검색한다면 MaxEnt를 검색 할 때보 다 많은 도구를 찾을 수 있습니다.

+2

+1 MaxEnt가 단지 로지스틱 회귀임을 지적합니다. – carlosdc

+0

Vowpal Wabbit은 멀티 클래스 분류를 처리 할 수 ​​있습니까? 이 페이지에서 볼 수있는 모든 예제는 바이너리 분류를 다루고있다. – atlantis

+2

@atlantis : [이 답변] (http://stats.stackexchange.com/a/26211/8517)에 따르면 가능하지만 기능이 잘 문서화되어 있지 않습니다. 그러나 [wiki] (https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format)는 물류 손실에 대해 라벨이 1 또는 -1이어야한다고 말하며, 모든 훈련. –