2014-07-22 3 views
-2

안녕하세요 저는 컴퓨터 학습에 익숙하며 문자 분류 솔루션을 찾고 있습니다. 하나는 자바로 작성된 멋진 프레임 워크를 추천 할 수 있습니까? 나는 WEKA를 사용하는 것에 대해 생각했지만, 또한 MALLET에 대해서도 들었다. 주요 차이점은 무엇입니까?기계 학습 - 개념/권장 사항

내 목표는 레이블이없는 텍스트를 분류하는 것입니다. 따라서 학습을 위해 각 주제에 대해 약 18 개의 주제와 100 개의 텍스트를 준비했습니다.

무엇을 하시겠습니까? 계속 진행하는 방법에 대한 좋은 예나 힌트를 주셔서 감사합니다.

+0

질문 권장하거나 도구를 찾기 위해 우리를 요청 , 도서관이나 좋아하는 오프 사이트 리소스는 독창적 인 답변과 스팸을 끌어 들이기 때문에 스택 오버플로에 대한 주제와 관련이 없습니다. 대신 문제를 설명하고 지금까지 해결 된 문제를 설명하십시오. –

답변

2

매우 작은 텍스트 데이터 세트가 있습니다. 라이브러리를 사용할 수 있습니다. 별 문제가되지 않을 것입니다. 고급 옵션을 사용하면 의미있는 데이터보다 많은 데이터가 필요하므로 고려할만한 문제는 아닙니다. 텍스트 분류 문제를 처리하는 간단한 방법은 Bag of Words 모델과 선형 분류자를 사용하는 것입니다. Weka와 MALLET 모두 이것을 지원합니다.

개인적으로, 나는 Weka가 고통 스러울 때가 있고, MALLET은 적절하게 문서화되거나 시대에 뒤진 것임을 알기 때문에 JSAT을 사용합니다. 스팸 분류 here을 수행하는 예가 있습니다.

(바이어스 경고, 저는 JSAT의 저자입니다).

+0

답장을 보내 주셔서 대단히 감사드립니다. JSAT를 살펴 보겠습니다. 너는 무엇을 말 하겠는가, 분은 무엇인가? 텍스트 데이터가 적절한 학습을 ​​설정? –

+0

항상 문제가 있습니다. –

0

당신의 작업이 매우 간단하고 ML에서 새로운 것을 언급 했으므로 사용하기 쉽고 대규모 사용자 커뮤니티가있어서 weka를 사용하는 것이 좋습니다.

그렇지 않으면 여기에 당신이 한 번 봐 가질 수있는 자바의 일부 범용 기계 학습 프레임 워크입니다

  • Datumbox - 자바 툴킷 - 기계 학습의 급속한 발전과 통계 응용 프로그램
  • ELKI을위한 기계 학습 프레임 워크 데이터 마이닝 용. (무 감독 : 클러스터링, 이상치 검출 등)
  • H2O - HD 엔진은 HDFS에 저장된 데이터에 대한 분산 학습을 지원합니다.
  • htm.java - 자바, Clojure에 대한 깊은 학습 플랫폼 분산, 스칼라
  • JAVA-ML - - 모두를위한 공통 인터페이스와 일반적인 ML 라이브러리 일반 기계 그록의 대뇌 피질 학습 알고리즘
  • 자바 딥 러닝을 사용하여 라이브러리 학습 알고리즘 Java에서
  • JSAT - 수많은 기계 학습 분류, regresion 및 클러스터링을위한 algoirhtms.
  • Mahout - 분산 형 기계 학습
  • Meka - 다중 레이블 분류 및 평가 (Weka 확장)를위한 방법의 오픈 소스 구현.
  • MLlib 아파치의 불꽃 -
  • 불꽃
  • 에 분산 기계 학습 라이브러리 Neuroph - 간단한 실시간 대규모 기계 학습 인프라 - Neuroph 경량 자바 신경 네트워크 프레임 워크를
  • 오릭스입니다.
  • RankLib - RankLib 알고리즘
  • 순위를 학습의 라이브러리입니다
  • RapidMiner - 자바 코드
  • 스탠포드 분류에 RapidMiner 통합 - 등급 분류는 데이터 항목을 가지고 K 클래스 중 하나를 배치하는 기계 학습 도구입니다 .
  • 는 WalnutiQ - 인간의 뇌
  • 웨카의 객체 지향 모델 - 웨카는 데이터 마이닝 작업을위한 기계 학습 알고리즘의 모음입니다

출처 : Awesome Machine Learning