5

오픈 소스/무료 데이터 마이닝 엔진 및 프레임 워크를 알고 텍스트 데이터로 사용합니까?데이터 마이닝 엔진 및 프레임 워크?

조언 해 주셔서 감사합니다.

+0

실제로 텍스트 마이닝 엔진을 찾으십니까? 데이터 마이닝 엔진은 텍스트 자체보다는 메타 데이터에서 작동하는 경향이 있습니다. – ianmayo

답변

1

엔진이나 프레임 워크에 대해서는 잘 모르겠지만이 도구는 Weka이라고 불렀습니다. 알고리즘에는 많은 알고리즘이 구현되어 있습니다.

+0

감사합니다! 나는 훌륭한 책을 쓴 저자를 발견 했으므로 http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83

3

찾고 계신 것이 확실하지 않습니다. 아마도 Lucene과 같은 것일까요?

1

숫자 데이터 마이닝 및 클러스터링이 아닌 텍스트 처리의 경우 NLTK 툴킷을 살펴볼 필요가 있습니다. 이것은 Python에서 자연 언어 처리 기술을 가르치기위한 것입니다. 그래서 이상적입니다. 파이썬을 사용하기로 결정했다면 많은 컴포넌트 클래스와 구현을 찾을 수 있습니다.

+0

고마워요! 내 프로젝트 중 하나가 파이썬에있을 경우이 툴킷을 확인하겠습니다.) – Edward83

2

RapidMiner는 무료이며 오픈 소스이며 Windows, Mac, Linux에서 실행되며 멋진 그래픽 워크 플로 기반 프로그램입니다. 그것은 모든 Weka 코드를 실행하고 R과 통합합니다.

+0

@EL 감사합니다;) 내가 확인하겠습니다) – Edward83

0

Apache Mahout은 텍스트 데이터에도 적용 할 수 있고 상당히 확장 가능한 인기있는 알고리즘을 제공합니다! Apache UIMA은 데이터 마이닝 알고리즘을 제공하지 않지만 자연어 처리에 널리 사용되는 프레임 워크입니다. 다음 http://www.RapidMiner.com/

데이터 마이닝 전문가 사이에서 가장 인기있는 데이터 마이닝 도구의 설문 조사입니다 :

2

Weka 및 Rapidminer는 클러스터링에서 그리 강하지 않습니다. 대부분 분류와 유사한 예측을하지만 클러스터링은 거의 없습니다. ELKI을 살펴보십시오. 이것은 WEKA 대학 프로젝트와 비슷하지만 클러스터링 및 이상치 검출 방법이 많습니다.

1

저는 빈번한 패턴 마이닝을위한 Java 오픈 소스 소프트웨어의 저자입니다.

텍스트 마이닝 용으로 특별히 설계된 것은 아니지만 일부 알고리즘은 텍스트의 빈번한 패턴을 적용하는 데 적용 할 수 있습니다. 예를 들어 여러 문장으로 자주 나오는 일련의 단어를 찾으려면 순차 패턴 마이닝 알고리즘을 적용 할 수 있습니다. 그러나 텍스트 파일이 올바른 형식이되도록 내 소프트웨어를 적용하기 전에 사전 처리가 필요합니다. http://www.philippe-fournier-viger.com/spmf/

3

아파치 두싯 또는 맵리 듀스 (아파치 하둡)없이 사용할 수있는 OpenSource 다음 Machile 학습 라이브러리입니다 :

당신은 여기에 소프트웨어를 확인할 수 있습니다.

그것은 자바에서 folloeing 알고리즘 구현 제공 :

  • 평균

    • 협업 필터링
    • 사용자 및 항목을 기반으로 추천인
    • K-수단, 퍼지 K-수단 클러스터링을 시프트 클러스터링
    • Dirichlet 프로세스 클러스터링
    • 잠복 딜리클릿 할당
    • 특이 값 분해
    • 병렬 자주 패턴 마이닝
    • 보완 나이브 베이 즈 분류
    • 임의의 숲 의사 결정 트리 기반 분류

    당신은 자세한 내용을보실 수 있습니다 : http://mahout.apache.org/

    http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html

    http://www.ibm.com/developerworks/java/library/j-mahout/

  • +0

    조언 해 주셔서 감사합니다 :) – Edward83