2009-06-05 7 views
3

나는 각각 약 150 개의 별개의 속성을 가진 ~ 10K 개의 개체 집합을 가지며, 그 중 약 1/4이 다른 속성 또는 여러 속성과 관련되어 있습니다.해당 속성을 기반으로 개체를 분류하는 접근 방식을 찾고 있습니다.

저는이 객체들을 '템플릿'객체로 정의하고있는이 객체들을 정렬하고자하는 약 120 가지 범주의 집합을 가지고 있습니다. 인스턴스가 템플릿과 정확히 일치하면 그 개체는 분명히 해당 범주에 포함되지만 개체의 약 10 % 만 실제로 정확히 일치하는 템플릿을 갖습니다. 결과적으로, 나는 카테고리와의 유사성을 기반으로 오브젝트를 스코어링하고 최상의 매치로 정렬 할 수 있기를 원합니다. 나는 또한 아주 비슷하고 새롭고 세련된 범주의 잠재 성을 나타내는 개체의 클러스터를 확인하고자합니다.

이것은 Weka, RapidMiner 또는 기타 기계 학습/클러스터링/분류 시스템의 작업처럼 보입니다. 그러나, 나는이 도메인에 좋은 입문 자료를 찾는 데 어려움을 겪고 있으며, 결과적으로이 경우이 도구를 사용하기 위해 어느 정도의 노력이 필요한지 알 수 없습니다. 이것이 계속적인 필요가있을 수 있다는 것을 감안할 때, 저는 분석 방법, 무게 등을 쉽게 변경할 수있는 것을 사용하고 싶습니다.

생각은?

답변

1

하자 말하기 ..
당신의 임무가 이러한 물체를 계량화한다면, 당신은 수동으로 그들과 화를 낼 수있을 것입니다!

나는 비슷한 데이터 세트를 해부하고 있지만 항상 같은 지점으로 돌아온다.이 객체들은 ~ 기본적으로 동일하다.

그들을 구분하는 퍼지 논리는 성배입니다.하지만 성배는 희미합니다. ... (
당신은 무엇을 할 수 있습니까? ... 사장님에게 약간의 퍼지 수식을 주시겠습니까? 잠시 동안 지속될 것입니다 ...

당신은 일생을 통해 패턴을 찾으려고 노력할 수 있습니다. 그러나 그것은 모든 것을 얻을 수 있습니다. - 양을 수치화 할 수있는 관점으로 이동 시키십시오. 결과물에 집중하십시오.

0

RapidMiner은 통합 온라인 자습서와 함께 제공됩니다. Yon은 Rapid-I 웹 페이지에서 무료 PDF RapidMiner 자습서를 다운로드 할 수 있으며, Rapid-I 웹 페이지에는 RapidMiner 무료 작은 소개 자료가 있습니다. Rapid-I 웹 페이지의 서비스 섹션을 확인하는 경우 많은 RapidMiner 교육 과정.

0

당신이 개발하고자하는 것은 사례 기반 추론 시스템, 지식 엔지니어링 엔진 유형입니다.

myCBR 및 Protege를 살펴보십시오. Protege는 Stanford의 온톨로지 엔지니어링 엔진이며 myCBR은 Thomas R. Roth-Berghofer가 개발 한 사례 기반 추론 시스템입니다.

MyCBR을 Protege에 연결하면 함께하고 싶은 작업을 정확하게 수행 할 수 있습니다.

중요 비트 :

  1. 는 CSV 형식으로 데이터를 유지하고 삐걱 거리는 깨끗한 지 확인 - Protege는/myCBR 그것으로 문제가있는 것보다가, 뽀얀되지 않습니다.
  2. 아무것도 가져 오지 않으려면 myCBR에 대한 지시 사항을 읽으십시오. 그렇지 않으면 좌절을 요구하기 때문에 myCBR에 대한 지침을 읽으십시오.
  3. 데이터를 내보내는 것이 더 어렵지 만 결과를 이론적으로 Java 모듈로 내보낼 수 있습니다. Protege는 오픈 소스이며 myCBR도 마찬가지입니다. 따라서 라이센스 비용이 없다고 생각합니다.
  4. 카테고리의 가중치를 설정할 수 있습니다.

Protege는 :

http://protege.stanford.edu/

myCBR :

http://mycbr-project.net/

관련 문제