2012-09-29 3 views
0

데이터 마이닝 프로젝트에서 작업 중이며 흥미로운 패턴이나 지식을 얻으려면이 데이터 세트 Higher Education Enrolments을 사용하고 싶습니다. 내 문제는 어떤 기술이 데이터 집합에 가장 잘 작동하는지 파악하는 것입니다.이 데이터 세트에 적합한 데이터 마이닝 기술

저는 RapidMiner 5.0을 사용하는 데이터 세트에서 현재 작업 중이며 분석과 관련이 없으므로 데이터에서 두 개의 열 (E550 - Reference Year, E931 - Total Student EFTSL)을 삭제했습니다. 나머지 속성은 StudentID (정수)를 제외하고는 nom 012입니다. id으로 사용했습니다. 나는 현재 그것에 대한 분류 (Naive Bayes)를 사용하고 있지만,이 분야에서 더 많은 경험을 가진 사람들의 의견을 듣고 싶습니다. 감사.

답변

0

최상의 기술은 유형/학습 및 목표 속성, 도메인, 속성 값 범위 등 다양한 요인에 따라 달라집니다. 가장 좋은 기술은 데이터 분석 및 이해 결과입니다.

이 특별한 경우 예측할 속성을 분명히해야합니다.

0

당신은 이미 당신이 찾고있는 것을 알고, 데이터 소스의 품질에 대해 알고하지 않는 한, 당신은 항상 다양한 탐색 적 분석을 시도하여 시작한다 : 제 1 및 제 2 차 통계의 일부에

  • 모습을 모든 변수의
  • 는 의존성이있을 수 있습니다 변수의 페어 산포도 살펴보고 각
  • 의 경험 유통의 아이디어를 얻을, 각 변수의 히스토그램을 생성
  • 당신이 당신에게 패턴의 종류가있을 수있는 일에 대해 대략적인 아이디어를 줄 것이다

의 생각과 소음 수준 주어진 검색 할 수있는 다른 시각화를 시도합니다. 그런 다음 관심있는 패턴의 유형에 따라 PCA/ICA/요인 분석, 클러스터링 또는 회귀 분석, 분류와 같은 감독 방법과 같은 다양한 감독되지 않은 패턴 학습 방법을 시도 할 수 있습니다.