2012-06-21 2 views
3

저는 Weka를 처음 사용하고 있으며 뇌파 데이터를 분류하기 위해 분류기를 작성하려고합니다. EEG 속성 데이터는 5 분 동안 기록 된 원시 신호 및 기타 속성입니다. WEKA arff 파일 형식에서 인스턴스에 5 분 원시 신호의 벡터 입력이 지정되도록하려면 어떻게해야합니까? 예를 들어WEKA - arff 형식의 벡터 특성

: raw가 속성 벡터이다

Num. -- raw -- class 
1 -- [1,2,3,4,5,6] -- Relaxed 
2 -- [2,3,4,5,6] --- Bored 

..

답변

4

당신이/예측 분류 무엇을하려고하는 당신의 problem-에 대해 생각하고, 가장 어떻게 표현 될 수있다. 다음 원시 EEG 판독 값을 예측하기를 원하지 않을 가능성이 있으므로 시계열 접근 방식이 중요하지 않을 수 있습니다.

Weka는 고정 된 속성 집합 (기능, 값 또는 사전 정의 된 길이의 벡터)을 가진 인스턴스 (데이터 행) 만 처리 할 수 ​​있습니다. 가능한 속성 유형은 nominal (예 : "red", "green", "blue"), numeric (정수/부동 소수점 값), string (주로 텍스트 마이닝의 경우)입니다. 및 date. raw signal의 벡터를 단일 속성으로 나타낼 수있는 방법은 없습니다. http://weka.wikispaces.com/ARFF+%28stable+version%29

, 인스턴스는 다음과 같이 수 있다고 말했다 : reading_1 첫 번째 원시 읽기이며 reading_n 5 분의 끝에 마지막입니다

num,class1,reading_1,reading_2,reading_3 ... reading_n,relaxed,bored 

여기에 문서입니다. 이것은 WEKA에 원시 판독 값을 기반으로 클래스를 예측하도록 요청할 것이고, 판독 값이 서로 일치하지 않을 수 있으며, 이는 각 판독 값을 개별적으로 처리하므로 빈도와 같은 사항을 고려하지 않으므로 매우 효과적이지는 않습니다 또는 평균은 상대적 임).

또는 원시 데이터의 사전 처리를 수행하여 WEKA의 대부분의 기계 학습 알고리즘에 유용합니다. 이 경우 중요한 기능을 결정한 다음 작성해야합니다. 조잡한 예제는 다음과 같습니다.

num,class1,average,frequency,max_magnitude,standard_deviation,relaxed,bored 

여기서 ARFF 파일에 넣기 전에 데이터의 평균 및 빈도와 같은 것을 계산했습니다. 그런 다음 알고리즘은 예측을 기반으로하는 데이터 집합에 대해 훨씬 많은 정보를 제공합니다.

그러나 또 다른 관심사는 무엇입니까? 5 분 샘플 전체가 동일한 클래스입니까? 아니면 일부는 relaxed이고 일부는 bored입니까? 이 경우 사용자가 지루할 때와 지친 때 두 가지 샘플이 있어야합니다.

+0

이것은 다음 질문과 관련이 있습니다. http://www.cs.dartmouth.edu/~campbell/cs65/lecture22/lecture22.html – Mauker

관련 문제