2016-10-13 3 views
1

그래서이 튜토리얼 https://weka.wikispaces.com/Text+categorization+with+WEKA에서 "TextCategorizationTest.java"예제를 사용하고 있습니다.인스턴스에 하나의 클래스가없는 ARFF

"neg"와 "pos"라는 두 개의 폴더가있는 디렉토리가 하나 있습니다. 이 두 폴더는 내 ARRF에 있어야하는 클래스를 나타냅니다. 문제는 ARFF 파일을 만들려고 할 때 인스턴스에 "pos"에 대한 속성 클래스가 포함되어 있지 않지만 속성 클래스에 "neg"가 포함되어 있다는 것입니다. @data {1 1,3- 1.24 1,27 1,29 1 : 당신이 볼 수 있듯이 http://pastebin.com/6nGWEyMq

것은, "POS"인스턴스가이 형식에 표시됩니다 여기에

는 내 ARFF 파일입니다 , 37 ...} "neg"인스턴스는 다음 형식으로 표시됩니다. {0 neg, 1 1,2 1,3 1,6 1 ...}

이 ARFF를 해결하려면 어떻게해야합니까? 나는 weka 코드 또는 weka GUI의 솔루션을 받아 들일 것이다.

답변

1

ARFF 파일은 완전히 괜찮습니다. 변경하지 않아도됩니다.

ARFF 파일이 스파 스 형식이므로 값이 0 인 속성이 생략됩니다. 많은 속성이 0 일 것으로 예상되는 시나리오 (예 : 낱말 수,이 체재는 매우 더 조밀하다.

형식은 다음과 같습니다

{index value,index value,index value, ...} 

을하지만 말했듯이, 0은 다음과 같습니다없는 속성에 대해, 값 0은 생략한다 너무에만 인덱스를 속성.

공칭 속성은 값 색인 (속성 색인과 혼동하지 말아야 함)을 사용하여 저장되며 클래스 속성 정의 (색인 0을 갖는 첫 번째 속성)는 {pos,neg} 순서로되어 있으므로 "pos"는 값 색인 0을가집니다. "neg"는 값 색인 "1"을가집니다. pos (인덱스 0 포함)가 기본값이므로 모든 "pos"항목이 누락되었습니다.

데이터의 일부 라인의 첫 번째 열은 (당신이 그것을 게시 된) 스파 스 형식으로되어 있습니다 :

@data 
{1 1,3 1,24 1,27 1, ...} 
{1 1,4 1,5 1,8 1,17 1,24 1,26 1,29 1, ...} 
... 
{0 neg,17 1, ...} 

이는 조밀 한 형식으로 다음과 동일하다 :

@data 
{0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0, ...} 
{0,1,0,0,1,1,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,1,0,0,1, ...} 
... 
{1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0, ...} 
+0

먼저 "pos"는 인덱스 1을 가지고 있다고 말한 다음, pos에는 인덱스 0이 있다고 말합니다. 공칭 속성은 인덱스를 사용하여 저장되므로 "neg"는 인덱스 0을, "pos"는 인덱스 "1"을가집니다. pos (인덱스 0 포함)가 기본값이므로 모든 "pos"항목이 누락되었습니다. –

+0

네 말이 맞아, 나는 그것을 썼을 때 집중력이 없었다. 나는 그것을 고쳤다. pos = 0 and neg = 1. 나는 또한 "색인"컨텍스트 종속을 사용한다는 것을 깨달았다. 내가 그 사실을 분명히 할 수 있었으면 좋겠다. – Sentry

+0

답변 해 주셔서 감사합니다. –

관련 문제