2012-09-03 3 views
5

최근에 weka를 사용하기 시작했으며 Naive Bayes를 사용하여 트윗을 긍정 또는 부정으로 분류하려고합니다. 그래서 나는 내가 줬던 짹짹이있는 훈련 세트와 "긍정"이라는 라벨을 가진 짹짹이있는 시험 세트를 가지고있다. I가 설정 한 시험에서 트윗의 레이블을 변경하면 "그럼 6 8 %올바르게 분류 된 인스턴스의 의미 weka

:

올바르게 분류 된 경우 : 69 92 % 잘못 분류 인스턴스 내가 나이브 베이 즈를 실행하면, 다음과 같은 결과를 얻을 수 부정적 "다시 나이브 베이 즈를 실행, 결과는 반전됩니다

올바르게 분류 인스턴스 : 6 8 % 잘못 분류 된 경우 : 69 92 %를

내가 제대로 분류 인스턴스 나이브 베이 즈와 그의 정확성을 보여줄 생각 그것은 동일해야한다. 테스트 세트의 트윗 레이블을 중요시하십시오. 내 데이터에 문제가 있습니까? 아니면 올바르게 분류 된 인스턴스의 의미를 정확하게 이해하지 못합니까?

시간 내 주셔서 감사 많은,

Nantia

답변

5

테스트 세트의 레이블은 실제 정확한 분류 있어야한다. 성능은 테스트 세트의 각 인스턴스에 대한 분류에 대해 최상의 추측을하도록 분류 자에게 요청하여 계산됩니다. 그런 다음 예측 된 분류가 실제 분류와 비교되어 정확성이 결정됩니다. 따라서 '올바른'값을 뒤집으면 결과도 뒤집 힙니다.

+0

빠른 답변을 주신 고맙습니다. @Junnux & Antimony! 테스트 세트는 다음과 같이 만들어집니다. 내 프로그램에 검색어를 제공하고, twitter api는이 용어가 포함 된 트윗을 반환하고, 이러한 트윗은 내 테스트 세트를 구성한 다음 Naive Bayes가 실행됩니다. 따라서 테스트 세트에 올바른 라벨을 추가 할 수 없습니다. 내가 너를 잘 이해했다면,이 경우 나는 테스트 세트의 라벨에 대한 분류 자의 답을 얻을 수있을 것이지만, 나는 정확성을 평가할 수 없을 것이다. 나는 그것을 올바르게 받았 느냐? – nadia

+0

교육용 레이블이 최소한 있다고 가정하면 정확합니다. 당신이 그걸 가지고 있지 않다면, 당신은 잘못된 접근을 취하고 있습니다. Naive Bayes는 감독 학습을위한 알고리즘입니다. 레이블이 없다면 찾고있는 알고리즘은 __unsupervised__ 학습입니다. 알고리즘은 다른 세트가 필요하며 일반적으로 훨씬 나쁜 결과가 나타납니다. 나는 당신의 데이터에 레이블을 붙이는 방법을 찾거나 자율 학습을 위해 google을 제안 할 것입니다. – Antimony

+0

네, 저의 목적은 감독 된 학습입니다. 그래서 나는 내 훈련 세트에 대한 레이블을 가지고 있습니다. 다시 한번 고마워! 당신은 정말로 제가 몇 가지를 정리하는 데 도움이되었습니다. :) – nadia

1

교육 세트에 따라 인스턴스의 69.92 %가 양성으로 분류됩니다. 테스트 세트의 레이블이 이고 올바른 대답이 인 경우 모두 긍정적임을 나타내면 69.92 %가 올바른 것입니다. 테스트 집합 (따라서 분류)이 동일하지만 올바른 답을 전환하면 물론 올바른 비율도 반대가됩니다.

분류 기준을 평가하려면 테스트 세트의 실제 라벨이 필요합니다. 그렇지 않으면 분류 기준의 답변을 진정한 답변과 비교할 수 없습니다. 당신이 이것을 오해했을 수도 있습니다. 원하는 경우 보이지 않는 데이터의 레이블을 얻을 수 있지만이 경우 분류 자의 정확성을 평가할 수 없습니다.

관련 문제