올바르게 분류 된 인스턴스의 의미 weka

최근에 weka를 사용하기 시작했으며 Naive Bayes를 사용하여 트윗을 긍정 또는 부정으로 분류하려고합니다. 그래서 나는 내가 줬던 짹짹이있는 훈련 세트와 "긍정"이라는 라벨을 가진 짹짹이있는 시험 세트를 가지고있다. I가 설정 한 시험에서 트윗의 레이블을 변경하면 "그럼 6 8 %올바르게 분류 된 인스턴스의 의미 weka

올바르게 분류 된 경우 : 69 92 % 잘못 분류 인스턴스 내가 나이브 베이 즈를 실행하면, 다음과 같은 결과를 얻을 수 부정적 "다시 나이브 베이 즈를 실행, 결과는 반전됩니다

올바르게 분류 인스턴스 : 6 8 % 잘못 분류 된 경우 : 69 92 %를

내가 제대로 분류 인스턴스 나이브 베이 즈와 그의 정확성을 보여줄 생각 그것은 동일해야한다. 테스트 세트의 트윗 레이블을 중요시하십시오. 내 데이터에 문제가 있습니까? 아니면 올바르게 분류 된 인스턴스의 의미를 정확하게 이해하지 못합니까?

시간 내 주셔서 감사 많은,

Nantia

출처

2012-09-03 nadia

테스트 세트의 레이블은 실제 정확한 분류 있어야한다. 성능은 테스트 세트의 각 인스턴스에 대한 분류에 대해 최상의 추측을하도록 분류 자에게 요청하여 계산됩니다. 그런 다음 예측 된 분류가 실제 분류와 비교되어 정확성이 결정됩니다. 따라서 '올바른'값을 뒤집으면 결과도 뒤집 힙니다.

출처

2012-09-03 18:05:18 Antimony

빠른 답변을 주신 고맙습니다. @Junnux & Antimony! 테스트 세트는 다음과 같이 만들어집니다. 내 프로그램에 검색어를 제공하고, twitter api는이 용어가 포함 된 트윗을 반환하고, 이러한 트윗은 내 테스트 세트를 구성한 다음 Naive Bayes가 실행됩니다. 따라서 테스트 세트에 올바른 라벨을 추가 할 수 없습니다. 내가 너를 잘 이해했다면,이 경우 나는 테스트 세트의 라벨에 대한 분류 자의 답을 얻을 수있을 것이지만, 나는 정확성을 평가할 수 없을 것이다. 나는 그것을 올바르게 받았 느냐? – nadia

교육용 레이블이 최소한 있다고 가정하면 정확합니다. 당신이 그걸 가지고 있지 않다면, 당신은 잘못된 접근을 취하고 있습니다. Naive Bayes는 감독 학습을위한 알고리즘입니다. 레이블이 없다면 찾고있는 알고리즘은 __unsupervised__ 학습입니다. 알고리즘은 다른 세트가 필요하며 일반적으로 훨씬 나쁜 결과가 나타납니다. 나는 당신의 데이터에 레이블을 붙이는 방법을 찾거나 자율 학습을 위해 google을 제안 할 것입니다. – Antimony

네, 저의 목적은 감독 된 학습입니다. 그래서 나는 내 훈련 세트에 대한 레이블을 가지고 있습니다. 다시 한번 고마워! 당신은 정말로 제가 몇 가지를 정리하는 데 도움이되었습니다. :) – nadia

교육 세트에 따라 인스턴스의 69.92 %가 양성으로 분류됩니다. 테스트 세트의 레이블이 이고 올바른 대답이 인 경우 모두 긍정적임을 나타내면 69.92 %가 올바른 것입니다. 테스트 집합 (따라서 분류)이 동일하지만 올바른 답을 전환하면 물론 올바른 비율도 반대가됩니다.

분류 기준을 평가하려면 테스트 세트의 실제 라벨이 필요합니다. 그렇지 않으면 분류 기준의 답변을 진정한 답변과 비교할 수 없습니다. 당신이 이것을 오해했을 수도 있습니다. 원하는 경우 보이지 않는 데이터의 레이블을 얻을 수 있지만이 경우 분류 자의 정확성을 평가할 수 없습니다.

출처

2012-09-03 18:05:36 Junuxx

올바르게 분류 된 인스턴스의 의미 weka

답변

관련 문제