최근에 weka를 사용하기 시작했으며 Naive Bayes를 사용하여 트윗을 긍정 또는 부정으로 분류하려고합니다. 그래서 나는 내가 줬던 짹짹이있는 훈련 세트와 "긍정"이라는 라벨을 가진 짹짹이있는 시험 세트를 가지고있다. I가 설정 한 시험에서 트윗의 레이블을 변경하면 "그럼 6 8 %올바르게 분류 된 인스턴스의 의미 weka
:
올바르게 분류 된 경우 : 69 92 % 잘못 분류 인스턴스 내가 나이브 베이 즈를 실행하면, 다음과 같은 결과를 얻을 수 부정적 "다시 나이브 베이 즈를 실행, 결과는 반전됩니다
올바르게 분류 인스턴스 : 6 8 % 잘못 분류 된 경우 : 69 92 %를
내가 제대로 분류 인스턴스 나이브 베이 즈와 그의 정확성을 보여줄 생각 그것은 동일해야한다. 테스트 세트의 트윗 레이블을 중요시하십시오. 내 데이터에 문제가 있습니까? 아니면 올바르게 분류 된 인스턴스의 의미를 정확하게 이해하지 못합니까?
시간 내 주셔서 감사 많은,
Nantia
빠른 답변을 주신 고맙습니다. @Junnux & Antimony! 테스트 세트는 다음과 같이 만들어집니다. 내 프로그램에 검색어를 제공하고, twitter api는이 용어가 포함 된 트윗을 반환하고, 이러한 트윗은 내 테스트 세트를 구성한 다음 Naive Bayes가 실행됩니다. 따라서 테스트 세트에 올바른 라벨을 추가 할 수 없습니다. 내가 너를 잘 이해했다면,이 경우 나는 테스트 세트의 라벨에 대한 분류 자의 답을 얻을 수있을 것이지만, 나는 정확성을 평가할 수 없을 것이다. 나는 그것을 올바르게 받았 느냐? – nadia
교육용 레이블이 최소한 있다고 가정하면 정확합니다. 당신이 그걸 가지고 있지 않다면, 당신은 잘못된 접근을 취하고 있습니다. Naive Bayes는 감독 학습을위한 알고리즘입니다. 레이블이 없다면 찾고있는 알고리즘은 __unsupervised__ 학습입니다. 알고리즘은 다른 세트가 필요하며 일반적으로 훨씬 나쁜 결과가 나타납니다. 나는 당신의 데이터에 레이블을 붙이는 방법을 찾거나 자율 학습을 위해 google을 제안 할 것입니다. – Antimony
네, 저의 목적은 감독 된 학습입니다. 그래서 나는 내 훈련 세트에 대한 레이블을 가지고 있습니다. 다시 한번 고마워! 당신은 정말로 제가 몇 가지를 정리하는 데 도움이되었습니다. :) – nadia