특정 도메인 (예 : 스포츠 -1 클래스)의 데이터 집합이 있습니다. 내가하고 싶은 일은 내가 웹 페이지를 분류 자 / 클러스터러에게 보냈을 때 그 인스턴스 (웹 페이지)가 스포츠와 관련이 있는지 여부와 관계없이 결과를 얻고 싶습니다.기계가 데이터 집합에 단 하나의 클래스 인스턴스 만 포함 할 때 사용할 접근법을 학습합니까?
weka의 대부분의 분류 기준은 LibSVM (래퍼)을 제외한 단항 클래스 데이터 세트를 처리 할 수 없습니다. LibSVM을 사용하여 몇 가지 테스트를 수행했지만, 관련없는 데이터 세트의 테스트 중에 문제가 발생했습니다. 인스턴스가 비어 있더라도 모두 올바르게 분류됩니다! 어떤 제안?
여기서 코사인 유사성 측정을 사용하면 어떻습니까?
: 및 나는 당신이 언급 한 다른 모든 자료들을 보았습니다. 네 가정은 옳습니다. 내 데이터 집합에는 하나의 클래스 만 포함되어 있습니다 (weka를 사용하고 경로 -> 1 클래스에 하나의 폴더 만 포함) 인스턴스. 나는 훈련 데이터 세트를 재확인했고 비어있는 인스턴스가 없다. (조롱 할 필요가 없다. : D). SVM 감마와 nu 매개 변수를 튜닝했지만 신뢰할 수있는 모델을 얻을 수 없었습니다. 나는 웹 크롤링 연구를 위해 이것을하고 있기 때문에 이진 분류로 갈 수 없다. 그리고 당신이 얻는 웹 페이지는 미리 알려지지 않았다. 계속 ... – KillBill
코사인 유사성은 어떻게 사용합니까? 교육 데이터에서 가장 빈번한 단어로 중심을 구축 할 수 있습니다. 그런 다음 새로운 인스턴스가 공급되면 유사성 점수에 따라 관련성 또는 적합성을 결정할 수 있습니까? – KillBill
예. 좋은 해결책 인 것 같습니다. 측정 (코사인, 유클리드 등)에 관계없이 작동해야합니다. – rei