0

특정 도메인 (예 : 스포츠 -1 클래스)의 데이터 집합이 있습니다. 내가하고 싶은 일은 내가 웹 페이지를 분류 자 ​​/ 클러스터러에게 보냈을 때 그 인스턴스 (웹 페이지)가 스포츠와 관련이 있는지 여부와 관계없이 결과를 얻고 싶습니다.기계가 데이터 집합에 단 하나의 클래스 인스턴스 만 포함 할 때 사용할 접근법을 학습합니까?

weka의 대부분의 분류 기준은 LibSVM (래퍼)을 제외한 단항 클래스 데이터 세트를 처리 할 수 ​​없습니다. LibSVM을 사용하여 몇 가지 테스트를 수행했지만, 관련없는 데이터 세트의 테스트 중에 문제가 발생했습니다. 인스턴스가 비어 있더라도 모두 올바르게 분류됩니다! 어떤 제안?
여기서 코사인 유사성 측정을 사용하면 어떻습니까?

답변

3

이 스레드를 보셨습니까 unary class text classification in weka? 및이 게시물 https://list.scms.waikato.ac.nz/mailman/htdig/wekalist/2007-October/011631.html?

"스포츠"가 아닌 다른 데이터 세트에 대해 분류 기준을 실행하면 잘못 분류 된 결과 (예 : 오 탐지)가 발생한다는 것을 의미한다고 가정합니다. "이것은 스포츠"입니다.

데이터 집합에 하나의 클래스 만 포함되어 있습니까? 데이터 세트에 빈 인스턴스가 포함되어 있지 않은지 확인 했습니까? (조롱하지 마라, 이것은 나에게 전에 일어났다).

앞서 언급 한 스레드의 주석에는 SVM 튜닝에 대한 PDF가 링크되어 있습니다. http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf - SVM이 다른 일반적인 분류기보다 조금 어렵다고 말하고 싶습니다.

다른 방법으로 문제를 이진 분류로 전환 할 수 없습니까? 좋은 결과를 얻는 것이 훨씬 쉬우 며 대부분의 문제에 해당 클래스에 포함되지 않은 많은 사례가 있습니다. 스포츠 웹 사이트 대 재미 이미지 웹 사이트, 프로그램 웹 사이트, 등등 ...

PS : 당신이 이상치 검출을위한 다른 알고리즘을 사용할 수 있습니다 http://en.wikipedia.org/wiki/Outlier_detection

가 나에 의해 시작되었다 사촌 내가 '그 스레드를 보았다 예
+0

: 및 나는 당신이 언급 한 다른 모든 자료들을 보았습니다. 네 가정은 옳습니다. 내 데이터 집합에는 하나의 클래스 만 포함되어 있습니다 (weka를 사용하고 경로 -> 1 클래스에 하나의 폴더 만 포함) 인스턴스. 나는 훈련 데이터 세트를 재확인했고 비어있는 인스턴스가 없다. (조롱 할 필요가 없다. : D). SVM 감마와 nu 매개 변수를 튜닝했지만 신뢰할 수있는 모델을 얻을 수 없었습니다. 나는 웹 크롤링 연구를 위해 이것을하고 있기 때문에 이진 분류로 갈 수 없다. 그리고 당신이 얻는 웹 페이지는 미리 알려지지 않았다. 계속 ... – KillBill

+0

코사인 유사성은 어떻게 사용합니까? 교육 데이터에서 가장 빈번한 단어로 중심을 구축 할 수 있습니다. 그런 다음 새로운 인스턴스가 공급되면 유사성 점수에 따라 관련성 또는 적합성을 결정할 수 있습니까? – KillBill

+0

예. 좋은 해결책 인 것 같습니다. 측정 (코사인, 유클리드 등)에 관계없이 작동해야합니다. – rei

관련 문제