2012-08-13 4 views
0

특정 뉴스 항목이 조직이나 회사 이름에 할당 된 뉴스 분류 시스템을 개발 중입니다. 예를 들어 "2012 년 9 월에 새로운 iPhone을 출시 할 애플"이라는 뉴스 항목은 "Apple"뉴스로 분류됩니다. 지금까지 애플 뉴스, 구글 뉴스, 마이크로 소프트 뉴스, 삼성 뉴스, 뱅크 오브 아메리카 뉴스 등과 같은 많은 주제로 분류자를 훈련 한 후, 훈련 된 단일 모델로부터 거의 99 % 정확하게 분류 된 인스턴스를 얻고있었습니다. 이제 문제는 "삼성과 Apple에 대한 Google의 사전 공격"이라는 뉴스를 "Apple", "Samsung"및 "Google"이라는 세 가지 주제로 분류하는 것입니다.두 개 이상의 범주로 항목 분류하기

여기 내 질문은 Mahouts 분류를 사용하여 단일 항목을 여러 클래스로 분류하는 방법입니다. 이 스레드에서 비슷한 질문을 보았습니다 http://mail-archives.apache.org/mod_mbox/mahout-user/201206.mbox/%[email protected]%3E.

테드 던닝 (Ted Dunning)은 여러 주제에 대해 별도의 카테고리를 만들 때 흥미로운 대답을했지만, 제 경우에는 조합이 많습니다. 나는 거의 15,000 개의 회사에 뉴스를 분류해야하고 모든 뉴스는 15,000 개의 회사를 섞을 수 있습니다. 그래서 별도의 카테고리로 조합을 만드는 것은 배제됩니다!. 두 번째 제안은 회사 이름이 기본 카테고리로 수렴되지 않으므로 여기에 적용되지 않는 계층 구조로 항목을 정렬하는 것입니다.

15000 가지 주제에 대해 15000 가지 모델을 사용하면 좋지만 그럴 듯하지는 않습니다.

그렇다면 다중 주제 뉴스를 분류하기위한 올바른 방법은 무엇일까요?

감사합니다.

답변

0

데이터를 멀티 레이블링하는 문제에 직면 한 경우, 특별히 데이터를 의미하는 도구를 사용하는 것이 좋습니다. 현재 mahout은 멀티 라벨링을 지원하지 않습니다 (몇 가지 방법이 있지만 작업 방법과 비슷합니다). 여기에 멀티 레이블 몇 가지 도구는 데이터입니다

http://mulan.sourceforge.net/

http://meka.sourceforge.net/

관련 문제