2012-08-01 3 views
3

필자는 데이터 세트에서 분류 또는 클러스터링을 적용하기로 결정했습니다. 더 생각하면할수록 더 혼란스러워집니다. 내가 직면 한 일을 열심히한다.클러스터링 또는 분류?

회사, 투자, 주식, 경제, 쿼터 리 소득 등에 대한 뉴스가 포함 된 뉴스 문서가 있습니다. (3000여 개가 계속 증가하고 있습니다.) 내 목표는 뉴스가 어떤 뉴스에 해당 하는지를 알 수있는 방식으로 정렬되도록하는 것입니다. 어느 회사. 예를 들어 뉴스 항목 "애플은 새로운 아이폰을 출시한다"를 위해 애플과 애플을 연결해야한다. 특정 뉴스 항목/문서에는 '제목'과 '설명'만 포함되어 있으므로 뉴스를 참조하는 회사를 찾기 위해 텍스트를 분석해야합니다. 여러 회사가 될 수도 있습니다.

이 문제를 해결하기 위해 Mahout을 선택했습니다.

클러스터링으로 시작했습니다. 나는 '애플', '구글', '인텔'등을 내 클러스터의 최상위 용어로 사용하기를 원했다. 클러스터의 뉴스가 클러스터 레이블과 일치한다는 것을 알았지 만 상황은 조금 달랐다. 나는 '투자', '주식', '통신', '그린 에너지', '터미널', '주식', '거리', '올림픽'등의 용어를 상위 개념으로 꼽았다. '일반적인 용어를 찾는다). '애플'클러스터가 있었지만 그와 관련된 뉴스 항목은 거의 없었다. 나는 클러스터링이 문제가되지 않는다고 생각했다. 많은 회사 뉴스가 특정 회사 클러스터 (Apple).

는 내가 실제로 '회사 이름'으로 내 뉴스 항목을 '분류'원하는대로 훈련 데이터를 필요로 분류, 이름이 너무 설득했다 대해 읽기 시작했다. 내가 읽었을 때, 나는 이름 분류가 약간 속이고, 기술은 분류와 비교하여 예측 목적으로 더 많이 사용된다는 인상을 받았다. 내가 가지고있는 다른 혼란은 뉴스 문서를위한 훈련 데이터를 어떻게 준비 할 수 있는가? 내가 관심있는 회사의 목록을 가지고 있다고 가정 해 보겠습니다. 분류자를위한 교육 데이터를 생성하는 프로그램을 작성합니다. 이 프로그램은 뉴스 제목이나 설명에 회사 이름이 'Apple'인지, 사과에 대한 뉴스가 포함되어 있는지 확인합니다. 교육 자료를 준비하는 방법은 무엇입니까 (물론 교육 자료는 실제로 예측 변수 및 대상 변수 세트입니다). 그렇다면, 왜 내가 먼저 마호트 분류를 사용해야합니까? 나는 코끼리 조련사 도랑 대신 내가 (실제로 분류를 수행하는)

당신은 내가이 문제를 해결하는 방법에 대해 얼마나 혼란 볼 수 있습니다 훈련 데이터를 쓴이 작은 프로그램을 사용해야합니다. 나에 관한 또 다른 문제는 시스템이 지능적인 시스템을 만드는 것이 가능하다면, 'Apple'이라는 단어를 사용하지 않고 '아이폰 판매량이 사상 최고치'라고 말하면 시스템은 그것을 애플과 관련된 뉴스로 분류 할 수 있는가?

미리 올바른 방향으로 안내해 주셔서 감사합니다.

답변

3

메일 링리스트에서 내 회신 복사 :

분류기는지도 학습 알고리즘, 그래서 당신이 에게 긍정과 부정 클래스의 예를 무리를 제공해야합니다. 당신의 예에서, 는 때를 알 수있는 분류를 양성하는,이 라벨, 입력으로 TF-IDF에서 파생 된 특징 벡터를 사용하여, "애플에 대한 '여부로 기사의 무리에 라벨을 잘 될 것 기사는 "약 Apple"입니다.

나는 꽤 자동으로 '애플'의 제목에있는 경우 애플에 대한 즉, 간단한 규칙에 따라 라벨을 설정 한 훈련을 생성하기 위해 작동합니다 생각하지 않습니다. 글쎄, 그렇게한다면, 분류자를 훈련 시키는데 아무런 포인트가 없다. 등급 분류기를 사용하여 'Apple'이 제목에 포함되어 있는지 확인한 후 확인 테스트 세트에서 100 % 정확도를 달성 할 수 있습니다. 예, 당신 말이 맞아요,이 게인은 입니다.

분명히 분류 자에서 더 미묘한 것을 배우고 싶습니다. "치매의 위험을 줄이기 위해 사과 주스"라는 제목의 기사는 회사에 대해 분류되지 않았습니다. 손으로 분류 된 문서 을 실제로 피드해야합니다.

그건 나쁜 소식이지만 N 개의 분류자를 N 개의 분류 자에게 확실히 훈련시킬 수 있는지 확인하십시오.

분류자가 항목을 클래스에 넣었는지 여부. 입력에 대한 연속 값을 예측하는 회귀 기술과 동일하지 않습니다. 서로 관련되어 있지만 별개입니다.

클러스터링에는 감독자가 필요하지 않은 이점이 있습니다. 라벨이 필요하지 않습니다. 그러나 결과 클러스터는 기사 주제에 대한 개념에 을 일치시키는 것이 보장되지 않습니다. 당신은 많은 애플의 애플의 을 가지고있는 클러스터를 보게 될지도 모르지만, iPod에 관한 것뿐만 아니라, 삼성 과 랩톱에 관한 것들도 볼 수 있습니다. 이것이 귀하의 문제에 대한 최상의 도구라고 생각하지 않습니다.

1

우선 Mahout이 필요하지 않습니다. 3000 개의 문서가 거의 없습니다. 백만 달러를 치면 Mahout을 다시 방문하십시오. 한 대의 컴퓨터에서 100.000 개의 이미지를 처리 ​​했으므로 이제 Mahout의 오버 헤드를 건너 뛸 수 있습니다.

내게 등의 소리가 들리려고합니다. 미리 정의 된 클래스가 있기 때문입니다.

클러스터링 알고리즘은 감독되지 않습니다. 일 것입니다 (매개 변수를 너무 많이 맞추지 않는 한) "iPad/iPhone"과 "Macbook"으로 Apple을 해칠 가능성이 있습니다. 또는 다른 한편으로는 애플과 구글을 합병 할 수있다. 애플과 구글은 합쳐도 이다. (애플과 포드보다 훨씬 더).

예, 측정하고자하는 구조가 반영된 훈련 데이터가 필요합니다.. 다른 구조가 있습니다 (예 : iPhone이 MacBook과 동일하지 않으며 Google, Facebook 및 Apple이 Kellogs, Ford 및 Apple보다 유사한 회사 임). 회사의 구조가 인 경우이 수준의 교육 데이터가 필요합니다.