필자는 데이터 세트에서 분류 또는 클러스터링을 적용하기로 결정했습니다. 더 생각하면할수록 더 혼란스러워집니다. 내가 직면 한 일을 열심히한다.클러스터링 또는 분류?
회사, 투자, 주식, 경제, 쿼터 리 소득 등에 대한 뉴스가 포함 된 뉴스 문서가 있습니다. (3000여 개가 계속 증가하고 있습니다.) 내 목표는 뉴스가 어떤 뉴스에 해당 하는지를 알 수있는 방식으로 정렬되도록하는 것입니다. 어느 회사. 예를 들어 뉴스 항목 "애플은 새로운 아이폰을 출시한다"를 위해 애플과 애플을 연결해야한다. 특정 뉴스 항목/문서에는 '제목'과 '설명'만 포함되어 있으므로 뉴스를 참조하는 회사를 찾기 위해 텍스트를 분석해야합니다. 여러 회사가 될 수도 있습니다.
이 문제를 해결하기 위해 Mahout을 선택했습니다.
클러스터링으로 시작했습니다. 나는 '애플', '구글', '인텔'등을 내 클러스터의 최상위 용어로 사용하기를 원했다. 클러스터의 뉴스가 클러스터 레이블과 일치한다는 것을 알았지 만 상황은 조금 달랐다. 나는 '투자', '주식', '통신', '그린 에너지', '터미널', '주식', '거리', '올림픽'등의 용어를 상위 개념으로 꼽았다. '일반적인 용어를 찾는다). '애플'클러스터가 있었지만 그와 관련된 뉴스 항목은 거의 없었다. 나는 클러스터링이 문제가되지 않는다고 생각했다. 많은 회사 뉴스가 특정 회사 클러스터 (Apple).
는 내가 실제로 '회사 이름'으로 내 뉴스 항목을 '분류'원하는대로 훈련 데이터를 필요로 분류, 이름이 너무 설득했다 대해 읽기 시작했다. 내가 읽었을 때, 나는 이름 분류가 약간 속이고, 기술은 분류와 비교하여 예측 목적으로 더 많이 사용된다는 인상을 받았다. 내가 가지고있는 다른 혼란은 뉴스 문서를위한 훈련 데이터를 어떻게 준비 할 수 있는가? 내가 관심있는 회사의 목록을 가지고 있다고 가정 해 보겠습니다. 분류자를위한 교육 데이터를 생성하는 프로그램을 작성합니다. 이 프로그램은 뉴스 제목이나 설명에 회사 이름이 'Apple'인지, 사과에 대한 뉴스가 포함되어 있는지 확인합니다. 교육 자료를 준비하는 방법은 무엇입니까 (물론 교육 자료는 실제로 예측 변수 및 대상 변수 세트입니다). 그렇다면, 왜 내가 먼저 마호트 분류를 사용해야합니까? 나는 코끼리 조련사 도랑 대신 내가 (실제로 분류를 수행하는)당신은 내가이 문제를 해결하는 방법에 대해 얼마나 혼란 볼 수 있습니다 훈련 데이터를 쓴이 작은 프로그램을 사용해야합니다. 나에 관한 또 다른 문제는 시스템이 지능적인 시스템을 만드는 것이 가능하다면, 'Apple'이라는 단어를 사용하지 않고 '아이폰 판매량이 사상 최고치'라고 말하면 시스템은 그것을 애플과 관련된 뉴스로 분류 할 수 있는가?
미리 올바른 방향으로 안내해 주셔서 감사합니다.