2016-08-07 4 views
-1

나는 몇 년 동안 뉴스 데이터를 보유하고 있으며 테스트 뉴스를 제공 할 때마다 뉴스가 관련 업계에 귀속되도록 데이터를 교육하고 싶습니다. 예 : '제조'또는 '금융'. 분류 알고리즘을 사용하여 수행 할 수 있지만 유감스럽게도 데이터를 학습하는 분류 프로그램이 없습니다. 데이터는 다음과 같은 형태로했을 경우, 나는 산업 분류하는 분류 알고리즘을 적용 할 수훈련 데이터에 분류기가없는 분류

ID | News  
1 | News1  
2 | News2  
3 | News3 

:

ID | News | Industry Related to 
1 | News1 |  Manufacturing 
2 | News2 |  Finance 
3 | News3 |  e-commerce 

을하지만 뉴스 API를 관련 업계도 제공하지 않습니다 알고 내 데이터는 다음과 같습니다 뉴스. 이 경우 내 모델을 어떻게 훈련시킬 수 있습니까?

답변

1

이 방법에는 여러 가지가 있으며, 각각 장점과 단점이 있습니다. 당신이 묘사하는 문제는 쉬운 것이 아닙니다.

나는 당신이 달성하고자하는 것에 크게 의존하기 때문에이 질문에 대한 일반적이고 정확한 답을 줄 수는 없습니다.

당신이하려는 것은 unsupervised learning 입니다. 일반적으로 사용할 수있는 Google 용어는 '레이블이없는 데이터 분류'입니다.

위키 백과 -이 항목의 기사에는 사용할 수있는 기술에 대한 개요가 있습니다. 기계 학습 문제는 종종 명료하지 않고 프로젝트 당 매우 많은 알고리즘 (데이터 세트 크기, 처리 능력, 오 분류 비용 등)을 선택했기 때문에 아무도 당신에게 일반적인 완벽한 답을 줄 수 없습니다 실제로 데이터와 문제를 자세히 알지 못합니다.

개인적으로 내 첫 번째 접근 방식은 cosine-similarity 텍스트를 사용하여 클러스터링 알고리즘 (k- 평균 클러스터링 (Wikipedia 기사 참조), 두 개 이상의 링크를 게시 할 수 없음)을 사용하는 것입니다.)를 사용하여 News의 다른 클러스터를 생성 한 다음이 클러스터를 조사하여 수동으로 레이블을 지정하고 그 결과를 학습 데이터로 사용하거나 tf * idf를 사용하여 레이블을 자동 생성합니다 (Wikipedia 기사 참조, 3 개 이상의 링크를 게시 할 수 없음)

그러나이 결과는 매우 좋을 수도 있고 그다지 좋지 않을 수도 있습니다.

+0

제안 해 주셔서 감사합니다. 나는 실제로 LSH뿐만 아니라 문서 사이에 자율 학습 및 코사인 거리 유사성의 기초를 연구했지만, 내가 여기 적용 할 수 있다고 생각할 수있을 정도로 멀리 가지 않았다. :) – muazfaiz

0

제로 샷 및 몇 샷 학습의 발전으로 거의 (100 - 200 훈련 데이터) 또는 훈련 데이터가 전혀없는 분류자를 만들 수 있습니다. 분류 기준은 분류 된 분류 기준의 모든 이점을 그대로 유지하며 카테고리를 결정할 수있는 권한을 제공합니다.

나는 이러한 시스템을 구축했으며 사용자는 자신의 카테고리와 데이터에 대해 demo을 시도해 볼 수 있습니다.

관련 문제