2014-05-22 3 views
0

나는 기계 학습에 들어가려고하고있다. 그래서 나는 짹짹에 텍스트 분류를 시험해보고 싶었다. 나는 작은 짹짹 샘플을 수집했지만, 내가 감독 한 학습을 ​​수행하기 위해 나는 내가 수집 한 짹짹 중 일부에 레이블을 붙일 필요가있다. 데이터를 확장 할 때 힘든 작업입니다.짹짹 분류

많은 트윗을 손으로 표시하지 않고도 분류를 수행 할 수있는 방법이 있습니까? 이 작업을 위해 자율 학습이 더 잘됩니까?

답변

0

이와 같은 문제에 대해 반 감독 학습 방법이 만들어졌습니다. 가장 간단한 접근법은 수작업으로 몇 개의 관찰을 레이블링하고, 분류 된 데이터에 감독 된 학습 알고리즘을 실행하여 다른 관찰을 분류하는 분류자를 선택하는 것을 포함합니다.

+0

멀티 클래스에 대해 올바른 비율을 얻기 위해 수동으로 라벨링해야하는 데이터 비율 분류? 트윗은 너무 다양해서 적어도 10 개의 클래스가 있어야합니다. – user3666471

+0

죄송합니다, 이것에 대해 잘 모르겠습니다. 그러나 나는 단지 2 개의 관찰이 표시되고 반 감독 학습이 사용 된 예를 읽었던 것을 기억합니다. 어쩌면 10 세부터 시작해서 소수의 가장 중요한 분류 만 사용하면 반복 할 수 있습니다. – DatamineR

0

트윗은 짧은 텍스트입니다. 활성 https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf 분류가 항상 포함됩니다

표시 데이터 (: https://www.csie.ntu.edu.tw/~cjlin/libshorttext/

이 문서는 전체 텍스트 분류 대 짧은 텍스트 (제목)의 특정 속성을 설명합니다 : 당신은 LibShortText 짧은 텍스트 분류에 맞는 분류를 시도해야 학습 기술은 라벨링 데이터 세트에 도움이 됨)하지만 일부 문제를 완화하기 위해 Snorkel (데이터 프로그래밍)과 같은 새로운 새로운 기법을 활용할 수 있습니다. https://github.com/HazyResearch/snorkel